Documente Academic
Documente Profesional
Documente Cultură
Vice-Rectorado Acadmico
Decanato de Postgrado
Maestra en Informtica
Trabajo de Grado
ii
DEDICATORIA
A mi madre Mara Gladys Rodrguez de Zambrano, por sus aos de lucha, su
infinito amor, sus sabios consejos. Mis logros en la vida se los debo a mi madre,
siempre vivirs en mi mente y corazn.
Te Amo Mam.
iii
RECONOCIMIENTOS
A Dios, por sus eternas bendiciones.
A mi padre Pablo Alfonso Zambrano Cuervo, por ser un excelente ser
humano.
A mis hijas Heliany Yineth y Mara Fernanda, por representar los amores de
mi vida.
A mi tutor MSc. Marcel Molina, por su apoyo y orientacin.
Al Hospital General de Triba, por su significativa colaboracin.
A la Universidad Nacional Experimental del Tchira (UNET). En especial a
los profesores que me impartieron clases, por su extraordinario profesionalismo.
iv
RESUMEN
El presente estudio se desarroll en el Hospital General de Triba ubicado en el
Estado Tchira Venezuela, donde el departamento de almacn no cuenta con un
sistema de informacin predictivo que le brinde estadsticas y proyecciones de los
insumos y medicamentos, informacin necesaria para la toma de decisiones,
principalmente en la cantidad de insumos y medicamentos que correspondan
adquirir. Partiendo de la necesidad en la institucin, se propuso desarrollar un modelo
predictivo para la toma de decisiones en la gestin de insumos y medicamentos, cuya
propuesta represent el objetivo general de esta investigacin. Con la finalidad de
lograr lo planteado, el estudio se centr en la inteligencia de negocios y la minera de
datos, desarrollando la investigacin de acuerdo con la metodologa: KDD
(Descubrimiento de conocimiento en bases de datos - Knowledge Discovery in
Databases). Se emple como herramienta para el proceso de minera de datos Weka
(Entorno para anlisis del conocimiento de la Universidad de Waikato - Waikato
Environment for Knowledge Analysis) para extraer conocimiento desde la base de
datos del sistema transaccional SAISYS, y el desarrollo de la herramienta informtica
se ejecut con la metodologa RAD (Desarrollo rpido de aplicaciones). Como
resultado de la investigacin, se determin que el modelo encontrado permitir
realizar las gestiones pertinentes de los insumos y medicamentos, a travs de
consultas y reportes de forma eficiente y eficaz que apoyan la toma las decisiones.
Palabras clave: Inteligencia de negocios, minera de datos, modelos predictivos,
weka.
v
NDICE
Pg.
Dedicatoria ................................................................................................................... iii
Reconocimientos .......................................................................................................... iv
Resumen ........................................................................................................................ v
ndice ............................................................................................................................ vi
Lista de tablas ............................................................................................................... xi
Lista de figuras ........................................................................................................... xiii
Lista de abreviaturas .................................................................................................. xiv
Introduccin ................................................................................................................ xv
CAPTULO I
EL PROBLEMA
1.1. Planteamiento del Problema. .............................................................................. 1
1.2. Formulacin del Problema. ................................................................................ 3
1.3. Hiptesis. ............................................................................................................ 4
1.4. Objetivos. ........................................................................................................... 5
Objetivo General. ................................................................................................... 5
Objetivos Especficos. ........................................................................................... 5
1.5. Justificacin. ....................................................................................................... 5
1.6. Alcance. .............................................................................................................. 6
vi
CAPTULO II
MARCO TERICO
2.1. Antecedentes de la Investigacin. ...................................................................... 8
2.2. Bases Tericas. ................................................................................................. 11
2.2.1. Inteligencia de Negocios - Business Intelligence (BI)............................... 11
2.2.2. Minera de Datos - Data Mining (DM). ..................................................... 12
2.2.3. Gestin de Inventarios. .............................................................................. 13
2.2.4. Proceso KDD. ............................................................................................ 15
2.3. Aspectos Legales. ............................................................................................. 17
2.3.1. Constitucin de la Repblica Bolivariana de Venezuela. (2000). Artculo
83. ........................................................................................................................ 17
2.3.2. Ley Orgnica de la Administracin Pblica. (2008). Artculo N 6. ......... 18
2.3.3. Ley de Infogobierno. (2013). Artculo N 34. ........................................... 18
2.3.4. Decreto N 1.399, con Rango, Valor y Fuerza de Ley de Contrataciones
Pblicas. (2014). Artculo N 1. ........................................................................... 18
2.4. Definicin de Trminos. ................................................................................... 19
2.4.1. Toma de Decisiones. .................................................................................. 19
2.4.2. Sistema Operacional o Transaccional. ....................................................... 19
2.4.3. Sistema de Informacin Gerencial. ............................................................ 20
2.4.4. Software Libre. .......................................................................................... 20
2.4.5. Base de Datos............................................................................................. 20
2.4.6. Repositorio de Informacin. ...................................................................... 21
2.4.7. MySQL. ..................................................................................................... 21
2.4.8. PHP. ........................................................................................................... 21
vii
CAPTULO III
MARCO METODOLGICO
3.1. Contexto de la Investigacin. ........................................................................... 26
3.2. Nivel de Investigacin. ..................................................................................... 26
3.3. Diseo de la Investigacin. .............................................................................. 27
3.4. Poblacin. ......................................................................................................... 27
3.5. Tcnicas e Instrumentos de Recoleccin de Datos........................................... 28
Anlisis de Contenido. ......................................................................................... 28
La Observacin. ................................................................................................... 28
3.6. Validez y Confiabilidad.................................................................................... 29
3.7. Tcnicas de Procesamiento y Anlisis de Datos. ............................................. 30
CAPTULO IV
ANLISIS E INTERPRETACIN DE RESULTADOS
4.1. Seleccin e Integracin de los Datos. ............................................................... 32
4.2. Preparacin de los Datos. ................................................................................. 32
4.3. Transformacin. ............................................................................................... 34
Descripcin de las Variables No Nominales Seleccionadas. ............................... 35
Descripcin de las Variables Nominales Seleccionadas...................................... 36
4.4. Seleccin y Aplicacin de Algoritmos de Minera de Datos. .......................... 39
viii
CAPTULO V
CONCLUSIONES Y RECOMENDACIONES
5.1. Conclusiones. ................................................................................................... 95
5.2. Recomendaciones. ............................................................................................ 97
REFERENCIAS BIBLIOGRFICAS
LIBROS ................................................................................................................... 98
TRABAJOS ACADMICOS ................................................................................. 98
Trabajos de grado y tesis doctorales .................................................................... 98
Documentos y reportes tcnicos .......................................................................... 98
Documentos de tipo legal .................................................................................... 98
ix
ANEXOS
1. Clasificacin de los listados por tipo de producto. ............................................ 102
2. Sistema Actual SAISYS. ................................................................................... 103
3. Estructura de la Base de Datos Actual. ............................................................. 104
4. Solicitud de Compra Actual. ............................................................................. 108
LISTA DE TABLAS
Pg.
Tabla 2.1. Operacionalizacin de variables. ............................................................... 24
Tabla 3.1. Sistemas de informacin utilizados............................................................ 31
Tabla 4.1. Simbologa empleada en el captulo. ......................................................... 32
Tabla 4.2. Matriz anlisis de la base de datos de SAISYS. ........................................ 33
Tabla 4.3. Seleccin de las variables de estudio. ........................................................ 34
Tabla 4.4. Variable cdigo del departamento por productos (dpto). .......................... 36
Tabla 4.5. Variable prioridad de adquisicin (prioridad). ........................................... 36
Tabla 4.6. Variable necesidad de refrigeracin (refrigerado). .................................... 37
Tabla 4.7. Variable restricciones en almacenaje (almacenaje). .................................. 37
Tabla 4.8. Variable estatus del registro (estatus). ....................................................... 37
Tabla 4.9. Variable cdigo del servicio destinatario (servicio). ................................. 37
Tabla 4.10. Evaluacin para determinar el tipo de rango. .......................................... 39
Tabla 4.11. Matriz seleccin de tcnicas de minera de datos orientadas a modelos
predictivos. .................................................................................................................. 40
Tabla 4.12. Valoracin estadstica kappa. ................................................................... 44
Tabla 4.13. Variables de entrada para las pruebas de la fase N 1. ............................ 46
Tabla 4.14. Prueba N 1. Fase N 1. Tcnica clustering. ............................................ 46
Tabla 4.15. Prueba N 2. Fase N 1. Tcnica J48. ...................................................... 47
Tabla 4.16. Prueba N 3. Fase N 1. Tcnica JRip. .................................................... 48
Tabla 4.17. Prueba N 4. Fase N 1. Tcnica Nave Bayes ........................................ 49
Tabla 4.18. Prueba N 5. Fase N 1. Tcnica OneR. .................................................. 50
Tabla 4.19. Prueba N 6. Fase N 1. Tcnica perceptrn multicapa. .......................... 51
Tabla 4.20. Prueba N 7. Fase N 1. Tcnica REPTree. ............................................. 52
Tabla 4.21. Variables de entrada para las pruebas de la fase N 2. ............................ 53
Tabla 4.22. Prueba N 1. Fase N 2. Tcnica clustering. ............................................ 53
Tabla 4.23. Prueba N 2. Fase N 2. Tcnica J48. ...................................................... 54
xi
xii
LISTA DE FIGURAS
Pg.
Figura 2.1. Ilustracin de un sistema de inteligencia de negocios. ............................. 12
Figura 2.2. Fases de la gestin de inventarios hospitalarios. ...................................... 14
Figura 2.3. Etapas del proceso KDD. .......................................................................... 16
Figura 3.1. Procedimiento para el anlisis de los datos. ............................................. 30
Figura 4.1. Diagrama de dispersin, X = codigo, Y = cantidad. ................................. 69
Figura 4.2. Diagrama de dispersin, X = dpto, Y = cantidad. .................................... 69
Figura 4.3. Diagrama de dispersin, X = costo, Y = cantidad. ................................... 70
Figura 4.4. Diagrama de dispersin, X = stockMin, Y = cantidad. ............................ 70
Figura 4.5. Diagrama de dispersin, X = stockMax, Y = cantidad. ............................ 71
Figura 4.6. Diagrama de dispersin, X = prioridad, Y = cantidad. ............................. 71
Figura 4.7. Pantalla iniciar sesin. .............................................................................. 83
Figura 4.8. Pantalla inicio de la herramienta informtica. .......................................... 84
Figura 4.9. Pantalla predecir individual. ..................................................................... 85
Figura 4.10. Pantalla predecir categorizada. ............................................................... 86
Figura 4.11. Pantalla predecir general......................................................................... 87
Figura 4.12. Pantalla estadstica individual. ............................................................... 88
Figura 4.13. Pantalla estadstica por fecha. ................................................................. 89
Figura 4.14. Pantalla estadstica en histogramas. ........................................................ 90
Figura 4.15. Pantalla actualizacin de usuarios. ......................................................... 91
Figura 4.16. Reporte prediccin de consumo mensual categorizada. ......................... 92
Figura 4.17. Reporte prediccin de consumo mensual general. ................................. 93
Figura 4.18. Reporte estadstica de consumo mensual. .............................................. 94
xiii
LISTA DE ABREVIATURAS
BI
BPM
DBF
DM
ETL
GPL
KDD
MSDOS
MySQL
PEPS
PHP
RAD
SAISYS
WEKA
xiv
INTRODUCCIN
xvi
CAPTULO I
EL PROBLEMA
medicamentos, sin seguir un patrn de consumo por parte de las reas del hospital,
causando en ocasiones desabastecimiento en algunos rubros y sobreabastecimiento en
otros. En el mismo sentido el departamento de almacn no cuenta con un sistema de
informacin predictivo que le brinde estadsticas y proyecciones de los insumos y
medicamentos, informacin necesaria para la toma de decisiones, principalmente en
la cantidad de insumos y medicamentos que se deben adquirir.
De acuerdo con lo anterior, surge la siguiente interrogante Es necesario
realizar un modelo predictivo que proporcione la informacin necesaria para la toma
de decisiones en la gestin de insumos y medicamentos?, a partir de lo anterior, se
formulan las siguientes sub interrogantes: Cmo se obtendrn los datos necesarios
para generar la informacin que servir en la toma de decisiones?, Cul tcnica ser
la ms idnea para encontrar patrones en los datos?, y Qu informacin ser
necesaria para la toma de decisiones?.
Partiendo de la necesidad que existe actualmente en la institucin y tomando
en consideracin lo que puede llegar a proporcionar la propuesta planteada en cuanto
a optimizar las solicitudes de compras en el Hospital General de Triba, surge la
necesidad de desarrollar un modelo predictivo que genere la informacin requerida
para la toma de decisiones, primordialmente la solucin tecnolgica debe predecir la
cantidad de insumos y medicamentos que se deben adquirir para un tiempo
determinado.
1.3. Hiptesis.
Es posible obtener un modelo predictivo para la gestin de insumos y
medicamentos, a partir de los datos histricos disponibles en la base de datos del
sistema SAISYS del Hospital General de Triba, mediante el uso de tcnicas de
minera de datos.
1.4. Objetivos.
Objetivo General.
Implementar un modelo predictivo para la toma de decisiones en la gestin de
insumos y medicamentos para el Hospital General de Triba.
Objetivos Especficos.
1.
2.
3.
4.
1.5. Justificacin.
La inteligencia de negocios empleando modelos predictivos realizados por
medio de la minera de datos, ofrece ventajas competitivas a las organizaciones,
fortalecindolas y logrando que se mantengan en el tiempo dentro de escenarios
exitosos. Recasens (2011) afirma que los pronsticos revelan relaciones y tendencias
que permiten tomar decisiones creadas desde una base cientfica, generando
beneficios para las empresas, entre los que destacan: Incremento del volumen de
negocio, logro de objetivos, optimizar recursos y aumento de ingresos.
La implementacin del modelo predictivo propuesto podr realizar las
gestiones pertinentes de los insumos y medicamentos, a travs de reportes estadsticos
1.6. Alcance.
El propsito fundamental de la investigacin consiste en analizar la base de
datos del sistema transaccional SAISYS, para luego aplicarle tcnicas de minera de
datos, con el objetivo de generar un modelo predictivo. Una vez se tenga establecido
y probado el modelo predictivo se procede a desarrollar una sistema de consulta que
CAPTULO II
MARCO TERICO
10
11
12
13
14
2.
15
3.
4.
5.
6.
7.
16
1.
2.
3.
4.
17
5.
6.
(Martnez, 2012) Las etapas iniciales del proceso KDD son muy importantes
porque sern la base sobre la cual se har minera de datos. Si la preparacin de los
datos no est bien hecha, los resultados obtenidos en los anlisis no sern confiables.
(p. 27). La relacin entre el proceso KDD y los Data Warehouses, sucede cuando el
primero busca contar con datos procesados, limpios y consolidados, mientras que los
segundos brindan una arquitectura bien definida en donde almacenar la informacin
con esas caractersticas.
18
19
20
21
2.4.7. MySQL.
Sistema robusto de gestin de bases de datos relacional, multihilo,
multiusuario y multiplataforma, programado en C y C++, con licenciamiento dual
(GPL y uso comercial), muy empleado en aplicaciones web. Aldas (2013) lo describe
como sencillo de usar e increblemente rpido, es uno de los manejadores de base de
datos ms usados, por estar disponible de forma gratuita. Existen varias interfaces que
permiten a aplicaciones desarrolladas en diferentes lenguajes de programacin,
acceder a las bases de datos MySQL.
2.4.8. PHP.
Lenguaje de programacin multiparadigma (Orientado a objetos, imperativo,
programacin por procedimientos), multiplataforma, flexible y de alto rendimiento,
con licenciamiento PHP (Licencia de software libre no copyleft y licencia de cdigo
22
2.4.10. Weka.
Es un software que ha sido desarrollado por la universidad de Waikato en
Nueva Zelanda, bajo licencia GNU-GPL, consta de un conjunto de libreras JAVA
para la extraccin de conocimientos desde bases de datos, mediante las interfaces que
ofrece o para embeberlos dentro de cualquier aplicacin. Soporta varias tareas
estndar de minera de datos, especialmente, reprocesamiento de datos, clustering,
clasificacin, regresin, visualizacin, y seleccin. (Rodrguez y Daz, 2009, p. 78).
23
24
Objetivo general
Objetivo
especfico
Variable
Conceptualizacin
Dimensiones
1. Analizar la base de
datos del Sistema
Administrativo e
Inventario (SAISYS).
Base de datos
de SAISYS.
Conjunto de datos
organizados y relacionados,
con caractersticas de
redundancia mnima,
integridad, respaldo,
seguridad de acceso,
auditora, y acceso a travs
de lenguajes de
programacin estndar.
Preprocesamiento.
2. Seleccionar
tcnicas de minera de
datos orientadas a
modelos predictivos.
Tcnicas de
minera de
datos
orientadas a
modelos
predictivos.
Algoritmos destinados al
anlisis de grupos de datos
para extraer patrones y
relaciones entre ellos, con la
finalidad de generar
informacin til como
soporte en la toma de
decisiones (Martnez, 2012).
Entradas.
Indicadores
- Incluir.
- Modificar.
- Eliminar.
- Variables numricas.
- Variables nominales.
Salidas.
- Clase numrica
discretizada.
Tcnica /
Instrumento
Anlisis de
contenido /
Matriz de
datos.
Anlisis de
contenido /
Matriz de
datos.
25
Objetivo
especfico
Variable
4. Desarrollar una
herramienta
informtica para la
consulta del modelo
predictivo, como
apoyo en la toma de
decisiones.
Herramienta
informtica
para la
consulta del
modelo
predictivo,
como apoyo
en la toma de
decisiones.
Conceptualizacin
Dimensiones
Conjunto de
entrenamiento.
Estructura tecnolgica
basada en la inteligencia de
negocios y fundamentada en
la minera de datos por
medio de un modelo
predictivo, desarrollada con
el fin de apoyar la toma de
decisiones eficientes y
eficaces (Recasens, 2011).
Indicadores
Tcnica /
Instrumento
- Clasificacin
correcta.
- Clasificacin
incorrecta.
- Estadstica kappa.
- Error absoluto.
- Curva ROC.
Anlisis de
contenido /
Matriz de
datos.
Interfaz web.
- Usabilidad.
- Intuitiva.
Observacin /
Lista de
cotejo.
Predicciones.
- Individual.
- Categorizada.
- General.
- Generar documento.
Estadsticas.
- Individual.
- Por fecha.
- Histogramas.
Validacin
cruzada.
Porcentaje de
divisin.
CAPTULO III
MARCO METODOLGICO
27
3.4. Poblacin.
Son las personas u objetos que tienen relacin directa con el caso en estudio,
as lo afirma Tamayo (2010) es la totalidad de unidades o individuos que participan
en el caso a ser estudiado. La poblacin la determina el objetivo general de la
investigacin y en el presente estudio est representada por la base de datos de
SAISYS, de donde a travs del proceso KDD se extrajeron los datos relevantes que
generaron informacin para la construccin del modelo predictivo, base fundamental
en la realizacin de la solucin tecnolgica.
28
Anlisis de Contenido.
Proceso que estudia contenidos especficos de la investigacin, de una manera
objetiva y sistemtica, para determinar informacin relevante inherente al caso de
estudio (Hernndez, et al., 2010). A travs del anlisis de contenido realizado en
detalle, profundidad y exhaustividad, se obtiene un conocimiento deducido valido
aplicado a un contexto, determinado por la capacidad de inferencia del analista, por lo
tanto el rigor de la objetividad juega un rol fundamental en la ejecucin de la presente
tcnica de recoleccin de datos.
En la presente investigacin la tcnica de anlisis de contenido empleando el
instrumento de matriz de datos, origino un factor primordial para el logro de varios
objetivos especficos, debido que se utiliz para registrar, revisar y analizar
informacin de los siguientes elementos del caso en estudio: En la base de datos de
SAISYS, durante el proceso de seleccionar las tcnicas de minera de datos orientadas
a modelos predictivos y en el desarrollo de las pruebas de validacin de las tcnicas
seleccionadas.
La Observacin.
Tcnica mediante la cual a travs del uso de los sentidos, se capta
directamente la realidad que rodea un caso de estudio. Este mtodo de recoleccin
de datos consiste en el registro sistemtico, vlido y confiable de comportamientos y
situaciones observables, a travs de un conjunto de categoras y subcategoras.
(Hernndez, et al., 2010, p. 260). Datos que luego de analizarlos generan informacin
valiosa para lograr los objetivos planteados en la investigacin. Los pasos que debe
tener la observacin son:
29
1.
2.
3.
4.
5.
6.
7.
Elaborar conclusiones.
30
31
Excel Calc.
CAPTULO IV
ANLISIS E INTERPRETACIN DE RESULTADOS
Tabla 4.1. Simbologa empleada en el captulo.
Smbolo
Descripcin
Aprobado, positivo.
Reprobado, negativo.
Alto, aumento.
Bajo, disminucin.
Paridad, igual.
33
Tabla
Observaciones
Descripcin
Modificar Incluir
Crear atributo
primaria.
de
Maestro
clave
Transacciones
No aplica para la tabla maestro, debido que posee clave
primaria, representada por el cdigo.
Ninguna.
2
3
4
Eliminar
Ninguna.
Se eliminaron 18 columnas de la tabla maestro y 6
columnas de la tabla transacciones.
34
4.3. Transformacin.
Etapa del proceso KDD que permiti reducir y agrupar los datos. El resultado
de la fase anterior se import a MySQL y a travs del lenguaje de programacin PHP,
se consolidaron todos los datos en un repositorio de informacin denominado master
con 79.448 registros.
Tabla 4.3. Seleccin de las variables de estudio.
N
Valor
Caractersticas
Descripcin
id
Entero.
Identificacin.
codigo
Carcter (5).
Cdigo.
Descripcin.
dpto
Carcter (2).
unidad
Carcter (6).
Unidad de presentacin.
costo
Flotante.
Costo.
stockMin
Entero.
Mnima provisin.
Tipo/variable
Independiente.
8
stockMax
Entero.
Mxima provisin.
prioridad
Carcter (1).
Prioridad de adquisicin.
10
refrigerado
Carcter (1).
Necesidad de refrigeracin.
11
almacenaje
Carcter (1).
Tipo de almacenaje.
12
estatus
Carcter (1).
13
fecha
Carcter (7).
Fecha de la transaccin.
14
servicio
Carcter (3).
15
cantidad
Entero.
Cantidad.
Dependiente.
35
Variable
tipo
carcter,
almacena
la
descripcin
36
Valor
Descripcin
01
Material mdico.
02
Medicamento.
03
Instrumental.
04
Odontologa.
05
Laboratorio.
06
Papelera.
07
Radiologa.
08
Mantenimiento.
09
Nutricin
Valor
Descripcin
Alta.
Media.
Baja.
37
Valor
Descripcin
Si.
No.
Valor
Descripcin
Si.
No.
Valor
Descripcin
Compra.
Ajuste.
Salida a servicio.
Valor
Descripcin
101
Administracin.
102
Contabilidad.
103
Almacn.
105
Reproduccin.
106
Compras.
107
Computacin.
201
Servicios generales
202
Lencera.
mantenimiento.
N Valor
Descripcin
38
301
Coordinacin de
10
302
Consulta externa.
12
403
Pabelln.
enfermera.
11
303
Supervisin de
enfermeras.
13
404
Central de suministros.
14
405
Odontologa.
15
406
Emergencia.
16
408
Sala de parto.
17
501
Nutricin y diettica.
18
502
Radiologa.
19
503
Laboratorio.
20
504
Estadstica y registros de
salud.
21
505
Promocin social.
22
601
Talento humano.
23
702
Direccin.
24
703
Donativos.
25
704
Sociedad medico
26
707
Presupuesto.
cientfica.
39
Valido
Confiable
Decisin
500
100
50
5
40
Tcnicas de minera
Variables
numricas
Variables
nominales
Clustering.
J48.
JRip.
M5P.
Nave Bayes.
OneR.
Perceptrn multicapa.
Reglas de asociacin.
Regresin lineal.
10
REPTree.
Salidas
Clase
numrica
discretizada
Decisin de
seleccin
41
42
43
Criterios a Evaluar.
Clasificacin correcta: Corresponde al porcentaje de datos clasificados
como aciertos durante la construccin del modelo predictivo, cuanto ms prximo a
100% sea el valor resultante, el modelo es ms efectivo, se considera un modelo
valido cuando la clasificacin correcta es superior al 70%. En la presente
investigacin el modelo se califica como aprobado si la clasificacin correcta supera
el 75%.
Clasificacin incorrecta: Constituye el porcentaje de datos clasificados
como desaciertos al momento de construir el modelo predictivo, Los modelos con
clasificacin incorrecta mayor o igual al 25% no son considerados vlidos.
Estadstica kappa: Segn Corso (2009) mide la coincidencia de la
prediccin con la clase real. Sus valores estn establecidos entre 0 y 1. Al respecto,
mientras ms se acerque el valor resultante a 0 no hay concordancia, entre tanto
cuanto ms cerca de 1 se encuentre existe mayor concordancia, En la presente
investigacin el modelo se califica como aprobado si la estadstica kappa supera el
0,75 de fuerza de concordancia.
44
Fuerza de concordancia
< 0,00
Pobre.
0,00 0,20
Leve.
0,21 0,40
Justa.
0,41 0,60
Moderada.
0,61 0,80
Sustancial.
0,81 1
Casi perfecta.
45
46
N
1
Opcin de prueba
Conjunto de entrenamiento.
Clasificacin
correcta
Clasificacin
incorrecta
23,65 %
76,35 %
Grfica
Clasificacin correcta
47
Opcin de prueba
Conjunto de entrenamiento.
51,02 %
48,98 %
0,4353
47,72 %
52,28 %
0,392
Porcentaje de divisin. 70 %.
43,32 %
56,68 %
0,3338
Grficas
Clasificacin correcta
Estadstica kappa
48
Opcin de prueba
Conjunto de entrenamiento.
68,27 %
31,73 %
0,6143
66,69 %
33,31 %
0,5935
Porcentaje de divisin. 70 %.
65,73 %
34,27 %
0,5808
Grficas
Clasificacin correcta
Estadstica kappa
49
Opcin de prueba
Conjunto de entrenamiento.
35,34 %
64,66 %
0,2493
33,26 %
66,74 %
0,227
Porcentaje de divisin. 70 %.
33,28 %
66,72 %
0,2323
Grficas
Clasificacin correcta
Estadstica kappa
50
Opcin de prueba
Conjunto de entrenamiento.
77,84 %
22,16 %
0,7488
76,42 %
23,58 %
0,7326
Porcentaje de divisin. 70 %.
76,05 %
23,95 %
0,7288
Grficas
Clasificacin correcta
Estadstica kappa
51
Opcin de prueba
Conjunto de entrenamiento.
33,19 %
66,81 %
7,76 %
92,24 %
Porcentaje de divisin. 70 %.
32,86 %
67,14 %
Grficas
Clasificacin correcta
Estadstica kappa
52
Opcin de prueba
Conjunto de entrenamiento.
43,37 %
56,63 %
0,306
35,97 %
64,03 %
0,2017
Porcentaje de divisin. 70 %.
35,33 %
64,67 %
0,188
Grficas
Clasificacin correcta
Estadstica kappa
53
Opcin de prueba
Conjunto de entrenamiento.
Clasificacin
correcta
Clasificacin
incorrecta
25,25 %
74,75 %
Grfica
Clasificacin correcta
54
Opcin de prueba
Conjunto de entrenamiento.
42,27 %
57,73 %
0,2643
41,35 %
58,65 %
0,2429
Porcentaje de divisin. 70 %.
40,28 %
59,72 %
0,2309
Grficas
Clasificacin correcta
Estadstica kappa
55
Opcin de prueba
Conjunto de entrenamiento.
55,89 %
44,11 %
0,438
54,12 %
45,88 %
0,4109
Porcentaje de divisin. 70 %.
53,59 %
46,41 %
0,4059
Grficas
Clasificacin correcta
Estadstica kappa
56
Opcin de prueba
Conjunto de entrenamiento.
18,42 %
81,58 %
0,1211
17,34 %
82,66 %
0,1083
Porcentaje de divisin. 70 %.
17,07 %
82,93 %
0,1061
Grficas
Clasificacin correcta
Estadstica kappa
57
Opcin de prueba
Conjunto de entrenamiento.
66,72 %
33,28 %
0,6231
64,75 %
35,25 %
0,6014
Porcentaje de divisin. 70 %.
63,99 %
36,01 %
0,593
Grficas
Clasificacin correcta
Estadstica kappa
58
Opcin de prueba
Conjunto de entrenamiento.
33,19 %
66,81 %
14,22 %
85,78 %
Porcentaje de divisin. 70 %.
32,86 %
67,14 %
Grficas
Clasificacin correcta
Estadstica kappa
1
0,8
0,6
0,4
0,2
0
1
59
Opcin de prueba
Conjunto de entrenamiento.
36,88 %
63,12 %
0,1896
34,91 %
65,09 %
0,1644
Porcentaje de divisin. 70 %.
34,94 %
65,06 %
0,166
Grficas
Clasificacin correcta
Estadstica kappa
60
Opcin de prueba
Conjunto de entrenamiento.
Clasificacin
correcta
Clasificacin
incorrecta
23,65 %
76,35 %
Grfica
Clasificacin correcta
61
Opcin de prueba
Conjunto de entrenamiento.
78,76 %
21,24 %
0,7594
78,09 %
21,91 %
0,7517
Porcentaje de divisin. 70 %.
77,30 %
22,70 %
0,7432
Grficas
Clasificacin correcta
Estadstica kappa
62
Opcin de prueba
Conjunto de entrenamiento.
77,31 %
22,69 %
0,7368
76,79 %
23,21 %
0,7306
Porcentaje de divisin. 70 %.
76,43 %
23,57 %
0,7266
Grficas
Clasificacin correcta
Estadstica kappa
63
Opcin de prueba
Conjunto de entrenamiento.
47,63 %
52,37 %
0,4109
45,11 %
54,89 %
0,3825
Porcentaje de divisin. 70 %.
45,61 %
54,39 %
0,3887
Grficas
Clasificacin correcta
Estadstica kappa
64
Opcin de prueba
Conjunto de entrenamiento.
79,75 %
20,25 %
0,7706
79,75 %
20,25 %
0,7706
Porcentaje de divisin. 70 %.
79,74 %
20,26 %
0,7709
Grficas
Clasificacin correcta
Estadstica kappa
65
Opcin de prueba
Conjunto de entrenamiento.
33,19 %
66,81 %
15,09 %
84,91 %
Porcentaje de divisin. 70 %.
32,86 %
67,14 %
Grficas
Clasificacin correcta
Estadstica kappa
66
Opcin de prueba
Conjunto de entrenamiento.
61,23 %
38,77 %
0,5596
51,89 %
48,11 %
0,4532
Porcentaje de divisin. 70 %.
51,24 %
48,76 %
0,4465
Grficas
Clasificacin correcta
Estadstica kappa
67
Fase
Tcnicas
Opcin de prueba
Clasificacin Clasificacin
correcta
incorrecta
Estadstica
kappa
Error
absoluto
Curva
ROC
Conjunto de entrenamiento.
78,76 %
21,24 %
0,7594
37,11 %
0,985
78,09 %
21,91 %
0,7517
37,71 %
0,957
Conjunto de entrenamiento.
79,75 %
20,25 %
0,7706
22,64 %
0,897
79,75 %
20,25 %
0,7706
22,59 %
0,897
79,74 %
20,26 %
0,7709
22,55 %
0,897
J48
OneR
Conclusin
Se determina que las tcnicas J48 y OneR, con la opcin de prueba conjunto de entrenamiento, son
las que mejores resultados aportan para la solucin del problema, por lo tanto son las utilizadas en la
siguiente etapa de la investigacin.
68
Tcnica de
minera
J48
Total
Falsos
Precisin Sensibilidad Especificidad
positivos positivos
0,788
0,004
Tcnica de
minera
OneR
0,788
0,996
Otras caractersticas
0,719
Total
Falsos
Precisin Sensibilidad Especificidad
positivos positivos
0,798
0,004
0,731
0,798
0,996
stockMax, cantidad
Nmero de reglas: 55
69
70
71
72
cantidad
Independiente
Cdigo
0,2739
dpto
0,2966
costo
0,0744
stockMin
0,9846
stockMax
0,9908
prioridad
0,5254
Fuente: Software Weka.
73
74
Variables seleccionadas
Tcnica
Resultado
J48
4,80 %
OneR
1,42 %
Descripcin
75
Tcnica
Resultado
J48
14,68 %
OneR
14,19 %
Descripcin
cantidad
Coeficiente de
correlacin
Error absoluto
codigo
0,2744
94,45 %
dpto
0,2962
85,71 %
costo
0,0744
99,77 %
stockMin
0,9922
13,30 %
stockMax
0,9984
2,10 %
prioridad
0,5287
73,01 %
refrigerado
0,0766
99,08 %
Independiente
76
almacenaje
0,0246
99,95 %
fecha
0,0584
99,52 %
Descripcin
Posterior de efectuar el proceso de bsqueda y reemplazo, se realiz
regresin lineal de forma individual a cada variable independiente respecto
con la variable dependiente, para comprobar las relaciones deterministas.
Proceso llevado a cabo con la variable dependiente cantidad continua, es
decir, sin discretizar. El resultado confirma que el stockMax y la cantidad
presentan la mejor relacin entre variables, con un ndice de dependencia
positivo casi perfecto.
Opcin
Valor por
defecto
Cambio
Resultado
0,97 %
Divisiones binarias.
Falso.
Verdadero.
rbol de colapso.
Verdadero.
Falso.
Factor de confidencia.
0,25
0,1
Factor de confidencia.
0,25
0,5
Depurar.
Falso.
Verdadero.
Falso.
Verdadero.
Falso.
Verdadero.
valor real.
8
Nmero de particiones.
Nmero de particiones.
10
77
10
Falso.
Verdadero.
7,21 %
11
Semilla.
1940
12
Verdadero.
Falso.
1,92 %
13
Sin podar.
Falso.
Verdadero.
0,72 %
14
Utilizar Laplace.
Falso.
Verdadero.
15
Verdadero.
Falso.
Descripcin
Se realiz cada cambio de forma independiente, es decir, los restantes se
mantenan con el valor por defecto.
Durante la prueba se obtiene que la modificacin de la opcin divisiones
binarias aumenta el rendimiento del modelo, entre tanto, las opciones reducir la poda
de error, recaudacin de sub rbol y sin podar, disminuyen el rendimiento.
En consecuencia, para la siguiente prueba de la tcnica J48 solo se modifica la
opcin que aporta rendimiento positivo al modelo.
78
Valor por
defecto
Opcin
Cambio
Resultado
Depurar.
Falso.
Verdadero.
Falso.
Verdadero.
0,01 %
12
0,05 %
Descripcin
Se realiz cada cambio de forma independiente, es decir, los restantes se
mantenan con el valor por defecto.
Durante la prueba se obtiene que la modificacin de la opcin mnimo tamao
del cubo, al valor de 1 aumenta el rendimiento del modelo, mientras que modificando
la misma opcin al valor de 12 disminuye el rendimiento del modelo.
En consideracin con lo expuesto, para la siguiente prueba de la tcnica OneR
solo se modifica la opcin que aporta rendimiento positivo.
79
Tcnica
Opcin de prueba
J48
Conjunto entrenamiento.
Clasificacin Clasificacin
correcta
incorrecta
91,20 %
Estadstica
kappa
Error
absoluto
Curva ROC
0,9006
17,43 %
0,997
8,80 %
Tcnica
Opcin de prueba
OneR
Conjunto entrenamiento.
Clasificacin Clasificacin
correcta
incorrecta
91,08 %
8,92 %
Estadstica
kappa
Error
absoluto
Curva ROC
0,8993
9,82 %
0,955
Grficas
Clasificacin correcta
Estadstica kappa
Conclusin
Posterior del anlisis de los modelos encontrados, se determina que las
tcnicas de minera de datos orientados a modelos predictivos J48 y OneR, aportan
soluciones ptimas al problema. Siendo el modelo construido por la tcnica rbol de
decisin J48 el que mejor porcentaje presento para predecir en la investigacin, se
elige como modelo para desarrollar la herramienta informtica.
80
8,80 %
0,9006
Total
positivos
Falsos
positivos
Precisin
0,912
0,002
0,866
Variables empleadas
Fuente: Software Weka.
J48
Error
absoluto
Curva ROC
17,43 %
0,997
Sensibilidad Especificidad
0,912
0,998
81
82
LISTA DE COTEJO
Propsito: Evaluar la herramienta informtica que consulta el modelo predictivo.
Instrucciones: Marcar con un
Si
La caracterstica asociada al
componente est presente en la
herramienta informtica.
Componente
Caractersticas
No
La caracterstica asociada al
componente no est presente en
la herramienta informtica.
Si
No
1.1. Usabilidad.
1. Interfaz web.
1.2. Intuitiva.
2.1. Individual.
2.2. Categorizada.
2. Predicciones.
2.3. General.
2.4. Generar documento.
3.1. Individual.
3. Estadsticas.
Observacin general
83
84
85
86
87
88
89
90
91
92
93
94
CAPTULO V
CONCLUSIONES Y RECOMENDACIONES
5.1. Conclusiones.
El estudio se origin a travs de una investigacin proyectiva dentro del
contexto de la inteligencia de negocios a travs de la minera de datos, con el objetivo
de construir un modelo predictivo para la gestin de insumos y medicamentos en el
Hospital General de Triba. Siguiendo el proceso KDD se realiz la seleccin,
integracin, preparacin y transformacin de los datos, seleccin y aplicacin de
algoritmos de minera de datos, interpretacin y evaluacin de los patrones
encontrados.
Las tcnicas seleccionadas para realizar el anlisis fueron las siguientes:
Clustering, J48, JRip, Nave Bayes, OneR, perceptrn multicapa y REPTree. Los
requerimientos establecidos en la investigacin para elegir un modelo como aprobado
para la solucin de la problemtica planteada, se establecieron de la siguiente forma:
Clasificacin correcta superior al 75% y estadstica kappa mayor al 0,75 de fuerza de
concordancia.
La investigacin del modelo origino que la variable que mejor define la
prediccin de las cantidades de insumos y medicamentos, es la variable stockMax la
cual contiene la mxima provisin de cada producto, sus valores son numricos no
continuos que fluctan entre 0 y 36.000. La afirmacin de mejor definicin se
fundamenta en el diagrama de dispersin (Figura 4.5.) y el coeficiente de correlacin
(Tabla 4.39.), donde la variable stockMax presenta la mejor relacin entre variables.
No obstante las dems variables independientes utilizadas como entrada, mejoran el
rendimiento del modelo encontrado.
96
97
5.2. Recomendaciones.
Se recomienda principalmente seguir tres lneas de accin, la primera lnea
consiste en realizar estudios para buscar nuevas variables, mientras tanto, la segunda
lnea de trabajo comprende efectuar pruebas con otras tcnicas de minera de datos,
por ltimo, la tercera lnea de accin est dirigida a emplear herramientas para el
descubrimiento de conocimiento o proceso de minera de datos diferentes a Weka,
como SQL Server Business Intelligence Development. Lo antes expuesto, se
recomienda como trabajos futuros con el objetivo de realizar comparacin de
resultados o para mejorar el rendimiento del modelo encontrado en la presente
investigacin.
98
REFERENCIAS BIBLIOGRFICAS
LIBROS
Bernal T., Csar A. (2010). Metodologa de la investigacin. (3ra ed.). Colombia:
Pearson Educacin.
Hernndez S., Fernndez C. y Baptista P. (2010). Metodologa de la investigacin.
(5ta ed.). Mxico: Mc Graw Hill.
Tamayo y T., M. (2010). El proceso de la investigacin cientfica. (4ta ed.).
Mxico: Limusa.
TRABAJOS ACADMICOS
Trabajos de grado y tesis doctorales
Snchez R., J. (2010). Sistema web para diagnstico de enfermedades prevalentes
en la infancia mediante tcnicas de minera de datos y aprendizaje
automtico. Universidad Nacional Experimental del Tchira, San Cristbal.
99
FUENTES ELECTRNICAS
Tesis en lnea
Aldas, L. (2013). Sistema web para el control de facturacin e inventario de
medicamentos y bienes en el Hospital Regional Docente Ambato.
Universidad Tcnica de Ambato, Ecuador. Consultada el 18 de noviembre de
2014 en:
http://repo.uta.edu.ec/bitstream/handle/123456789/6249/Tesis_t853si.pdf?seque
nce=1
Arias, J. (2012). Diseo y construccin de un data mart para el filtro de opiniones
en la web a partir de datos originados en el portal educar Chile. Universidad
de Chile, Santiago de Chile. Consultada el 26 de noviembre de 2014 en:
http://tesis.uchile.cl/bitstream/handle/2250/111296/cf-arias_jc.pdf?sequence=1
Bayter, A. (2008). Mejoramiento en la gestin de compras e inventario de
medicamentos y dispositivos mdicos en la Clnica Prevencin y Salud IPS
LTDA, en el Banco Magdalena. Universidad Industrial de Santander,
Bucaramanga Colombia. Consultada el 18 de noviembre de 2015 en:
http://www.ddic.com.mx/investigacion/wpcontent/uploads/2013/10/busatamante2008tesis.pdf
Corso, C. (2009). Aplicacin de algoritmos de clasificacin supervisada usando
Weka. Universidad Tecnolgica Nacional, Facultad Regional Crdoba.
Argentina. Consultada el 7 de marzo de 2016 en:
http://www.investigacion.frc.utn.edu.ar/labsis/Publicaciones/congresos_labsis/cy
nthia/CNIT_2009_Aplicacion_Algoritmos_Weka.pdf
Gonzales, R. (2012). Impact de la data warehouse e inteligencia de negocios en
el desempeo de las empresas: investigacin emprica en Per, como pas en
vas de desarrollo. Universitat Ramn Llull. Consultada el 25 de noviembre de
2014 en:
100
http://www.tesisenred.net/bitstream/handle/10803/85876/GONZALES_Tesis
Doctoral_FV.pdf?sequence=1
Guilln, F. (2012). Desarrollo de un datamart para mejorar la toma de decisiones
en el rea de tesorera de la Municipalidad Provincial de Cajamarca.
Universidad Privada del Norte, Per. Consultada el 14 de enero de 2015 en:
http://repositorio.upn.edu.pe/handle/upnorte/123
Martnez, C. (2012). Aplicacin de tcnicas de minera de datos para mejorar el
proceso de control de gestin en Entel. Universidad de Chile, Santiago de
Chile. Consultada el 14 de enero de 2015 en:
http://www.tesis.uchile.cl/bitstream/handle/2250/112065/cfmartinez_ca.pdf?sequence=1
Recasens, J. (2011). Inteligencia de negocios y automatizacin en la gestin de
puntos y fuerza de ventas en una empresa de tecnologa. Universidad de
Chile, Santiago de Chile. Consultada el 25 de noviembre de 2014 en:
http://www.tesis.uchile.cl/tesis/uchile/2011/cf-recasens_js/html/indexframes.html
Vielma, I. (2013). Mejoramiento de la gestin de insumos de pabelln del
Hospital Exequiel Gonzlez Corts. Universidad de Chile, Santiago de Chile.
Consultada el 20 de enero de 2015 en: file:///C:/Documents and
Settings/Almac%C3%A9n/Mis documentos/Downloads/cf-vielma_ig.pdf
101
102
ANEXOS
1. Clasificacin de los listados por tipo de producto.
tem
Descripcin
Material mdico.
Medicamentos.
10
Instrumental.
103
104
Tabla maestro.
Id
Nombre
Descripcin
Observaciones
CODIMAE
DESCRIP
REFEREN
Referencia.
DEPARTA
Departamento.
UNIDAD
Presentacin.
CANTUNI
EXISTE
Existencia.
PVP1
Precio1.
Ultimo costo.
PVP2
Precio2.
Ultimo costo.
10
PVP3
Precio3.
No tiene datos.
11
PVP4
Precio4.
No tiene datos.
12
COSTO
Costo.
13
ULTICOST
Ultimo costo.
14
STOCK
Mnima provisin.
15
FVENTA
Fecha de venta.
16
FCOMPRA
Fecha de compra.
17
PROVEE1
Proveeedor1.
No tiene datos.
18
PROVEE2
Proveeedor2.
No tiene datos.
Todos tiene 1
105
19
UBICA
Ubicacin.
No tiene datos.
20
AUDITO
Auditoria.
21
STATUS
Status.
22
EXISINIC
Existencia inicial.
23
FECHINIC
Fecha inicial.
24
IVA
Impuesto.
25
LABORAB
Laboratorio.
No tiene datos.
26
PESOB
Peso.
No tiene datos.
27
CODIREP
No tiene datos.
28
REEMPLA1
Reemplazo 1.
No tiene datos.
29
REEMPLA2
Reemplazo 2.
No tiene datos.
30
GRUPO
Grupo.
31
MARCA_REP
No tiene datos.
32
MARCA_VEH
No tiene datos.
33
MODELO_VEH
No tiene datos.
34
MOTOR
Motor de vehculo.
No tiene datos.
35
FACTCOMP
Factura de compra.
No tiene datos.
36
STOCKMA
Mxima provisin.
37
VENCIMI
Vencimiento.
No tiene datos.
38
CODICONT
Cdigo contino.
No tiene datos.
Todos tienen 1
No tiene datos.
106
Tabla transaccional.
Id
Nombre
Descripcin
CORRGENE
Correlativo generado.
STATTRAN
Estatus de la transaccin.
TIPOTRAN
Tipo de transaccin.
CODITRAN
Cdigo de la transaccin.
STATBUSQ
Estatus de bsqueda.
FECHTRAN
Fecha de la transaccin.
CANTTRAN
Cantidad de la transaccin.
PVP_TRAN
Observaciones
Blanco 1 2
1-2-9
Cdigo del producto.
No tiene datos.
Costo.
transaccin.
9
COSTTRAN
Costo de la transaccin.
CANTTRAN x
PVP_TRAN
10
COPRTRAN
COSTTRAN /
CANTTRAN
11
DESCTRAN
Descuento de la transaccin.
No tiene datos.
12
EXISTRAN
13
CORRFACT
Correlativo de la factura.
14
NOENTRAN
Nmero de entrada.
15
FACTTRAN
Factura de la transaccin.
16
NUMETRAN
Nmero de la transaccin.
17
CODIVEND
18
CODICLIE
No tiene datos.
107
19
IMPUTRAN
Imputacin de la transaccin.
20
ISV_TRAN
IVA de la transaccin.
21
CODIDESP
Cdigo de despacho.
No tiene datos.
22
VENCIMI
No tiene datos.
108
Pg. 1/1
SOLICITUD DE MEDICAMENTOS
Solicitud N 15-015
CANT.
UNIDAD CDIGO
Fecha 29/05/2015
DESCRIPCIN Y ESPECIFICACIONES
150 AMP.
22.011
50 Gfa.
20.013
300 AMP.
20.338
AMINOFILINA 10 ml.
3.000 AMP.
20.451
500 AMP.
20.042
ANTIESPASMDICO 20 mg / ml.
400 AMP.
20.268
ATROPINA 0,5 mg
100 AMP.
20.015
BETAMENTASONA 4 mg.
50 AMP.
20.395
BROMHEXINA 2ml.
50 FCO.
20.299
10
300 AMP.
20.540
CEFACIDAL 1 gr.
11
400 AMP.
20.062
CEFALOTINA 1 gr.
12
200 AMP.
20.318
CEFOTAXIMA 1 gr.
13
300 AMP.
20.370
CICLOKAPRON 500mg.
14
400 AMP.
20.679
15
100 FCO.
20.359
16
300 AMP.
20.305
DEXAMETASONA 4 mg 2 ml.
17
2.000 AMP.
20.276
KETOPROFENO I.V.
18
300 AMP.
21.074
TIOCOLCHICOCIDO I.V.
I.V I.M.