Documente Academic
Documente Profesional
Documente Cultură
2013
2|Pgina
30/07/201
3|Pgina
NDICE DE CONTENIDOS
Contenido
1.- Introduccin..............................................................................................................................................9 2.-Planteamiento del Problema de Investigacin ............................................................................... 11 2.1.-Contextualizacion del Problema ...................................................................................................12 2.2.-Solucion al Problema ....................................................................................................................13 2.3.-Relevancia y viabilidad de la investigacin ...................................................................................13 2.4.-Objetivos de la investigacin ........................................................................................................15 3.-Marco Terico..........................................................................................................................................16 3.1.-Hipertension..........................................................................................................................................17 3.1.1.-Tipos de Hipertensin ................................................................................................................17 3.1.1.1.-Hipertensin Primaria .............................................................................................................17 3.1.1.2.-Hipertensin Secundaria .........................................................................................................18 3.2.-Mineria de datos ...........................................................................................................................19 3.2.1.-Las Bases de datos y la minera de datos ...................................................................................19 3.2.2.-Proceso.......................................................................................................................................20 3.2.3.-Mineria de Datos como Proceso ................................................................................................21 3.2.4.-Caracteristicas de la Minera de Datos ......................................................................................22 3.5.-Proceso KDD ..................................................................................................................................23 3.2.6.-La minera de datos y su relacin con el Proceso KDD ..............................................................24 3.2.7.-Etapas del Proceso KDD .............................................................................................................25 3.2.8.-Qu es una tarea de Minera de Datos? ..................................................................................27 3.2.9.-Tipos de tareas en Minera de Datos .........................................................................................28 3.2.9.1.-Tareas Predictivas ...................................................................................................................28 3.2.9.1.1.-Clasificacion o Discriminacin ..............................................................................................28 3.2.9.1.2.-Clasificacion Suave ...............................................................................................................29 3.2.9.1.3.-Estimacion probabilidad de clasificacin ............................................................................29 3.2.9.1.4.-Categorizacion .....................................................................................................................29 3.2.9.1.5.-Preferencias o Priorizacin ..................................................................................................30 3.2.9.1.6.-Regresion .............................................................................................................................30 4|Pgina
3.2.9.2.-Tareas Descriptivas .................................................................................................................30 3.2.9.2.1.-Clustering o Agrupamiento ..................................................................................................31 3.2.9.2.2.-Reglas de Asociacin ...........................................................................................................31 3.2.9.2.3.-Dependencias Funcionales ..................................................................................................31 3.2.9.2.4.-Patrones Secuenciales .........................................................................................................32 3.2.9.2.5.-Correlaciones y Factorizaciones...........................................................................................32 3.2.10.- Mtodo en Minera de Datos .................................................................................................32 3.2.11.-Metodo de minera de Datos y su relacin con las tareas .......................................................33 3.2.12.-Tecnicas de Minera de Datos ..................................................................................................34 3.2.12.1.-Arboles de decisin ...............................................................................................................34 3.2.12.2.-Red Bayesiana .......................................................................................................................34 3.2.12.3.-Redes Neuronales ................................................................................................................34 3.2.12.4.-Enfoque estadstico para estimacin y prediccin ...............................................................34 3.2.13.-Metodos Bivariantes ................................................................................................................35 3.2.13.1.-Regresion Logstica ...............................................................................................................35 3.2.13.2.-Regresion Lineal Simple ........................................................................................................35 3.2.14.-Metodos Multivariantes: Regresin Lineal Mltiple ...............................................................36 3.2.14.1.-Analisis de Regresin Lineal Mltiple ...................................................................................36 3.2.14.2.-Debilidad de una Regresin Lineal Mltiple .........................................................................38 3.2.14.3.-Delimitacion y definicin de variables relevantes del estudio .............................................38 3.2.14.4.-Metodo de Seleccin de variables en el anlisis de regresin lineal ....................................38 3.2.14.5.-Consideraciones de los datos................................................................................................39 3.2.14.6.-Correlacion de los datos .......................................................................................................40 3.2.14.7.-Coeficiente de Correlacin de Pearson.................................................................................40 3.3.-Software de minera de datos .......................................................................................................42 3.3.1.-Clementine SPSS ........................................................................................................................42 3.3.2.-Weka ..........................................................................................................................................43 3.3.3.-RapidMiner ................................................................................................................................43 4.-Marco Metodolgico .......................................................................................................................45 4.1.-La metodologa CRISP-DM ............................................................................................................46 4.2.-Etapas de Metodologa CRISP-DM ................................................................................................46 5.-Desarrollo ........................................................................................................................................49 5|Pgina
5.1.-Metodologia CRISP-DM Aplicada a la investigacin .....................................................................50 5.1.1.-Comprension del negocio ..........................................................................................................50 5.1.1.1.-Contextualizacin de la investigacin .....................................................................................50 5.1.1.2.-Generacion del plan del Proyecto ...........................................................................................50 5.1.1.2.1.-Reuniones personal encargado............................................................................................50 5.1.1.2.2.-Medicamentos asociados a la hipertensin ........................................................................51 5.1.1.2.3.-Eleccion del medicamento para la investigacin .................................................................51 5.1.2.1.-Eleccion de la tcnica de minera de datos .............................................................................52 5.1.2.2.-Eleccion de la herramienta correspondiente..........................................................................52 5.1.2.3.-Instrumentos ...........................................................................................................................53 5.1.2-Comprension de los datos ..........................................................................................................54 5.1.2.1.-Recopilacion inicial de los datos .............................................................................................54 5.1.2.2.-Medios para acceder a esta informacin ...............................................................................54 5.1.2.3.-Realizacion de encuestas ........................................................................................................55 5.1.2.4.-Integracion de los datos..........................................................................................................56 5.1.2.5.-Visualizacion de los datos obtenidos ......................................................................................56 5.1.3.-Preparacion de los datos............................................................................................................57 5.1.3.1.-Limpieza de datos ...................................................................................................................58 5.1.3.2.-Seleccin de los datos .............................................................................................................58 5.1.3.3.-Grado de confianza de los datos.............................................................................................59 5.1.4.-Modelado ...................................................................................................................................60 5.1.4.1.-Seleccin de variables dependientes e Independientes.........................................................60 5.1.4.2.-Resumen de la aplicacin y correlacin general de las variables seleccionadas ....................61 5.1.4.2.1.-Resumen correlacin SPSS Clementine ...............................................................................62 5.1.4.2.2.-Resumen correlacin Excel .................................................................................................63 5.1.4.3.-Coeficiente de regresin resultantes de la matriz del modelo ...............................................63 5.1.4.4.-Aplicacin frmula matemtica para el modelo predictivo ...................................................64 5.1.4.5.-Desglosamiento de la formula predictiva para los distintos casos propuestos......................65 5.1.4.5.1.-Formula predictiva consumo de medicamentos de forma individual .................................65 5.1.4.5.2.-Formula predictiva consumo de medicamentos de la poblacin total.66 5.1.5-Evaluacin ...................................................................................................................................68
6|Pgina
5.1.5.1.-Evaluacin de los resultados ...................................................................................................68 5.1.6.-Despliegue..................................................................................................................................69 5.1.6.1.-Planificacin de despliegue.....................................................................................................69 5.1.6.2.-Prototipo diseo .....................................................................................................................71 6.-Conclusin .......................................................................................................................................72 7.-Bibliografia ......................................................................................................................................75 8.-Anexos .............................................................................................................................................78
7|Pgina
AGRADECIMIENTOS
8|Pgina
1. INTRODUCCIN
9|Pgina
Captulo I: Introduccin
En este presente seminario de ttulo se abordara un tema tan importante como es el manejo de medicamentos en el Cesfam de la comuna de Maule, Chile, ligados a la hipertensin. Unas de las principales falencias del centro de la salud familiar, es el desabastecimiento de los frmacos que son entregados diariamente a las personas por diversos motivos, ya sean por enfermedades crnicas, falencias musculares, diabetes, malestares al organismo, y principalmente por la
hipertensin, esto ocurre principalmente por una mala administracin y organizacin de las existencias lo cual conlleva a prdidas importantes de dinero al no solicitar la cantidad necesaria para la poblacin y el vencimiento de medicamentos, por no tener la informacin necesaria para afrontar este relevante problema. Hemos de realizar esta investigacin para dar solucin a este inconveniente que presenta dicho centro mdico, para ello elaboraremos un mtodo eficiente que pueda contrarrestar el mal manejo de medicamentos ligados a esta importante enfermedad, enfermedad por lo cual, es unas de las ms solicitadas por el centro de salud familiar. Para paliar este puntual problema, abordaremos la problemtica mediante tcnicas de minera de datos que mediante algoritmos matemticos, daremos solucin pertinente al caso. Para ello se va a implementar un sistema informtico que predecir el consumo de medicamentos asociados a la hipertensin, mediantes factores de riesgos biomdicos y sociales, para lograr este resultado, estudiaremos en profundidad lo que es la hipertensin, los factores que produce esta enfermedad (factores que sern de gran ayuda para la construccin de nuestro modelo), veremos en profundidad el concepto de minera de datos, sus tareas y sus respectivas tcnicas, exploraremos en profundidad un mtodo multivariantes conocido como regresin, mtodo de minera de datos que usaremos para la creacin del modelo predictivo, describiremos y analizaremos los
diferentes software de minera de datos y elegiremos el que ms se adecue a la problemtica propuesta. Se espera que los resultados finales de este seminario sean categricos y los resultados se asemejen a la realidad y ponga fin a una necesidad de informacin para la toma de decisiones al momento de solicitar el stock adecuado para dicho medicamento,
10 | P g i n a
Captulo I: Introduccin
11 | P g i n a
Muchos centros de salud chilenos tienen problemas de organizacin, tecnolgicos o de espacio fsico para llevar a cabo una gestin de stocks de medicamentos eficiente. En el mbito sanitario nos centramos en gestionar una materia tan concreta como lo son los medicamentos que es una novedad dentro del mbito hospitalario. La administracin y abastecimiento de medicamentos es una disciplina que no ha recibido suficiente atencin en los ltimos aos. El centro de salud no puede estar desabastecido de medicamentos y, por otro lado, el alto costo de adquisicin de muchos de ellos obliga a optimizar las existencias. Es necesario avanzar en este campo investigando el comportamiento, administracin y abastecimiento de medicamentos para mejorar las tcnicas de previsin de la demanda. Uno de los principales problemas del desabastecimiento del centro mdico est asociado a medicamentos ligados a la hipertensin (es el aumento de la presin arterial de forma crnica), ya que la cantidad solicitada de cajas de frmacos asociados a esta enfermedad a los laboratorios correspondientes, en algunos casos no satisface la demanda, ya que la cantidad de personas que sufren hipertensin es alta, y mediantes los factores de riesgos de esta enfermedad hace que cada vez ms personas sufran de hipertensin en el pueblo. Como solucin a este problema aparece la minera de datos (data mining, en ingls) con una base estadstica, matemtica y algoritmos informticos inteligentes dan solucin a esta necesidad de informacin. La minera de datos se presenta como un gran aliado para descubrir esta informacin implcita en los datos de las instituciones de salud. Para abordar la problemtica planteada, existen dos enfoques, uno es realizar el estudio con minera de datos, y el otro es el enfoque tradicional, vale decir hacer un estudio cientfico con un estadstico y ocupar nada ms que las herramientas convencionales y el juicio del profesional. Los resultados que se obtienen con cada minera de datos estn respaldados internacionalmente e incluso sus beneficios son utilizados en estudios internacionales.
12 | P g i n a
Se ha decidido abordar la problemtica desde el punto de vista de lo que se conoce como proceso KDD (Knowledge Discovery in Database) siguiendo cada uno de los pasos que este proceso sugiere, es realizar un mtodo multivariantes de minera de datos conocida como Regresin, para crear un modelo predictivo del medicamento ms utilizado por el CESFAM, Maule asociado a la hipertensin. Este modelo luego de entrenado, debe ser capaz predecir el consumo de medicamentos en base a variables biomdicas y sociales. Esto podra tener grandes beneficios econmicos al centro de salud puesto que, al momento de solicitar medicamento ellos se abastecern solo con la cantidad predicha y no solicitarn medicamentos de sobra que pueden llegar a vencer. Adems este modelo predictivo ser utilizado para ver el posible consumo mensual de un individuo mediantes las variables preestablecidas, el modelo entregara un resultado estimado de cuantas dosis (unidades y/o cajas) consumir, mediante los factores de riesgos que la persona poseer.
Actualmente, las enfermedades cardiovasculares se han convertido en la primera causa de muerte en todos los pases del mundo industrializado, y el anlisis epidemiolgico de este fenmeno ha permitido reconocer la existencia de unas variables biomdicas denominadas factores de riesgo de enfermedad cardiovascular, capaces de influenciar la probabilidad del padecimiento de
13 | P g i n a
14 | P g i n a
2.4.1
GENERAL:
Implementar sistema informtico para predecir el consumo de medicamentos asociados a la hipertensin, en base a variables biomdicas y sociales, mediante mtodo multivariantes de minera de datos.
2.4.2
ESPECFICOS:
1. Investigar el concepto y relacin de la hipertensin en Chile, y sus principales factores asociados a la enfermedad
2.
Analizar y estudiar en profundidad el concepto de minera de datos y explicar su relacin con el proceso de KDD.
3. Describir tres de las principales herramientas de minera de datos y seleccionar la que ms se adecue a la problemtica propuesta.
6. Implementar y Disear sistema informtico con los datos obtenidos del modelo predictivo.
15 | P g i n a
3.
MARCO TERICO
16 | P g i n a
La hipertensin arterial (HTA) es un sndrome caracterizado por elevacin de la presin arterial (PA) y sus consecuencias. Slo en un 5% de casos se encuentra una causa (HTA secundaria); en el resto, no se puede demostrar una etiologa (HTA primaria); pero se cree, cada da ms, que son varios procesos an no identificados, y con base gentica, los que dan lugar a elevacin de la PA. La HTA es un factor de riesgo muy importante para el desarrollo futuro de enfermedad vascular (enfermedad cerebrovascular, cardiopata coronaria, insuficiencia cardaca o renal). La relacin entre las cifras de PA y el riesgo cardiovascular es continua (a mayor nivel, mayor morbimortalidad), no existiendo una lnea divisoria entre presin arterial normal o patolgica. La definicin de hipertensin arterial es arbitraria. El umbral elegido es aquel a partir del cual los beneficios obtenidos con la intervencin, sobrepasan a los de la no actuacin. A lo largo de los aos, los valores de corte han ido reducindose a medida que se han ido obteniendo ms datos referentes al valor pronstico de la HTA y los efectos beneficiosos de su tratamiento. Actualmente, se siguen las recomendaciones de la OMS-SIH, que con objeto de reducir la confusin y proporcionar a los clnicos de todo el mundo unas recomendaciones ms uniformes, ha acordado adoptar en principio la definicin y la clasificacin establecidas por el JOINT NATIONAL COMMITTEE de Estados Unidos en su sexto informe (JNC VI) (Eva Castell Bescs, 2009).
3.1.1
TIPOS DE HIPERTENSIN.
La mayor parte de los casos de hipertensin corresponden a este tipo. Se cree que el 95% de los pacientes sufren hipertensin esencial, pues se desconoce la causa por la que cursan la enfermedad, esto es as porque en la gran mayora de la gente que presenta cifras de tensin arterial elevada, es difcil encontrar exactamente qu es lo que precipita el aumento de la presin. La combinacin de factores relacionados son (Eva Castell Bescs, 2009):
17 | P g i n a
Adems existen ciertos factores de riesgo, como la herencia y el estilo de vida que desempean un papel muy importante en el desarrollo de la hipertensin esencial. Entre ms factores de riesgo se tienen, mayor es la probabilidad de que se presente presin elevada. La raza, la edad, el sexo y los antecedentes familiares forman parte de los factores que son inmodificables. Pero la obesidad, el sedentarismo, el tabaquismo, el exceso de sal y grasa en la alimentacin, el alcoholismo y el estrs son factores que cualquier persona puede modificar en pro de su salud y las cuales predisponen al desarrollo de hipertensin, no slo en la edad adulta, sino tambin en la juventud (Eva Castell Bescs, 2009).
Se dice que una persona tiene hipertensin secundaria cuando la presin alta s tiene una causa conocida. Es decir, se puede encontrar una enfermedad subyacente que est desencadenando el aumento de la presin arterial. Esta forma de hipertensin ocurre tan slo en el 5% de los casos. A diferencia de la hipertensin esencial, que los mdicos pueden tratar pero no curar, la hipertensin secundaria a menudo puede curarse. Una vez que se corrige la enfermedad o trastorno que la causa, la presin disminuye e incluso en muchas personas regresa a lo normal. Entre los trastornos que pueden desencadenar el desarrollo de hipertensin estn (Eva Castell Bescs, 2009): Enfermedad renal Enfermedad suprarrenal Enfermedad tiroidea Anormalidades en los vasos sanguneos
18 | P g i n a
La minera de datos en si es un proceso que genera una salida a partir de una entrada. En este caso la entrada son los datos que estn generalmente (aunque no necesariamente) en repositorios o almacenes de datos. La minera de datos es entonces descubrir informacin relevante (para el dueo de los datos o alguna organizacin) que se encuentra de forma implcita (se puede decir escondida) en esos datos, informacin que est presente en forma de relaciones, patrones de conducta o tendencias. El proceso se realiza mediante la utilizacin de distintas tcnicas estadsticas, matemticas y de tecnologas de informacin. (Orallo, 2004) Otros autores afirman que la minera de datos es el proceso que tiene como propsito descubrir, extraer y almacenar informacin relevante de amplias base de datos a travs de programas de bsqueda e identificacin de patrones y relaciones globales, tendencias y otros indicadores aparentemente caticos que tienen una explicacin que pueden descubrirse mediante diversas tcnicas de esta herramienta. (B.Moxons, 1996). El objetivo fundamental es aprovechar el valor de la informacin localizada y usar patrones preestablecidos para que los directivos tengan un mejor conocimiento de su negocio y puedan tomar decisiones ms confiables. (B.Moxons, 1996).
3.2.1
Las bases de datos han sido sin duda una herramienta fundamental que ha permitido la evolucin de la ciencia de la minera de datos. De hecho, a veces se usa el trmino KDD (Knowledge Discovery in Database o Descubrimiento de Conocimiento en Bases de Datos) como sinnimo de minera de datos. (Csar Krall, 2013). Las bases de datos puede decirse que son una de los tres soportes en que se apoya la minera de datos, stos son:
19 | P g i n a
Figura 4.1. Cuadro de relacin entre minera de datos; base de datos, algoritmia y Estadstica (Csar Krall, 2013).
3.2.2
PROCESO.
La nocin de proceso halla su raz en el trmino de origen latino procesus. Este concepto describe la accin de avanzar o ir para adelante, al paso del tiempo y al conjunto de etapas sucesivas advertidas en un fenmeno natural o necesario para concretar una operacin artificial. (Real Academia espaola (RAE)).
20 | P g i n a
En minera de datos cada caso es un caso. Sin embargo, en trminos generales, el proceso se compone de cuatro etapas principales (Trondheim, 1997): 1. Determinacin de los objetivos. Trata de la delimitacin de los objetivos que el cliente desea. 2. Pre procesamiento de los datos. Se refiere a la seleccin, la limpieza, el enriquecimiento, la reduccin y la transformacin de las bases de datos. Es la etapa que consume ms de la mitad del tiempo del proyecto. 3. Determinacin del modelo: Se comienza realizando unos anlisis estadsticos de los datos, y despus se lleva a cabo una visualizacin grfica de los mismos para tener una primera aproximacin. Segn los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes reas de la Inteligencia Artificial. 4. Anlisis de los resultados: Verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los anlisis estadsticos y de visualizacin grfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones. El procedimiento estndar particular usado en minera de datos se denomina CRISP-DM (CrossIndustry Standard Process for Data Mining). CRISP-DM exige que la minera de datos sea vista como un proceso completo, pasando por recoleccin y administracin de los datos, pre procesado de estos datos, construccin del modelo, evaluacin del modelo y finalmente despliegue (implementacin) del modelo.
21 | P g i n a
3.2.4
Entre las caractersticas ms importantes se destacan (B.Moxons, 1996): Explorar los datos se encuentran en las profundidades de las bases de datos, como los almacenes de datos, que algunas veces contienen informacin almacenada durante varios aos. En algunos casos, los datos se consolidan en un almacn de datos y en mercados de datos; en otros, se mantienen en servidores de Internet e Intranet. El entorno de la minera de datos suele tener una arquitectura cliente servidor. Las herramientas de la minera de datos ayudan a extraer el mineral de la informacin enterrado en archivos corporativos o en registros pblicos, archivados.
22 | P g i n a
3.2.5
PROCESO KDD.
Las siglas KDD provienen del ingls knowledge Discovery in Database y se traduce literalmente como Descubrimiento de conocimiento en base de datos y consiste en usar mtodos de minera de datos (algoritmos) para extraer (identificar) lo que se considera como conocimiento de acuerdo a la especificacin de ciertos parmetros usando una base de datos junto con pre procesamientos y post-procesamientos. (Han.J.Kamber, 2001). Otros autores aseguran que No es un proceso automtico, es un proceso iterativo que exhaustivamente explora volmenes muy grandes de datos para determinar relaciones. Es un proceso que extrae informacin de calidad que puede usarse para dibujar conclusiones basadas en relaciones o modelos dentro de los datos. (Morgan Kaufmann, 1999). Desde nuestro punto de vista, KDD se refiere al proceso global del descubrimiento de conocimiento til a partir de los datos, y minera de datos se refiere a un paso en particular en este proceso. La minera de datos es la aplicacin de algoritmos especficos para extraer patrones desde los datos (Fayyad, Piatetsky-Shapiro, & Smyth, 1996).
23 | P g i n a
El proceso general de generar conocimiento mediante el descubrimiento de informacin implcita en base de datos, corresponde al proceso KDD, y el proceso de minera de datos propiamente tal, es solamente una tarea dentro de este proceso, se trata sin embargo de la de la tarea ms importante pues es la encargada de descubrir los patrones y crear el (o los) modelo(s) (Hernndez Orallo, Ramrez Quintana, & Ferri Ramrez, 2004). El conocimiento extrado a partir del proceso KDD debe cumplir con una serie de propiedades, en se nombran las siguientes (Hernndez Orallo, Ramrez Quintana, & Ferri Ramrez, 2004): Valido: Se refiere a que los patrones extrados deben seguir siendo precisos para datos nuevos, y no solo para los datos usados en la extraccin de patrones. Novedoso: Debe aportar informacin previamente desconocida por el usuario. Potencialmente til: El conocimiento proporcionado por el proceso debe conducir a acciones que sean beneficiosas para el usuario. Comprensible: Se refiere a la interpretabilidad de la informacin resultante del proceso, si extraen patrones que no sean comprensibles, difcilmente se podrn interpretar y la informacin lejos de ser una ayuda para quien toma la decisin, aumentar el grado de incertidumbre.
3.2.7
Algunos autores muestran una descripcin mucho ms detallada de lo que comprende un proceso KDD, dividiendo todo el proceso en 9 etapas, ntese eso s que se trata de las mismas etapas contenidas en la Figura 4.3, pero a un nivel de detalle mayor. 1) Debe entender el dominio del sistema de informacin y el conocimiento relevante que se tiene de antemano con respecto al contexto, se deben identificar adems los objetivos del proceso KDD desde el punto de vista del cliente.
2) Debe seleccionar una coleccin de datos sobre los cuales se trabajara para extraer los patrones que se estn buscando, esta esta coleccin puede ser una fuente de datos completa ya existente o puede ser una muestra, un pequeo conjunto de datos que representa al total. (La calidad del conocimiento extrado en el proceso de KDD no solo depende de la tcnica de minera de datos utilizada, depende tambin de la calidad de los datos utilizados)
3) Los datos seleccionados deben ser pre-procesados, el pre-procesado de los datos implica algunas tareas como, eleccin de qu hacer con datos faltantes o innecesarios (cuando corresponda) y eliminacin de ruido de la muestra.
4) Esta fase trata sobre la reduccin y proyeccin de los datos. Esta fase es crucial y debe tenerse mucho cuidado sobre las decisiones que aqu se tomen pues influirn de manera importante en el resultado final del proceso. Se trata principalmente de transformaciones al formato de los datos y sobre todo a la bsqueda de posibles correlaciones entre atributos (columnas). Mediante la reduccin de la dimensionalidad (cantidad de
25 | P g i n a
5) Consiste en relacionar los objetivos del proceso KDD identificados en la primera etapa de una tarea de minera de datos en particular, como por ejemplo clasificaciones, regresin, agrupamiento, categorizacin, etc.
6) Contempla un anlisis exploratorio de los datos y la seleccin del algoritmo o tcnica a utilizar para crear el modelo, segn los objetivos o requerimientos del paso uno.
7) Se da lugar a la bsqueda de los patrones segn la tarea y el algoritmo seleccionado en las etapas anteriores.
8) Comprende la visualizacin de los patrones y modelos extrados o la interpretacin de los patrones resultantes de la tarea a minera de datos, posiblemente se puede volver a iterar desde este punto a cualquiera de los anteriores, para revisiones, validaciones, etc.
9) Finalmente el actuar de acuerdo al conocimiento resultante de todos los pasos anteriores, usando este conocimiento de manera directa, insertndolo en otro sistema, o bien documentndolo en forma de reporte para ser revisado por las personas pertinentes. (Fayyad, Piatetsky-Shapiro, & Smyth, 1996)
26 | P g i n a
En resumen el objetivo fundamental del KDD es encontrar conocimiento til, vlido, relevante y nuevo sobre un fenmeno o actividad mediante algoritmos eficientes, dadas las crecientes rdenes de magnitud en los datos. Al mismo tiempo hay un profundo inters por presentar los resultados de manera visual o al menos de manera que su interpretacin sea muy clara. Otro aspecto es que la interaccin humano-mquina deber ser flexible, dinmica y colaboradora. El resultado de la exploracin deber ser interesante y su calidad no debe ser afectada por mayores volmenes de datos o por ruido en los datos. En este sentido, los algoritmos de descubrimiento de informacin deben ser altamente robustos.
3.2.8
El trmino tarea se emplea para designar a aquella obra y trabajo que generalmente demanda de parte de quien la lleva a cabo cierto esfuerzo y que se realizara durante un tiempo limitado, es decir, existe un tiempo lmite para su realizacin (Zann. J, 1999).
27 | P g i n a
3.2.9
Las Tareas predictivas tratan de problemas y tareas en los que hay que predecir uno o ms valores para uno o ms ejemplos. Dependiendo de cmo sea la correspondencia entre los ejemplos y los valores de salida y la presentacin de los ejemplos podemos definir varias tareas predictivas (Hernndez Orallo, Ramrez Quintana, & Ferri Ramrez, 2004) 3.2.9.1.1
Clasificacin. Clasificacin suave. Estimacin de probabilidad de clasificacin Categorizacin. Preferencias o priorizacin. Regresin. Clasificacin o discriminacin
Es una de las tareas que ms se utilizan en minera de datos. En clasificacin los ejemplos se presentan como un conjunto de pares de datos de entrada y salida = {e, s} tal que e pertenece al total de datos de entrada y s pertenece al total de datos de salida. El objetivo de esta tarea es aprender una funcin : E S, llamada clasificador que entienda que para cada valor de entrada E (de uno de los atributos), existe un valor nico para S. Se supone que uno de los atributos (variables) de la vista minable representa a la clase y el conjunto de clase es a su vez el conjunto de los posibles valores que puede tomar este atributo. Entonces la funcin aprendida ser capaz de, dado un conjunto de valores de entrada para una nueva instancia.
28 | P g i n a
Clasificacin suave
Se trata de una variante de la clasificacin pero que tiene una ligera diferencia y sta radica en que la Clasificacin suave, adems de aprender la funcin clasificador, se aprende otra funcin : que representa el grado de certeza de la prediccin hecha por el clasificador . En el fondo la clasificacin suave es como una versin mejorada de la clasificacin. Esto permite, por ejemplo, decidir entre varios clasificadores, cul es el ms deseable.
3.2.9.1.3
Esta tarea se trata en realidad de una extensin de la clasificacin suave, el problema se presenta de la misma manera que ambas Clasificaciones anteriores, la funcin que debe aprenderse sin embargo es distinta. Aqu en lugar de aprender una funcin clasificador que clasifique y otra funcin grado de certeza que mida la precisin de esa prediccin, se deben aprender X funciones grado de certeza, una por cada clase. Y luego, cada uno de los valores devueltos por cada una de las X funciones representan la probabilidad de que un ejemplo sea de cada una de las clases. Para clasificar esto ltimo, si se sigue la misma tnica de los ejemplos anteriores.
3.2.9.1.4
Categorizacin
A diferencia de las tareas de clasificacin, aqu lo que se busca no es aprender una o ms funciones que se encasillen un nuevo ejemplo. En cambio lo que se busca es aprender una correspondencia. Esta correspondencia incluye los ejemplos del conjunto de datos de entrada, como tambin el conjunto de todas las categoras que estn relacionadas en esos datos. En las tareas de clasificacin lo que se buscaba era predecir a cul clase (de las ya existentes) pertenecera un nuevo ejemplo e, dada la coleccin de sus atributos, sas tareas solamente asignan una y solo una clase a cada instancia del conjunto de salida s. En cambio en la categorizacin un ejemplo e puede tener varias categoras asociadas, as lo que el modelo har ser dilucidar a cuales de entre todas las categoras, pertenece el ejemplo e. Un ejemplo de categorizacin seria dado un conjunto de perfiles de clientes en un supermercado, cuales tipos de clientes compraran productos
29 | P g i n a
Preferencias o priorizacin
Consiste en determinar un orden lgico o preferencial entre por lo menos dos ejemplos. Los que el modelo hace es precisamente ordenar nuevos ejemplos segn un criterio que debe aprenderse. Este criterio se basa en el conjunto de datos de entrada, todo vez que en este caso cada ejemplo es una secuencia como la siguiente < >, , x 2 en donde el orden
de la secuencia representa la prediccin. Un ejemplo de priorizacin seria en una compaa de seguros si se tuvieran varios clientes nuevos, basado en casos de clientes antiguos con perfiles similares a los nuevos.
3.2.9.1.6
Regresin
En la regresin, los ejemplos se representan por relaciones entre el conjunto de datos de entrada y el conjunto de salidas S, quedando entonces como objetivo de la regresin, el aprender la funcin : S que representan la relacin entre los ejemplos, ahora se tiene que para cada valor de E se tiene el valor nico de S. En este sentido la regresin es bastante parecida a la clasificacin, sin embargo la diferencia entre ambas radica en que la regresin, S es estrictamente numrico (los datos de entrada deben ser solamente nmeros). La regresin se utiliza frecuentemente en contabilidad para estimar, por ejemplo, las ventas para los siguientes meses basado en las ventas de los ltimos meses, aunque cabe destacar que este tipo de regresin es meramente de tipo lineal, pero existen adems otros tipos de regresin, como la logstica.
Las tareas descriptivas buscan describir los datos existentes. Las tareas descriptivas ms usadas son: Agrupamiento (clustering) Reglas de asociacin. Dependencias funcionales. Patrones secuenciales. Correlaciones y factorizaciones.
30 | P g i n a
o Agrupamiento
Dentro de las tareas de clasificacin y sus derivadas se seal que el objetivo de ellas era asignar a nuevas instancias una de las clases preestablecidas, esto supone que esas clases ya se encuentran definidas desde antes de la eleccin de la tarea de minera de datos y forman parte de la informacin de entrada. El agrupamiento en cambio, parte del hecho de que esas clases son desconocidas a priori, no se conocen ni las clases ni siquiera cuantas son o si las hay. Por lo tanto el objetivo de esta tarea es precisamente encontrar u obtener estos grupos o clases que se desean similares. A veces se puede especificar al modelo la cantidad de clases que se desean obtener, otras veces es el algoritmo quien define cuantos grupos se encontraron. La funcin que se aprende es igual a la de la Clasificacin: A:E S con la excepcin de que los valores del conjunto S crean durante el proceso mismo del aprendizaje y no estn dados en el conjuntos de datos de Entrada E como en la Clasificacin.
3.2.9.2.2
Reglas de asociacin
Similares a las reglas de clasificacin. Pueden predecir cualquier atributo, no solo la clase, o predecir combinaciones de atributos. Las diferentes reglas de asociacin expresan diferentes regularidades que yacen en el conjunto de datos y generalmente predicen cosas diferentes. Se centra el inters en las reglas que aplican a un nmero grande de instancias y que tiene una precisin alta en las instancias en las que aplica. La cobertura de una regla de asociacin es el nmero de instancias para las cuales ella predice correctamente (soporte).La precisin (confianza) es el nmero de instancias que predice correctamente, expresado como una proporcin de todas las instancias a las que se aplica.
3.2.9.2.3
Dependencia Funcionales
Hay veces en que los atributos estn relacionados entre s de manera ms especifica que la de pertenecer a una misma relacin. Hay veces en que es posible determinar que un atributo depende de otro funcionalmente, como si existiera una funcin f en el mundo, tal que t [A] = f (t [B]). La funcin se anotara como f: A B, pero como f es desconocida (o sino B sera un atributo derivado), slo nos quedamos con A B, la dependencia funcional, que se lee A determina B.
31 | P g i n a
Patrones secuenciales
El objetivo de la tarea es poder describir de forma concisa relaciones temporales que existen entre los valores de los atributos del conjunto de ejemplos. Utiliza reglas de asociacin secuenciales.- reglas que expresan patrones de comportamiento secuencial, es decir, que se dan en instantes distintos en el tiempo. Encontrar patrones en secuencia Una secuencia es una lista ordenada de itemsets, donde cada itemset es un elemento de la secuencia El tamao de una secuencia es su cantidad de elementos (itemsets) La longitud de una secuencia es su cantidad de tems. El soporte de una secuencia es el porcentaje de secuencias que la contienen en un conjunto de secuencias S Las secuencias frecuentes (o patrones secuenciales) son las sub secuencias de una secuencia que tienen un soporte mnimo.
3.2.9.2.5
Correlaciones y factorizaciones
Si bien esta tarea no describe precisamente a los datos si no que ms bien se utiliza como parte del proceso de seleccin de atributos ya que se usa para ver si dos o ms atributos numricos estn correlacionados de alguna manera, puede ser vista como una tarea independiente y suficiente si lo que se espera de la minera de datos es precisa y nicamente buscar correlaciones entre variables. Las correlaciones trabajan nicamente como atributos numricos y las relaciones encontradas pueden ser tanto bidireccionales (x y) como no orientadas (x - y).
Un mtodo es una palabra que proviene del termino griego methodos (camino o va) y que se refiere al medio utilizado para llegar a su fin. Su significado original seala el camino que conduce a un lugar (Francis Bacn, 1626).En minera de datos utiliza diversos tipos de mtodos para llevar a cabo una tarea como son la Inteligencia artificial, aprendizaje automtico, estadstica, y sistemas de base de datos.
32 | P g i n a
Las tareas dicen relacin con el Qu hacer? y los mtodos con el Cmo hacerlo?, es claro entonces que cada una de las tareas descritas requiere de un mtodo o tcnica para ser resuelta. De la misma forma que en la vida cotidiana, generalmente no existe solo una forma de resolver un problema sino que varias maneras, es lgico pensar que en la minera de datos no existe un nico mtodo para resolver una determinada tarea, la verdad es que una nica tcnica ofrece un espectro de soluciones para resolver distintas tareas (Hernndez Orallo, Ramrez Quintana, & Ferri Ramrez, 2004). En la siguiente tabla se puede apreciar claramente el hecho de que varias tcnicas y/o algoritmos son utilizados en varias tareas. La tabla fue extrada desde el trabajo de Hernndez (Hernndez Orallo, Ramrez Quintana, & Ferri Ramrez, 2004):
3.2.12.1 rboles
de decisin
Es la tcnica que permite analizar decisiones secuenciales basadas en el uso de resultados y probabilidad asociados. Los arboles de decisin se pueden usar para generar sistemas expertos, bsqueda binaria y rboles de juegos. Las ventajas de loa rboles de decisin es que resume los ejemplos de partida, permitiendo la clasificacin de nuevos casos siempre y cuando no existan modificaciones sustanciales en las condiciones bajo las cuales se generaron los ejemplos que sirvieron para su construccin (Tenembaum, Aarn, Langsam, 1993).
3.2.12.2 Red
Bayesiana
Son utilizadas en diversas reas de aplicacin como por ejemplo el diagnstico mdico. Las mismas proveen una forma compacta de representar el conocimiento y mtodos flexibles de razonamiento basados en las teoras probabilsticas capaces de predecir el valor de variables no observadas y explicar las observadas. Entre las caractersticas que poseen las redes bayesianas, se puede destacar que permiten aprender sobre relaciones de dependencia y causalidad, permiten combinar conocimiento con datos, evitan el sobre-ajuste de los datos y pueden manejar bases de datos incompletas (Heckerman, 1995; Heckerman & Chickering, 1996; Ramoni & Sebastiani, 1996).
3.2.12.3 Redes
Neuronales
Son modelos no lineales, inspirados en el funcionamiento del cerebro, que fueron diseados para resolver una gran variedad de problemas. Los perceptores multi-capa son algoritmos de regresin que construyen un modelo determinista y=f(x), relacionando un conjunto de predictores, x, y predictandos y (Gutirrez, J.M. et, 2004).
3.2.12.4 Enfoques
Este tipo de mtodos pertenecen todas las tcnicas que estn mayormente relacionadas con la estadstica tradicional, los algoritmos utilizados son lo que se encuentran con la gran mayora del software estadsticos presentes en el mercado hace aos (como el clsico SPSS Clementine, como
34 | P g i n a
Las tcnicas estadsticas bivariantes permiten el anlisis conjunto de dos caractersticas de los individuos de una poblacin con el propsito de detectar posibles relaciones entre ellas. La naturaleza (nominal, ordinal o numrica) de las caractersticas objeto de estudio determinar las tcnicas y herramientas ms adecuadas para su anlisis. (E Jimnez-Contreras, 1993).
3.2.13.1 Regresin
logstica
La regresin logstica es un modelo de regresin para variables dependientes o de respuesta binomial mente distribuidas. Es til modelar la probabilidad de un evento ocurrido como funcin de otros factores. Es un modelo lineal generalizado que usa como funcin de enlace la funcin logit. Es una variacin de las funciones de regresin lineal representadas anteriormente (Hernndez Orallo, Ramrez Quintana, & Ferri Ramrez, 2004).
3.2.13.2
Es una tcnica estadstica en donde se trata generalmente de estimar el valor de una variable a partir del valor de otra variable por lo que trabaja con solo dos atributos. Se basa en relaciones entre variables del tipo causa- efecto en donde la variable independiente se le conoce como variable de entrada (tambin llamada regresor) y cuyo valor genera una variable de salida (o de respuesta). En resumen la regresin se explica de manera que el valor tome un atributo (regresor) influye directamente en el valor que tomara el otro atributo (Hernndez Orallo, Ramrez Quintana, & Ferri Ramrez, 2004).
35 | P g i n a
La regresin lineal mltiple es una extensin de la regresin simple para trabajar con mltiples variables. Refleja las posibilidades entre varias variables de entrada y variable objetivo.
Generalmente lo que se tiene es la superposicin es un nico modelo de las regresiones a cada uno de las variables de entrada con la variable de respuesta. (Hernndez Orallo, Ramrez Quintana, & Ferri Ramrez, 2004).
Mltiple
Mediante un modelo de regresin lineal mltiple (MRLM) tratamos de explicar el comportamiento de una determinada variable que denominaremos variable a explicar, variable endgena o variable dependiente, (y representaremos con la letra Y) en funcin de un conjunto de k variables explicativas X1, X2,..., Xk mediante una relacin de dependencia lineal (suponiendo X1 = 1) (Doran, H. (1989):
36 | P g i n a
presenta muy tedioso porque se tiene que resolver 3 ecuaciones que se generan por el mtodo de mnimo de cuadrados:
37 | P g i n a
Grafico 4.2 (Modelo resultante de la modelizacin no perimtrica bivariante) Para resolver dichas ecuaciones se utilizara programas informticos como SPSS y Excel. La dificultad al momento de usar regresiones mltiples, constituye la identificacin de las variables independientes relevantes y la seleccin de los trminos del modelo de regresin (Obregn, 2007).
3.2.14.2
Tanto la recta de regresin como el coeficiente de correlacin no son robustos, en el sentido de que resultan muy afectados por medidas particulares que se alejen mucho de la tendencia general. Se puede utilizar la correlacin (Obregn, 2007).
3.2.14.3 Delimitacin y definicin de variables relevantes para el estudio.
La investigacin que desarrollaremos debe contar con una o ms variables a la vez que no pueda existir una variable que no responda al objetivo final de la investigacin (Obregn, 2007)..
3.2.14.4
La seleccin del mtodo permite especificar cmo se introducen las variables independientes en el anlisis. Utilizando distintos mtodos se pueden construir diversos modelos de regresin a partir del mismo conjunto de variables (Obregn, 2007).
38 | P g i n a
3.2.14.5
Datos: Las variables dependientes e independientes deben ser cuantitativas. Las variables categricas, como la religin, estudios principales o el lugar de residencia, han de recodificarse como variables binarias o como otros tipos de variables de contraste. Supuestos: Para cada valor de la variable independiente, la distribucin de la variable dependiente debe ser normal. La varianza de distribucin de la variable dependiente debe ser constante para todos los valores de la variable independiente. La relacin entre la variable dependiente y cada variable independiente debe ser lineal y todas las observaciones deben ser independientes.
39 | P g i n a
Correlacin de datos.
Establece si existe una relacin entre las variables y responde a la pregunta, Qu tan evidente es esta relacin? La correlacin es una prueba fcil y rpida para eliminar factores que no influyan en la prediccin, para una respuesta dada.
3.2.14.7 Coeficiente de correlacin Pearson
Es una medida de la fuerza de relacin entre las variables x y. Es un numero entre -1 y 1 Es un valor positivo indica que cuando un variable aumenta, la otra variable aumenta Un valor negativo indica que cuando una variable aumenta, la otra variable aumenta Un valor negativo indica que cuando una variable aumenta la otra disminuye Si las dos variables no estn relacionadas, el coeficiente de correlacin se aproxima a 0
Coeficiente de correlacin
Interpretacin
0,80 a 1,00
40 | P g i n a
0,60 a 0,79
0,40 a 0,59
0,20 a 0,59
0, 00 a 0,19
Tabla 4.2 (Tabla de interpretacin de la correlacin de variables) El coeficiente de correlacin no es ms que una medida de resumen, para el cual se utilizara la tabla () como referencia de comparacin de los resultados de correlacin.
41 | P g i n a
Clementine es un conjunto de programas de minera de datos que permite desarrollar rpidamente modelos predictivos mediante tcnicas empresariales y utilizarlos en operaciones empresariales para mejorar la toma de decisiones. Con un diseo que sigue el modelo CRISP-DM, estndar del sector, Clementine admite el proceso completo de minera de datos, desde los propios datos hasta obtener los mejores resultados. Caractersticas: Software propietario de IBM. Licencia no gratuita. Manipulacin visual de datos. Creacin automtica de modelos. No hay necesidad de bases de datos especializadas. Mdulos: Cliente. Servidor. Batch. Compatibilidad: Entornos Windows. Entornos Unix (Solo servidor). Desarrollado en Java.
42 | P g i n a
Es una plataforma de software para aprendizaje automtico y minera de datos escrito en Java y desarrollado en la Universidad de Waikato. Weka es un software libre distribuido bajo licencia GNU-GPL. El paquete Weka contiene una coleccin de herramientas de visualizacin
y algoritmos para anlisis de datos y modelado predictivo, unidos a una interfaz grfica de usuario para acceder fcilmente a sus funcionalidades. La versin original de Weka fue un frontend enTCL/TK para modelar algoritmos implementados en otros lenguajes de programacin, ms unas utilidades para pre procesamiento de datos desarrolladas en C para hacer experimentos de aprendizaje automtico. Esta versin original se dise inicialmente como herramienta para analizar datos procedentes del dominio de la agricultura, pero la versin ms reciente basada en Java (WEKA 3), que empez a desarrollarse en 1997, se utiliza en muchas y muy diferentes reas, en particular con finalidades docentes y de investigacin. Caractersticas: Desarrollado en Java. Desarrollado en Java. Multiplataforma. Interfaz de Usuario. Interfaz de Explorador. Interfaz Experimentador. Interfaz flujo de conocimiento.
43 | P g i n a
Rapidminer (anteriormente, YALE, Yet Another Learning Environment) es un programa informtico para el anlisis y minera de datos. Permite el desarrollo de procesos de anlisis de datos mediante el encadenamiento de operadores a travs de un entorno grfico. Se usa en investigacin educacin, capacitacin, creacin rpida de prototipos y en aplicaciones empresariales. En una encuesta realizada por KDnuggets, un peridico de minera de datos, Rapidminer ocup el segundo lugar en herramientas de analtica y de minera de datos utilizadas para proyectos reales en 2009 y fue el primero en 2010. La versin inicial fue desarrollada por el departamento de inteligencia artificial de la Universidad de Dortmund en 2001. Se distribuye bajo licencia AGPL y est hospedado en SourceForge desde el 2004. Rapidminer proporciona ms de 500 operadores orientados al anlisis de datos, incluyendo los necesarios para realizar operaciones de entrada y salida, pre procesamiento de datos y visualizacin. Tambin permite utilizar los algoritmos incluidos en Weka.
Caractersticas: Desarrollado en Java. Multiplataforma. Representacin interna de los procesos de anlisis de datos en ficheros XML. Permite el desarrollo de programas a travs de un lenguaje de script. Puede usarse de diversas maneras: 1) A Travs de un GUI. 2) En lnea de comandos. 3) En Batch. 4) Desde otros programas a travs de llamadas a sus bibliotecas. Extensible. Incluye grficos y herramientas de visualizacin de datos.
44 | P g i n a
4.
MARCO METODOLOGICO
45 | P g i n a
Los orgenes de CRISP-DM, se remontan hacia el ao 1999 cuando un importante consorcio de empresas europeas tales como NCR (Dinamarca), AG(Alemania), SPSS (Inglaterra), OHRA (Holanda), Teradata, SPSS, y Daimer-Chrysler, proponen a partir de diferentes versiones de KDD (Knowledge Discovery in Databases) [Reinartz, 1995], [Adraans, 1996], [Brachman,1996], [Fayyad, 1996], el desarrollo de una gua de referencia de libre distribucin denominada CRISPDM (Cross Industry Standard Process for Data Mining). A partir del ao 2000, con el gran crecimiento que surgi en el rea de la minera de datos, surgen tres nuevos modelos que plantean un enfoque sistemtico para llevar a cabo el proceso [3]: SEMMA, Catalyst (conocida como P3TQ) y CRISP-DM. Actualmente la gua de referencia ms utilizada en el desarrollo de proyectos de Data Mining. Estructura el proceso en seis fases: Comprensin del negocio, Comprensin de los datos, Preparacin de los datos, Modelado, Evaluacin e Implantacin [5]. La sucesin de fases, no es necesariamente rgida. Cada fase es descompuesta en varias tareas generales de segundo nivel. Las tareas generales se proyectan a tareas especficas, pero en ningn momento se propone como realizarlas. Es decir, CRISP-DM establece un conjunto de tareas y actividades para cada fase del proyecto pero no especifica cmo llevarlas a cabo
El estndar incluye un modelo y una gua, estructurados en seis fases, algunas de estas fases son bidireccionales, lo que significa que algunas fases permitirn revisar parcial o totalmente las fases anteriores. 1) Comprensin del negocio (Objetivos y requerimientos desde una perspectiva no tcnica) Establecimiento de los objetivos del negocio (Contexto inicial, objetivos, criterios de xito)
46 | P g i n a
2) Comprensin de los datos (Familiarizarse con los datos teniendo presente los objetivos del negocio) Recopilacin inicial de datos Descripcin de los datos Exploracin de los datos Verificacin de calidad de datos
3) Preparacin de los datos (Obtener la vista minable o dataset) Seleccin de los datos Limpieza de datos Construccin de datos Integracin de datos Formateo de datos
4) Modelado (Aplicar las tcnicas de minera de datos a los dataset) Seleccin de la tcnica de modelado Diseo de la evaluacin Construccin del modelo Evaluacin del modelo
47 | P g i n a
6) Despliegue (Explotar utilidad de los modelos, integrndolos en las tareas de toma de decisiones de la organizacin) Planificacin de despliegue Planificacin de la monitorizacin y del mantenimiento Generacin de informe final Revisin del proyecto
48 | P g i n a
Captulo V: Desarrollo
5. DESARROLLO
49 | P g i n a
Captulo V: Desarrollo
5.1 METODOLOGIA CRISP-DM APLICADA EN LA INVESTIGACIN.
5.1.1
Situacin Actual: Comuna de Maule, VII Regin, Chile. Descripcin del contexto: CESFAM Maule. La comuna de Maule abarca una superficie de 238,22 km2 y una poblacin de 16.837 habitantes (Censo INE Ao 2002), correspondientes a un 1,68% de la poblacin total de la regin y una densidad de 70,68 hab/km2. Del total de la poblacin, 8.146 son mujeres (40,02%) y 8.691 son hombres (51,62%). Un 59,98% (10.098 hab.) corresponde a poblacin rural, y un 40,02% (6.739 habs.) corresponde a poblacin urbana.
5.1.1.2.1
Mediante reuniones con el personal encargado de bodega, pedimos informacin sobre los 5 medicamentos ms usados del CESFAM, Maule, asociados a la hipertensin y los factores que genera dicha enfermedad, en grandes rasgos, informacin detallada de cada medicamento, para
50 | P g i n a
Captulo V: Desarrollo
as, poder elegir el medicamento correcto y ms importante para poder realizar el modelo predictivo.
5.1.1.2.2 Medicamentos
asociados a la hipertensin
Los 4 medicamentos ms usados en el CESFAM asociados a la hipertensin son: cido Acetil Saliclico, Enalapril, Losartan, Metformina.
5.1.1.2.3 Eleccin
Para elegir el medicamento adecuado para poder realizar el modelo predictivo, nos orientaremos en el frmaco ms solicitado en el Cesfam, Maule. Para ello recurrimos a historial de registro de manejos de medicamentos de forma mensual.
Cantidad farmacia/Mensual Medicamento cido Acetil Saliclico Enalapril 20mg Losartan Metformina 850mg (cajas) 3000 3000 2800 2700
Tabla 5.1 (Muestra Mensual medicamentos hipertensin Cesfam, Maule) En el cuadro se muestra el ingreso promedio mensual de cada medicamento seleccionado, y se optara usar el frmaco Enalapril para nuestra investigacin y su posterior modelo predictivo, este modelo servir para los dems frmacos ya que los factores asociados a la enfermedad son similares.
51 | P g i n a
Captulo V: Desarrollo
5.1.2.3 Eleccin Tcnica minera de datos
Para esta investigacin hemos decido optar por un algoritmo de regresin lineal mltiple, ya que estudiaremos la relacin entre variables independientes (predictoras o explicativas) y otra variable dependiente (criterio, explicada, respuesta).
En el marco terico se definieron tres software como candidatos para ser utilizados en el presente proyecto, la idea de esta etapa es seleccionar la herramienta con la que se trabajara. En la figura 6.2 se muestran las caractersticas de cada herramienta
Grado de Herramientas SPSS Clementine 12.0 Rapidminer 4.5.0 Weka 4.7.0 Plataforma Microsoft Windows Multiplataforma Multiplataforma Si Parcial Parcial De Pago Libre Libre Media Sencilla Compleja SPSS Soporte Licencia complejidad Respaldo
Experiencia en salud
Si No Si
(Figura 5.2. Cuadro comparativo de seleccin de herramientas) Una de las herramientas de software a utilizar es SPSS Clementine 12.0 que funciona bajo plataforma Microsoft Windows, cuenta con soporte y esta aplicacin tiene licencia pago. Tiene una dificultad de uso de nivel medio pero la configuracin de los nodos requiere un conocimiento avanzado. El siguiente candidato es una aplicacin de licencia libre Rapidminer 4.5.0 un software con un grado de complejidad sencilla pero que su diferencia con SPSS Clementine no tiene respaldo, est escrito en java lo que permite ser utilizado en cualquier plataforma que tenga mquina virtual de java.
52 | P g i n a
Captulo V: Desarrollo
Por otro lado est el software Weka 4.7.0, esta es la ltima versin libre de Weka, esta aplicacin al igual que Rapidminer es multiplataforma, esta aplicacin tiene un grado de complejidad alto. Como criterio de seleccin se prioriza como aspecto fundamental la experiencia en rea salud, por lo que se descarta de inmediato Rapidminer, como segundo aspecto importante a la hora de escoger la herramienta de minera de es que SPSS Clementine cuenta con respaldo SPSS que es el encargado de prestar soporte. El tercer aspecto considerado para la seleccin es el nivel de complejidad de la herramienta, ya que siempre es preferible utilizar una herramienta amigable al usuario, por lo que se descarta Weka.
5.1.2.5 Instrumentos
Las Herramientas de ofimtica involucradas en la investigacin, tanto en la recopilacin de la misma como el manejo de datos. Nombre Microsoft Excel 2010 Descripcin Ingreso de datos, Pruebas Correlacin de variables PASWStatistics18 Google Chrome Microsoft Visual Studio 2010 Block de Notas Modelado de datos Descarga de Informacin Desarrollo de la aplicacin Reordenamiento de datos
53 | P g i n a
Captulo V: Desarrollo
5.1.2 COMPRENSIN DE LOS DATOS. 5.1.2.1 Recopilacin inicial de los datos
En esta etapa se hace la recopilacin de las posibles variables que se usaran en el modelo predictivo del medicamento que hemos seleccionado. Para poder identificar las posibles variables recurrimos a citas bibliogrficas para resolver los factores asociados a la enfermedad. Factores asociados a la enfermedad: individuo son varios, estos pueden ser: Sexo Edad Dosis Herencia IMC Cigarro Alcohol Sedentarismo Apnea sueo Los factores asociados a la hipertensin a un
Para llegar a esta informacin nos vimos en la necesidad de hacer encuestas, puesto que la informacin que necesitbamos para poder realizar la investigacin no se nos poda suministrar porque era informacin confidencial del paciente.
54 | P g i n a
Captulo V: Desarrollo
Para esto buscamos informacin del nmero de habitantes de comuna de Maule para obtener el universo de personas dentro de los rangos establecidos por la investigacin (45-69 aos) ya contando con la informacin de las personas que habitan en la comuna de Maule en estos rangos de edad, podemos calcular el tamao de la muestra y as tener un anlisis confiable.
))
Dnde: n: Es el tamao de la poblacin o universo. 4231 personas en el rango de edad de (45-69) la poblacin de Maule (www.deis.cl). K: Es la variable de nivel de confianza en este caso ser de 95,5 %. e: Es el error muestral. p: Este dato es generalmente desconocido y se suele suponer que p=q=0.5 q: Es la proporcin de individuos que no poseen esa caracterstica, es decir, es 1-p. N: Es el tamao de la muestra
Por lo tanto:
55 | P g i n a
Captulo V: Desarrollo
( ( ))
En esta etapa se da inicio a la confeccin de la encuesta mediante a la muestra del total de personas de la edad asignada. Para esto nos dirigimos a diferentes puntos estratgicos del pueblo (CESFAM, Plaza municipal y poblaciones)
5.1.2.5 Visualizacin de los datos obtenidos. Ya obtenidos los datos en la encuesta, con las variables; Nombre, Edad, IMC, Consumo cigarro, Herencia, Sedentarismo, Apnea sueo, Dosis y Ao, fue traspasada a una planilla Excel 2010 vase figura 5.3. Para su posterior manejo y filtrado.
56 | P g i n a
Captulo V: Desarrollo
En esta fase se da inicio al filtrado de datos, para as dejar solo las variables relevantes para nuestra investigacin, para ello se utiliz el software PASWStatistics18 para crear una extensin .sav, y as Clementine pueda leer la informacin que est en nuestro Excel para hacer posteriormente los filtrados correspondientes y variables que no sern de gran importancia para nuestra investigacin.
57 | P g i n a
Captulo V: Desarrollo
En esta fase procede a filtrar la informacin para ir descartando y seleccionando solo las variables que sirven para el estudio y aplicacin de la regresin lineal mltiple tal como lo muestra la figura 5.5
58 | P g i n a
Captulo V: Desarrollo
Edad: Seleccionamos esta variable porque existe un rango de edades (45-69) que es el grupo donde mayormente se presenta la hipertensin y por lo tanto el uso del medicamento. Herencia: Seleccionamos esta variable porque existe la relacin entre enfermos por hipertensin y los antecedentes familiares o herencia. Puesto que al tener familiares con este sntoma habr mayor probabilidad de que la persona padezca la enfermedad. Imc: Con este dato nos provemos del estado de salud de la persona y es un indicador importante que se relaciona con la hipertensin. Cigarro: Seleccionamos esta variable porque inmediatamente despus de fumar un cigarrillo, por efecto de la nicotina, aumentan en el organismo los niveles de ciertas sustancias llamadas
59 | P g i n a
Captulo V: Desarrollo
catecolaminas que provocan contraccin de los vasos sanguneos. Como consecuencia, es necesaria ms fuerza para que la sangre se mueva por conductos ms estrechos y es as como se elevan las cifras de presin arterial. Alcohol: Seleccionamos esta variable porque se cree que el alcohol precipita la liberacin de la hormona epinefrina (adrenalina) que contrae los vasos sanguneos. Reducir el consumo de alcohol puede disminuir la presin arterial. Sedentarismo: Los individuos que practican ms horas de actividades sedentarias interactivas uso de ordenador y conduccin-, posiblemente acompaadas por una mayor carga de estrs mental, tienen hasta un 50% ms de riesgo de desarrollar hipertensin arterial.
Apnea Sueo: Debido a la breve parada respiratoria durante el sueo, el contenido de oxgeno en
sangre disminuye fuertemente. Esto puede hacer que el corazn y el cerebro no reciban suficiente oxgeno. Como reaccin de alarma del organismo, se libera mayor cantidad de hormonas que estimulan la circulacin. En consecuencia, los vasos sanguneos se contraen, produciendo elevaciones importantes de la presin arterial sistlica y diastlica nocturna. Dosis: La dosis es la cantidad asignada a personas que ya sufren hipertensin, por lo cual es una variable importante ya que nos entrega la cantidad de Enalapril que ingiere cada individuo dependiendo su estado.
En esta fase consideraremos que tan confiables son las variables que hemos seleccionado, Clementine (Correlacin entre variables Pearson) nos dir que tan fuertes sern estas variables, para posteriormente calcular el grado de correlacin entre ellas. Vase figura 5.6.
60 | P g i n a
Captulo V: Desarrollo
Figura 5.6 (Correlacin entre variables Pearson.) En la figura 5.6 se puede apreciar que las variables tienen una fuerte correlacin individual, excepto la variable Sedentarismo, ya que las personas de este grupo de edad, escasamente hacen actividad fsica, este caso no se da solo en Maule, ya que la tendencia se marca en todo chile el alto sedentarismo de la poblacin, por esta razn hemos decidido excluir esta variable al momento de aplicarla en la frmula de regresin lineal mltiple, ya que tiene una baja relacin y puesto que el 98% de las personas en ese rango es sedentaria. As se dar ms importancia a las variables ms fuertes, como son la herencia, consumo de cigarros y consumo de alcohol
5.1.4 MODELADO.
En esta fase se debe seleccionar cules sern las variables dependientes e independientes (Salida y Entrada). Vase figura 5.7.
61 | P g i n a
Captulo V: Desarrollo
En esta fase se darn a conocer el resumen y relacin general de todas las variables seleccionadas, para ello Clementine SPSS nos entrega un resumen del modelo resultante con el grado de correlacin general existente. Vase Tabla 5.1
62 | P g i n a
Captulo V: Desarrollo
5.1.4.2.1 Resumen correlacin SPSS Clementine.
Tabla 5.1 (Resumen de la aplicacin SPSS) La informacin que nos entrega la figura corresponde al resumen del modelo y en ella se muestra el coeficiente de correlacin R y el coeficiente de determinacin . El valor R = 0,870 esto
indica que existe una relacin directa y relativamente fuerte entre las variables. Como bien se sabe, hasta este momento solo se puede hablar de relacin y grado de relacin y no se puede afirmar causalidad. El valor de = 0,757 nos indica que el 0,757 % de la variabilidad de la variable y es explicada
La expresin
63 | P g i n a
Captulo V: Desarrollo
Cuando el nmero de casos es pequeo y el nmero de variables independientes aumenta corregida es considerado un buen estimador de valor poblacional. En este ejemplo, como slo participa una variable independiente el valor son relativamente similares.
5.1.4.2.2 Resumen correlacin Excel.
Como podemos ver en la tabla la correlacin de variables que nos arroj Excel es de 0,757, es una correlacin aceptable dentro del rango establecido por las ciencias sociales y biolgicas. En resumen podemos apreciar que ambas pruebas hechas en SPSS Clementine y Excel arrojan un R muy aceptable para seguir con nuestro modelo ya que las variables que se trabajan para nuestra prediccin tienen una alta correlacin entre ellas.
5.1.4.3 Coeficientes de regresin resultantes de la matriz del modelo. En esta etapa se mostraran los coeficientes resultantes de cada variable mediante la matriz del modelo para cada variable asignada.
64 | P g i n a
Captulo V: Desarrollo
Tabla 5.2 (Tabla de coeficientes (a)) En esta tabla se observa la constante de la regresin y el coeficiente no estandarizado correspondiente a la Apnea Sueo, Consumos de cigarros (Unidad), Edad, Herencia, IMC, Consumo de alcohol, sedentarismo y el residuo o constante del modelo. Los coeficientes B van a indicar el incremento de las variables, por el incremento unitario de la correspondiente variable explicativa.
Estos coeficientes B ms la constante, sern utilizados en nuestra formula de Regresin lineal mltiple para nuestro modelo predictivo.
5.1.4.4 Aplicacin frmula matemtica para el modelo predictivo
En esta etapa daremos confeccin a nuestra formula algortmica que ser la que estimara y predecir el consumo del medicamento de forma mensual para la aplicacin del sistema.
Formula predictiva consumo de medicamento:
65 | P g i n a
Captulo V: Desarrollo
Dnde:
Cantidad de dosis estimada Edad promedio poblacin IMC promedio poblacin Consumo cigarros promedio poblacin Consumo alcohol promedio poblacin Herencia promedio poblacin Apnea de sueo promedio poblacin Residuo o constante, contiene el efecto de
Tabla 5.3 (Variables y coeficientes utilizados en la regresin lineal mltiple de manera general)
En esta etapa desglosaremos la frmula para los casos que hemos propuesto en nuestro seminario sobre el consumo de dosis de un individuo, y el consumo general de la poblacin mediante los factores de riesgo de la enfermedad.
66 | P g i n a
Captulo V: Desarrollo
Y Cantidad de dosis estimada Individuo Edad Individuo IMC individuo Consumo cigarros individuo Consumo alcohol individuo Herencia promedio individuo Apnea Sueo Individuo ( 0,1) Residuo o constante, contiene el efecto de R todas las variables distintas de y
Tabla 5.4 (Variables y coeficientes utilizados en la regresin lineal mltiple de manera individual)
Cabe recordar que en este caso el sedentarismo se excluye de la formula, ya que en el resultado de la muestra de la encuesta existe un 98% de personas que no hacen actividad fsica, por esta razn no afecta en el resultado de la prediccin, dndole importancia a variables fuertes e importantes como la herencia, consumo de alcohol y cigarros. De la tabla 5.2 resultante podemos determinar la funcin de regresin para el consumo de un individuo es:
67 | P g i n a
Captulo V: Desarrollo
Y Cantidad de dosis estimada Edad promedio poblacin IMC promedio poblacin Consumo cigarros promedio poblacin Consumo alcohol promedio poblacin Herencia promedio poblacin Apnea de sueo promedio poblacin Residuo o constante, contiene el efecto de R todas las variables distintas de y K Cantidad poblacin para generar la prediccin
Tabla 5.4 (Variables y coeficientes utilizados en la regresin lineal mltiple de la poblacin general)
En este caso se incluye el sedentarismo, ya que en la regresin se introducirn la cantidad promedio de personas sedentarias que hay en el pueblo, todas estas variables multiplicadas por la variable K
((
68 | P g i n a
Captulo V: Desarrollo
5.1.5 EVALUACIN.
En esta etapa realizaremos las pruebas correspondientes con los resultados obtenidos de nuestra regresin lineal mltiple para nuestros dos casos. Para realizar las pruebas correspondientes se utiliz Excel 2010. Prueba Prediccin de uso de medicamento de un individuo de manera Mensual:
Tabla 5.5 (Pruebas de prediccin de manera individual) Como se puede ser en la Tabla 5.5 se realizaron las pruebas correspondientes donde se aplic la frmula de consumo del medicamento de manera individual, esta prediccin hace referencia a cuantas dosis y/o cajas debera consumir el individuo. Este caso en particular es muy especial, ya que asignamos a un individuo de 67 aos, con un IMC de 30 (obeso), consume 40 cigarrillos diarios, toma 5000 cc de alcohol al mes (5 litros), no tiene herencia de enfermedad y sufre apnea de sueo ( 0,1), este modelo arroja que el individuo debera consumir 56 dosis al mes dando 2 cajas de forma mensual, este caso hace que el sujeto tenga la enfermedad de manera crnica, ya que tiene que consumir 2 dosis diarias aprox.
69 | P g i n a
Captulo V: Desarrollo
Prueba Prediccin de uso de medicamento de la poblacin de manera Mensual:
Tabla 5.6 (Pruebas de prediccin de poblacin manera mensual) En esta prueba se ingresa un promedio de edad de 56 aos, un promedio de IMC de la poblacin de 26, un consumo de 10 cigarrillos mensual, 500 cc de alcohol mensual, una herencia de la enfermedad de 1 y apnea de sueo de 1 (0,1), arroja un consumo de 64177 dosis, dando 2292 cajas de forma mensual.
5.1.6
DESPLIEGUE.
5.1.6.1 Planificacin de despliegue En esta etapa daremos paso al despliegue de nuestra investigacin, para ello disearemos e implementaremos un sistema con los datos obtenidos mediante la regresin lineal mltiple, este sistema tendr los mismos resultados que las pruebas hechas en Excel, a diferencia que el software diseado ser mucho ms amigable para el usuario final.
70 | P g i n a
Captulo V: Desarrollo
5.1.6.2 Prototipo diseo software.
71 | P g i n a
6. CONCLUSIN
72 | P g i n a
73 | P g i n a
74 | P g i n a
7. BIBLIOGRAFA
75 | P g i n a
(Orallo, 2004) Introduccion a la minera de datos. Madrid, Espaa: Ediciones Pearson Prentice hall. (B.Moxons, 1996). http://www.ugr.es/~jalberto/Investigacion/Casta_eda4.pdf (Csar Krall, 2013).Las bases de datos y la minera de datos
http://www.aprenderaprogramar.com/index.php?option=com_content&id=258&Itemid=164
(Trondheim, 1997). Minera de datos como proceso exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/MineriaDatosYany2008.pdf (Han.J.Kamber, 2001).Proceso KDD http://academia.edu/1059656/Mineria_de_datos_conceptos_y_tecnicas (Hernndez Orallo, J., Ramirez Quintana, M. J., & Ferri Ramrez, C,2004). Introduccin a la Minera de Datos. Madrid: Pearson. (Morgan Kaufmann, 1999).Proceso de extraccin de conocimiento
http://www.webmining.cl/2011/01/proceso-de-extraccion-de-conocimiento
(E Jimnez-Contreras, 1993).Metodos Bivariantes http://ec3.ugr.es/publicaciones/Jimenez_Contreras,_E_Resenna_del_libro_Bibliometria_analisi s_bivariante.pdf (Gutirrez, J.M. et, 2004).Redes Neuronales
76 | P g i n a
77 | P g i n a
8. ANEXOS
78 | P g i n a
Anexo I.1.- Poblacin por grupos de edad segn Regin, comuna y sexo (www.deis.cl,2008)
79 | P g i n a
80 | P g i n a