Sunteți pe pagina 1din 15

PROYECTO MINERIA DE DATOS – ENTREGA 3.

AUTORES:

1912010704 – Deisy Bibiana Chavarría Arango

1912010773 – Wendy Sabina Valencia Garcés

1912010677 – Anderson Peñarete Cepeda

191201799 – Sergio Andres Murillo Castro

ASESOR:

HUGO ORTIZ

INSTITUCIÓN UNIVERSITARIA POLITÉCNICO GRANCOLOMBIANO

FACULTAD DE INGENIERÍA, DISEÑO E INNOVACIÓN

ESPECIALIZACIÓN EN GERENCIA DE PROYECTOS EN INTELIGENCIA DE

NEGOCIOS

BOGOTÁ, D.C. 2020


TABLA DE CONTENIDO

3. EVALUCACIÓN.....................................................................................................................3

3.1. Evaluación de los resultados........................................................................................................3

3.2. Proceso de revisión......................................................................................................................5

3.3. Determinación de los próximos pasos.........................................................................................7

4. EVALUCACIÓN.....................................................................................................................9

4.1. Desarrollo del plan.......................................................................................................................9

4.2. Plan de supervisión y mantenimiento..........................................................................................9

4.3. Producir Reporte Final...............................................................................................................10

4.4. Revisar el Proyecto....................................................................................................................11

5. CONCLUSIONES..................................................................................................................13

BIBLIOGRAFÍA...........................................................................................................................15
3. EVALUCACIÓN

Evaluación de los resultados

Es importante para la evaluación de resultados, recordar el objetivo general del negocio en cuanto el

estudio de minería de datos que se viene realizando, el cual se planteó de la siguiente manera: Disminuir

los casos de enfermedad laboral por exposición a agentes químicos calificados como cancerígenos por la

IARC (Centro Internacional de Investigaciones sobre el Cáncer) en el desarrollo de las diferentes

actividades productivas con el fin de cuidar la vida del trabajador y disminuir los costos de la empresa por

el pago de pensión especial a sustancias cancerígenas.

Teniendo claro lo anterior se logró identificar al aplicar el modelo árbol de decisión J48 que de los cuatro

agentes químicos evaluados considerados como cancerígenos dos de ellos han reportado riesgo alto en las

mediciones realizadas en lo largo de la historia: Benceno con 341 registros y sílice con 95 registros por su

parte en el caso de formaldehido y arsénico a pesar de ser considerados como cancerígenos al realizar las

mediciones a lo largo de la historia su riesgo ha sido bajo. Por lo tanto, la empresa ya tiene un foco que lo

encaminara en el cumplimiento de sus objetivos conociendo que los químicos cancerígenos de interés son

el Benceno y la sílice. Por lo cual se podría disminuir el pago de pensión especial en la empresa dado que

según los resultados obtenidos no se debería pagar por los cuatro agentes de riesgo si no solo por dos de

ellos (Benceno, sílice) siempre y cuando las condiciones de operación de la empresa no sufran

modificaciones significativas.

Gráfica 1. Árbol de decisión J48

Fuente: Elaboración propia.


Una vez se conoce que los agentes de riesgo químicos de interés para el pago de pensión especial

en la compañía son la sílice y el benceno con la gráfica que se obtuvo en la Red neuronal

(MultilayerPerceptron) se pudo identificar que el cargo con mayor exposición fue el fabricante de llantas

y operador. En el caso del operador se expone a ambos agentes de riesgo sílice y benceno y el fabricante

de llantas que se expone principalmente al contaminante benceno.

Gráfica 2. Red neuronal.

Fuente: Elaboración propia

Gráfica 3. Cargos Vs Contaminante

Fuente: Elaboración propia.


Por lo tanto, los resultados obtenidos en el estudio son criterios de éxito del negocio dado que se

generó un foco de intervención del riesgo químico al conocer los dos agentes de riesgo que presentan un

riesgo para la salud de los trabajadores. Adicional de poder conocer los agentes de riesgo de interés, se

pudo determinar los cargos que más se exponen a estos agentes cancerígenos que representan un riesgo

para la salud, por lo cual la empresa puede enfocar su inversión de control del riesgo teniendo en cuenta

estos resultados, adicional puede generar el pago de pensión especial en estos casos específicos

disminuyendo el costo generado por estos pagos.

Proceso de revisión.

Como ya se mencionó los algoritmos empleados: Árbol de decisión (J48, Random tree) y redes

neuronales resultaron eficientes para las necesidades del negocio en materia de salud en el trabajo.

Al trabajar con el algoritmo de Árbol de decisión (tipo j48 y Random tree) y red neuronal

(MultilayerPerceptron), las variables de interés fueron: Peligroso (Pívot), cargo, agente de riesgo y % de

Índice de riesgo, las cuales fueron eficientes debido a que permitieron identificar el grado de peligrosidad

de los contaminantes químicos cancerígenos a los cuales se exponen los trabajadores. Se identificó que

los datos se clasificaron correctamente, el 100% de las instancias del grupo de datos. Por su parte los

valores de la columna ROC área, son iguales a 1, lo que indica una perfecta bondad de ajuste para los

datos. En cuanto a la matriz de confusión se pudo observar que solo la diagonal principal tuvo valores

diferentes de cero, lo que reafirma que los algoritmos usados son adecuados para este ejercicio. Sin

embargo resultaría también relevante contar con atributos que actualmente no se tienen que podrían ser

relevantes para la intervención del riesgo como por ejemplo: si en el área se cuenta con controles de

ingeniería (sistemas de ventilación, aislamiento, encerramientos), administrativos (sistemas de vigilancia

epidemiológicos, capacitaciones) o en la persona (uso de protector respiratorio), de manera que

conociendo los agentes de riesgo y cargos prioritarios de intervención se pudiera identificar de manera

rápida si estos cuentan con algún tipo de control y poder determinar si estos deben ser reforzados, si se

deben cambiar o si están siendo eficientes en la atenuación del riesgo.


Imagen 1. Árbol de decisión de tipo j48

Fuente: Elaboración propia.

Imagen 2. Árbol de decisión de tipo RandomTree

Fuente: Elaboración propia.


Imagen 3. Red neuronal (MultilayerPerceptron)

Fuente: Elaboración propia.

Determinación de los próximos pasos.

 Redefinir el pago de pensión especial por agentes cancerígenos: A la fecha la empresa realiza

pago de pensión de 4 agentes de riesgo químicos: Benceno, sílice, formaldehido y arsénico. Con

el estudio realizado se identificó que solo dos de ellos representan un riesgo para la salud a la

fecha, por lo cual solo debe realizar de pagos de pensión por incapacidad laboral, para los agentes

de Benceno y sílice.

 Ejecutar controles en las áreas con exposición: Debido a que se conoció que para los agentes de

riesgo Benceno y sílice se presenta un grado de peligrosidad Alto, se sugiere hacer un recorrido

por las áreas donde existen estos contaminantes y hacer una evaluación con ingenieros expertos

acerca de los controles de ingeniera, administrativos y del individuo que existen en el área y

cuáles deben ser intervenidos con el fin de buscar disminuir el riesgo.

 Continuar realizando las mediciones ocupacionales: Estas mediciones deben seguir realizándose a

todos los agentes de riesgos cancerígenos en los tiempos establecidos por la normatividad, a pesar
que el arsénico y formaldehido presentaran peligro Bajo, deben continuar midiéndose al igual que

todos los agentes cancerígenos que ingresen al proceso productivo.

 Continuar con la ejecución de bases de datos: todas las mediciones que se realicen deben estar en

una base de datos, consecutiva con las realizadas a la fecha. Se sugiere incluir las siguientes

variables en las bases de datos, adicionales a las ya existentes: Controles de ingeniería, controles

administrativos, controles del individuo. De manera que se indique si cuenta o no con estos.

 Capacitar en base de datos: Capacitar a la persona encargada de ejecutar las bases de datos de las

mediciones en su correcto diligenciamiento. De manera que los datos que allí se encuentren

tengan una buena calidad permitiendo que la comprensión y preparación de los datos en el

momento de ser requerido sea un proceso que no implique mucho tiempo.


4. EVALUCACIÓN

Desarrollo del plan

De acuerdo con los resultados obtenidos en las fases anteriores es importante definir una lista de

tareas que son necesarias para un despliegue exitoso, dentro estas tareas se proponen las siguientes:

 Se resumirán los modelos, hallazgos y resultados; con el fin de determinar los modelos que se

podrían integrar en los sistemas de información y bases de datos de la compañía y así definir los

datos y descubrimientos que se presentara a las partes interesadas.

 Se debe crear un plan de trabajo en el que se estipule el paso a paso del despliegue e integración

con los sistemas de información que disponga la compañía. En este plan de trabajo se deben

detallar todos los requisitos técnicos de la integración.

 Por cada uno de los resultados obtenidos, se crearán planes para la difusión de la información a

las partes interesadas.

 Se debe considerar como controlar el despliegue y e identificar las posibles dificultades que se

pueden presentar y establecer un plan de contingencia.

Plan de supervisión y mantenimiento

Como en todo proyecto se deben controlar y dar mantenimiento a los procesos que se realicen,

con el fin de asegurar el correcto funcionamiento de la solución que se desplegó, es por esto por lo que es

necesario considerar la siguiente lista de tareas con las que se puede llegar a supervisar y dar

mantenimiento a la posibles inconvenientes que se puedan presentar:

 Se determinará las variables que se necesitan controlar cada vez que se realicen mediciones, que

para este proyecto será: % IR, contaminante, riesgo y Cargo. Ya que estás pueden estar sujetas

variaciones considerables dada su naturaleza y estacionalidad.

 Se tendrán que validar todos los nuevos datos que se registren en la base de datos, con el fin de

supervisar que se homologuen con los ya existentes y no generen conflictos por el formato.
 Cada mes se evaluarán los resultados suministrados por la herramienta, con el fin de identificar

nuevos hallazgos o determinar si el modelo se debe cambiar, si se llegase a presentar que los

resultados son muy similares o iguales. En este caso se seguirán controlando los cargos con

mayor exposición a los agentes cancerígenos y la determinación de cuál de ellos es el más

peligroso.

 Si el modelo implementado ya expiro, se debe considerar implementar uno nuevo que ayude a

conseguir nuevos objetivos. Cada 3 meses se realizan comités con las partes interesadas, en los

que se de determinaran nuevos alcances del proyecto de minería datos y la formulación de nuevos

objetivos que ayuden a la compañía a resolver problemas que se estén presentado o a lograr

nuevas metas que se marquen.

 También es importante identificar si el modelo implementado responde y soluciona

satisfactoriamente las necesidades por las cuales se desarrolló el proyecto de minería de datos, es

decir, si los resultados obtenidos ayudan a responder los objetivos planteados. En este caso el uso

del a herramienta Weka, permitió identificar los agentes cancerígenos más peligros y los cargos

que más exponen a estos.

Producir Reporte Final

Gracias al uso de la herramienta Weka se determinó que los agentes cancerígenos más peligrosos

para los empleados de la compañía son el Benceno y la Sílice. También identificó que los cargos de

mayor exposición son: el fabricante de llantas y el operador. De acuerdo a lo mencionado anteriormente,

a continuación, se realiza una breve descripción del uso del algoritmo j48 en la herramienta de minería de

datos:

- En primer lugar, se realiza el cargue del archivo de extensión arff.

- Después se hace clic en la pestaña “Classify” de la barra de técnicas con las que cuenta la

herramienta.

- Luego se hace clic en el botón “Choose”


- Se hace clic en la opción “Trees”

- Se selecciona el algoritmo j48

- Se hace clic en el botón “Start”

- Con los resultados calculados por la herramienta, se analizan los valores de la columna “ROC

AREA”, si son muy cercanos a uno, significa que el algoritmo es adecuado para el análisis de los

datos, si se encuentran por debajo de 0,5 significa que no se presenta una buena bondad de ajuste,

por lo que no sería conveniente utilizar ese algoritmo. Para este proyecto se utilizó el algoritmo

j48 y el RandomTree, con resultados óptimos.

- También se realiza el análisis de la matriz de confusión, en donde se evalúa que la suma de los

valores de la diagonal principal, sean mayores que los de la diagonal secundaria. Si esto sucede se

confirma la buena bondad de ajuste que presentan los datos al algoritmo.

Luego de realizar este análisis, se procede a obtener la representación gráfica del árbol de decisión, que

nos indica los casos y los diferentes resultados que se pueden obtener de acuerdo a los datos ingresados.

Revisar el Proyecto

Durante la ejecución del proyecto se pudo determinar la importancia que tiene la minería de datos para la

toma de decisiones en la compañía en temas de salud en el trabajo. En el caso del estudio de los agentes

cancerígenos algunas de las fases demandaron más tiempo que otras; por ejemplo, la fase de preparación

de los datos fue una de las más largas, dado que la base de datos no tenía un orden estructurado y todas

las personas que realizaban las mediciones digitaban la información de forma diferente haciendo que la

selección, limpieza y construcción de los datos fueran más tediosas. Sin embargo, se logra comprender y

preparar los datos lo que permitió el correcto modelamiento de la información dando cumplimiento a los

objetivos establecidos. En la etapa de modelamiento al ingresar los atributos al software de Weka la

variable pivote inicial era el “% de índice de riesgo”, al querer obtener la gráfica esta no era clara dado la

cantidad de datos que se tenían de este atributo, por lo cual se opta por tomar como atributo.
“Peligrosidad” la cual estaba asociada al “% de índice de riesgo” lo que permitió que se pudiera tener una

mejor comprensión de los datos obtenidos, dando respuesta a las necesidades de la compañía.
5. CONCLUSIONES

Las técnicas de minería de datos son herramientas que contribuyen a la toma de decisiones

permitiendo a las empresas implementar, mejorar, comprender y valorar la gestión de los datos como

recursos existentes que impactan en los resultados finales y objetivos de las organizaciones admitiendo

interpretar un nuevo rumbo tomando como referencia los datos históricos obtenidos a través del tiempo.

Es de vital importancia entender y conocer el funcionamiento del negocio al cual se va a realizar

el proyecto, ya que de esta manera se pueden identificar las problemáticas que se presentan

cotidianamente y así formular objetivos que ayuden a la solución de estos a través de los diversos

algoritmos de minería de datos.

Se pudo ver la importancia de una correcta preparación de los datos, dado que esto encamina el

proyecto a una mejor adaptación de las técnicas de Data Mining, la cual es la etapa posterior a esta fase.

Al implementar estas etapas a la base de datos objeto de estudio: Selección de datos, limpieza de datos,

estructuración de datos, integración y formateo de los datos, se pudo tener una mayor familiarización y

entendimiento de las variables, que llevo en muchas ocasiones al equipo de trabajo a hacer un estudio

detallado de cada una de las variables objeto de estudio. Todo lo anterior se considera un proceso valioso

e importante que encamina el proyecto al cumplimiento de los objetivos planteados.

En la etapa de modelación al realizar pruebas con varios algoritmos los que resultaron adecuados

y se ajustaron a una correcta bondad de ajuste fueron el: Árbol de decisión (J48, Random tree) y redes

neuronales los cuales permitieron definir que los dos agentes cancerígenos que vienen presentando un

riesgo para la salud de los trabajadores son el Benceno y la sílice. Adicional los cargos más expuestos

corresponden a fabricante de llantas y operario.

Al hacer la evaluación del estudio de minería de datos para los agentes cancerígenos de la

organización se confirma que los logaritmos empleados fueron eficientes para dar conclusiones

importantes con criterios de éxito para el negocio. Adicional se logra identificar que pueden ser incluidos

para futuros estudios atributos importantes tales como: controles de ingeniería (sistemas de ventilación,

aislamiento, encerramientos), administrativos (sistemas de vigilancia epidemiológicos, capacitaciones) o


en la persona (uso de protector respiratorio) de manera que permitan la intervención del foco del riesgo de

una manera más rápida y oportuna.


BIBLIOGRAFÍA

 Guía de CRISP-DM de IBM SPSS Modeler. Consultado el 24 de enero de 2020. Recuperado de:

https://docplayer.es/61368275-Manual-crisp-dm-de-ibm-spss-modeler.html

S-ar putea să vă placă și