Datos Aplicado al Anlisis de la Desercin en Carreras de
Informtica Utilizando Herramientas Open Source J. Germn A. Pautsch 1 , Horacio D. Kuna 2 , Antonia E. Godoy 3 1,2 Dpto. Informtica. Facultad de Ciencias Exactas, Qumicas y Naturales. Universidad Nacional de Misiones 3 Dpto. Matemtica. Facultad de Ciencias Econmicas. Universidad Nacional de Misiones
(3300) Posadas. Argentina 1 gpautsch@fceqyn.unam.edu.ar, 2 hdkuna@unam.edu.ar, 3 godoy@fce.unam.edu.ar Resumen. En el presente trabajo se realiz un proceso de minera de datos para generar conocimiento en base a patrones acadmicos, factores sociales y demogrficos, que caractericen a los estudiantes, con la finalidad de pronosticar alumnos desertores de la Carrera Analista en Sistemas de Computacin de la Facultad de Ciencias Exactas, Qumicas y Naturales de la Universidad Nacional de Misiones. Como fuente de datos de utiliz el Cubo 04 Desgranamiento, exportado del Sistema de Gestin Acadmica SIU-Guaran. Los modelos obtenidos se utilizaron para clasificar a los alumnos de otras cohortes. El trabajo se desarroll bajo la metodologa de libre difusin Crisp-DM y con herramientas open source. La calidad de los modelos obtenidos a travs de la clasificacin con rboles de decisin y redes bayesianas superaron ampliamente las expectativas. Palabras Clave: Minera de Datos, Clasificacin, Pronsticos, Desercin Universitaria, Perfiles de Alumnos. 1 Introduccin Se estima que las bases de datos (BD) de las organizaciones se duplican cada veinte (20) meses, segn W.J. Frawley y otros [1]. Lamentablemente las tcnicas de anlisis de informacin no han tenido un desarrollo equivalente. La Universidad Nacional de Misiones cuenta con el Sistema de Gestin Acadmica SIU-Guaran (SIU-G) [2]. El sistema, produce una gran cantidad de datos, los cuales pueden ser muy valiosos, pero debido a su volumen resultan muy difciles de analizar. Dentro de esta masa de datos hay informacin oculta de gran importancia que se podra llegar a descubrir con tcnicas de minera de datos (MD). CACIC 2011 - XVII CONGRESO ARGENTINO DE CIENCIAS DE LA COMPUTACIN 1027
Este artculo se ha estructurado de la siguiente manera: en la seccin 2 se expone el objetivo principal del mismo, luego en la seccin 3 se desarrolla una muy breve revisin de los principales conceptos de minera de datos, seguidamente en la seccin 4 se indicarn los recursos disponibles y el software utilizado, para continuar en la seccin 5 con la metodologa seguida y en la seccin 6 presentar algunos resultados obtenidos. Para finalizar en la seccin 7 se brindan las conclusiones y trabajos futuros, y en la seccin 8 las referencias consultadas. 2 Objetivo principal El objetivo es realizar una MD, sobre las cohortes que se encuentran entre los aos 2001 y 2006, a travs de tcnicas supervisadas, sobre el Cubo 04 exportado de la BD del SIU-G. De esta forma se busca determinar cules son las tcnicas, algoritmos ptimos para extraer el conocimiento de la BD y as, confeccionar modelos para posteriormente intentar pronosticar con cierto grado de certeza, y en base a patrones acadmicos, factores sociales y demogrficos, si un alumno posee o no caractersticas que aumenten su probabilidad de desertar de la carrera Analista en Sistemas de Computacin. La meta es lograr disear modelos cuya calidad de prediccin o clasificacin supere el 70%. Por otra parte se buscar estandarizar y automatizar los procesos E.T.L. (Extraccin, Transformacin y Carga de Datos) para que cada unidad acadmica pueda realizar la MD sobre la informacin exportada del SIU-G 3 Revisin conceptual La MD se define formalmente como un conjunto de tcnicas y herramientas aplicadas al proceso no trivial de extraer y presentar conocimiento implcito, previamente desconocido, potencialmente til y humanamente comprensible, a partir de grandes conjuntos de datos, con objeto de predecir, de forma automatizada, tendencias o comportamientos y descubrir modelos previamente desconocidos [3]. Fundamentalmente, la diferencia de la MD con otras tcnicas reside en que permite construir modelos de manera automtica. Cabe destacar que la MD es una etapa dentro de un proceso ms amplio llamado Descubrimiento de Conocimiento en BD (Knowledge Discovery in Data Base KDD). En trminos estrictamente acadmicos, los trminos MD y KDD no deben utilizarse de manera indistinta. La MD es un paso esencial en el KDD que utiliza algoritmos para generar patrones a partir de los datos pre procesados [4] (Fig. 1). CACIC 2011 - XVII CONGRESO ARGENTINO DE CIENCIAS DE LA COMPUTACIN 1028
Fig. 1. Posicionamiento de la MD dentro de las etapas del KDD El concepto de MD no es nuevo, pero han sido necesarios varios aos de desarrollo para que esta tcnica pudiera ser utilizada de manera sencilla. La MD genera modelos que pueden ser descriptivos o predictivos [5].
Descriptivos o No Supervisados: este modelo aspira a descubrir patrones y tendencias sobre el conjunto de datos sin tener ningn tipo de conocimiento previo de la situacin a la cual se quiere llegar. Descubre patrones en los datos analizados. Proporciona informacin sobre las relaciones entre los mismos. Predictivos o Supervisados: crean un modelo de una situacin donde las respuestas son conocidas y luego, lo aplica en otra situacin de la cual se desconoce la respuesta. Conociendo y analizando un conjunto de datos, intentan predecir el valor de un atributo (Etiqueta), estableciendo relaciones entre ellos.
Uno de los factores claves que define la verdadera MD es que la aplicacin misma realiza el anlisis sobre los datos. En otros casos, el anlisis es guiado por una interaccin con el usuario. Las aplicaciones que no son, en algn grado, auto guiadas estn realizando anlisis de datos y no MD. 4 Recursos disponibles 4.1 Fuente de datos Como se mencion anteriormente, la Universidad Nacional de Misiones cuenta con el SIU-G. Realizando un relevamiento preliminar, se observ que en el mismo existe un mdulo llamado Interfaz que exporta datos orientados al OLAP (On Line Analytical Process Procesamiento Analtico En Lnea) y abarcan diferentes temticas. Luego de analizar detalladamente la documentacin que describe cada opcin de exportacin [6], se determin que el Cubo 04 Desgranamiento, puede ser de gran utilidad para CACIC 2011 - XVII CONGRESO ARGENTINO DE CIENCIAS DE LA COMPUTACIN 1029
el presente trabajo, ya que aborda la temtica de la desercin desde el punto de vista acadmico, social y demogrfico. Luego de aplicados los procesos de E.T.L., a continuacin la Tabla 1 muestra la estructura y los nombres de los atributos de la Tabla DMS_C4 (Data Mining Source Cubo 4), creada para el anlisis del Cubo 04 Desgranamiento. Tabla 1. Centralizacin de la informacin del Cubo 4 Desgranamiento para el proceso de MD. Atributos Descripcin Valores ACT_ANUAL Actividad realizada durante el primer ao acadmico Incluye cantidad de exmenes rendidos, promociones y equivalencias (no importa el resultado de los mismos). Es decir todo lo que refleje intencin de aprobar una materia. Sin actividad, 0<A<3, 2<A<6, A>5 SEXO Gnero de la persona. mujer, Varon SIT_ESTUDIANTE Se establecen dos categoras de estudiantes: los que no tuvieron actividad y los que tuvieron actividad con los ltimos dos aos Activo (A), Pasivo (P) ESTUDIO_PADRES Indica el mayor nivel de estudios alcanzado por los padres del alumno. No Posee, Pri., Sec., Uni. LOCALIDAD Localidad en la que se encuentra el colegio secundario del que egres el estudiante Posadas, Apostoles, Otras Loc. COLEGIO Orientacin del colegio secundario del que egres el estudiante Comercial, Bachiller, Tcnico, etc PROVINCIA Provincia a la que corresponde la anterior localidad. Misiones, Correntes, Otras Prov. DIST_SEDE Distancia en kms a la sede donde se dicta la carrera desde la localidad de procedencia. De 0 a 50 De 51 a 150 Etc. 4.2 Software utilizado Las herramientas software utilizadas se enmarcas todas dentro de la filosofa open source, empleando para disear el modelo y realizar la MD RapidMiner v5.0 [7], para los procesos E.T.L. Pentaho Data Integration v4.1.0(PDI) [8] y para la crear la Almacn de Datos MySQL v5.0. Este ultimo recomendado por la Suite Pentaho. CACIC 2011 - XVII CONGRESO ARGENTINO DE CIENCIAS DE LA COMPUTACIN 1030
5 Metodologa La metodologa seleccionada fue CRISP-DM [9], ya que esta abarca una perspectiva ms amplia contemplando tambin los objetivos empresariales del proyecto. [10]. Otras metodologas como SEMMA [11], est ligada a los productos de SAS Institute donde se encuentra implementada. La metodologa CRISP-DM es una metodologa libre y gratuita que no depende de la herramienta que se utilice para el desarrollo del proyecto de data mining. La metodologa CRISP-DM se organiza en seis etapas. Cada una de ellas a su vez se divide en varias tareas (Fig. 2), las flechas muestran las relaciones ms habituales entre las etapas, aunque se debe aclarar que pueden establecer relaciones entre cualquiera de las fases. El crculo exterior ilustra la naturaleza cclica del proceso de modelado.
Fig. 2. Fases del proceso de modelado de la metodologa CRISP-DM. 6 Resultados Obtenidos 6.1 Automatizacin de la importacin de datos Esta tarea fue llevada a cabo con la herramienta Pentaho Data Integration (PDI). Se observa que por cada dimensin y tabla de hechos del Cubo 04 Desgranamiento, el sistema SIU-G genera un archivo de texto. Entonces se cre un almacn de datos con una estructura similar a la exportada, con la finalidad de persistir los datos y as poder trabajar sobre ellos de manera ptima. Luego se procede con la carga de la BD a travs de la generacin de transformaciones. Las mismas se encargan de leer los archivos de texto e importarlos a una tabla destino correspondiente. Se debe definir una transformacin CACIC 2011 - XVII CONGRESO ARGENTINO DE CIENCIAS DE LA COMPUTACIN 1031
para cargar cada tabla de la BD. En esta instancia es donde se hacen correlacionar las columnas de la fuente de datos, archivos txt, y su correspondiente atributo en la tabla destino. Posteriormente se define un trabajo. El objetivo del mismo es integrar y ordenar la ejecucin de cada transformacin para controlar y optimizar la carga de la BD. En la Fig. 3 se aprecia un flujo de trabajo el cual se inicia cargando la tabla pases. En el caso que la carga sea exitosa se contina con la tabla provincias y as sucesivamente con las dems. De producirse un error, el mismo se escribe en un log y luego se aborta la ejecucin. Si la carga de todas las tablas de dimensiones es exitosa, por ultimo se procede a cargar la tabla de hechos desgranamiento.
Fig 3. Trabajo definido para la carga del Cubo 4 - Desgranamiento 6.2 Minera de datos Para llevar a cabo la MD se utilizo la herramienta Rapid Miner. En esta seccin presentamos los mejores resultados, obtenidos al ejecutar los flujo de minera con el componente Decisin Tree, que es una implementacin del algoritmo C4.5 o tambin llamado CART. Respecto a la clasificacin obtenida, algunas de las reglas que el algoritmo ha podido establecer para la clasificacin entre alumnos activos y pasivos se pueden observar a continuacin en la Fig.4.
CACIC 2011 - XVII CONGRESO ARGENTINO DE CIENCIAS DE LA COMPUTACIN 1032
Fig 4. rbol de Decisin obtenido con la herramienta Rapid Miner. Posteriormente se realizo la validacin del modelo, sometindolo a la clasificacin con datos reales y previamente desconocidos. En referencia a la cantidad de datos definida para el entrenamiento del algoritmo, podemos decir que la proporcin de error disminuye a medida que la cantidad de datos de entrenamiento aumenta. El flujo de minera para realizar la validacin del modelo, puede observarse en la Fig.5.
Fig 5. Flujo de minera para la validacin del modelo obtenido. En la parte superior de flujo el componente Read Database lee de la BD la cohortes desde el 2001 al 2006, luego el componente Set Role indica que los valores del atributo Sit_Estudiante va a ser la etiqueta (label) a predecir por el algoritmo CACIC 2011 - XVII CONGRESO ARGENTINO DE CIENCIAS DE LA COMPUTACIN 1033
Decision Tree. Paralelamente en la parte inferior del flujo se ingresan los datos a pronosticar, ellos son los pertenecientes a la cohorte 2000. Con el componente Aply Model aplicamos el modelo obtenido a los datos desconocidos previamente para luego, con el componente Performance, podamos visualizar el rendimiento a cerca de la clasificacin realizada sobre los datos. En la matriz de confusin de la Fig. 6 podemos observar que el modelo clasific incorrectamente slo a siete (7) alumnos sobre un total de ciento noventa y seis (196) alumnos alcanzando una precisin del noventa y seis por ciento (96%)
Fig. 6. Matriz de confusin resultando de la validacin del modelo 7 Conclusiones y trabajos futuros En cuanto a la interpretacin de los resultados, esta se delego a los expertos en el dominio de la desercin. Todos ellos han observado que, si bien se realiza una muy buena clasificacin de los alumnos Activos y Pasivos, salvo el Nivel de Estudio de los Padres, la localidad, el desarraigo (atributo Dist_a_Sede) y el colegio, no existen otras variables relevantes al anlisis socio econmico de la desercin estudiantil. Sera interesante poder incorporar al estudio, indicadores que permitan saber si el alumno tiene personas a cargo, si trabaja, si es que viaja para cursar, etc. Como conclusiones del lado del ingeniero en conocimiento, primeramente se debe comentar que en este trabajo slo se han abarcado algunos mtodos de extraccin del conocimiento a travs de la MD. No obstante, existen muchas ms posibilidades que ofrecen sta y otras herramientas. Queda demostrado que para realizar una minera de datos de buena calidad, sta debe estar acompaada de una serie de mecanismos, transformaciones, flujos de trabajo, modelos de validacin, matrices de confusin, etc., que faciliten y permiten realizar una validacin y un anlisis de resultados ms completo y fiable. Con la aplicacin de rboles de decisin y redes bayesianas se han obtenido muy buenos resultados, superando lo planteado como objetivo especfico de la MD. La aplicacin de cada algoritmo facilit advertir, no slo las diferentes caractersticas pertenecientes al grupo de alumnos Pasivos, sino que tambin han quedado manifestadas las caractersticas de las clases contrastes (alumnos Activos y Egresados). CACIC 2011 - XVII CONGRESO ARGENTINO DE CIENCIAS DE LA COMPUTACIN 1034
Las redes bayesianas permitieron advertir mas detalladamente cules eran los atributos ms importantes por el cual el algoritmo realizaba la clasificacin de los alumnos. Como contrapartida, la interpretacin del rbol de Decisin obtenido, puede resultar difcil de leer por personas no especializadas, debido a su amplitud. Esta dificultad es compensada por la muy buena representacin grfica que implementa la herramienta y la posibilidad de exportar las regles de decisin. Si bien la calidad de los modelos super las expectativas planteadas, se considera muy importante contar con la opinin de los expertos, no slo a la hora de crear los modelos sino que tambin en lo que refiere a la evaluacin e interpretacin de los resultados Un aporte muy significativo es el haber logrado automatizar los procesos ETL a travs de la implementacin de transformaciones y flujos de trabajo. Con PDI a su disposicin, la Unidad Acadmica, que as lo desee, podr extraer el conocimiento de sus BD con ms facilidad evitando largas etapas de pre proceso. Dada la flexibilidad que otorga la herramienta, no representara mayor inconveniente, el introducir ms variables socio econmicas, como sugieren los expertos. A lo largo del desarrollo del presente trabajo han surgido varias lneas para ser abordadas en el futuro. Entre algunas de ellas podemos mencionar:
Incorporar otras fuentes de datos que contengan ms variables socio econmicas como estado civil, situacin laboral, familiares a cargo y otras contenidas en la BD del SIU-G, particularmente en la tabla sga_Datos_Censales, y las sugeridas por los expertos Disear nuevos flujos de minera incorporando otros algoritmos como los referentes a clusterizacin, regresin, correlacin, etc. Implementar un tablero de control sobre las variables ms relevantes detectadas en el proceso de minera Establecer alguna mtrica para medir la informacin y la confusin que aporta cada atributos en referencia a la variable a predecir
Agradecimientos. A mis tutores por brindarme su tiempo y conocimientos para el desarrollo del presente trabajo. A todos mis alumnos, especialmente a Martn Rey y Cinthia Cuba. A mi familia, por regalarme sus sonrisas y ternura a pesar de mis ausencias. 8 Referencias 1. Frawley, W.J.; Piatetski-Shapiro, G.; Matheus, C.J. Knowledge Discovery in Databases, AAAI-MIT Press (1991)
CACIC 2011 - XVII CONGRESO ARGENTINO DE CIENCIAS DE LA COMPUTACIN 1035
2. Consorcio SIU. Ministerio de Educacin Ciencia y Tecnologa. Secretaria de Polticas Universitarias. http://www.siu.edu.ar/acerca_de/que_es_el_siu. Accedido el 13 de Septiembre de 2009
3. Frawley, W.J.; Piatetski-Shapiro, G.; Matheus, C.J. Knowledge Discovery in Databases: an Overview. AI Magazine (1992)
4. Frawley, W.J.; Piatetski-Shapiro, G.; Smyth, P., From Data Mining to Knowledge Discovery in Databases. AAAI-MIT Press (1996)
5. Agrawal, R.; Shafer, J. C. Parallel Mining of Association Rules IEEE Transactions on Knowledge and Data Engineering. (1996)
6. Consorcio SIU. Ministerio de Educacin Ciencia y Tecnologa. Secretaria de Polticas Universitarias Descripcin del Cubo 04 Desgranamiento. (2005)
7 Rapid-I GmbH. Rapid Miner 5.0 User Manual. Dortmund (2010)
8 Roldn, M. C. Primeros pasos con Pentaho Data Integration. (2009)
10. Gondar, J. E. Comparacin de Metodologas de Data Mining. Accedido el 23 de Julio de 2009
11. Sas Institute. http://www.sas.com/technologies/analytics/datamining/miner/semma.html. Accedido el 20 de Junio de 2009 CACIC 2011 - XVII CONGRESO ARGENTINO DE CIENCIAS DE LA COMPUTACIN 1036