Sunteți pe pagina 1din 10

Resultados Preliminares del Proceso de Minera de

Datos Aplicado al Anlisis de la Desercin en Carreras de


Informtica Utilizando Herramientas Open Source
J. Germn A. Pautsch
1
, Horacio D. Kuna
2
, Antonia E. Godoy
3
1,2
Dpto. Informtica. Facultad de Ciencias Exactas, Qumicas y Naturales.
Universidad Nacional de Misiones
3
Dpto. Matemtica. Facultad de Ciencias Econmicas.
Universidad Nacional de Misiones

(3300) Posadas. Argentina
1
gpautsch@fceqyn.unam.edu.ar,
2
hdkuna@unam.edu.ar,
3
godoy@fce.unam.edu.ar
Resumen. En el presente trabajo se realiz un proceso de minera de datos para
generar conocimiento en base a patrones acadmicos, factores sociales y
demogrficos, que caractericen a los estudiantes, con la finalidad de pronosticar
alumnos desertores de la Carrera Analista en Sistemas de Computacin de la
Facultad de Ciencias Exactas, Qumicas y Naturales de la Universidad Nacional
de Misiones. Como fuente de datos de utiliz el Cubo 04 Desgranamiento,
exportado del Sistema de Gestin Acadmica SIU-Guaran. Los modelos
obtenidos se utilizaron para clasificar a los alumnos de otras cohortes. El
trabajo se desarroll bajo la metodologa de libre difusin Crisp-DM y con
herramientas open source. La calidad de los modelos obtenidos a travs de la
clasificacin con rboles de decisin y redes bayesianas superaron ampliamente
las expectativas.
Palabras Clave: Minera de Datos, Clasificacin, Pronsticos, Desercin
Universitaria, Perfiles de Alumnos.
1 Introduccin
Se estima que las bases de datos (BD) de las organizaciones se duplican cada veinte
(20) meses, segn W.J. Frawley y otros [1]. Lamentablemente las tcnicas de anlisis
de informacin no han tenido un desarrollo equivalente.
La Universidad Nacional de Misiones cuenta con el Sistema de Gestin Acadmica
SIU-Guaran (SIU-G) [2]. El sistema, produce una gran cantidad de datos, los cuales
pueden ser muy valiosos, pero debido a su volumen resultan muy difciles de analizar.
Dentro de esta masa de datos hay informacin oculta de gran importancia que se
podra llegar a descubrir con tcnicas de minera de datos (MD).
CACIC 2011 - XVII CONGRESO ARGENTINO DE CIENCIAS DE LA COMPUTACIN 1027

Este artculo se ha estructurado de la siguiente manera: en la seccin 2 se expone el
objetivo principal del mismo, luego en la seccin 3 se desarrolla una muy breve
revisin de los principales conceptos de minera de datos, seguidamente en la seccin
4 se indicarn los recursos disponibles y el software utilizado, para continuar en la
seccin 5 con la metodologa seguida y en la seccin 6 presentar algunos resultados
obtenidos. Para finalizar en la seccin 7 se brindan las conclusiones y trabajos futuros,
y en la seccin 8 las referencias consultadas.
2 Objetivo principal
El objetivo es realizar una MD, sobre las cohortes que se encuentran entre los aos
2001 y 2006, a travs de tcnicas supervisadas, sobre el Cubo 04 exportado de la BD
del SIU-G. De esta forma se busca determinar cules son las tcnicas, algoritmos
ptimos para extraer el conocimiento de la BD y as, confeccionar modelos para
posteriormente intentar pronosticar con cierto grado de certeza, y en base a patrones
acadmicos, factores sociales y demogrficos, si un alumno posee o no caractersticas
que aumenten su probabilidad de desertar de la carrera Analista en Sistemas de
Computacin.
La meta es lograr disear modelos cuya calidad de prediccin o clasificacin
supere el 70%. Por otra parte se buscar estandarizar y automatizar los procesos
E.T.L. (Extraccin, Transformacin y Carga de Datos) para que cada unidad
acadmica pueda realizar la MD sobre la informacin exportada del SIU-G
3 Revisin conceptual
La MD se define formalmente como un conjunto de tcnicas y herramientas
aplicadas al proceso no trivial de extraer y presentar conocimiento implcito,
previamente desconocido, potencialmente til y humanamente comprensible, a partir
de grandes conjuntos de datos, con objeto de predecir, de forma automatizada,
tendencias o comportamientos y descubrir modelos previamente desconocidos [3].
Fundamentalmente, la diferencia de la MD con otras tcnicas reside en que
permite construir modelos de manera automtica.
Cabe destacar que la MD es una etapa dentro de un proceso ms amplio llamado
Descubrimiento de Conocimiento en BD (Knowledge Discovery in Data Base
KDD).
En trminos estrictamente acadmicos, los trminos MD y KDD no deben
utilizarse de manera indistinta. La MD es un paso esencial en el KDD que utiliza
algoritmos para generar patrones a partir de los datos pre procesados [4] (Fig. 1).
CACIC 2011 - XVII CONGRESO ARGENTINO DE CIENCIAS DE LA COMPUTACIN 1028


Fig. 1. Posicionamiento de la MD dentro de las etapas del KDD
El concepto de MD no es nuevo, pero han sido necesarios varios aos de desarrollo
para que esta tcnica pudiera ser utilizada de manera sencilla.
La MD genera modelos que pueden ser descriptivos o predictivos [5].

Descriptivos o No Supervisados: este modelo aspira a descubrir patrones y
tendencias sobre el conjunto de datos sin tener ningn tipo de conocimiento
previo de la situacin a la cual se quiere llegar. Descubre patrones en los datos
analizados. Proporciona informacin sobre las relaciones entre los mismos.
Predictivos o Supervisados: crean un modelo de una situacin donde las
respuestas son conocidas y luego, lo aplica en otra situacin de la cual se
desconoce la respuesta. Conociendo y analizando un conjunto de datos, intentan
predecir el valor de un atributo (Etiqueta), estableciendo relaciones entre ellos.

Uno de los factores claves que define la verdadera MD es que la aplicacin misma
realiza el anlisis sobre los datos. En otros casos, el anlisis es guiado por una
interaccin con el usuario. Las aplicaciones que no son, en algn grado, auto guiadas
estn realizando anlisis de datos y no MD.
4 Recursos disponibles
4.1 Fuente de datos
Como se mencion anteriormente, la Universidad Nacional de Misiones cuenta con el
SIU-G. Realizando un relevamiento preliminar, se observ que en el mismo existe un
mdulo llamado Interfaz que exporta datos orientados al OLAP (On Line Analytical
Process Procesamiento Analtico En Lnea) y abarcan diferentes temticas. Luego
de analizar detalladamente la documentacin que describe cada opcin de exportacin
[6], se determin que el Cubo 04 Desgranamiento, puede ser de gran utilidad para
CACIC 2011 - XVII CONGRESO ARGENTINO DE CIENCIAS DE LA COMPUTACIN 1029

el presente trabajo, ya que aborda la temtica de la desercin desde el punto de vista
acadmico, social y demogrfico.
Luego de aplicados los procesos de E.T.L., a continuacin la Tabla 1 muestra la
estructura y los nombres de los atributos de la Tabla DMS_C4 (Data Mining Source
Cubo 4), creada para el anlisis del Cubo 04 Desgranamiento.
Tabla 1. Centralizacin de la informacin del Cubo 4 Desgranamiento para el
proceso de MD.
Atributos Descripcin Valores
ACT_ANUAL Actividad realizada durante el primer
ao acadmico Incluye cantidad de
exmenes rendidos, promociones y
equivalencias (no importa el
resultado de los mismos). Es decir
todo lo que refleje intencin de
aprobar una materia.
Sin actividad,
0<A<3,
2<A<6,
A>5
SEXO Gnero de la persona. mujer,
Varon
SIT_ESTUDIANTE Se establecen dos categoras de
estudiantes: los que no tuvieron
actividad y los que tuvieron
actividad con los ltimos dos aos
Activo (A),
Pasivo (P)
ESTUDIO_PADRES Indica el mayor nivel de estudios
alcanzado por los padres del alumno.
No Posee,
Pri., Sec., Uni.
LOCALIDAD Localidad en la que se encuentra el
colegio secundario del que egres el
estudiante
Posadas,
Apostoles, Otras
Loc.
COLEGIO Orientacin del colegio secundario
del que egres el estudiante
Comercial,
Bachiller,
Tcnico, etc
PROVINCIA Provincia a la que corresponde la
anterior localidad.
Misiones,
Correntes, Otras
Prov.
DIST_SEDE Distancia en kms a la sede donde se
dicta la carrera desde la localidad de
procedencia.
De 0 a 50
De 51 a 150
Etc.
4.2 Software utilizado
Las herramientas software utilizadas se enmarcas todas dentro de la filosofa open
source, empleando para disear el modelo y realizar la MD RapidMiner v5.0 [7], para
los procesos E.T.L. Pentaho Data Integration v4.1.0(PDI) [8] y para la crear la
Almacn de Datos MySQL v5.0. Este ultimo recomendado por la Suite Pentaho.
CACIC 2011 - XVII CONGRESO ARGENTINO DE CIENCIAS DE LA COMPUTACIN 1030

5 Metodologa
La metodologa seleccionada fue CRISP-DM [9], ya que esta abarca una perspectiva
ms amplia contemplando tambin los objetivos empresariales del proyecto. [10].
Otras metodologas como SEMMA [11], est ligada a los productos de SAS
Institute donde se encuentra implementada. La metodologa CRISP-DM es una
metodologa libre y gratuita que no depende de la herramienta que se utilice para el
desarrollo del proyecto de data mining.
La metodologa CRISP-DM se organiza en seis etapas. Cada una de ellas a su vez
se divide en varias tareas (Fig. 2), las flechas muestran las relaciones ms habituales
entre las etapas, aunque se debe aclarar que pueden establecer relaciones entre
cualquiera de las fases. El crculo exterior ilustra la naturaleza cclica del proceso de
modelado.

Fig. 2. Fases del proceso de modelado de la metodologa CRISP-DM.
6 Resultados Obtenidos
6.1 Automatizacin de la importacin de datos
Esta tarea fue llevada a cabo con la herramienta Pentaho Data Integration (PDI).
Se observa que por cada dimensin y tabla de hechos del Cubo 04
Desgranamiento, el sistema SIU-G genera un archivo de texto. Entonces se cre un
almacn de datos con una estructura similar a la exportada, con la finalidad de
persistir los datos y as poder trabajar sobre ellos de manera ptima.
Luego se procede con la carga de la BD a travs de la generacin de
transformaciones. Las mismas se encargan de leer los archivos de texto e
importarlos a una tabla destino correspondiente. Se debe definir una transformacin
CACIC 2011 - XVII CONGRESO ARGENTINO DE CIENCIAS DE LA COMPUTACIN 1031

para cargar cada tabla de la BD. En esta instancia es donde se hacen correlacionar las
columnas de la fuente de datos, archivos txt, y su correspondiente atributo en la tabla
destino.
Posteriormente se define un trabajo. El objetivo del mismo es integrar y ordenar
la ejecucin de cada transformacin para controlar y optimizar la carga de la BD.
En la Fig. 3 se aprecia un flujo de trabajo el cual se inicia cargando la tabla
pases. En el caso que la carga sea exitosa se contina con la tabla provincias y
as sucesivamente con las dems. De producirse un error, el mismo se escribe en un
log y luego se aborta la ejecucin. Si la carga de todas las tablas de dimensiones es
exitosa, por ultimo se procede a cargar la tabla de hechos desgranamiento.

Fig 3. Trabajo definido para la carga del Cubo 4 - Desgranamiento
6.2 Minera de datos
Para llevar a cabo la MD se utilizo la herramienta Rapid Miner.
En esta seccin presentamos los mejores resultados, obtenidos al ejecutar los flujo
de minera con el componente Decisin Tree, que es una implementacin del
algoritmo C4.5 o tambin llamado CART.
Respecto a la clasificacin obtenida, algunas de las reglas que el algoritmo ha
podido establecer para la clasificacin entre alumnos activos y pasivos se pueden
observar a continuacin en la Fig.4.

CACIC 2011 - XVII CONGRESO ARGENTINO DE CIENCIAS DE LA COMPUTACIN 1032


Fig 4. rbol de Decisin obtenido con la herramienta Rapid Miner.
Posteriormente se realizo la validacin del modelo, sometindolo a la clasificacin
con datos reales y previamente desconocidos.
En referencia a la cantidad de datos definida para el entrenamiento del algoritmo,
podemos decir que la proporcin de error disminuye a medida que la cantidad de
datos de entrenamiento aumenta.
El flujo de minera para realizar la validacin del modelo, puede observarse en la
Fig.5.

Fig 5. Flujo de minera para la validacin del modelo obtenido.
En la parte superior de flujo el componente Read Database lee de la BD la
cohortes desde el 2001 al 2006, luego el componente Set Role indica que los valores
del atributo Sit_Estudiante va a ser la etiqueta (label) a predecir por el algoritmo
CACIC 2011 - XVII CONGRESO ARGENTINO DE CIENCIAS DE LA COMPUTACIN 1033

Decision Tree. Paralelamente en la parte inferior del flujo se ingresan los datos a
pronosticar, ellos son los pertenecientes a la cohorte 2000. Con el componente Aply
Model aplicamos el modelo obtenido a los datos desconocidos previamente para
luego, con el componente Performance, podamos visualizar el rendimiento a cerca de
la clasificacin realizada sobre los datos.
En la matriz de confusin de la Fig. 6 podemos observar que el modelo clasific
incorrectamente slo a siete (7) alumnos sobre un total de ciento noventa y seis (196)
alumnos alcanzando una precisin del noventa y seis por ciento (96%)

Fig. 6. Matriz de confusin resultando de la validacin del modelo
7 Conclusiones y trabajos futuros
En cuanto a la interpretacin de los resultados, esta se delego a los expertos en el
dominio de la desercin. Todos ellos han observado que, si bien se realiza una muy
buena clasificacin de los alumnos Activos y Pasivos, salvo el Nivel de Estudio de los
Padres, la localidad, el desarraigo (atributo Dist_a_Sede) y el colegio, no existen otras
variables relevantes al anlisis socio econmico de la desercin estudiantil. Sera
interesante poder incorporar al estudio, indicadores que permitan saber si el alumno
tiene personas a cargo, si trabaja, si es que viaja para cursar, etc.
Como conclusiones del lado del ingeniero en conocimiento, primeramente se debe
comentar que en este trabajo slo se han abarcado algunos mtodos de extraccin del
conocimiento a travs de la MD. No obstante, existen muchas ms posibilidades que
ofrecen sta y otras herramientas.
Queda demostrado que para realizar una minera de datos de buena calidad, sta
debe estar acompaada de una serie de mecanismos, transformaciones, flujos de
trabajo, modelos de validacin, matrices de confusin, etc., que faciliten y permiten
realizar una validacin y un anlisis de resultados ms completo y fiable.
Con la aplicacin de rboles de decisin y redes bayesianas se han obtenido muy
buenos resultados, superando lo planteado como objetivo especfico de la MD. La
aplicacin de cada algoritmo facilit advertir, no slo las diferentes caractersticas
pertenecientes al grupo de alumnos Pasivos, sino que tambin han quedado
manifestadas las caractersticas de las clases contrastes (alumnos Activos y
Egresados).
CACIC 2011 - XVII CONGRESO ARGENTINO DE CIENCIAS DE LA COMPUTACIN 1034

Las redes bayesianas permitieron advertir mas detalladamente cules eran los
atributos ms importantes por el cual el algoritmo realizaba la clasificacin de los
alumnos.
Como contrapartida, la interpretacin del rbol de Decisin obtenido, puede
resultar difcil de leer por personas no especializadas, debido a su amplitud. Esta
dificultad es compensada por la muy buena representacin grfica que implementa la
herramienta y la posibilidad de exportar las regles de decisin.
Si bien la calidad de los modelos super las expectativas planteadas, se considera
muy importante contar con la opinin de los expertos, no slo a la hora de crear los
modelos sino que tambin en lo que refiere a la evaluacin e interpretacin de los
resultados
Un aporte muy significativo es el haber logrado automatizar los procesos ETL a
travs de la implementacin de transformaciones y flujos de trabajo. Con PDI a su
disposicin, la Unidad Acadmica, que as lo desee, podr extraer el conocimiento de
sus BD con ms facilidad evitando largas etapas de pre proceso.
Dada la flexibilidad que otorga la herramienta, no representara mayor
inconveniente, el introducir ms variables socio econmicas, como sugieren los
expertos.
A lo largo del desarrollo del presente trabajo han surgido varias lneas para ser
abordadas en el futuro.
Entre algunas de ellas podemos mencionar:

Incorporar otras fuentes de datos que contengan ms variables socio econmicas
como estado civil, situacin laboral, familiares a cargo y otras contenidas en la
BD del SIU-G, particularmente en la tabla sga_Datos_Censales, y las sugeridas
por los expertos
Disear nuevos flujos de minera incorporando otros algoritmos como los
referentes a clusterizacin, regresin, correlacin, etc.
Implementar un tablero de control sobre las variables ms relevantes detectadas
en el proceso de minera
Establecer alguna mtrica para medir la informacin y la confusin que aporta
cada atributos en referencia a la variable a predecir

Agradecimientos. A mis tutores por brindarme su tiempo y conocimientos para el
desarrollo del presente trabajo. A todos mis alumnos, especialmente a Martn Rey y
Cinthia Cuba. A mi familia, por regalarme sus sonrisas y ternura a pesar de mis
ausencias.
8 Referencias
1. Frawley, W.J.; Piatetski-Shapiro, G.; Matheus, C.J. Knowledge Discovery in Databases,
AAAI-MIT Press (1991)

CACIC 2011 - XVII CONGRESO ARGENTINO DE CIENCIAS DE LA COMPUTACIN 1035

2. Consorcio SIU. Ministerio de Educacin Ciencia y Tecnologa. Secretaria de Polticas
Universitarias. http://www.siu.edu.ar/acerca_de/que_es_el_siu. Accedido el 13 de
Septiembre de 2009

3. Frawley, W.J.; Piatetski-Shapiro, G.; Matheus, C.J. Knowledge Discovery in Databases:
an Overview. AI Magazine (1992)

4. Frawley, W.J.; Piatetski-Shapiro, G.; Smyth, P., From Data Mining to Knowledge
Discovery in Databases. AAAI-MIT Press (1996)

5. Agrawal, R.; Shafer, J. C. Parallel Mining of Association Rules IEEE Transactions on
Knowledge and Data Engineering. (1996)

6. Consorcio SIU. Ministerio de Educacin Ciencia y Tecnologa. Secretaria de Polticas
Universitarias Descripcin del Cubo 04 Desgranamiento. (2005)

7 Rapid-I GmbH. Rapid Miner 5.0 User Manual. Dortmund (2010)

8 Roldn, M. C. Primeros pasos con Pentaho Data Integration. (2009)

9. Chapman, P.; Clinton, J.; Kerber, R.; Khabaza, T.; Reinartz, T.; Shearer, C.;Wirth, R.
CRISP-DM 1.0. Step-by-step data mining guide. (1999)

10. Gondar, J. E. Comparacin de Metodologas de Data Mining. Accedido el 23 de Julio de
2009

11. Sas Institute. http://www.sas.com/technologies/analytics/datamining/miner/semma.html.
Accedido el 20 de Junio de 2009
CACIC 2011 - XVII CONGRESO ARGENTINO DE CIENCIAS DE LA COMPUTACIN 1036

S-ar putea să vă placă și