Documente Academic
Documente Profesional
Documente Cultură
Resumen
(QHVWHDUWtFXORVHSUHVHQWDQORVSULPHURVUHVXOWDGRVGHOSUR\HFWR
de investigacin cuyo objetivo es detectar patrones de desercin
estudiantil a partir de los datos socioeconmicos, acadmicos,
disciplinares e institucionales de los estudiantes de los programas
de pregrado de la Universidad de Nario e Institucin Universitaria
IUCESMAG, dos instituciones de educacin superior de la ciudad
GH3DVWR&RORPELDXWLOL]DQGRWpFQLFDVGH0LQHUtDGH'DWRV/RV
resultados obtenidos corresponden a la Universidad de Nario.
6HGHVFXEULHURQSHUOHVVRFLRHFRQyPLFRV\DFDGpPLFRVGHORV
HVWXGLDQWHVTXHGHVHUWDQXWLOL]DQGRODWpFQLFDGHFODVLFDFLyQED-
sada en rboles de decisin. El conocimiento generado permitir
VRSRUWDUODWRPDGHGHFLVLRQHVHFDFHVGHODVGLUHFWLYDVXQLYHU-
VLWDULDVHQIRFDGDVDIRUPXODUSROtWLFDV\HVWUDWHJLDVUHODFLRQDGDV
con los programas de retencin estudiantil que actualmente se
encuentran establecidos.
Palabras clave: ([WUDFFLyQ GH 3HUOHV 'HVHUFLyQ (VWXGLDQWLO
0LQHUtDGH'DWRV&ODVLFDFLyQUEROHVGH'HFLVLyQ
Abstract
7KHUVWUHVXOWVRIWKHUHVHDUFKSURMHFWWKDWDLPVWRLGHQWLI\SDWWHUQV
of student dropout from socioeconomic, academic, disciplinary
and institutional data of students from undergraduate programs
at the University of Nario and IUCESMAG University, two higher
HGXFDWLRQLQVWLWXWLRQVLQWKHFLW\RI3DVWR&RORPELDXVLQJGDWD
mining techniques are presented. The results correspond to the
8QLYHUVLW\RI1DULxR6RFLRHFRQRPLFDQGDFDGHPLFSUROHVZHUH
GLVFRYHUHG RI VWXGHQWV ZKR GURS XVLQJ FODVVLFDWLRQ WHFKQLTXH
based on decision trees. The knowledge generated will support
effective decision-making of university staff focused to develop
policies and strategies related to student retention programs that
are currently set.
Keywords: ([WUDFWLRQRI3UROHV6WXGHQW'URSRXW'DWD0LQLQJ&ODV-
VLFDWLRQ'HFLVLRQ7UHHV
Introduccin
Los pases de Amrica Latina enfrentan desafos similares en la edu-
cacin superior, los cuales constituyen el contexto de la desercin
HVWXGLDQWLOQDQFLDFLyQLQFUHPHQWRGHODFREHUWXUDDVHJXUDPLHQWRGH
la calidad, mejoramiento de la equidad en el acceso y permanencia,
PD\RUDUWLFXODFLyQFRQODHGXFDFLyQVHFXQGDULDGLYHUVLFDFLyQGHOD
oferta para atender distintas dimensiones, intereses y necesidades
(ciencia, tecnologa, sector productivo, investigacin, humanidades,
artes, formacin integral) y mayor vinculacin con el sector laboral y
productivo. Segn el Instituto para la Educacin Superior en Amrica
Latina y el Caribe (IESALC), citado por MEN (2006a, 14), Latinoamrica
SUHVHQWyHQHODxRXQDFREHUWXUDSURPHGLRHQHGXFDFLyQVXSHULRU
del 28.7% y una tasa de desercin estudiantil del 50%.
En Colombia, el sistema educativo cuenta con 277 instituciones de
educacin superior, de las cuales 81 son pblicas y 196 privadas. De
32
Universidad de Manizales Facultad de Ciencias e Ingeniera
33
N 28 - enero - junio / 2013
34
Universidad de Manizales Facultad de Ciencias e Ingeniera
1. Fundamento terico
1.1 Proceso de descubrimiento de
conocimiento en bases de datos
El proceso de extraer conocimiento a partir de grandes volmenes de
datos ha sido reconocido por muchos investigadores como un tpico de
investigacin clave en los sistemas de bases de datos, y por muchas
FRPSDxtDVLQGXVWULDOHVFRPRXQDLPSRUWDQWHiUHD\XQDRSRUWXQLGDG
para obtener mayores ganancias. Fayyad, Piatetsky-Shapiro & Smyth
ORGHQHQFRPR(OSURFHVRQRWULYLDOGHLGHQWLFDFLyQGHSD-
trones vlidos, novedosos, potencialmente tiles y fundamentalmente
entendibles al usuario a partir de los datos.
35
N 28 - enero - junio / 2013
36
Universidad de Manizales Facultad de Ciencias e Ingeniera
2. Metodologa
Teniendo en cuenta las etapas del proceso DCBD, inicialmente se
VHOHFFLRQDURQGHODVEDVHVGHGDWRVGHOD8QLYHUVLGDGGH1DULxRORV
datos socio-econmicos, acadmicos, disciplinares e institucionales
GHORVHVWXGLDQWHVTXHLQJUHVDURQHQORVDxRV\DORV
GLIHUHQWHVSURJUDPDVGHSUHJUDGRFRQHOQGHKDFHUOHVXQVHJXLPLHQWR
FRPSOHWRKDVWDHODxRGHWHUPLQDQGRVLGHVHUWDURQRQR
Con estos datos se construy un repositorio de datos utilizando el
SGBD PostgreSQL. A estos datos se les aplic las etapas de pre-
SURFHVDPLHQWR\WUDQVIRUPDFLyQFRQHOQGHREWHQHUFRQMXQWRVGH
datos limpios y listos para aplicarles las tcnicas y los algoritmos de
minera de datos. Los primeros resultados se obtuvieron utilizando la
WpFQLFDGHFODVLFDFLyQEDVDGDHQiUEROHVGHGHFLVLyQFRQODKHUUD-
mienta libre de minera de datos Weka. Finalmente, estos resultados
fueron analizados, evaluados e interpretados para determinar la validez
del conocimiento obtenido.
2.1 Etapa de seleccin de datos
El objetivo de esta etapa es obtener las fuentes internas y externas
de datos que sirven de base para el proceso de minera de datos.
Como fuentes internas, se seleccionaron las bases de datos de Ad-
misiones y Registro Acadmico. Teniendo en cuenta la ventana de
observacin de este estudio (2004-2011), en estas bases de datos
se encuentra almacenada la informacin personal y acadmica de
15.805 estudiantes.
Como fuentes externas principales se seleccionaron datos de la base
de datos del Instituto Colombiano para el Fomento de la Educacin
Superior (ICFES), del Departamento Administrativo Nacional de Esta-
dstica (DANE), del Sistema para la Prevencin de la Desercin en la
37
N 28 - enero - junio / 2013
38
Universidad de Manizales Facultad de Ciencias e Ingeniera
)LJXUDUEROGHGHFLVLyQSDUDUHJODVGHFODVLFDFLyQJHQHUDOHVDSDUWLUGH7$
39
40
Tabla 1. Atributos tabla TA31 en formato ARFF
No. Formato arff No. Formato arff
Atributos y valores Atributos y valores
atributo atributo
N 28 - enero - junio / 2013
41
N 28 - enero - junio / 2013
3. Resultados y discusin
Como resultado de interpretar el rbol de decisin, generado por el
DOJRULWPR-JXUDFRQHOFRQMXQWRGHGDWRV7$VHREWXYLHURQ
ODV UHJODV GH FODVLFDFLyQ PiV UHSUHVHQWDWLYDV FRQ XQD FRQDQ]D
mayor que 80% que se muestran en la tabla 2, donde puede ob-
servarse que los factores predominantes en la desercin estudiantil
HQOD8QLYHUVLGDGGH1DULxRVRQORVDFDGpPLFRVHVSHFLDOPHQWHXQ
promedio bajo y el tener materias perdidas en los primeros semes-
tres de la carrera.
&RQHOQGHGHWHUPLQDUORVIDFWRUHVVRFLRHFRQyPLFRVTXHLQFLGHQHQOD
GHVHUFLyQHVWXGLDQWLOVHJHQHUDURQODVUHJODVGHFODVLFDFLyQFRQXQD
FRQDQ]DPD\RUTXH\FRQHOFRQMXQWRGHGDWRV7$(OUHVXOWDGR
se muestra en la tabla 3. Para determinar otros factores acadmicos
DVRFLDGRVDODGHVHUFLyQHVWXGLDQWLOVHJHQHUDURQUHJODVGHFODVLFDFLyQ
FRQXQDFRQDQ]DPD\RUTXHSHURFRQHOFRQMXQWRGHGDWRV7$
sin tener en cuenta el atributo promedio_nota.
De acuerdo a las reglas de la tabla 3, los factores socioeconmicos que
inciden en la desercin estudiantil son el valor de la matrcula mayor
que $381504 y proceder de la zona sur del departamento. El hecho de
ser soltero, vivir con la madre y ser de la ciudad capital puede incidir
tambin en la desercin.
Segn las resultados, los factores acadmicos que inciden en la de-
sercin estudiantil, adems de un promedio bajo y el tener materias
perdidas en los primeros semestres de la carrera, son la facultad a la
que pertenece el estudiante y el rea a la que pertenece las materias
perdidas.
42
Universidad de Manizales Facultad de Ciencias e Ingeniera
/RVSULPHURVUHVXOWDGRVREWHQLGRVDWUDYpVGHODWpFQLFDGHFODVLFDFLyQ
por rboles de decisin indica que esta es capaz de generar modelos
consistentes con la realidad observada y el respaldo terico, basndose
nicamente en los datos que se encuentran almacenados en las bases
GHGDWRVGHXQDGHODVXQLYHUVLGDGHV8QDGHODVJUDQGHVGLFXOWDGHV
que se presenta en esta clase de estudios es la mala calidad de los
datos que muchas veces, despus del proceso de limpieza, hace que se
descarten ciertas variables por la imposibilidad de obtener sus valores y
TXHGHDOJXQDPDQHUDLQX\HHQORVUHVXOWDGRVGHODPLQHUtDGHGDWRV
Se ha obtenido un patrn general de desercin estudiantil determinado
por un promedio bajo y el tener materias perdidas en los primeros se-
mestres de la carrera. Se han determinado factores socioeconmicos y
acadmicos asociados a la desercin estudiantil. La evaluacin, anlisis
y utilidad de estos patrones permitir soportar la toma de decisiones
HFDFHVGHODVGLUHFWLYDVXQLYHUVLWDULDVHQIRFDGDVDIRUPXODUSROtWLFDV
y estrategias relacionadas con los programas de retencin estudiantil
que actualmente se encuentran establecidos.
Como trabajos futuros estn el continuar con el estudio de desercin
estudiantil en la universidad estudiada, aplicando otras tcnicas de mine-
ra de datos tales como asociacin y clustering FRQHOQGHGHWHUPLQDU
DQLGDGHVVLPLOLWXGHV\UHODFLRQHVHQWUHORVIDFWRUHVVRFLRHFRQyPLFRV
\DFDGpPLFRVGHODVHVWXGLDQWHVTXHGHVHUWDQ3DUDYHULFDUODFDOL-
GDG\SUHFLVLyQGHOPRGHORGHFODVLFDFLyQREWHQLGRVHXWLOL]DUiQRWURV
FODVLFDGRUHV\VHFRPSDUDUiQVXVUHVXOWDGRV6HDSOLFDUiODPLVPD
metodologa al repositorio de datos de la universidad cooperante en
el estudio, para analizar y evaluar los patrones encontrados en ambas
instituciones de educacin superior.
Agradecimientos
(VWHSUR\HFWRGHLQYHVWLJDFLyQVHQDQFLDFRQUHFXUVRVGHO0LQLVWHULRGH
Educacin Nacional y con recursos de contrapartida de la Universidad
GH1DULxR\OD,QVWLWXFLyQ8QLYHUVLWDULD&(60$*
43
7DEOD5HJODVGHFODVLFDFLyQPiVUHSUHVHQWDWLYDVFRQHOFRQMXQWRGHGDWRV7$
44
Atributo
Reglas Clase Soporte &RQDQ]D
Deserta
promedio_nota = De 2.4 a 3.1 & semestre_perdidas = P S 0.1559 0.939
promedio_nota = De 3.7 a 4.0 & veces_perdida = 1 N 0.1551 0.8528
promedio_nota = Menor a 2.4 S 0.1519 0.998
promedio_nota = De 3.5 a 3.7 & extension = CAPITAL & materias_perdidas = De 7 a 9 N 0.0314 0.8585
promedio_nota = De 3.1 a 3.5 & materias_perdidas = De 3 a 4 S 0.0264 0.9535
N 28 - enero - junio / 2013
7DEOD5HJODVGHFODVLFDFLRQHVVRFLRHFRQyPLFDV\DFDGpPLFDV
Atributo,
Reglas Clase, Soporte &RQDQ]D
Deserta
5HJODVGHFODVLFDFLyQVRFLRHFRQyPLFDVFRQHOFRQMXQWRGHGDWRV7$
valor_matricula = De 158846 a 234266 & vive_con_familia = N N 0.0933 0.8539
valor_matricula = De 100259 a 120574 & estado_civil = SOLTERO & madre = N & padre = N & hermanos_universidad = N & genero = F N 0.0337 0.8
valor_matricula = De 158846 a 234266 & vive_con_familia = N & zona_nacimiento = SUR N 0.0284 0.912
valor_matricula > 381504 & zona_procedencia = SUR S 0.0242 0.9369
valor_matricula = De 158846 a 234266 & vive_con_familia = N & zona_nacimiento = COSTA N 0.0224 0.882
valor_matricula = De 158846 a 234266 & vive_con_familia = N & zona_nacimiento = CENTRO OCCIDENTE N 0.0136 0.908
valor_matricula = De 100259 a 120574 & estado_civil = SOLTERO & madre = S & tipo_residencia = PROPIA & zona_nacimiento = CAPITAL S 0.0119 0.8071
Atributo,
Reglas Clase, Soporte &RQDQ]D
Deserta
5HJODVGHFODVLFDFLyQDFDGpPLFDVFRQHOFRQMXQWRGHGDWRV7$
extension = CAPITAL & semestre_perdidas = M N 0.2088 0.8128
extension = CAPITAL & semestre_perdidas = P & facultad = CIENCIAS EXACTAS Y NATURALES S 0.1032 0.8692
extension = CAPITAL & semestre_perdidas = CE N 0.0612 0.8672
Universidad de Manizales
extension = CAPITAL & semestre_perdidas = NA & facultad = CIENCIAS HUMANAS N 0.0582 0.8079
extension = CAPITAL & semestre_perdidas = P & area_materia = CIENCIAS BSICAS & facultad = CIENCIAS PECUARIAS S 0.0497 0.8025
extension = TUMACO S 0.0458 0.8361
extension = IPIALES S 0.0379 0.9919
extension = CAPITAL & semestre_perdidas = NA & facultad = CIENCIAS ECONMICAS Y ADMINISTRATIVAS N 0.0336 0.863
extension = CAPITAL & semestre_perdidas = P & area_materia = FUNDAMENTACIN S 0.0322 0.8524
extension = CAPITAL & semestre_perdidas = P & facultad = EDUCACIN S 0.0233 0.8092
extension = TUMACO & area_programa = ECONOMA ADMINISTRACIN CONTADURA Y AFINES S 0.0215 0.8786
extension = CAPITAL & semestre_perdidas = NA & facultad = ARTES N 0.0207 0.8593
extension = CAPITAL & semestre_perdidas = P & area_materia = PEDAGOGA S 0.019 0.879
extension = CAPITAL & semestre_perdidas = P & area_materia = CIENCIAS BSICAS & facultad = CIENCIAS EXACTAS Y NATURALES S 0.0187 0.8852
extension = CAPITAL & semestre_perdidas = P & area_materia = FORMACIN MATEMTICA S 0.0185 0.9587
extension = CAPITAL & semestre_perdidas = P & area_materia = FUNDAMENTACIN EN CIENCIAS EXACTAS Y NATURALES S 0.0179 0.9658
extension = CAPITAL & semestre_perdidas = P & facultad = CIENCIAS DE LA SALUD S 0.0175 0.807
extension = CAPITAL & semestre_perdidas = NA & facultad = CIENCIAS AGRICOLAS N 0.0167 0.8716
extension = CAPITAL & semestre_perdidas = P & area_materia = LENGUA EXTRANJERA S 0.0161 0.8571
extension = TUMACO & semestre_perdidas = P & area_programa = ECONOMA ADMINISTRACIN CONTADURA Y AFINES S 0.0156 0.9412
extension = CAPITAL & semestre_perdidas = P & area_materia = FORMACIN BSICA & facultad = ARTES S 0.0152 0.8283
Facultad de Ciencias e Ingeniera
45
N 28 - enero - junio / 2013
5HIHUHQFLDVELEOLRJUiFDV
ADAMO, Jean-Marc (2001). Data Mining for Association Rules and Sequential Patterns: Sequen-
tial and Parallel Algorithms. New York (USA): Springer-Verlag. 253 p. ISBN: 0-387-95048-6.
AGRAWAL, Rakesh & SRIKANT, Ramakrishnan (1994). Fast Algorithms for Mining Associa-
tion Rules. In: 20th International Conference on Very Large Data Bases, VLDB 1994, (12-
15/09/1994). Santiago de Chile (Chile): VLDB. Proceedings. p. 487-499. ISBN: 1-55860-153-8.
CHEN, Ming; HAN, Jiawei & YU, Philip (1996). Data mining: An overview from database perspective.
In: IEEE Transactions on Knowledge and Data Engineering. Vol. 8, No. 6 (dic). Los Alamitos
(CA, USA): IEEE Computer Society. p. 866-883. ISSN: 1041-4347.
FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory and SMYTH, Padrahic. (1996). The KDD process
for extracting useful knowledge from volumes of data. In: Comunications of the ACM. Vol. 39,
No. 11 (nov). New York (USA): ACM Digital Library. p 27-34. ISSN: 0001-0782.
*$5&$025$7('LHJRVI0DQXDOGH:HND>HQOtQHD@9DOODGROLG(VSDxD0HWD(PRWLRQ
S.L. <http://www.metaemotion.com/diego.garcia.morate/download/weka.pdf> 42 p. [consulta:
15/06/ 2012].
HAN, Jiawei & KAMBER, Micheline (2001). Data Mining: Concepts and Techniques. San Francisco
(CA, USA): Morgan Kaufmann Publishers, Academic Press. 550 p. ISBN: 1-55860-489-8.
HERNNDEZ, Jos; RAMREZ, Mara & FERRI, Csar (2005). Introduccin a la Minera de Datos.
0DGULG(VSDxD3HDUVRQ3UHQWLFH+DOOS,6%1.
LA RED, David, ACOSTA, Julio; CUTRO, Luis; URIBE, Valeria. & RAMBO, Alice (2010). Data
Warehouse y Data Mining Aplicados al Estudio del Rendimiento Acadmico. En: Novena
Conferencia Iberoamericana en Sistemas, Ciberntica e Informtica, CISCI 2010, (29/06-
2/07/2010), Orlando (Florida, EE.UU.): International Institute of Informatics and Systemics.
Memorias CISCI 2010, Volumen I, p. 289-294. ISBN: 978-1-934272-94-7.
MEN (2006a). Amrica Latina piensa la desercin. En: Boletn informativo Educacin Superior.
No 7 (dic). Bogot (Colombia): Ministerio de Educacin Nacional. 20 p. ISSN: 1794-2446.
MEN (2006b). Desercin estudiantil: prioridad en la agenda. En: Boletn informativo Educacin Su-
perior. No 7 (dic). Bogot (Colombia): Ministerio de Educacin Nacional. 20 p. ISSN: 1794-2446.
MEN (2009). Desercin estudiantil en la educacin superior colombiana: metodologa de seguimien-
to, diagnstico y elementos para su prevencin. Bogot (Colombia): Ministerio de Educacin
Nacional. 158 p. ISBN: 978-958-691-366-9.
PAUTSCH, Jess (2009). Minera de datos aplicada al anlisis de la desercin en la Carrera de
Analista en Sistemas de Computacin. Tesis de grado (Licenciado en Sistemas de Informacin).
Posadas, Misiones (Argentina): Universidad Nacional de Misiones. 193 p.
PAUTSCH, Jess; LA RED, David & CUTRO, Luis (2010). Minera de datos aplicada al anlisis
de la desercin en la Carrera de Analista en Sistemas de Computacin [en lnea]. Posadas,
0LVLRQHV$UJHQWLQD8QLYHUVLGDG1DFLRQDOGH0LVLRQHVKWWSZZZGDWDSUL[FRPOHV$QD-
lisis%20de%20Desercion%20Univ_0.pdf> [consulta: 18/06/2012].
PINZN, Liza (2011). Aplicando minera de datos al marketing educativo. En: Revista Notas de
Marketing. No 1 (jun). Bogot (Colombia): Universidad Sergio Arboleda, Escuela de Marketing
y Publicidad. p 45-61. ISSN: 2248-4930
QUINLAN, Ross (1993). C4.5: Programs for Machine Learning. San Francisco (CA, USA): Morgan
Kaufmann Publishers. 299 p. ISBN: 1-55860-238-0.
RESTREPO, Mauricio & LPEZ, Andrs (2008). Uso de la metodologa Rough Sets en un modelo
de desercin acadmica. En: XIV Congreso Ibero Latinoamericano de Investigacin de Ope-
raciones, CLAIO 2008, (9-12/09/2008), Cartagena (Colombia): Universidad del Norte. Libro
de Memorias CLAIO 2008, p. 108-109. Ediciones Uninorte.
SATTLER, Kai-Uwe. & DUNEMANN, Oliver (2001). SQL Database Primitives for Decision Tree
&ODVVLHUV ,Q7KH th ACM International Conference on Information and Knowledge Ma-
nagement - CIKM, (5-10/11/2001), Atlanta (Georgia, USA): ACM. Proceedings, p. 379-386.
ISBN: 1-58113-436-3.
SPOSITTO, Osvaldo; ETCHEVERRY, Martn; RYCKEBOER, Hugo & BOSSERO, Julio (2010).
Aplicacin de tcnicas de minera de datos para la evaluacin del rendimiento acadmico y
la desercin estudiantil. En: Novena Conferencia Iberoamericana en Sistemas, Ciberntica e
46
Universidad de Manizales Facultad de Ciencias e Ingeniera
47