Sunteți pe pagina 1din 20

SISTEMA DE APOYO PARA LA ACREDITACIÓN DE LA CALIDAD DE

PROGRAMAS ACADEMICOS DE LA UNIVERSIDAD DE CALDAS, APLICANDO


TÉCNICAS EN MINERÍA DE DATOS

JUAN CARLOS GONZÁLEZ CARDONA

UNIVERSIDAD AUTÓNOMA DE MANIZALES


MAESTRIA EN GESTIÓN Y DESARROLLO DE PROYECTOS DE SOFTWARE
MANIZALES
(I COHORTE)
2010
SISTEMA DE APOYO PARA LA ACREDITACIÓN DE LA CALIDAD DE
PROGRAMAS ACADEMICOS DE LA UNIVERSIDAD DE CALDAS, APLICANDO
TÉCNICAS EN MINERÍA DE DATOS

JUAN CARLOS GONZÁLEZ CARDONA

Proyecto de Grado para optar al título de Magister en Gestión y Desarrollo de


Proyectos de Software

Asesor
Javier Hernández Cáceres

UNIVERSIDAD AUTÓNOMA DE MANIZALES


MAESTRIA EN GESTIÓN Y DESARROLLO DE PROYECTOS DE SOFTWARE
MANIZALES
2010
Sistema de apoyo para la acreditación de la calidad de programas académicos de la universidad de caldas, aplicando
técnicas en minería de datos

TITULO PROYECTO

SISTEMA DE APOYO PARA LA ACREDITACIÓN DE LA CALIDAD DE PROGRAMAS


ACADEMICOS DE LA UNIVERSIDAD DE CALDAS, APLICANDO TÉCNICAS EN
MINERÍA DE DATOS

1 DELIMITACIÓN DEL ÁREA TEMÁTICA

El presente proyecto se circunscribe a la aplicación de técnicas de minería de datos


sobre las posibles fuentes de información que tengan relación con la vida académica de
un estudiante dentro de la Universidad de Caldas y para las cuales haya disponibilidad
de acceso, estén digitalizado y almacenadas de forma estructurada; que busquen
determinar los factores e mayor incidencia en el desempeño académico, en
concordancia con una de las nuevas líneas de estudio con mayor auge de la minería de
datos como es la Minería de Datos Educacional. (Winters, 2006)

Adicionalmente, de acuerdo a la valoración inicial de las fuentes durante la construcción


de la bodega de datos, se podrá limitar el proyecto a un conjunto de estudiantes de
acuerdo a variables como el programa académico o los años de estudio que faciliten la
ejecución y posibiliten la obtención de resultados para el plazo fijado.

Las áreas de estudio que serán fundamento del presente proyecto son:
• Ciencias de la computación
o Bases de datos
 Bodegas de datos
o Extracción de conocimiento a partir de bases de datos
 Minería de datos
• Inteligencia artificial
• Minería de datos educacional
 Inteligencia de negocios
• Pedagogía y ciencias de la educación
o Currículo y planeación educativa
o Calidad educativa

Descripción del área temática

Minería de Datos y Extracción de conocimiento a partir de datos

Debido al crecimiento en los volúmenes de información que experimentan las empresas


y gracias a la disminución del costo en los equipos de computo y los sistemas de
almacenamiento, muchas organizaciones cuentan hoy en día con unos vastos conjuntos
de datos con información estratégica oculta, y que sin embargo, no puede ser
descubierta utilizando los métodos de consulta o estadísticos tradicionales.

3
Sistema de apoyo para la acreditación de la calidad de programas académicos de la universidad de caldas, aplicando
técnicas en minería de datos

La minería de datos utiliza nuevas técnicas para buscar la información, muchas basadas
en procesos estadísticos o de inteligencia artificial, que permite identificar patrones y
relaciones en la información para crear modelos que permitan caracterizar y hasta
predecir el comportamiento de esta; la extracción de conocimiento (KDD, por sus siglas
en inglés) abarca la minería de datos, pero además incluye la preparación de la
información y la interpretación de los resultados con el fin de dar significado al modelo
planteado. (Pujari, 2001)

El conocimiento no se obtiene simplemente por tener un conjunto de datos, estos


solamente son la materia prima; que al dársele un significado dentro de un contexto
pasa a ser información, y que una vez un experto elabora o identifica un modelo y
permite interpretar esa información que aporte un nuevo valor, este pasa a ser
conocimiento. (Valhondo, 2003)

Etapas de KDD

Las etapas de KDD inician con un flujo de datos y finalizan con un conocimiento extraído
a partir de esos datos. (Pujari, 2001)

— Selección: seleccionar o segmentar los datos de acuerdo a su relevancia con


base en los objetivos planteados para la extracción de conocimiento.
— Preprocesado: se refiere a la limpieza de la información, eliminando información
innecesaria, consolidando información y unificando formatos que provenga de
múltiples fuentes.
— Transformación: consiste en transformar la información recolectada con el objeto
de que pueda ser utilizable y navegable (consultar la información desde
diferentes puntos de vista) preparándola para la etapa de minería de datos.
— Minería de datos: extracción de patrones en los datos.
— Interpretación y evaluación: convertir los patrones encontrados en conocimiento,
que sirvan como fundamento para la toma de decisiones.
— Visualización de datos: busca ofrecer profundidad en el análisis y un
entendimiento más intuitivo de los datos y sus patrones definidos en la minería de
datos.
La minería de datos es la principal etapa de KDD ya que se enfoca en la búsqueda de
las relaciones y patrones ocultos, por lo que se profundiza en el presente documento.

Alcance de la minería de datos

— Predicción automatizada de tendencias y comportamientos.


— Descubrimiento automatizado de modelos previamente desconocidos.
La minería de datos produce cinco tipos de información:

— Asociaciones.
— Secuencias.
— Clasificaciones.
— Agrupamientos.
4
Sistema de apoyo para la acreditación de la calidad de programas académicos de la universidad de caldas, aplicando
técnicas en minería de datos

— Pronósticos.
Áreas de investigación en la minería de datos

— Estadísticas: uno de los fundamentos de la minería de datos es la estadística, su


amplia difusión y fundamentación teórica la valida, sin embargo, sus resultados
deben ser interpretados por expertos debido a su complejidad en la
interpretación. Se suelen usar modelos estadísticos como los lineales para llevar
a cabo la minería de datos.
— Máquinas de aprendizaje: es un proceso automatizado de aprendizaje, tomando
el aprendizaje como el equivalente a reglas basadas en observaciones, la
generalización de comportamientos basada en ejemplos.
— Aprendizaje supervisado: es el aprendizaje basado en ejemplos, el cual produce
una función que establece la correspondencia entre la entrada y la salida
deseada (ejemplo).
— Aprendizaje sin supervisión: es el aprendizaje basado en la observación y el
descubrimiento, por lo que no existe un conocimiento a priori, no existe una
categorización de la información.
— Programación matemática
Técnicas de minería de datos

Las técnicas más representativas de la minería de datos son:

— Descubrimiento de reglas de asociación: utilizado para descubrir hechos que


ocurren en común dentro de un contexto, del tipo, cuando un cliente compra un
producto X, suele comprar el producto Y.
— Agrupamiento o Clustering: trata de agrupar datos en diferentes grupos, de tal
forma que los datos en cada grupo tengan tendencias o patrones comunes.
— Descubrimiento de reglas de clasificación o Árboles de decisión: sirven para
representar un conjunto de reglas que determinan como se clasifican los
elementos, donde cada nueva rama contiene una condición para el conjunto de
datos que agrupa.
— Redes neuronales: forma de aprendizaje basada en la forma en que funciona el
sistema nervioso de los animales, basado en la interconexión de neuronas con
estímulos ponderados.
— Regresión lineal: rápida en la búsqueda de relaciones de datos pero limitado su
uso a espacios bidimensionales.
Se amplían algunas técnicas por su aplicabilidad al presente proyecto:

Clustering: también conocido como agrupamiento o análisis de conglomerados, es una


técnica multivariable que permite agrupar conjuntos de datos basándose en su
similaridad, esta es menos restrictiva que otras técnicas pues no requiere linealidad ni
simetría y permite el uso de variables categóricas, así como el uso de diferentes técnicas
para el cálculo de la matriz de distancias (que es la que finalmente determina la
similitud). (Pérez López & Santín González, 2007)

5
Sistema de apoyo para la acreditación de la calidad de programas académicos de la universidad de caldas, aplicando
técnicas en minería de datos

Otra de las ventajas del clustering es que no requiere conocimiento previo y permite
detectar los grupos y su composición basado únicamente en sus similitudes.

Un tipo de análisis de conglomerados es el K-medias (K-means en inglés),


especialmente útil cuando se cuenta con grandes volúmenes de datos, este suele
utilizarse de manera exploratoria e iterativa pues requiere que se le defina la cantidad de
grupos a identificar; y después de cada iteración –modificando la cantidad de grupos- se
deben comparar los resultados para determinar cual es la clasificación que
consideramos mejor. También puede utilizarse la técnica para clasificar, indicándosele
los centroides ya conocidos.

Análisis discriminante: según Pérez el análisis discriminante es “una técnica


estadística que permite asignar o clasificar nuevos individuos dentro de grupos
previamente reconocidos o definidos… El análisis discriminante se conoce en ocasiones
como análisis de clasificación, ya que su objetivo fundamental es producir una regla o un
esquema de clasificación que permita a un investigador predecir la población a la que es
más probable que tenga que pertenecer una nueva observación (supuestas conocidas
varias poblaciones a las que pueden pertenecer las observaciones)” (Pérez López &
Santín González, 2007). Esta técnica es de gran valor cuando la característica objetivo
es muy difícil o imposible de observar directamente, pero que puede estar relacionada de
alguna forma con otras características y poder predecir su comportamiento con cierto
grado de confiabilidad.

El análisis discriminante, busca establecer con un grado de confiabilidad las relaciones


óptimas entre las características de los casos y los grupos a los que pertenecen, de tal
forma que permita clasificar un caso –no contemplado en la clasificación inicial- en uno
de los grupos con cierta fiabilidad.

En esta técnica el criterio de máxima verosimilitud, indica que se debe clasificar al


nuevo caso en el grupo que explique con mayor probabilidad lo que se observa de él, de
acuerdo a sus características.

Análisis factorial: el análisis factorial busca la reducción de dimensionalidad del objeto


de estudio, que en otras palabras, busca reducir la cantidad de variables sobre las
cuales se va a realizar el estudio y por tanto de su complejidad; en esta se busca
representar las variables originales observables utilizando un conjunto de variables
hipotéticas o latentes, denominadas factores. Las variables observadas se modelan de
acuerdo a los factores comunes (comunalidad) y a los factores únicos (especificidad).
(Cuadras, 2010)

Se diferencia con el análisis de componentes principales es el modelo utilizado para


relacionar las variables y los factores, en esta se busca hallar combinaciones lineales de
las variables originales que representan la mayor parte de la varianza total, mientras que
en el análisis factorial se busca un nuevo conjunto de variables no observables (latentes)
que explique de mejor manera la varianza común.

Un ejemplo que representa claramente su aplicabilidad es cuando se tienen un conjunto


de asignaturas como matemáticas, física, literatura, inglés; sobre las cuales claramente
existen dos líneas, las ciencias y el lenguaje, las cuales serían los factores subyacentes
a las variables observadas.

6
Sistema de apoyo para la acreditación de la calidad de programas académicos de la universidad de caldas, aplicando
técnicas en minería de datos

Extensiones de la minería de datos

Web Mining: los sitios web y de aprendizaje virtual almacenan conjuntos de información
importante que pueden ser sujetos de estudio de la minería de datos, se analizan los
logs que registrar las acciones de los usuarios, con el fin de encontrar patrones de
comportamiento tales como el proceso de navegación de un usuario antes de realizar
una compra.

Text mining: gran parte de la información de una organización está almacena en forma
de documentos sin ninguna estructura, por lo que la categorización, procesamiento,
extracción de información es muy significativa, aún más, teniendo en cuenta que la
información esperada no está contenida en un solo documento, sino en su conjunto.

Minería de datos educacional: la minería de datos aplicada al sector educativo, utiliza


fuentes de datos como los registros de calificaciones, los logs de los estudiantes en los
sistemas de educación virtual y la información descriptiva del estudiante para la
búsqueda de patrones o modelos que permitan mejorar el desempeño académico,
disminuir la deserción, así como mejorar la utilización de los recursos.

CRISP-DM

Para el desarrollo de proyectos de Extracción de Conocimiento a partir de Datos (KDD)


existe una metodología desarrollada con base en la intuición y en el desarrollo de
muchos proyectos en la industria compuesto de 6 etapas, las cuales no son rígidas y
que permiten moverse entre ellas buscando el mejoramiento del proceso. El modelo es
jerárquico con 4 niveles, así, en el nivel superior se ubican las fases, en el segundo las
tareas genéricas, en el tercero las tareas especializadas en las que se define como
deben ser realizadas las tareas genéricas y en el último nivel las instancias de proceso,
en donde se lleva el registro de las acciones, decisiones y resultados obtenidos en la
realización de la tarea.

A continuación las fases y sus tareas genéricas: (Chapman, y otros, 2000) (traducción
tomada de (Goicochea, 2009))

Comprensión del negocio (Objetivos y requerimientos desde una perspectiva no


técnica)

— Establecimiento de los objetivos del negocio (Contexto inicial, objetivos, criterios


de éxito)
— Evaluación de la situación (Inventario de recursos, requerimientos, supuestos,
terminologías propias del negocio)
— Establecimiento de los objetivos de la minería de datos (objetivos y criterios de
éxito)
— Generación del plan del proyecto (plan, herramientas, equipo y técnicas)
Comprensión de los datos (Familiarizarse con los datos teniendo presente los objetivos
del negocio)

7
Sistema de apoyo para la acreditación de la calidad de programas académicos de la universidad de caldas, aplicando
técnicas en minería de datos

— Recopilación inicial de datos


— Descripción de los datos
— Exploración de los datos
— Verificación de calidad de datos
Preparación de los datos (Obtener la vista a la que se le pueda aplicar la minería o
dataset)

— Selección de los datos


— Limpieza de datos
— Construcción de datos
— Integración de datos
— Formateo de datos
Modelado (Aplicar las técnicas de minería de datos a los dataset)

— Selección de la técnica de modelado


— Diseño de la evaluación
— Construcción del modelo
— Evaluación del modelo
Evaluación (De los modelos de la fase anteriores para determinar si son útiles a las
necesidades del negocio)

— Evaluación de resultados
— Revisar el proceso
— Establecimiento de los siguientes pasos o acciones
Despliegue (Explotar utilidad de los modelos, integrándolos en las tareas de toma de
decisiones de la organización)

— Planificación de despliegue
— Planificación de la monitorización y del mantenimiento
— Generación de informe final
— Revisión del proyecto

Para el presente proyecto se utilizará la metodología CRISP-DM descrita.

Bodega de datos (Data warehouse)

Las organizaciones cuentan hoy en día con múltiples sistemas de información, con
múltiples sistemas de transmisión y de almacenamiento, una bodega de datos habilita a
una organización a integrar estos múltiples sistemas en uno sólo mediante la
administración y la recuperación centralizada de la información, así como el registro de
8
Sistema de apoyo para la acreditación de la calidad de programas académicos de la universidad de caldas, aplicando
técnicas en minería de datos

históricos de la información orientada a la toma de decisiones de la organización que la


mantiene. (Sumathi & Sivanandam, 2006)

La centralización es necesaria para maximizar el acceso de los usuarios y facilitar el


análisis de la información.

En términos técnicos, la bodega de datos es un sistema de base de datos relacional


diseñado para soportar bases de datos de gran tamaño con unos altos niveles de
desempeño y capacidad de gestión.

Esta debe cumplir con las siguientes características: (Inmon, 1992)

— Orientado a temas.- Los datos en la base de datos están organizados de manera


que todos los elementos de datos relativos al mismo evento u objeto del mundo
real queden unidos entre sí.
— Variante en el tiempo.- Los cambios producidos en los datos a lo largo del tiempo
quedan registrados para que los informes que se puedan generar reflejen esas
variaciones.
— No volátil.- La información no se modifica ni se elimina, una vez almacenado un
dato, éste se convierte en información de sólo lectura, y se mantiene para futuras
consultas.
— Integrado.- La base de datos contiene los datos de todos los sistemas
operacionales de la organización, y dichos datos deben ser consistentes.
Un bodega de datos contiene data marts, que son subconjuntos de datos orientados a un
solo sector de la organización o para un fin específico, pero debe proporcionar las
mismas funcionalidades que la bodega de datos. (Chen, Han, & Yu, 2006)

Ralph Kimball, propone un enfoque botton-up, en el cual la bodega de datos se debe ir


construyendo con detalle en las áreas de interés del negocio pero sin abarcar de una
sola vez la complejidad del todo; e ir incorporando otras áreas de acuerdo a su impacto y
complejidad, buscando aprovechar los aprendizajes previos en áreas más complejas de
implementar. (Kimball, Ross, Thornthwaite, Mundy, & Becker, 2008)

Acreditación Institucional

El gobierno nacional a través del Consejo Nacional de Educación Superior CESU


mediante el acuerdo 6 de 1995 estableció las políticas generales de acreditación, dando
las siguientes definiciones: (Consejo Nacional de Educación Superior, 1995)

— La Acreditación es el acto por el cual el Estado adopta y hace público el


reconocimiento que los pares académicos hacen de la comprobación que
efectúa una institución sobre la calidad de sus programas académicos, su
organización y funcionamiento y el cumplimiento de su función social.
— La autoevaluación, hecha por las instituciones, para lo cual deben utilizarse
guías coherentes con los criterios y características de calidad definidos por el
Consejo Nacional de Acreditación. Estas guías podrán ser diferenciadas según
el tipo de institución o área del conocimiento, y deberán incluir elementos
9
Sistema de apoyo para la acreditación de la calidad de programas académicos de la universidad de caldas, aplicando
técnicas en minería de datos

cuantitativos y cualitativos. Esta autoevaluación deberá tener como punto de


partida la definición que haga la institución de su naturaleza, su misión y su
proyecto educativo. Se busca preservar las características propias de cada
institución, no de homogeneizarlas.
— La evaluación externa, hecha por los pares académicos nombrados por el
Consejo Nacional de Acreditación, mediante visita a la institución, para
comprobar la objetividad y veracidad de la autoevaluación en cuanto a la calidad
de sus programas académicos, su organización y funcionamiento y el
cumplimiento de su función social. La evaluación externa concluirá con el informe
que rindan estos pares sobre los resultados, acompañado de recomendaciones
para el mejoramiento institucional, cuando sea necesario.
El Consejo Nacional de Acreditación, define que la calidad de la educación superior es
la razón de ser del Sistema Nacional de Acreditación y determina que para determinar la
calidad se tienen en cuenta las siguientes características:

— Las características universales expresadas en sus notas constitutivas. Estas


características sirven como fundamento de la tipología de las instituciones y
establecen los denominadores comunes de cada tipo.
— Los referentes históricos, es decir, lo que la institución ha pretendido ser, lo que
históricamente han sido las instituciones de su tipo y lo que en el momento
histórico presente y en la sociedad concreta se reconoce como el tipo al que esta
institución pertenece (la normatividad existente y las orientaciones básicas que
movilizan el sector educativo, entre otros).
— Lo que la institución singularmente considerada define como su especificidad o
su vocación primera (la misión institucional y sus propósitos).
La calidad es un elemento primordial de las políticas de educación nacional y uno de los
objetivos del Ministerio de Educación Nacional, por lo que el Consejo Nacional para el
Aseguramiento de la Calidad (CONACES) definió cinco mecanismos para el
aseguramiento de la calidad:

— Los estándares mínimos de calidad o registro calificado, donde se definen una


serie de requisitos mínimos obligatorios para que una Institución de Educación
Superior – IES ofrezca programas de calidad en pregrado y postgrado, con el
funcionamiento del Consejo Nacional para el Aseguramiento de la Calidad
(CONACES).
— Aplicación obligatoria de los exámenes de calidad (ECAES) a todos los
estudiantes de último año para evaluar las competencias requeridas para el
ejercicio de la profesión correspondiente.
— Incremento en el número de programas con acreditación de alta calidad.
— El diseño e implementación de planes de mejoramiento en aquellas instituciones
que reporten debilidades.
ECAES

El Estado implementó los ECAES, reglamentados por el Decreto 1781 de 2003, como
una vía para la evaluación externa de los estudiantes de último año de los programas de

10
Sistema de apoyo para la acreditación de la calidad de programas académicos de la universidad de caldas, aplicando
técnicas en minería de datos

pregrado de educación superior y tienen como objetivos fundamentales: (Presidencia de


la República, 2003)

— Comprobar el grado de desarrollo de las competencias de los estudiantes que


cursan el último año de los programas académicos de pregrado que ofrecen las
instituciones de educación superior.
— Servir de fuente de información para la construcción de indicadores de
evaluación del servicio público educativo, que fomenten la cualificación de los
procesos institucionales, la formulación de políticas y faciliten el proceso de toma
de decisiones, en todos los órdenes y componentes del sistema educativo.

11
Sistema de apoyo para la acreditación de la calidad de programas académicos de la universidad de caldas, aplicando
técnicas en minería de datos

2 DELIMITACIÓN DEL ÁREA PROBLEMÁTICA

Una de las principales preocupaciones de la educación es conocer la cantidad de


conocimiento que un estudiante ha adquirido a través de su proceso de aprendizaje; la
psicometría y la sicología cognitiva buscar dar solución a esta problemática debido a la
dificultad de medirla de manera directa y poder medir la efectividad del proceso
educativo. (Winters, 2006)

El estado colombiano no ha estado exento de esta preocupación y en el año 2000 incluyó


en el plan de educación los Exámenes de Estado de Calidad de la Educación Superior
(ECAES) con el objetivo de contribuir en el mejoramiento de la calidad y la transparencia
en las Instituciones de Educación Superior (IES) que se realizaron por primera vez en el
año 2003; en la presentación del informe presentado este mismo año el director del
ICFES, Daniel Bogoya hizo un énfasis especial en que la evaluación debe enfocarse en
la mejora de las estrategias pedagógicas:

“Los resultados de un proceso de evaluación educativa permiten reconocer el


perfil de competencias de un estudiante, de una institución o de un programa de
formación y, de esta manera, favorecen la cualificación de las prácticas
pedagógicas, contribuyendo al mejoramiento de la calidad del sistema.” (Rocha
Gaona, Pardo Adames, Bohórquez Rodríguez, & Barrera Díaz, 2003)

El ICFES entrega los resultados de los ECAES a las IES utilizando el formato Informe
Institucional, en el que se entrega una información de estadística descriptiva como
número de estudiantes de los diferentes programas académicos evaluados por semestre,
puntaje promedio y desviación estándar y los resultados por grupos de preguntas; así
como los resultados regionales y nacionales (Rocha Gaona, Pardo Adames, Bohórquez
Rodríguez, & Barrera Díaz, 2003); esta información suele ser utilizada por las
universidades en el ajuste de los currículos académicos y la definición de programas de
mejoramiento pedagógico, sin embargo, debido a lo general de la información esta no
permite que el diseño de tales programas sea focalizado y permita una evaluación
oportuna de su impacto.

Esta ha sido una problemática generalizada a nivel mundial y en ocasiones para algunos
países ni siquiera existen pruebas estandarizadas o no son de carácter obligatorio, como
es el caso de Estados Unidos. (Winters, 2006)

Es por esto que el sector educativo ha visto con buenos ojos la minería de datos y en un
sentido más amplio la extracción de conocimiento a partir de los datos (KDD por sus
siglas en inglés) por su capacidad de generar modelos que permitan identificar patrones
de comportamiento y predecir sucesos (Luan, 2002), así como su alto uso y éxito en el
sector de los negocios; por lo que ahora existe una nueva línea de investigación en KDD
enfocada a la educación, denominada Minería de Datos Educacional (EDM, por siglas en
inglés) que tomó formalmente su nombre a partir del año 2004 y que empezó a aglomerar
la creciente investigación al respecto. (Baker & Yacef, 2009)

La EDM en sus inicios estuvo enfocada en la clasificación y caracterización; en los


últimos años ha empezado a incursionar en la creación de modelos para la predicción y
ha incorporado la minería de datos en ambientes WEB buscando extraer conocimiento de
12
Sistema de apoyo para la acreditación de la calidad de programas académicos de la universidad de caldas, aplicando
técnicas en minería de datos

los Sistemas de Gestión de Aprendizaje (LMS por sus siglas en inglés) los cuales han
tenido un auge en los últimos años en las IES como apoyo a la enseña presencial y en la
enseñanza virtual como espacio fundamental. (Baker & Yacef, 2009)

Antecedentes

Algunos de los antecedentes del trabajo propuesto son:

Luan, presenta cuál sería el paralelo de la aplicación de la minería de datos en el sector


educativo con el sector de los negocios, haciendo la correspondencia entre un conjunto
de preguntas, como:

“¿Qué clientes podrían irse hacia los competidores? versus ¿Qué cursos atraen
más estudiantes” o “Cuáles son mis clientes leales? versus ¿Cuáles son los
estudiantes más perseverantes?”

Además presenta una serie de aplicaciones potenciales como identificar las tipologías de
aprendizaje de los estudiantes, categorizar los estudiantes para determinar el tiempo
esperado de permanencia o deserción y optimizar el envío de cartas de invitación a
inscribirse en la universidad. Las soluciones propuestas siguen el modelo de manejo del
conocimiento por niveles propuesto por él (Tiered Knowledge Management Model
TKMM). (Luan, 2002)

Luan propone el uso de la Inteligencia de negocios y la minería de datos a la gestión de


la Academia, mostrando que puede ser utilizada no sólo a nivel empresarial y en términos
económicos; sino además apoyando a encontrar las causas y definir estrategias en temas
sensibles al interior de las universidades y que han sido de difícil solución a través de
otras técnicas; motivando a la incorporación de estas técnicas del empresariado al interior
de las instituciones académicas. Por tanto, ya no es necesario justificar ante las
autoridades académicas este tipo de proyectos, pues los logros son evidentes y sus
resultados impactan rápida y directamente en la gestión, pasando de un plano académico
a un plano de aplicación y ejecución inmediata.

Durán et al, en la Universidad Nacional de Santiago del Estero en Argentina, aplican


minería de datos utilizando el aplicativo Weka sobre las respuestas dadas por un
conjunto de estudiantes, del programa de Licenciatura en Sistemas de Información, a la
prueba propuesta por Felder y Soloman, en la cual se busca clasificar al estudiante en un
estilo de aprendizaje de acuerdo al modelo planteado por Felder y Silverman. Este
modelo está basado en 4 dimensiones; percepción, entrada, procesamiento y
comprensión y unos estilos en cada dimensión; Sensorial o intuitivo, Visual o verbal,
Activo o reflexivo, Secuencial o global. La investigación tiene como resultado una
caracterización de los estilos de aprendizaje de los estudiantes de la licenciatura y
proponen unos estilos de enseñanza acordes al conocimiento encontrado. (Durán &
Costaguta, 2007)

La minería de datos puede ser empleada no sólo sobre variables fácilmente


cuantificables; como las calificaciones, resultados en pruebas de estado, información
socioeconómica; sino además, sobre cualidades cognoscitivas, sociológicas o
sicológicas, claro, a través de instrumentos cómo la prueba propuesta por Felder y
Soloman. Para el alcance del presente proyecto no se incluyen este tipo de variables, sin

13
Sistema de apoyo para la acreditación de la calidad de programas académicos de la universidad de caldas, aplicando
técnicas en minería de datos

embargo, la bodega de datos que se obtendrá podrá servir como punto de partida para
este tipo de estudios.

González et al, definieron un modelo para determinar las calificaciones en ciertas


asignaturas clave de los estudiantes de primer semestre de la Universidad de las
Ciencias Informáticas en Cuba, basándose en variables como tipo de colegio, provincia
de procedencia, nivel de estudio de los padres utilizando las herramientas de minería de
datos de SQL Server y utilizando la metodología para minería de datos CRISP-DM. El
estudio identifica las variables que influyen negativamente en las calificaciones de los
estudiantes de primer semestre con un alto grado de certeza. (González Díaz, Pérez
Hernández, Espinosa Conde, & Alvarez Reyes, 2007)

González evidencia que existen factores previos al ingreso a la Universidad que influyen
en el desempeño académico de los estudiantes durante su vida universitaria, por lo que
elementos como la información socioeconómica incluyendo la procedencia y el tipo de
educación secundaria deben ser tenidos en cuenta en estudios similares.

Winters en su tesis doctoral en Ciencias de la Computación de la Universidad de


California Riverside, hace una extensa revisión del estado del arte de la minería de datos
educacional, las técnicas de minería y las áreas de la psicometría y la cognición. A partir
de ellas encausa su investigación sobre la evaluación del nivel de aprendizaje de los
estudiantes en cada objetivo de las asignaturas y el grado en que el plan de estudios
cumple con los resultados esperados del programa académico asociado al departamento
de Ciencias de la Computación e Ingeniería (Winters, 2006). Para esto utiliza el siguiente
conjunto de matrices:

— Matriz de evaluaciones (Score Matriz): calificación obtenida por el estudiante en


cada pregunta de las evaluaciones aplicadas para cada curso.
— Matriz de relevancia (Relevance Matrix): relación lineal entre cada pregunta y el
objetivo del curso, indicando su relevancia.
— Matriz del curso (Course matrix): relación entre los objetivos del curso y los
resultados esperados del programa
La investigación concluye definiendo unos modelos tanto para la predicción como para
la caracterización, en los cuales se responden preguntas como

— ¿Cuáles son “buenas preguntas” para evaluar los tópicos de un curso?


— ¿Cuál es el promedio de las calificaciones relacionadas a un tópico de un curso?
— ¿Cuál es el promedio de las calificaciones relacionadas con un resultado
esperado del programa académico?
— ¿Cuáles son los tópicos debería fortalecer un estudiante?
Un elemento importante en los sistemas de Inteligencia de Negocios es conocer las
causas y los efectos de ciertos comportamientos, de tal forma que orienten a la toma de
decisiones, por lo que poder realizar una trazabilidad de las calificaciones y los cursos
contra los objetivos de los programas académicos facilitaría la definición de estrategias
que mejoren el desempeño académico.
En Colombia, el Ministerio de Educación Nacional (MEN) junto con el Centro de Estudios
Económicos (CEDE) de la Universidad de los Andes construyeron el Sistema de
14
Sistema de apoyo para la acreditación de la calidad de programas académicos de la universidad de caldas, aplicando
técnicas en minería de datos

Prevención y Análisis a la Deserción en las Instituciones de Educación Superior


(SPADIES) con el fin de hacer seguimiento a la problemática de la deserción en las IES.

Una de las grandes ventajas de este sistema es su alto grado de integración con los
sistemas de información de la gran mayoría de instituciones relacionadas con la
Educación Superior como el ICFES, Icetex, SNIES y alimentado por los sistemas de
Información de todas las IES con carácter de obligatoriedad para estas. Entre algunas de
sus características es que presenta información de estadística descriptiva histórica pero
adicionalmente incluye análisis de riesgos para determinar que estudiantes son más
propensos a desertar; pero deja por fuera elementos para caracterizar y predecir el
desempeño académico de los estudiantes tanto a nivel general como por cursos.
(Guzmán Ruiz, 2007)

SPADIES debe ser una fuente de información adicional a las bodegas de datos de las
Universidades, de tal forma que además de ayudar en la elaboración de estrategias que
combatan la deserción, apoye otra clase de decisiones como para el presente caso de
mejorar el desempeño académico.

15
Sistema de apoyo para la acreditación de la calidad de programas académicos de la universidad de caldas, aplicando
técnicas en minería de datos

3 FORMULACIÓN DEL PROBLEMA (NECESIDAD U OPORTUNIDAD)

¿Podemos predecir el rendimiento académico de los estudiantes?

La Universidad de Caldas cuenta con una gran cantidad de información que describe a
sus estudiantes académicamente, además de otros atributos socioeconómicos o de
formación previa; sin embargo, esta no se ha convertido en conocimiento que sirva como
fundamento para el ajuste de los planes de estudio, la redefinición de las metodologías
de aprendizaje, los esquemas de apoyo al estudiante tanto académicamente como de
bienestar, que faciliten y mejoren el proceso de aprendizaje del estudiante y maximicen
los recursos que destina la universidad para dicho proceso.

16
Sistema de apoyo para la acreditación de la calidad de programas académicos de la universidad de caldas, aplicando
técnicas en minería de datos

4 OBJETIVOS

4.1 OBJETIVO GENERAL

Evaluar los factores que inciden en el desempeño académico de los estudiantes de la


Universidad por medio de técnicas en minería de datos.

4.2 OBJETIVOS ESPECIFICOS

• Construir un almacén de datos (Data warehouse) a partir de las fuentes de


información disponibles en la Universidad para aplicar las técnicas en minería de
datos requeridas.

• Definir de manera preliminar el conjunto de factores a evaluar de acuerdo a las


fuentes de información disponibles.

• Determinar los conjuntos de estudiantes que se utilizarán para aplicar las técnicas
de minería de datos y para validar los resultados obtenidos.

• Aplicar las técnicas necesarias en minería de datos al almacén de datos para


obtener nuevo conocimiento, buscando los factores influyentes y los factores que
miden el desempeño académico.

• Evaluar los resultados obtenidos contra el conjunto de estudiantes de validación.

• Proponer un sistema de apoyo para la acreditación de los programas académicos


de la universidad por medio de los resultados obtenidos, basándose en el grado
de confiabilidad alcanzado con las diferentes técnicas de minería de datos
aplicadas.

17
Sistema de apoyo para la acreditación de la calidad de programas académicos de la universidad de caldas, aplicando
técnicas en minería de datos

5 JUSTIFICACIÓN

Los cambios originados, mundialmente, en el plano político, económico y científico,


abrieron nuevas posibilidades para el intercambio de conocimientos y experiencias, pero
a su vez generaron procesos de competitividad cada vez más complejos que obligaron a
las instituciones de educación superior a establecer relaciones de mutua cooperación con
el medio no sólo en la perspectiva regional o nacional sino también internacional, a fin de
formular o consolidar su proyecto educativo de acuerdo con una realidad cada vez más
amplia.

En el campo de la gestión del conocimiento y más precisamente en lo curricular, para la


Universidad no ha sido fácil el diagnosticar el desarrollo de competencias en los
estudiantes, como la evaluación de la eficiencia de las políticas concebidas para el
diagnostico y mejoramiento de dichas competencias, desde la perspectiva de la
evaluación de competencias del Sistemas Nacional de Aseguramiento de la Calidad en la
Educación. De esta forma, sería posible articular la interpretación de los resultados de las
pruebas de estado con el desarrollo de los estudiantes por áreas de conocimiento según
la definición del Examen de Estado de Calidad de la Educación Superior ECAES, así
podría conocerse cómo es que el proyecto educativo de la institución opera sobre el
desarrollo de las competencias de los estudiantes, permitiendo definir y hacer
seguimiento de políticas de mejoramiento curricular desde la concepción de dicho
Sistema Nacional de Aseguramiento de la Calidad en la Educación.

18
Sistema de apoyo para la acreditación de la calidad de programas académicos de la universidad de caldas, aplicando
técnicas en minería de datos

6 BIBLIOGRAFÍA

Baker, R. S., & Yacef, K. (2009). The State of Educational Data Mining in 2009: A Review
and Future Visions. 1 (1).

Consejo Nacional de Educación Superior. (1995). Acuerdo No. 06 - Políticas generales de


acreditación.

Cuadras, C. M. (2010). Nuevos métodos de análisis multivariante. Barcelona: CMC


Editions.

Chapman, P., Clinton, J., Kerber, R., Khabaza, T., Reinartz, T., Shearer, C., y otros.
(2000). CRISP-DM 1.0 Step-by-step data mining guide. CRISPDM.

Chen, M.-S., Han, J., & Yu, P. S. (2006). Data mining: An overview from database
perspective. 8 (6).

Decreto No. 1781 Por el cual se reglamentan los Exámenes de Estado de Calidad de la
Educación Superior ECAES (2003).

Durán, E., & Costaguta, R. (2007). Minería de datos para descubrir estilos de aprendizaje.
2 (42).

Goicochea, A. (11 de agosto de 2009). CRISP-DM, Una metodología para proyectos de


Minería de Datos. Recuperado el 18 de julio de 2010, de
http://anibalgoicochea.com/2009/08/11/crisp-dm-una-metodologia-para-proyectos-de-
mineria-de-datos/

González Díaz, E., Pérez Hernández, Z., Espinosa Conde, I., & Alvarez Reyes, S. (2007).
Obtención de patrones y reglas en el proceso académico de la Universidad de las
Ciencias Informáticas utilizando técnicas de minería de datos. La Habana: Universidad de
las Ciencias Informáticas.

Guzmán Ruiz, C. (Enero de 2007). Sistema de Prevención y Análisis de la Deserción en


Las Instituciones de Educación Superior (SPADIES). Recuperado el 20 de julio de 2010,
de Proyecto “Estrategias para disminuir la deserción en Educación Superior”:
http://spadies.uniandes.edu.co/spadies2/recursos/MEN_ProyectoDesercion.pdf

Inmon, W. H. (1992). Building the Data Warehouse. Nueva York: John Wiley & Sons, Inc.

Kimball, R., Ross, M., Thornthwaite, W., Mundy, J., & Becker, B. (2008). The data
warehouse lifecycle toolkit (Segunda ed.). Wiley.

Luan, J. (2002). Data Mining and Knowledge Management in Higher Education - Potential
Applications. Toronto: Annual Forum for the Association for Institutional Research.

19
Sistema de apoyo para la acreditación de la calidad de programas académicos de la universidad de caldas, aplicando
técnicas en minería de datos

Pérez López, C., & Santín González, D. (2007). Minería de datos: Técnicas y
herramientas. Madrid: Thomson Paraninfo.

Pujari, A. K. (2001). Data Mining Techniques. Universities Press.

Rocha Gaona, M., Pardo Adames, C. A., Bohórquez Rodríguez, S. E., & Barrera Díaz, L.
(2003). Informe Nacional De Resultados. Exámenes De Estado De Calidad De La
Educación Superior - Ecaes. Bogotá: ICFES.

Sumathi, S., & Sivanandam, S. N. (2006). Introduction to data mining and its applications.
Springer.

Valhondo, D. (2003). Gestión del conocimiento: Del mito a la realidad. Madrid: Ediciones
Díaz de Santos.

Winters, T. d. (2006). Educational Data Mining: Collection and Analysis of Score Matrices
for Outcomes-Based Assessment. 2006 . Riverside, California, Estados Unidos:
University of California, Riverside.

20

S-ar putea să vă placă și