Documente Academic
Documente Profesional
Documente Cultură
Anlisis del puntaje de admisin de la universidad Nacional de Colombia por medio de una
regresin no paramtrica
Resumen
Por medio del siguiente trabajo, se presenta al lector una aplicacin de la parte terica de la
regresin no paramtrica con una base de datos real, el ajuste no paramtrico se le realizo a una
muestra de 445 estudiantes admitidos a la facultad de ciencias de la Universidad Nacional. Se
tomaron los datos del puntaje obtenido por cada estudiante en los componentes de: matemticas,
ciencias, sociales, texto e imagen adems del puntaje total obtenido y del genero de cada
admitido. Las variables de estudio fueron el puntaje total obtenido en el examen de admisin y el
puntaje obtenido en el componente de matemticas para analizar qu tan influyente es el
componente de matemticas en el puntaje de admisin y adems comparar la variabilidad de
estos puntajes entre los hombres y las mujeres; se generaron unos ajuste de curvas de regresin
destacando pruebas de ausencia de efectos, linealidad e igualdad tanto para el grupo de las
mujeres como para el grupo de los hombres.
Palabras Clave
Introduccin
La teora y los mtodos de suavizamiento o regresin no paramtrica han cobrado un gran auge
en las ltimas dcadas unido al avance en materia computacional[ CITATION Abd09 \l 9226 ] Esto
debido a que los mtodos paramtricos que comnmente son usados en la teora no se ajustaban
de manera ptima en la prctica; pues en muchos casos de antemano no se conoce la
distribucin por la cual estn regidas las bases de datos a estudiar, como lo son: la distribucin
normal, la distribucin poisson, entre otras; lo que se busca es no determinar ninguna distribucin
y obtener estimadores tan ptimos y eficaces como los conocidos por la regresin paramtrica.
En promedio la Universidad Nacional recibe 120.000 aspirantes al ao y segn los datos que se
tienen, semestralmente la cantidad de aspirantes oscila entre los 40.000 y los 50.000 y de esta
cantidad solo 10% obtiene uno de los 5.500 cupos ofrecidos; Ahora bien en el transcurso de los
aos la Universidad Nacional ha presentado variantes en sus exmenes de admisin y con estas se
ha presentado un cambio muy recurrente y que se podra generalizar como sesgo de gnero. Se
puede afirmar que en la Universidad Nacional hay ms hombres que mujeres, de los 47.277
estudiantes que la UN tena en las sedes Bogot, Medelln, Manizales y Palmira, en 2010, el 61%
eran hombres y el 38%, mujeres[ CITATION Age12 \l 9226 ] este fenmeno se presenta con ms
frecuencia en carreras relacionadas con las ciencias y las tecnologas; una de las ciencias exactas
ms antiguas de la humanidad son las matemticas, componente que est presente en el examen
de admisin de la Universidad Nacional, se quiere analizar qu tan relacionado est el componente
de matemticas con el puntaje de admisin, es decir que tanta influencia tiene el puntaje obtenido
en matemticas en el puntaje estandarizado de admisin y ms an que variabilidad presentan
estos puntajes entre los hombres y las mujeres
El anlisis realizado en el trabajo se hizo con una base de datos conformada por los admitidos a la
facultad de ciencias en el ao 2013, esto con el fin de determinar si existe alguna relacin entre el
puntaje de admisin y el puntaje del componente de matemticas, adems para analizar y
comparar cmo se comportan estas variables tanto en el grupo de las mujeres como en el grupo
de los hombres. Todo lo anterior es realizado en el software estadstico R y la librera sm
obteniendo: Contraste de ausencia de efectos, contraste de relacin lineal e igualdad de curvas de
regresin para obtener una inferencia exhaustiva de los datos a partir de una regresin no
paramtrica
Marco terico
Bandas de confianza: Son las delimitaciones graficas que se obtienen para una curva de
regresin ajustada, estas graficas determinan los rangos de confianza para los datos
representando tanto los limites superiores como los limites inferiores
Metodologa
Las matemticas son una de las bases de cualquier sociedad y estn presentes en la vida cotidiana
jugando un papel importante en las personas, as pues, con la anterior base presentada se quiere
comparar que tan influyente es el componente de matemticas con respecto al puntaje obtenido
en el examen tanto en los hombres como en las mujeres. Para ello se separaron los admitidos
segn su gnero y se realiz una regresin no paramtrica ya que no se conoce la distribucin que
siguen los datos presentado; para ver individualmente la relacin entre las variables y
posteriormente comparar los resultados obtenidos en cada grupo.
Las variables que se van a estudiar en el presente informe son: Puntaje y Matemticas. La variable
puntaje presenta los puntajes totales obtenidos por cada uno de los admitidos a la Universidad
Nacional, mientras que la variable matemticas presenta los puntajes obtenidos por cada admitido
solo en el componente de matemticas, se quiere analizar qu tan relacionadas se encuentran
estas variables y que tanto influye el gnero del admitido con el puntaje obtenido; tomando como
variable respuesta al puntaje total obtenido y como variable regresora al puntaje obtenido en el
componente de matemticas, se ajusta el siguiente modelo de regresin no paramtrica:
La figura 1 muestra un diagrama de dispersin con los datos obtenidos ajustando una curva de
regresin bajo el comando sm.regression. Como se puede observar con la curva ajustada, el
diagrama de dispersin muestra que entre mayor sea el puntaje en el componente de matemticas
mejor es el puntaje total obtenido, exceptundose algunos casos en los que pudo tener mayor
peso el puntaje de otros componentes. Tendiendo a ajustar una regresin lineal
Ahora analizaremos el mismo grafico, pero con los datos obtenidos por el grupo de los hombres
Al igual que en el caso del primer grupo, en este grfico de dispersin tambin se aprecia que
cuanto mayor es el puntaje obtenido en el componente de matemticas mejor es el puntaje total
obtenido en el examen; destacando unos casos atpicos que muestra la grfica en los cuales el
puntaje de matemticas no es tan alto pero aun as se obtuvo un puntaje de admisin bastante
bueno
Para cada uno de los grficos obtenidos anteriormente se ajustarn unas bandas de variabilidad,
obteniendo lo siguiente
Al igual que en el caso del grupo de las mujeres, para el grupo de los hombres se realiz el mismo
ajuste de bandas de confianza, pero al presentar diferentes datos en las variables que se estn
evaluando se obtuvo un h optimo de 0.7068722, sin embargo como se observa en la figura 4 las
bandas de confianza hacen un ajuste optimo de la curva de regresin ya que se encuentra
delimitada entre estas.
Encabezado: Hiptesis de no efecto entre las variables estudiadas para el grupo de las mujeres
Como se observa en el grafico la curva de regresin no se ajusta a las bandas de confianza que
determinan el no efecto entre las variables; es decir no hay evidencia estadstica suficiente para
aceptar que las variables Puntaje total obtenido y Puntaje obtenido en el componente de
matemticas son independientes.
Al igual que sucedi con el grupo de las mujeres, la curva de regresin no se ajusta a la banda de
confianza predeterminada, as pues se rechaza la hiptesis nula que afirma la independencia entre
las variables estudiadas.
Encabezado: Test de linealidad entre las variables analizadas para el grupo de las mujeres
Encabezado: Test de linealidad entre las variables analizadas para el grupo de los hombres
Como se puede observar en el grfico, la curva de regresin se ajusta a la banda de confianza
simulando un modelo lineal, esto dado con un valor de significancia de 0.107 permitiendo aceptar
la hiptesis de linealidad.
Ahora bien, como se pudo observar en los grficos de la figura 1 y de la figura 5 tanto en el grupo
de las mujeres como en el grupo de los hombres las curvas de regresin ajustadas son crecientes y
tienden a semejar una regresin lineal; dado que en ambos grupos el puntaje de admisin
aumenta a medida que se obtiene un mejor puntaje en el componente de matemticas, bajo estas
condiciones se podra inferir que las curvas siguen un mismo modelo de regresin, para ello se
pasara a probar una hiptesis de igualdad de curvas.
Como se tienen dos grupos a los cuales se les quiere verificar si ambos tienen una igualdad de
curvas, por medio del ancova no paramtrico se ajusta un ancho de banda optimo que sea comn
en las curvas de regresin anteriormente presentadas determinado por h, el cual es obtenido a
partir del mtodo de validacin cruzada.
Como se observa en el grafico las curvas de regresin ajustadas se salen de las bandas de confianza
del test las cuales fueron estimadas con un valor h de 2.2661, como la prueba arroja un p valor de
0.007 valor muy cercano a cero se procede a rechazar la hiptesis nula la cual afirma que las dos
curvas de regresin son iguales.
As pues se puede determinar que el puntaje obtenido en el examen de admisin vara de acuerdo
al puntaje obtenido en el componente de matemticas pero adems este puntaje tambin cambia
si fue presentado por un hombre o una mujer mostrando independencia total entre los dos
grupos.
Adems de lo analizado anteriormente se puede notar que tanto en el grupo de las mujeres como
en el grupo de los hombres la concentracin de puntaje obtenido en el componente de
matemticas oscila entre los 10 y los 14 puntos presentando una mayor concentracin de datos
en este rango. Sucede lo mismo para la variable puntaje total obtenido, la dispersin de puntos
se encuentra acumulada entre los 500 y los 800 puntos, salvo algunos datos atpicos que
presentaron mejor puntaje de admisin
Resultados y conclusiones
Las curvas de regresin ajustadas para el grupo de las mujeres y para el grupo de los
hombres no son iguales aunque tienden a ser muy parecidas por el crecimiento que
presentan, esto se debe a que cada grupo presento datos diferentes y por ende presentan
cambios significativos en las curvas, es por ello que para analizar la relacin entre las
variables que se estudiaron se debe hacer dependiendo el gnero dado que los grupos son
independientes.
A pesar de que las curvas de regresin ajustadas tienden a ser muy parecidas a una
regresin lineal, se requiere modelos no paramtricos para obtener estimadores ptimos
ya que de antemano no se conoce la distribucin de los datos
En ambos grupos la concentracin mxima de datos estuvo entre 600 y 800 puntos
presentando mayor cantidad de datos en este rango el grupo de los hombres lo que
comprueba que en la Universidad Nacional estudian ms hombres que mujeres.
Bibliografa
Abdelkader, N. B. (27 de septiembre de 2009). Regresion no parametrica en R. Obtenido de
http://masteres.ugr.es/moea/pages/tfm0809/regresin-no-paramtrica-en-r/!
Agencia de noticias UN. (10 de SEPTIEMBRE de 2012). Unimedios. Obtenido de Agencia de Noticias
UN: http://agenciadenoticias.unal.edu.co/detalle/article/en-la-un-hay-mas-hombres-que-
mujeres.html