Sunteți pe pagina 1din 19

Para empezar un análisis exploratorio de datos comenzaremos por un análisis univariado tanto de las

variables cuantitativas como cualitativas, luego se realizará el análisis bivariado para poder establecer
relaciones entre los diferentes tipos de variable de la muestra siguiendo el objetivo de investigación.
Empezando con las variables cuantitativas tenemos lo siguiente:

Gracias a los estadísticos mostrados podemos sacar las siguientes conclusiones:

 Salario
o En una muestra de 514 docentes el promedio del salario fue 50863.87 (en la población
de docentes de esta universidad se estima que el salario promedio es de 50863.87).
o El 50% de los docentes tienen un salario menor o igual a 50165.5, mientras que el otro
50% de los docentes obtienen un salario por encima del monto predicho.
o Debido a que la desviación estándar es diferente de cero los datos tienen un grado de
dispersión y para evaluar si ésta es alta o baja miraremos el coeficiente de variabilidad.
Debido a que para el salario el C.V. es mayor a 10% se puede decir que los datos poseen
un alto grado de dispersión y esto se puede explicar debido a la presencia de valores
atípicos.
o Los datos del salario indican que esta variable tiene una distribución asimétrica positiva,
es decir, que los profesores ganan salarios bajos. Este resultado se podía adelantar en
un análisis previo viendo que la media es mayor que la mediana.
o Debido a que el resultado de la medida de asimetría es cercano a 0 (0.4471906) se puede
adelantar cierto grado de normalidad en la distribución.
o Los datos del salario indican que esta variable tiene una distribución leptocúrtica lo que
indica que los salarios están agrupados alrededor de la media.
 Rentabilidad de la disciplina
o En la muestra de 514 docentes la rentabilidad de la disciplina promedio fue de
0.9485214 (en la población de docentes de esta universidad se estima que el salario
promedio es de 0.9485214).
o El 50% de los docentes poseen una rentabilidad de la disciplina menor o igual a 0.92,
mientras que el otro 50% de los docentes obtienen un salario por encima del monto
predicho. Debido a que la media es mayor a la mediana se puede adelantar que esta
variable presenta una distribución asimétrica positiva.
o Debido a que la desviación estándar es diferente de cero los datos tienen un grado de
dispersión y para evaluar si ésta es alta o baja miraremos el coeficiente de variabilidad.
Debido a que para la rentabilidad de la disciplina el C.V. es mayor a 10% se puede decir
que los datos poseen un alto grado de dispersión y esto se puede explicar debido a la
presencia de valores atípicos.
o La medida de asimetría muestra que los datos de la rentabilidad de la disciplina posee
una distribución asimétrica positiva, es decir, que los profesores ganan salarios bajos.
o Debido a que el resultado de la medida de asimetría es cercano a 0 (0.7067731) se puede
adelantar cierto grado de normalidad en la distribución.
o Los datos de la rentabilidad de la disciplina indican que esta variable tiene una
distribución leptocúrtica lo que indica que los salarios están agrupados alrededor de la
media.
 Tiempo desde la obtención del grado (medido en años)
o En la muestra de 514 docentes el tiempo desde la obtención del grado promedio fue de
15.27237 (en la población de docentes de esta universidad se estima que el salario
promedio es de 15.27237).
o El 50% de los docentes poseen un tiempo desde la obtención del grado menor o igual a
16 años mientras que el otro 50% de los docentes registran un tiempo mayor a 16 años.
Debido a que la media es menor a la mediana se puede adelantar que esta variable
presenta una distribución asimétrica negativa.
o Debido a que la desviación estándar es diferente de cero los datos tienen un grado de
dispersión y para evaluar si ésta es alta o baja miraremos el coeficiente de variabilidad.
Debido a que para la rentabilidad de la disciplina el C.V. es mayor a 10% se puede decir
que los datos poseen un alto grado de dispersión y esto se puede explicar debido a la
presencia de valores atípicos.
o La medida de asimetría muestra que los datos del tiempo desde la obtención del grado
posee una distribución asimétrica positiva, es decir, que los profesores tienen un tiempo
desde la obtención del grado bajo, pero esto se contradice con nuestra hipótesis previa.
Este resultado es posible si es que en la muestra existen valores atípicos.
o Los datos del tiempo desde la obtención del grado indican que esta variable tiene una
distribución leptocúrtica lo que indica que los datos están agrupados alrededor de la
media.

El análisis univariado de las variables cualitativas se realiza a través de tablas de frecuencia por lo cual se
obtiene lo siguiente:

De los resultados mostrados se pueden obtener las siguientes conclusiones:

 Género
o La mayor parte de la muestra son hombres
o El 75.10% de la muestra está conformada por hombres mientras que el 24.90% son
mujeres.
 Rango académico
o La incidencia de profesores a tiempo completo es mayor que la incidencia de
profesores asociados o asistentes.
o El 41.05% de los profesores de la muestra son docentes a tiempo completo mientras
que el 31.13% y 27.82% son profesores asociados y asistentes, respectivamente.

Las hipótesis mostradas con anterioridad pueden ser corroboradas a través de un análisis gráfico el cual
se realizará a continuación. Para el análisis gráfico se utilizarán histogramas, pies, gráfico de tallos y
hojas y gráficos de cajas. Empezando con los histogramas y pies tenemos lo siguiente:
Histogramas y Pies

Salario Rentabilidad de la disciplina

Tiempo desde la obtención del grado Sexo

Rango académico
Como se puede ver en los histogramas presentados para las variables cuantitativas, se cumplen lo
predicho en nuestras hipótesis acerca de la asimetría. Sin embargo, en cuanto a la variable tiempo desde
la obtención del grado esta asimetría positiva no se ve con tanta claridad como en las variables de salario
y rentabilidad. Una cosa que salta a la vista cuando vemos estos gráficos, y que no se pudo observar con
los estadísticos presentados anteriormente, es que las tres variables cuantitativas son bimodales, es decir,
presentan dos modas. Pero siendo más detallistas podemos ver que tanto en las variables de salario como
de rentabilidad la primera moda es mayor que la segunda moda, lo que llevaría a pensar en una asimetría
positiva, mientras que en la variable del tiempo desde la obtención del grado, la primera moda es menor
que la segunda y esto es lo que posiblemente genera la contradicción sobre asimetría positiva o negativa
de esta variable. Por su parte los gráficos pies de esta sección se hicieron con fines descriptivos pues
muestra de manera gráfica que en la muestra seleccionada hay mayor proporción de hombres y existe
mayor proporción de docentes a tiempo completo.

Siguiendo con el análisis gráfico, procedemos a presentar los correspondientes gráficos de tallos y hojas
para las variables cuantitativas.
Gráficos de tallos y hojas
Salario
Rentabilidad de la disciplina
Tiempo desde la obtención del grado

Si es que volteamos los gráficos de tallos y hojas presentados hacia la izquierda obtendremos los mismos
histogramas presentados anteriormente. Es por ello que las conclusiones que se puedan sacar sobre la
asimetría y la bimodalidad de las variables se mantienen.

Finalizando con el análisis gráfico de las variables, se procede a presentar los diagramas de cajas y bigotes
pertinentes:
Diagrama de cajas y bigotes

Salario Rentabilidad de la disciplina

Tiempo desde la obtención del grado

Gracias a los diagramas de cajas y bigotes, nos podemos dar cuenta que tanto las variables del salario
como de la rentabilidad de la disciplina poseen datos atípicos y debido a esto la media no puede ser
utilizada como medida de tendencia central y se debe usar la mediana. Asimismo, a pesar de que el tiempo
desde la obtención del grado no presenta datos atípicos se recomienda usar también la mediana como
medida de tendencia central debido a que la distribución de los datos no es simétrica y porque se puede
observar dos modas en esta distribución (al igual que en el salario y rentabilidad de la disciplina). Además,
en el gráfico de cajas de la variable salario se puede observar que el área de las cajas es casi igual debido
a que el coeficiente de asimetría presentado líneas arriba es casi 0 por lo que también implica que la
mediana esté casi al centro de la caja. Algo parecido pasa con la variable rentabilidad de la disciplina pero
la variable tiempo desde la obtención del grado posee una asimetría más marcada.

Lo curioso es que para la variable tiempo desde la obtención del grado, la caja nos llega a concluir que
existe una asimetría negativa mientras que los bigotes (al ser el bigote superior mayor al bigote inferior)
una asimetría positiva, es decir, la contradicción que con anterioridad mencionamos. Esto se explica
definitivamente por la presencia de una distribución binomial ya que como vimos en el mismo gráfico,
esta variable no presenta datos atípicos.
Para concluir con el análisis bivariado es necesario realizar pruebas de normalidad para ver la bondad de
ajuste de las distribuciones de las variables. Los resultados se muestran a continuación:

Pruebas de normalidad
Salario

Rentabilidad de la disciplina

Tiempo desde la obtención del grado

Las pruebas de bondad de ajuste nos dan la certeza que tanto la variable salario y rentabilidad de la
disciplina no son simétricas (se rechaza H0: los datos poseen una distribución simétrica) mientras que la
prueba de hipótesis para la variable tiempo desde la obtención del grado indica que los datos si provienen
de una distribución simétrica (se acepta H0: los datos poseen una distribución simétrica), esto último
debido al problema de bimodalidad concluido en el diagrama de cajas y bigotes. Sin embargo, ninguna
variable presenta una distribución normal debido a que se rechaza la hipótesis nula de la prueba joint (H0:
datos presentan distribución normal) debido a la presencia de datos atípicos principalmente en las
variables salario y rentabilidad de la disciplina. A manera de conclusión, todo el análisis previo nos ayuda
a establecer que para las variables presentadas, lo mejor es escoger a la mediana como medida de
tendencia central debido a que ninguna de las tres variables presenta una distribución normal y debido a
que se presentan datos atípicos con excepción de la variable tiempo desde la obtención del grado.

Ahora empezaremos a analizar las variables desde un enfoque bivariado. Debido a que el objetivo de
estudio es investigar la diferencia salarial entre género, será conveniente realizar el estudio bivariado de
las variables cuantitativas por hombres y por mujeres para encontrar si es que en verdad existe tal
diferencia. Empezaremos mostrando los principales estadísticos pero esta vez lo haremos por género. Los
resultados se muestran a continuación:
Estadísticos por género
Salario

Rendimiento de la disciplina

Tiempo desde la obtención del grado

De los resultados se pueden obtener los siguientes resultados:

 Salario
o En una muestra de 514 docentes el promedio del salario de los hombres fue 53499.24
y de las mujeres 42916.6 (en la población de docentes de esta universidad se estima
que el salario promedio es de 50863.87).
o El 50% de los docentes hombres tienen un salario menor o igual a 54194, mientras que
el otro 50% de los docentes hombres obtienen un salario por encima del monto
predicho.
o El 50% de las docentes mujeres tienen un salario menor o igual a 400356, mientras que
el otro 50% de las docentes mujeres obtienen un salario por encima del monto predicho.
o El salario promedio de los hombres es mayor al salario de la población (tomando
hombres y mujeres en conjunto)
o Tanto hombres como mujeres presentan asimetría positiva y presentan una distribución
leptocurtica.
 Rentabilidad de la disciplina
o En una muestra de 514 docentes el promedio de la rentabilidad de la disciplina de los
hombres fue 0.9640933 y de las mujeres 0.9015625 (en la población de docentes de
esta universidad se estima que la rentabilidad de la disciplina promedio es de
0.9485214).
o El 50% de los docentes hombres obtienen una rentabilidad de la disciplina menor o igual
a 0.93, mientras que el otro 50% de los docentes hombres obtienen un salario por
encima del monto predicho.
o El 50% de las docentes mujeres obtienen una rentabilidad de la disciplina menor o igual
a 0.86, mientras que el otro 50% de las docentes mujeres obtienen un salario por encima
del monto predicho.
o La rentabilidad de la disciplina promedio de los hombres es mayor a la rentabilidad de
la disciplina promedio de la población (tomando hombres y mujeres en conjunto)
o Tanto hombres como mujeres presentan asimetría positiva y presentan una distribución
leptocurtica.
 Tiempo desde la obtención de grado
o En la muestra de 514 docentes el tiempo desde la obtención del grado promedio de los
hombres fue de 16.88342 y el de las mujeres fue de 10.41406 (en la población de
docentes de esta universidad se estima que el salario promedio es de 15.27237).
o El 50% de los docentes hombres poseen un tiempo desde la obtención del grado menor
o igual a 18 años mientras que el otro 50% de los docentes hombres registran un tiempo
mayor a 16 años.
o El 50% de las docentes mujeres poseen un tiempo desde la obtención del grado menor
o igual a 10 años mientras que el otro 50% de las docentes mujeres registran un tiempo
mayor a 10 años.
o El tiempo promedio de la obtención del grado de los hombres es mayor al de la
población (tomando a hombres y mujeres)
o Mientras que los hombres presentan una distribución asimetría negativa (salarios más
altos) las mujeres presentan una distribución con asimetría positiva (salarios más bajos).
o Tantos hombres como mujeres presentan distribuciones leptocurticas.
Histogramas por género
Salario Rentabilidad de la disciplina

Tiempo desde la obtención del grado

Los histogramas corroboran las conclusiones presentadas líneas arriba, sin embargo, se puede ver más
claramente que para las tres variables las distribuciones de los hombres están más a la derecha que las
distribuciones de las mujeres y esto explica porque los estadísticos de los hombres en promedio salen
mayor a los de las mujeres. Por ejemplo, en cuanto al salario, tanto hombres como mujeres presentan
distribuciones asimétricas positivas pero se ve claramente que los hombres obtienen un salario en
promedio mayor que las mujeres. En la variable rentabilidad de la disciplina las conclusiones son
parecidas, pero en la variable tiempo desde la obtención del grado se ve claramente como las mujeres
poseen una distribución asimétrica positiva mientras que los hombres poseen una distribución asimétrica
negativa.

A continuación seguiremos con el análisis bivariado gráfico pero esta vez utilizando los diagramas de cajas
y bigotes. Los resultados se muestran a continuación:
Diagramas de cajas y bigotes
Salario

Rendimiento de la disciplina

Tiempo después de obtener el grado


Como se puede ver en los gráficos de caja mostrados, en todas las variables se puede ver que los hombres
poseen data con una mayor dispersión en comparación con la data mostrada por las mujeres y que
siempre la mediana de los datos de los hombres es mayor que la de las mujeres. Esto sigue las
conclusiones que sacamos gracias a los histogramas en cuanto a que los hombres poseen datos con
valores más altos que las mujeres. Asimismo, cuando evaluamos los valores atípicos en el salario vemos
que tanto hombres como mujeres presentan datos atípicos, sin embargo, en las dos variables restantes,
sólo las mujeres son las que poseen datos atípicos. Inclusive en la variable tiempo después de obtener el
grado podemos observar que ahora sí existe un valor atípico pero cuando se hizo el diagrama de cajas
conjunto no se presentaba ningún valor atípico, esto se puede explicar debido a que mientras que para la
mujer el valor atípico es considerado como tal, para el hombre ese valor no es considerado como un dato
atípico y que al haber más hombres en la muestra ese valor atípico se promedia con los otros valores y
deja de ser atípico.

Analizando la asimetría hay varias cosas que resaltar y es mejor si las enumeramos:

1. Mientras que, tanto la caja como los bigotes del salario en las mujeres presentan
asimetría positiva, la caja de los hombres para la misma variable predice una asimetría
negativa y los bigotes predicen una asimetría positiva por lo que se da una
contradicción.
2. En el caso de la rentabilidad de la disciplina, tanto caja como bigotes predicen asimetría
positiva para los hombres y mujeres.
3. Se da una nueva contradicción de asimetría positiva y negativa si sacamos conclusiones
de la caja y bigotes de los hombres en la variable tiempo después de obtener el grado.

Estas contradicciones surgen debido a que la distribución de datos para las variables en contradicción son
bimodales. Como vemos en el histograma del salario para mujeres sólo se presenta una moda (un pico) y
no existe ninguna contradicción entre lo que dice la caja y los bigotes respecto a la simetría, caso contrario
como el que ocurre en los salarios para los hombres que poseen dos modas (dos picos).

Un análisis adicional que se tiene que hacer es acerca de la normalidad de los datos. Para corroborar el
hecho de que tanto la distribución de los datos de las variables provenientes tanto de hombres como
mujeres se ajustan o no a una normal, se deben hacer pruebas de normalidad basándose en asimetría y
curtosis. Los resultados se muestran a continuación:
VARIABLE SEXO TEST DE NORMALIDAD BASADO EN ASIMETRÍA Y CURTOSIS

Hombres

Salario

Mujeres

Hombres

Rendimiento
de la disciplina

Mujeres

Hombres
Tiempo
después de
obtener el
grado
Mujeres

Como se puede observar, para ninguna variable y para ningún grupo (ni hombre ni mujer) se acepta la Ho:
La variable” de los hombres/mujeres tienen una distribución normal. Con esto se concluye que ninguna
de las variables en ninguno de los grupos posee una distribución normal. Si le sumamos a esto el hecho
de que existen distribuciones bimodales y hay presencia de datos atípicos, se recomienda nuevamente el
uso de la mediana como medida de tendencia central y se recomienda, asimismo, usar pruebas no
paramétricas.

Para complementar el análisis bivariado presentado se procederá a realizar el análisis bivariado entre dos
variables cualitativas y el análisis bivariado entre dos variables cuantitativas. Comenzando con el análisis
bivariado de dos variables cualitativas, género y rango para nuestro caso, tenemos lo siguiente:
La tabla cruzada presentada nos da una idea de cómo están distribuidos los datos entre estas dos variables
y además gracias a la prueba chi cuadrado podemos probar las siguientes hipótesis: H0: no existe
asociación/relación entre las género y rango H1: existe asociación/relación entre género y rango. Con el
p-valor = 0.000 podemos rechazar la H0 y por lo tanto concluir que rango y género sí están relacionadas.

Por último se presentará el análisis bivariado de dos variables cuantitativas. Se analizará la relación
existente entre las variables rendimiento de la disciplina, salario y tiempo desde que se obtuvo el grado.
Empezaremos viendo cómo es que estas variables se relacionan a través del coeficiente de correlación y
la prueba de hipótesis Ho: no existe relación entre las dos variables Ha: existe relación entre las dos
variables.

El análisis de correlación y las correspondientes pruebas de hipótesis muestran que:

 Existe una relación positiva significativa moderada entre las variables salario y rendimiento de la
disciplina.
 Existe una relación positiva significativa moderada entre las variables salario y tiempo desde que
se obtuvo el grado.
 No existe una relación significativa entre las variables rendimiento de la disciplina y tiempo desde
que se obtuvo el grado.

Es así que para comprobar los resultados hallados es necesario de un análisis gráfico que se hará gracias
a los gráficos de dispersión. Así tenemos lo siguiente:
Salario
Rendimiento

Tiempo
ahdas

S-ar putea să vă placă și