Modelos CC U4

Unidad 4.
La correlación y la inferencia
estadística en la interpretación de la
información
Presentación
La correlación de la inferencia estadística en la interpretación de la

información
En la unidad 3 hiciste un análisis estadístico de tu base de datos, ¿Te acuerdas? En

la unidad 3 únicamente describiste todos los datos que tenías, obtuviste alguna
información y puedes saber cómo se comporta la muestra que tu tomaste. Ahora,
en esta unidad, vamos a tomar decisiones en base a esos datos que ya tenemos,
muchas decisiones se toman en base a encuestas, por ejemplo: decisiones de
política, decisiones de medidas de salud, de seguridad, todo eso se hace en base a
encuestas realizando trabajo de campo, como el que tú estas realizando.
Para tomar estas decisiones se realizan algunos cálculos, y en esta unidad tú
vas a aprender a hacerlos, vas a aprender a calcular el coeficiente de
correlación para ver si hay relación entre las variables, vas a hacer análisis de
regresión y algo muy importante es que vas a aprender a aplicar pruebas de
hipótesis para comparar las medias de grupos diferentes, esto es muy
interesante. Y además, como un plus en esta unidad vamos a integrar un
informe de investigación completo, en el cual vas a retomar todo el marco
teórico que hiciste en la unidad 2, el análisis de la descripción de la muestra
que hiciste en la unidad 3 y vas a integrar la toma de decisiones que vamos a
estudiar aquí en la unidad 4, con lo cual vas a haber concluido e integrado
todo el trabajo que realiza un investigador social. ¡Felicidades!
En la unidad anterior hiciste la descripción de la muestra con la que trabajaste tu

investigación, pudiste aplicar varios de los conceptos vistos en la unidad y ahora tienes
muchos más datos que al principio. Puedes analizar cómo se comporta la muestra,
establecer sus características demográficas como distribución por edades, por nivel de
educación o estado civil, también puedes identificar las formas de conducta o actitudes y
establecer comportamientos concretos.
1
Y ahora ¿qué puedes hacer con toda esta información? ¿Te sirve de algo conocer los grupos
de edades que integran tu muestra, o las respuestas que dieron a tus preguntas? Retomando
el objetivo de tu investigación, ¿encuentras relación entre el objetivo y todos los datos que
ahora tienes? ¿Podrías tomar una decisión con base en la información que analizaste?
Pues bien, en esta unidad estudiaremos cómo se pueden tomar decisiones a partir de la
información estadística con la que se cuenta, podrás establecer si hay o no relación entre
dos variables de una investigación, comprobarla y describirla, también podrás determinar
el nivel de relación entre diversas variables que afectan a una población y las evaluarás
cuantitativamente aplicando correlación lineal, diagramas de dispersión y regresión
lineal, además trabajaremos con la distribución normal (z) y la t de Student para
comparar medias, lo cual permitirá evaluar los resultados de dos muestras y tendrás
elementos para tomar una decisión fundamentada respecto de tu estudio de
investigación.
2
¿Todo esto es posible? ¡Por supuesto!, como un ejemplo de la aplicación de la estadística
en psicología te invitamos a ver la siguiente información: “La estadística en la psicología”
de M. González.
La estadística en la Psicología (hospital de salud mental)
Mi nombre es Laura Carrillo Alarcón, soy psicóloga clínica y terapeuta familiar, y

estoy aquí en el hospital de salud mental de Tijuana, tengo 3 años trabajando aquí
en el hospital, y tengo 25 años siendo psicóloga clínica. Yo aquí lo que hago es
coordinar el departamento de psicología del área de hospitalización en atención
con los pacientes, tanto la terapia individual, familiar, grupal, diferentes
actividades con los pacientes como musicoterapia, danzaterapia, manualidades,
arteterapia, atención con los familiares y la aplicación de pruebas
psicodiagnósticas que nos ayudan al manejo y al diagnóstico con el paciente.
Cada paciente que va llegando, que ingresa aquí al área de hospitalización se le
hace una batería de prueba psicodiagnósticas, en donde aplicamos pruebas de
inteligencia como pruebas de personalidad, tenemos pruebas de inteligencia,
estamos hablando aquí sobre el wais-lll que es una escala de inteligencia para
adultos sonde manejamos diferentes, son 14 escalas, 7 son verbales y 7 son de
ejecución, pero los resultados se van a dividir o se van a sacar en función del
manual que me está diciendo la edad del sujeto y qué es lo que el sujeto debe de
contestar para la edad que tiene, y estos luego se traducen para hacer una media
para ver cuáles son las fortalezas y las debilidades del sujeto. Y en esto se
traduce, vemos lo que es la capacidad intelectual dentro de la curva, si es término
medio, inferior al término medio, superior al término medio o también para ver si
hay una deficiencia mental, toda esta información sacamos muchos datos muy
importantes dentro o para la integración psicodiagnóstica.
La estadística es una ciencia que nos permite tomar datos y luego analizarlo; y por
ultimo obtener un resultado, que este resultado nos va a permitir tomar una
decisión en alguna situación dada.
¿Para qué se utiliza la estadística?
La estadística se utiliza para conocer por ejemplo: la cantidad de personas que
habitan en el planeta, cuántos son niños, cuántos son adultos, hombres o mujeres;
en el caso de una empresa para conocer la temporada alta o baja; en el caso de
un hospital mental se analizan en base a un examen que le hacen a las personas
para saber cómo andan en su nivel mental, se analiza toda la información que
3
sale de un examen se comparan con tablas y estudios previos, y toda esta
información después del análisis se interpreta en un resultado, que ya le
puedes decir al paciente como se encuentran sus capacidades mentales.
Otra de las pruebas que tenemos, que utilizamos mucho las matemáticas, son
el Rorschach, son unas láminas que son de colores y otras que son blanco y
negro, en donde el paciente se le pide que dé una respuesta o que dé varias
respuestas de que es lo que observa o qué es lo que ve en cada una de las
láminas y vamos haciendo un registro de la información, del tiempo de
reacción del paciente, qué ve, dónde lo ve, cómo lo ve y qué lo hizo pensar,
que era la respuesta que nos está dando por lámina.
Toda la prueba de Rorschach es matemática porque voy a sacar en función de
los resultados un formulario, este formulario me va ir dando una interpretación
a la hora de integrarlo de tales porcentajes, o de tales niveles es un significado
que tiene en cuanto a la personalidad, en cuanto al manejo de los afectos, en
cuanto a los impulsos, el control de los impulsos, el nivel de funcionamiento
intelectual. Entonces, esta prueba me da datos muy, muy importantes y muy
certeros, entonces a la hora de nosotros integrar utilizamos mucho las
matemáticas y tenemos lo que son los resultados, los vaciamos ya lo que
llamamos una integración. Esta información sale de toda la aplicación de todas
las pruebas psicométricas que aplicamos y que todas están basadas en
aspectos matemáticos.
Paciente: Y ya empiezo.
Psicóloga: Entonces yo tomo el tiempo y el sujeto empieza a mover las piezas…
Paciente: Un elefante, no sé si sea así, la colita…
Psicóloga: La trompita… ja, ja, ja (ríen los dos)
Paciente: Puede ser… (Sopla)
Psicóloga: Creo que ya vas uniendo
Paciente: Creo que ya lo embone…la jorobita
Psicóloga: No tiene joroba el elefante (sonríe)
Paciente: ja, ja, ja (ríe)…mmm ujum, (sopla) las patas están para arriba mmm
(sonido) Estoy medio loquito.
Psicóloga: ¡Así es! (felicitando, por terminar de armar el elefante)
Paciente: Aplaude…
Efectivamente es mucho muy importante las matemáticas y sobre todo que esto
nos da la certeza y la seguridad de que no es una interpretación subjetiva del
psicólogo para dar los resultados del paciente, porque esto, lo que sacamos es una
radiografía del sujeto ¿Qué es el sujeto internamente? Pero de la otra manera
4
sería una interpretación muy subjetiva y con esto tenemos la objetividad de
que los resultados y son las respuestas del sujeto que son traducidas
matemáticamente, entonces son mucho más seguras.
Como puedes apreciar en el video, para que las pruebas psicológicas tengan validez se
sigue un proceso estadístico que permite que los resultados se puedan aplicar a cualquier
persona a partir de tablas, lo cual permite al psicólogo tomar decisiones acerca del sujeto
que está tratando. Esto lo veremos más adelante en esta unidad.
Por lo pronto empecemos respondiendo un cuestionario para saber con qué tema
iniciarás en esta unidad. Es muy importante que lo respondas con honestidad, recuerda
que NO cuenta para calificación, solamente es el punto para saber si iniciarás la unidad
desde el inicio, si requieres de algún apoyo, o si ya dominas algunos temas, y de esta
manera puedas continuar haciendo el análisis estadístico de tu investigación.
Este cuestionario es automatizado y conocerás los resultados de manera inmediata. Lee
detenidamente cada reactivo antes de responder. Solamente una opción es correcta.
Realiza la actividad en plataforma:

¿Dónde empiezo?
5
Correlación y dispersión
Empecemos con el análisis de datos bivariados
Análisis de datos bivariados
Lo interesante de tener muchos datos de una misma muestra es que podemos establecer
la relación que hay entre las diferentes variables y al hacerlo permite predecir el
comportamiento de una variable a partir del conocimiento que se pueda tener de la otra.
Como estudiamos en la unidad 2, las variables pueden ser cualitativas o cuantitativas,
por lo que podemos relacionarlas combinándolas de la siguiente manera:
1. Relacionar dos variables cualitativas
Ejemplo: ¿Habrá relación entre el género y la habilidad motora fina? (la

habilidad motora en este caso sería calificada como excelente, buena,
regular y con oportunidad de desarrollo)
2. Relacionar una variable cualitativa (atributo) con una

cuantitativa (numérica)
Ejemplo: Hay relación entre el peso y el riesgo de enfermedad
6
3. Relacionar dos variables cuantitativas (numéricas)
Ejemplo: Hay relación entre el peso y la estatura
Cuando queremos relacionar dos variables cualitativas o una cualitativa con otra
cuantitativa, que son los dos primeros casos, lo podemos hacer con ayuda de tablas
cruzadas y representarlo con gráficas de barras. Veamos un ejemplo que relaciona dos
variables cualitativas.
Como estudiamos en la unidad 3, el problema del tabaquismo afecta tanto a quien lo

consume como a familiares y a todas las personas que conviven con fumadores.
7
Por lo que un hospital interesado en conocer si afecta más ser fumador pasivo o activo
realizó una encuesta entre los pacientes y familiares y obtuvo los siguientes resultados:
Tabla 1. Tabla cruzada de frecuencias absolutas
Tiene cáncer de pulmón No tiene cáncer de pulmón Total marginal

Fumador activo 14 8 22
Fumador pasivo 20 18 38
Total marginal 34 26 60
Esta tabla se puede representar con una gráfica de barras
8
Para interpretar la gráfica se retoman los datos de la
tabla. Completa el siguiente cuadro:
De un total de 60 personas, __________fuman y __________son fumadores

pasivos. De los __________ que fuman, __________tienen cáncer de pulmón y
__________ no lo tienen, en tanto que de los fumadores pasivos,
__________tienen cáncer de pulmón y __________no. Por tanto, en total
__________ sí tienen cáncer y __________ no lo tienen.
Respuestas: 22, 38, 12, 14, 8, 20, 18, 34, 26
Esta gráfica la hicimos a partir de frecuencias absolutas, ahora vamos a convertirlos en

porcentajes utilizando la frecuencia relativa, donde el 100% son los 60 encuestados.
(Puedes calcular las frecuencias relativas aplicando una regla de 3. Utiliza solamente dos
decimales)
Tabla 2. Tabla cruzada de frecuencias relativas

Fumador activo 23.3 13.33 36.67
Fumador pasivo 33.33 30.00 63.33
Total marginal 56.67 43.33 100.00
Al graficar la tabla de frecuencias relativas, obtendrás una gráfica como ésta si te

concentras en si son fumadores activos o pasivos:
9
O como ésta si te concentras en quien tiene cáncer de pulmón o no:
Ambas gráficas se obtienen de la tabla de frecuencias relativas.
Ahora es tu turno para describir la gráfica retomando

los datos de la tabla:
Del total de encuestados, un poco más de la tercera parte (__________%) son

fumadores activos, y aunque la mayor parte (__________%) son fumadores
pasivos, el __________% tienen cáncer de pulmón y el __________% no lo tiene.
De los fumadores activos el __________% tiene cáncer de pulmón y

el __________no; y de los fumadores pasivos el __________% tiene cáncer
de pulmón y el __________% no.
Respuestas: 22, 38, 12, 14, 8, 20, 18, 34, 26
Observa que en las dos gráficas de la tabla 2 la suma de las frecuencias de las 4 barras
da como resultado el 100%
También podemos trabajar la distribución de las frecuencias relativas de manera más
específica, trabajando por renglones o columnas, para describir cómo se distribuye la
población en función de si son fumadores activos o pasivos (renglón) o si tienen o no
cáncer de pulmón (columna).
10
Observa la tabla 3 y su gráfica:
Tabla 3. Tabla cruzada de frecuencia relativa por renglón

Fumador activo 63.63 36.36 99.99
Fumador pasivo 52.63 47.36 99.99
Describe la gráfica retomando los datos de la tabla 3:
En la gráfica podemos comparar el efecto que tiene el tabaco en fumadores

activos y pasivos y se observa que del total de fumadores activos, el __________
% tiene cáncer de pulmón y el __________% no tiene. En tanto que del total de
fumadores pasivos, el __________% tienen cáncer y el __________% no lo tiene.
Respuestas: 63.63, 36.36, 52.63, 47.36
Los datos nos brindan precisión, y la gráfica permite visualizar que es más probable
que un fumador activo desarrolle cáncer de pulmón, pero el fumador pasivo no queda
exento de riesgo.
¿Quieres saber cómo llenar la Tabla cruzada de frecuencia relativa por renglón (Tabla 3)?
Para ello veamos el siguiente video:
11
Tabla cruzada de frecuencia relativa por renglón
Ahora vamos a aprender a hacer una tabla cruzada de frecuencias relativas por
renglón, aquí tenemos la tabla original con las frecuencias relativas y en seguida
tenemos la tabla que vamos a ocupar para las frecuencias relativas por renglón.
Observa que esta tabla no tiene el total marginal de columnas, porque solo vamos
a trabajar con renglones. En esta tabla vamos a tomar el total de fumadores
activos como el 100%, esto es que el 22 es el 100% de fumadores activos.
Y lo que nos interesa en este caso es saber del total de fumadores activos que
porcentaje tiene cáncer de pulmón y que porcentaje no lo tiene, así que lo
hacemos con una regla de 3, donde si 22 es mi 100% nos preguntamos qué
porcentaje serán 8, que son los que no tienen cáncer, por lo cual
multiplicamos 8 x 100 y el resultado lo dividimos entre 33, lo cual lo nos da un
resultado de 36.36 y lo ponemos aquí.
Ahora calculamos que porcentaje le corresponde a 14, que son los que sí
tienen cáncer de pulmón, y tenemos que si 22 es el 100% ¿qué porcentaje
será 14?, multiplicamos 14 x100 y el resultado lo dividimos entre 22, por lo
que el porcentaje de los fumadores activos que tienen cáncer son 63.63%.
Para comprobar que nuestros cálculos son correctos sumamos los porcentajes
de los fumadores activos que tienen cáncer con los que no lo tienen y esto nos
debe de dar el 100%, podemos hacerlo con la sumatoria del menú superior y
vemos que aquí nos da un 99.99%, este resultado es correcto porque las
décimas que nos faltan se quedaron en el camino al redondear, pero estamos
cercanos al 100%, en caso de que el porcentaje obtenido sea menor, debe
haber un error, y entonces tendrías que revisar tu procedimiento.
Ahora nos interesa calcular los porcentajes de fumadores pasivos que tienen
cáncer de pulmón, como el total de fumadores es 38, para esta fila el 100%
será 38, de la misma manera que en el caso anterior vamos a calcular los
porcentajes aplicando la regla de 3, ahora tomando en cuenta que el 100% es
38, aplicando la regla de 3, si 38 es el 100% nos preguntamos qué porcentaje
será 20, multiplicamos 20 x100 y el resultado lo dividimos entre 38, lo que nos
arroja un porcentaje del 52.63, que corresponde a los que tienen cáncer.
De la misma manera vemos qué porcentaje no tiene cáncer de pulmón y nos
preguntamos si 38 es el 100%, 18 que porcentaje será, multiplicamos 18 x100
y lo dividimos entre 38, lo que nos arroja un porcentaje de 47.36. Igual que
hicimos en
12
la fila anterior vamos a hacer la sumatoria, aquí nos fijamos que la suma sea
de las columnas que nosotros queremos y también nos arroja un 99.99%, lo
cual es muy aceptable, y con esto queda completa nuestra tabla de frecuencia
relativa por renglón.
Una vez que ya tenemos la tabla completa vamos a graficarlo, para ello
seleccionamos los datos de los fumadores con y sin cáncer, nota que no
tomamos los totales marginales, y ahora sí insertamos una gráfica de barras,
en el menú superior buscamos las gráficas, las de columnas y elegimos el tipo
que queramos. Observa que nosotros queremos comparar los grupos de
fumadores activos con pasivos y la gráfica nos muestra el resultado agrupado
por quién tiene o no tiene cáncer, por lo que le damos clic derecho en la
gráfica y nos vamos a seleccionar datos, aquí hay un botón que no dice
cambiar fila o columna y le decimos aceptar, y ahora sí, estamos comparando
los fumadores activos con los fumadores pasivos.
Ya que tenemos nuestra gráfica, hay que insertarle el título, por lo que
buscamos en diseño rápido uno que nos guste más –este tiene título- pongo el
título
“consecuencias en fumadores activos y pasivos”. También quiero saber cuáles son
los porcentajes, entonces me situó en las gráficas doy clic derecho, le digo
agregar etiquetas de datos y ya me aparecieron en los que tienen cáncer,
hago lo mismo con las otras columnas, me situó en la columna doy clic
derecho y digo agregar etiqueta de datos y ¡Listo! ¡Mi gráfica quedó completa!
Hay otra forma de ver los datos que tenemos. Ahora lo haremos desde quien tiene cáncer o
no lo tiene, esto es por columna y tendríamos la tabla 4. Observa que esta tabla no tiene total
marginal de fila, sólo tiene el total marginal de columna, y para llenar esta tabla se hace
como hiciste en la tabla 3, pero ahora el porcentaje total será el total marginal de columna,
esto es que el 100% de quien tiene cáncer de pulmón es 34 y el 100% de quien no tiene
cáncer es 26.
Realiza el ejercicio en tu cuaderno y compara tus

resultados con los de la siguiente tabla:
Tabla 4. Tabla cruzada de frecuencia relativa por columna
Tiene cáncer de pulmón No tiene cáncer de pulmón

Fumador activo 41.18 30.77
Fumador pasivo 58.82 69.23
Total marginal 100 100
13
Ahora realiza la gráfica, y compárala con ésta:
Describe la gráfica retomando los datos de la tabla 4:
Esta gráfica compara el grupo fumadores que tienen cáncer con los que no lo
tienen.
Se observa que del total de quienes tienen cáncer de pulmón, el __________%

son fumadores activos y el __________% son fumadores pasivos. En tanto que
del total de personas que no tienen cáncer, el __________% son fumadores
activos y el __________% son fumadores pasivos.
Respuestas: 41.18, 58.82, 30.77, 69.23
Veamos un caso para que pongas en práctica lo aprendido.
14
Un investigador social quiere establecer si hay relación entre el estado civil y el nivel de
estudios. Para ello, aplicó 60 encuestas a adultos entre 30 y 40 años de edad y obtuvo los
siguientes resultados:
Tabla 1. Tabla cruzada de frecuencias absolutas
Casado Soltero Total marginal

Nivel básico 17 3 20
Nivel medio 19 1 20
Nivel superior 12 8 20
Total marginal 48 12 60
Completa la tabla cruzada de frecuencias relativas

usando dos decimales:
Tabla 2. Tabla cruzada de frecuencias relativas

Nivel básico __________ __________ __________
Nivel medio __________ __________ __________
Nivel superior __________ __________ __________
Total marginal __________ __________ 100.00
Respuestas: Nivel básico – Casado= 28.33, Nivel básico – Soltero= 5.00, Nivel básico – Total marginal= 33.33
Nivel medio – Casado= 31.67, Nivel medio – Soltero= 1.67, Nivel medio – Total marginal= 33.33
Nivel superior – Casado= 20.00, Nivel superior – Soltero= 13.33, Nivel superior – Total marginal= 33.33
Total marginal – Casado= 80.00, Total marginal – Soltero= 20.00
15
Grafica la tabla y compárala con la siguiente, ¿se parecen? Después completa la
descripción de la gráfica retomando los datos de la tabla:
Esta gráfica compara el grupo fumadores que tienen cáncer con los que no lo
tienen.
La gráfica muestra que del total de encuestados, __________% tenía estudios de

nivel básico, y de ellos el __________% es casado y el __________% soltero. El
__________% tenía estudios de nivel medio, y de ellos, el __________% era casado
y el __________% soltero. En tanto que el __________% tenían estudios de nivel
superior, y de ellos el __________% eran casados y el __________% solteros.
Respecto del total, el __________% son casados y el __________% solteros.
Respuestas: 33.33, 28.33, 5, 33.33, 31.67, 1.67, 33, 20, 13.33 80, 20
16
Para concluir este reto, completa la tabla 3 por renglón y la tabla 4 por columna, compara
las gráficas que se muestran con las que elabores y describe cada una de ellas.
Tabla 3. Tabla cruzada de frecuencia relativa por renglón

Nivel básico __________ __________ __________
Nivel medio __________ __________ __________
Nivel superior __________ __________ 100
Respuestas: Nivel básico – Casado= 85, Nivel básico – Soltero= 15, Nivel básico – Total marginal= 100
Nivel medio – Casado= 95, Nivel medio – Soltero= 5, Nivel medio – Total marginal= 100
Nivel superior – Casado= 60, Nivel superior – Soltero= 40
La gráfica compara los distintos niveles de estudio por estado civil, y en ella se
puede apreciar que del total de participantes con nivel básico, el __________% es
casado y el __________% es soltero. De los encuestados con estudios de nivel medio
el __________% es casado y el __________% soltero, y del total de encuestados con
estudios de nivel superior, el __________% es casado y el __________% soltero.
Respuestas: 85, 15, 95, 5, 60, 40
17
Tabla 4. Tabla cruzada de frecuencia relativa por columna
Casado Soltero
Nivel básico __________ __________
Nivel medio __________ __________
Nivel superior __________ __________
Total marginal 100 100
Respuestas: Nivel básico – Casado= 35.42, Nivel básico – Soltero= 25.00

Nivel medio – Casado= 38.78, Nivel medio – Soltero= 8.33
Nivel superior – Casado= 25.00, Nivel superior – Soltero= 66.67
La gráfica de la tabla 4 compara el nivel de estudios de los casados y solteros. En

ella se observa que del total de casados, el __________% tienen nivel básico de
estudios, el __________% tiene estudios de nivel medio y el __________% tiene
estudios
de nivel superior.
Por otra parte, del total de solteros, el __________% tiene estudios de nivel
básico, el __________% tiene estudios de nivel medio y __________% llegó hasta
el nivel superior.
Respuestas: 35.42, 38.78, 25, 25, 8.33, 66.67
18
Pero, ¿qué ocurre cuando las dos variables del estudio son cuantitativas? Para estudiar
este tema empecemos con el diagrama de dispersión.
Diagrama de dispersión
Cuando tenemos dos variables cuantitativas se representan con números, por ejemplo, si
se busca la relación entre la edad de una persona y los años que estudió, y si la edad
fuera 25 años y los años de estudio 10, estos datos se pueden representar así:
(25, 10)
¿Qué te recuerda esta notación? ¡Claro! Es la manera en que se representan las

coordenadas de un punto en un plano cartesiano. Así, cada pareja de datos que proviene
de la misma fuente queda representada gráficamente como un punto.
Para graficar las parejas ordenadas se pone primero la variable que puede controlarse
o medirse con mayor facilidad, que corresponde a la variable independiente (x) y
luego la variable que se quiere predecir y que corresponde a la variable dependiente
(y).
19
Lee la hipótesis de tu investigación e identifica algunas variables que, de acuerdo a tu
hipótesis, quisieras relacionar, si se trata de dos variables cualitativas, o bien, una
cualitativa y una cuantitativa puedes hacer las tablas cruzadas para datos bivariados que
vimos en el tema anterior y graficar con barras.
20
Presiona aquí si quieres ver un ejercicio del trabajo sobre equidad
de género de María, Jorge y Laura
Consulta el Excel en el tema 1, página 4:
Pero si se trata de dos variables cuantitativas, empecemos graficando con un diagrama

de dispersión. La gráfica de dispersión permite saber en un primer vistazo si es posible
pensar en una correlación entre las variables, y en ese caso determinar qué modelo
matemático es el más adecuado para representar dicha relación. De la misma manera, la
gráfica puede indicar que no hay relación entre las variables.
¡Veamos un diagrama de dispersión!
21
Este es un diagrama de dispersión que relaciona la edad (variable independiente) con la
escolaridad como variable dependiente de un grupo de 245 parejas ordenadas.
De inicio podemos ver que no hay correlación entre las variables porque no se observa un
patrón de comportamiento entre ellas, lo cual indica que no hay relación entre la variable
independiente (edad) y la dependiente (escolaridad).
Si trazáramos una línea recta entre los puntos veríamos que la mayoría de ellos no se
concentran alrededor de la línea:
22
Esto nos indica que no hay correlación lineal, pues los puntos no se ajustan a una recta.
Si quieres saber cómo se elabora este tipo gráfica ve el siguiente video.
Diagrama de dispersión
En esta ocasión vamos a aprender a hacer una gráfica de dispersión. Para

hacer un diagrama de dispersión es muy sencillo: lo primero que tienes que
hacer es identificar tu variable independiente que estaría en la X, y en este
caso es la edad, y la variable dependiente que corresponde a la Y, y en este
caso es la escolaridad, y vas a escribir los pares ordenador por parejas,
primero la X y luego la Y en todos los casos.
El siguiente paso es seleccionar los datos e insertar la gráfica, seleccionamos
nuestros datos, observa que estoy incluyendo los títulos de la columna, aquí
tenemos bastantes datos. Selecciono todos los datos, y ahora sí, me voy a
insertar gráficos, selecciono los de puntitos que son los de dispersión y
automáticamente tengo mi gráfica.
Ya que tengo mi gráfica, puedo buscar en la parte de arriba, en el menú
superior que diseño es el que más me agrada, por ejemplo este tiene los
datos, pero sale todo encimado, no, aquí, por ejemplo este me da la línea recta
para ver que tanto se ajustan los datos a mi línea recta, puede ser que estén
muy dispersos, me voy a quedar con la primera, no olvides poner el título, en
este caso es escolaridad-edad, le voy a poner “relación entre la edad y la
escolaridad”, le pongo lo que corresponde al eje de las X, que es la edad, mi
variable independiente, y mi variable dependiente es la escolaridad.
Le quito esa parte para que se vea más amplia ¡Y listo, ya está mi gráfica de
dispersión!
23
Por supuesto, no todos los casos son como el anterior, en el que no hay
correlación. Observa otros diagramas de dispersión:
Algunas veces los puntos están tan juntos que casi forman una línea recta, en
este caso se trata de una correlación lineal positiva fuerte. Esto indica que a
medida que aumenta el valor de x también aumenta el valor de y.
24
En otras ocasiones los puntos tienden a juntarse, aunque sin formar
una línea, por lo que sí hay correlación, aunque no es muy alta
como en la gráfica anterior.
Aquí se observa una correlación lineal positiva.
En esta otra gráfica también se observa

correlación lineal, pero es negativa.
Esto indica que a medida que aumenta el valor
de x, disminuye el valor de y.
25
Esta gráfica muestra una correlación
entre las variables, pero no es lineal.
Como puedes ver, la correlación sirve para establecer en qué sentido influye la variable
independiente (x) en la variable dependiente (y).
Por ejemplo, sabemos que la estatura tiene un efecto directo sobre el peso,
especialmente en los niños, por lo que resulta importante determinar el efecto entre ellas
para diferentes edades, de modo que se puedan identificar los casos normales y los que
requieren atención especial. ¿Te acuerdas de las tablas de estatura y peso para niños?
26
En estadística los análisis que permiten encontrar la relación entre dos variables son la
correlación y la regresión. Como vimos anteriormente hay correlación cuando ocurre
un cambio sistemático en las puntuaciones de dos variables, es decir, cuando las
mediciones de una variable cambian simultáneamente con las medidas de la otra. Y la
regresión lineal se usa para analizar la relación o dependencia que hay entre las
variables, se emplea en biomedicina, economía, ingeniería y en cualquier área de estudio
que quiera establecer la relación entre dos variables.
27
La regresión lineal es una expresión matemática que cuantifica la intensidad de la
relación entre las variables a través de un coeficiente de correlación, conocido como
coeficiente de Pearson (r) que permite determinar que tanto se ajustan los datos de un
conjunto a un modelo lineal.
Un ejemplo muy claro de su utilidad son las tablas de talla-peso para niños que utilizan
los médicos pediatras para revisar el crecimiento de los niños. Estas tablas se hacen
mediante un análisis de regresión lineal, en el que los médicos investigadores recopilan
la estatura y peso de una gran cantidad de niños y la clasifican por edades. Reúnen los
datos y generan un diagrama de dispersión estatura-peso para determinar si existe
correlación entre estas variables y se generan gráficas como las siguientes, así como las
tablas de peso y talla que tienen todos los médicos en sus consultorios.
Tomada para fines educativos de: DOF (2015) Proyecto de Norma Oficial Mexicana PROY-NOM-031-SSA2-2014, para la aatencióna la salu de
la
infancia, disponible en http://www.dof.gob.mx/nota_detalle.php?codigo=5417151&fecha=25/11/2015
28
Tomada para fines educativos de: DOF (2015) Proyecto de Norma Oficial Mexicana PROY-NOM-031-SSA2-2014, para la aatencióna la salu de
la
infancia, disponible en http://www.dof.gob.mx/nota_detalle.php?codigo=5417151&fecha=25/11/2015
¿Cómo se hace un análisis de regresión lineal?
El análisis de regresión lineal se hace mediante 3 pasos:
1. Obtener el diagrama de dispersión
29
2. Calcular el coeficiente de correlación
3. Obtener la ecuación de la recta
Ya conoces el paso 1, que es obtener el diagrama de dispersión. Para

seguir los pasos 2 y 3 veamos la siguiente información:
Ecuación de correlación lineal y coeficiente de correlación
Hola, y bienvenidos a otro video de mate fácil.

En este video vamos a encontrar la ecuación lineal de la correlación entre una
variable y otra cuando nos dan una tabla de valores, nos dan valores para Y, y
valores para X, y a partir de estos valores vamos a encontrar una ecuación que
relacione a la variable Y con la variable X, y también vamos a encontrar algo
que se llama coeficiente de correlación lineal.
Vamos a empezar para encontrar la ecuación lineal y después ya encontraremos el
coeficiente. En primer lugar lo que debemos hacer es construir otras columnas de
números a partir de estas dos columnas, la primer columna que construiremos
será la de los cuadrados de X, x al cuadrado (x2) y consiste en elevar cada valor
30
de aquí al cuadrado y escribirlo a la derecha, 100 al cuadrado que da 10000,
90 al cuadrado que da 8100, 80 al cuadrado que da 6400 y así sucesivamente
de cada uno obtenemos el cuadrado.
La siguiente columna que vamos encontrar es la de la multiplicación de X por
Y, es decir, multiplicar el valor de aquí por el valor de aquí, 3 X 100 nos queda
300, 5 X 90 nos queda 459, y así sucesivamente vamos poniendo aquí los
resultados correspondientes, lo siguiente que haremos será sumar todos los
valores de cada una de las cuatro columnas que construimos, sumamos
3+5+9+10 etc., ponemos el resultado aquí abajo, eso nos da 178, y luego
sumamos estos de aquí 100+90+80+45 y nos queda de la suma de todos
estos 560, y luego sumamos todos estos y nos queda 37750, y sumamos todos
estos y nos queda 7745.
Ahora, lo que vamos a hacer nosotros es encontrar la ecuación lineal de
correlación entre Y, y X. Una ecuación lineal es una ecuación de una recta, una
ecuación de grado 1, en la que aparecen dos coeficientes, aparece un
coeficiente para X y aparece un término independiente, tenemos que
encontrar los valores de a y b, para estos hay unas fórmulas. Para encontrar el
valor de a, la fórmula que se utiliza es esta de aquí:
= +
∑ −∑ ∑
=
La n es el número de datos que tengamos, tenemos 10 datos y los contamos 1,2,3,4,5,6,7,8,9,10, entonces
n=10 y estos simbolitos de aquí significan suma cada uno de estos significa suma, esta de aquí significa la
suma de la columna XY, y la columna XY es esta de aquí, y la suma es esta de aquí, entonces esto va a valer
7745, aquí tenemos suma de la columna X, o sea, la suma de todos estos valores de aquí que es 560 y así
par cada una de estos, así que vamos a sustituir cada uno de los valores, lo voy a ir haciendo paso por paso.
∑ −∑ ∑
2 2
∑ − (∑ )
Escribimos a= y una línea horizontal y vamos a

sustituir:
10(7745) − (560)(178) 77450 − 99680 −22230
= = = = −0.34788
2
377500 − 313600 63900

10 (37750) − (560)
= −0.34788
Como n vale 10, ponemos un 10, y luego aparece suma de la columna XY, la suma
es 7745 la ponemos con un paréntesis para indicar que se va a multiplicar, luego
aparece un menos, luego suma de las X, la suma de las X es 560, suma de las Y
nos da 178, y ahora en la parte de abajo tenemos otra vez una n, así que ponemos
un 10, suma de las x cuadrada nos queda esto de aquí, lo ponemos luego menos,
suma de las x al cuadrado, esto y esto es diferente, suma de las x cuadradas es
esto de aquí, y aquí tenemos suma de las X adentro del paréntesis y todo eso
31
elevando al cuadrado, así que vamos a poner la suma de las X que es 560
adentro de un paréntesis y eso va a quedar elevado al cuadrado.
Lo siguiente que hay que hacer son las operaciones, pero hay que tener
cuidado con el orden en que lo hacemos, primero hacemos las multiplicaciones
y potencias y al último hacemos las restas, y ya después la división. Pues
vamos a empezar con las multiplicaciones, multiplicamos 10 X 7745 y nos
queda 77450, ahora tenemos menos y multiplicamos 560 x 178 y nos queda
esta cantidad.
Ahora en la parte de abajo multiplicamos 10 por este número y nos queda esta
cantidad y finalmente elevamos 560 al cuadrado y no va a quedar este
número. Ahora sí, hay que hacer las restas, la que aparece arriba y la que
aparece abajo, después de hacer la resta nos quedan estos resultados. Y
finalmente hacemos la división, y entonces nos queda que a vale -0.34788.
Ese va ser el valor de a, entonces ya encontramos uno de los valores que
estamos buscando, ahora vamos a encontrar el valor de b, el valor de b se va
a encontrar con esta fórmula de aquí. = +
=∑ − ∑
= 178 − (−0.34788)(560)
10
= 178 + 194.8128
10
= 372.8128
10
= 37.28128
Es importante que primero hay que calcular el valor de a, para después poder
calcular el valor de b, ya que vemos que aquí aparece la a, que tenemos que
sustituir, bueno, vamos a sustituir los valores, lo voy a hacer paso a paso,
ponemos b= y una línea horizontal y vamos sustituyendo, aparece suma de las
Y, y la suma de las Y es 178, y luego aparece menos y lo que vale a, que es lo
que acabamos de calcular lo vamos a poner entre paréntesis (-0.34788),
entonces este menos de aquí es el de la fórmula y este menos es el de la a.
Ahora aparece suma de las X, la suma de las X es 560 y abajo aparece n, como
n vale 10 ponemos un 10. Y ahora hay que hacer las operaciones ponemos el
178, todavía ahí con el 178 no vamos hacer la resta, primero hay que hacer
multiplicaciones, luego aquí tenemos menos por menos nos va a quedar más,
luego multiplicamos este número por este número nos queda esta cantidad, y
el 10 de abajo ese lo ponemos igual.
Ahora hay que hacer la suma de los números de arriba y luego dividir entre 10
y nos queda que b es igual a 37.28128. Ya tenemos entonces el valor de b, y
con los valores de a y b ya podemos encontrar la ecuación lineal simplemente
sustituyendo en lugar de poner a vamos a poner este valor y en lugar de poner
b ponemos este valor.
32
= +
= −0.34788 + 37.28128
Bueno ahora vamos a encontrar el coeficiente de correlación lineal, y para

encontrar el coeficiente de correlación lineal vamos a empezar desde nuestra
tabla inicial, porque vamos a construir ahora otras columnas que nos van a
servir para esto, aquí tengo la tabla inicial de las X y las Y, y abajo también
tengo la suma de las columnas que ya habíamos puesto antes.
En primer lugar lo que hay que calcular son los promedios o las medias de
cada una de estas columnas, recordemos que el promedio se calcula sumando
todos los datos y dividiendo entre el número de datos, ya tenemos aquí la
suma de todos los datos para el caso de la X es 560 la suma de todos estos,
entonces dividimos 560 entre 10 que es el número de datos y nos queda que
la media de x es 56, y hacemos lo mismo con la Y, vamos sacar la media de Y ,
aquí es sumar todas las Y, y dividir entre el número de datos, la suma de las Y
es 178 dividimos entre 10 y nos queda 17.8.
Ahora que tenemos ya las medias, media X, y media Y, vamos a construir las
siguientes columnas que necesitaremos, la primer columna es X-la media de X
y esto lo que significa es que a cada valor de X le vamos a restar la media, o
sea, aquí vamos hacer por ejemplo 100-56 nos queda 44, y luego 90-56 nos
queda 34, 80-56 =24, y así le vamos haciendo con cada uno de los números
para obtener las cantidades, esto hay que hacerlo manualmente o con
calculadora, o de preferencia se puede usar una hoja de cálculo como una hoja
de Excel ahí se hacen muy rápido estos cálculos.
Ahora, la siguiente columna que necesitaremos es Y menos la media de Y, que
es igual que como le hicimos con la X, nada más que ahora a cada valor de Y
le vamos a restar 17.8 y ponemos aquí los resultados, después necesitaremos
elevar al cuadrado la resta que obtuvimos aquí, X- media de X lo vamos elevar
al cuadrado, o sea, 44 al cuadrado nos queda 1986, 34 al cuadrado 1156 y así
cada uno de estos al cuadrado.
Y también haremos lo mismo con esta columna, Y-la media de Y al cuadrado
cada uno de estos valores lo elevamos al cuadrado y lo escribimos aquí donde
corresponde. Y finalmente otra columna que será multiplicar esta columna con
esta columna, X-X media multiplicado por Y-Y media, entonces multiplicamos
44 por -14.8 nos queda -651.2 y así, multiplicar cada par de números y poner
el resultado aquí.
Ahora vamos a sumar los valores de las columnas de las últimas tres que
construimos nada más, las primeras dos no es necesario, esas no las vamos a
necesitar, pero si vamos a necesitar las últimas tres, entonces sumamos los
valores y los ponemos en la parte de abajo, sumamos todas estas cantidades
nos da 6390, sumamos todas estas nos da 993, sumamos todas estas, aquí
sumar quiere decir, bueno dependiendo del signo, si hay un menos con otro
menos se suman y luego con otro menos se suman, pero con un más se
restan, y así respetando los signos es una suma algebraica la que se hace, se
pone aquí el resultado.
Bueno, como voy a necesitar este espacio para hacer lo del coeficiente de
correlación voy a poner aquí los valores:
33
Pues vamos a tener que: 2
∑( − ̅) = 6390
∑( − ̅ )2 = 993.6
∑( − ̅)( − ̅ ) = −2223
Ahora vamos a encontrar el coeficiente de correlación, para eso se utiliza esta

fórmula de aquí:
= ∑( − ) ̅ ( − ̅ )
√∑( − ) ̅ 2 √∑( − ̅ )2
En esta fórmula vamos a sustituir estos datos, y con ello obtendremos el coeficiente:
−2223 −2223
= =
(79.93747)(31.52142)
√6390√993.6
= −0.88223
Entonces lo voy hacer por pasos ponemos r= una línea horizontal para poner los valores sustituidos, y en la parte de arriba tenemos la suma de ∑( − ̅)( − ̅ )
que
2
esta ya la tenemos aquí es -2223, así que la ponemos, abajo tenemos √∑( − ̅) o sea la raíz cuadrada de 5390, y luego la raíz cuadrada del otro
2
√∑( − ̅ ) que es raíz cuadrada de 993.6. Y ahora hay que hacer las operaciones, vamos a calcular las raíces cuadradas y nos queda esto, aquí
puse los resultados de las raíces cuadradas, después tendremos que multiplicar estos dos valores y dividir -2223 entre el resultado de esta
multiplicación y nos va a quedar como resultado = −0.88223, ese es el coeficiente de correlación lineal.
Ahora para que ustedes practiquen un poco este tema, les invito a que con
esta tabla de valores encuentren la ecuación lineal que relaciona las variables
de Y y X y el coeficiente de correlación lineal, es importante que ustedes
hagan ejercicios para practicarlo porque nada más viendo se les puede olvidar
muy fácilmente, pero practicándolo es como van a dominar esto, así que los
invito a que practiquen haciendo este ejercicio y en un próximo video les voy a
mostrar el procedimiento para que verifiquen sus resultados.
Si les gustó este video den like, comenten si tienen cualquier duda o
sugerencia todos los comentarios son bienvenidos, recuerden que ustedes
también pueden proponer algún ejercicio de los comentarios, algún ejercicio
que no les sale que tienen dudas, y ya en un video posterior yo lo subo y no
olviden suscribirse a mi canal para recibir más videos como este.
Mate fácil, (2015) Ecuación de correlación lineal y coeficiente de correlación, disponible en:
https://www.youtube.com/watch?v=fNeXC8d5En8
34
En la información vimos dos
procedimientos:
cómo calcular la ecuación de la recta y

cómo calcular el coeficiente de correlación lineal.
Ahora veamos la utilidad de cada uno.
Al tener la ecuación de la recta con los valores de a y b nos va a permitir predecir el valor
de y para cualquier valor de x. Veamos un ejemplo:
La siguiente tabla muestra las horas de estudio que dedicaron los estudiantes de
primaria a estudiar historia y la calificación que obtuvieron.
Horas de Calificación de
estudio historia
1 3
3 3
2.5 4
2 4
4 6
5 9
6 8
3 3
2 3
2.5 5
35
Aplicando el procedimiento que vimos en el video
tenemos los siguientes valores:
b= 1.2598, a= 0.8946, mismos que sustituimos en la ecuación de la recta:
Una vez que tenemos la ecuación de la recta de la muestra, podemos hacer predicciones
respecto de un valor que no tengamos en la fuente original, por ejemplo 7, nos podemos
preguntar ¿qué calificación podría obtener un alumno si estudiara 7 horas? Para saberlo
sustituimos la X por 7:
36
y al realizar las operaciones tenemos que y= 7.5
Por lo tanto un alumno de ese grupo que estudie 7 horas podría sacar 7.5
de calificación en historia
¿Qué calificación puede obtener un alumno si estudia 9

horas?
Al sustituir los valores tendremos que y= 0.8946(9)+1.2598,

por lo que y= 9.3
Por lo tanto un alumno que estudie 9 horas puede

sacar 9.3 de calificación
Es importante hacer notar que una condición para hacer estas predicciones es que los datos
tengan una tendencia lineal, y eso lo podemos saber calculando el coeficiente de Pearson.
Entonces, ¿Cómo se interpreta y qué se puede concluir al obtener el coeficiente de Pearson?
El coeficiente de Pearson indica el porcentaje de ajuste que se ha conseguido con el
modelo lineal. Su valor oscila entre -1 y +1, por lo que entre más se acerque a la unidad
es mayor el ajuste al modelo lineal. A mayor porcentaje mejor se puede predecir el
comportamiento de las variables. Veamos algunos ejemplos:
Esta gráfica tiene un coeficiente de Pearson positivo con un valor de r=0.9660, lo que
indica que hay una fuerte relación entre las variables.
37
Esto demuestra que un vendedor con más
experiencia tiene más ventas.
Ahora es tu turno. Observa la gráfica y elige la opción que mejor

describa la gráfica de acuerdo al coeficiente de Pearson.
En esta gráfica se puede ver que hay una correlación __________ / __________que
se confirma con el signo __________ / __________ del coeficiente de Pearson.
Y de acuerdo a su valor, la correlación entre las variables es __________/
__________, lo cual se observa en la gráfica porque los puntos están ligeramente
__________ / __________ de la recta.
Respuestas: positiva/negativa, positivo/negativo, media/fuerte, ligeramente separados/ muy separados.
38
Veamos otro ejemplo.
En esta gráfica se puede ver que no hay correlación entre

las variables porque el coeficiente de Pearson tiene un
valor de 0.5224, lo que indica que es neutro. Y de acuerdo
a este valor no hay una correlación, tal como se ve en la
gráfica, lo cual se confirma porque los puntos están
dispersos o separados de la recta.
39
Ahora te proponemos un reto. Calcula el coeficiente de correlación y la ecuación de la
recta de los ejercicios adjuntos en el documento de Excel. (redondea a 2 decimales)
Ejercicios de correlación
Consulta el Excel del tema 1, página 6:
Verifica la respuesta aquí y compara tu gráfica con la que viene

en el documento.
r = 0.82 r = 0.63 r = 0.87
y = -9.34x + 0.0032 y = 7.45x + 0.09 y = 3.91x + 0.1229
40
Estos son algunos ejemplos de cómo se aplica el análisis de regresión. Los cálculos
también se pueden hacer con las funciones estadísticas de Excel. Aprendamos cómo.
Para calcular el coeficiente de correlación tomemos como ejemplo la relación entre
analfabetismo y el uso de métodos anticonceptivos de un estudio que realizó la ONU.
Veamos el siguiente video.
Coeficiente de correlación en Excel
Ahora aprenderemos el coeficiente de correlación con ayuda de Excel. Primero

coloca el cursor en una celda en blanco donde quieres que aparezca el
resultado del coeficiente de correlación, en este caso yo lo pongo al lado de la
r que simboliza al coeficiente de correlación, busca en el menú superior el
ícono de funciones que ya utilizamos en la unidad 3 para buscar las funciones
estadísticas, vas a ver que sale un cuadro de diálogo, y aquí ya sea que
teclees coeficiente correlación o que lo busques, se abrevia “coef.de.correl”, lo
abres y te va a pedir la matriz 1, en la matriz 1 vas a seleccionar los valores de
X.
Y después te vas a matriz 2, en matriz 2 vas a seleccionar los valores de Y, le
das Enter y automáticamente tienes el coeficiente de correlación que es
-0.607119. Ahora para calcular la ecuación de la recta buscaremos el valor del
pendiente primero, que en este caso esta simbolizado por a, nuevamente
colocamos el cursor en la celda donde queramos que aparezca el valor de la
pendiente, ya sea que abras nuevamente las funciones o si ya lo tienes abierto
como aquí, vamos a buscar pendiente, y te pide conocido Y, entonces
seleccionas los valores de Y y después conocido X, que corresponde a los
valores de X, das Enter y en la celda que elegiste tienes el valor de la
pendiente, que para este caso es -0.5304. El siguiente paso para obtener la
ecuación de la recta es obtener el valor de la ordenada, entonces nuevamente
colocamos nuestro cursor en el espacio donde queremos que aparezca el valor
de la ordenada, que en este caso esta simbolizada por b, abrimos nuestras
funciones estadísticas en el menú superior y lo que vamos a buscar es
“intersección.eje” así es como vamos a localizar a la ordenada.
Nos va a pedir nuevamente el conocido de Y, seleccionamos todos los valores
de Y, y después nos pide el conocido X, y seleccionamos todos los valores de X
le damos Enter y tendremos el valor de nuestra ordenada que es 48.94.
Observa que nuestra pendiente es negativa y para este caso aquí abajo tengo
la gráfica y vemos que efectivamente nuestra pendiente es negativa, lo cual
corrobora nuestros valores que obtuvimos.
41
Una vez que tenemos los valores de la pendiente y la ordenada al origen
podemos sustituirlos en la ecuación de la recta, tenemos que Y es igual el
valor de la pendiente que es -0.5304297 de X más la ordenada que es
48.9417691, voy a poner en negrita y más grande para que tengamos ya la
ecuación de la recta.
María, Jorge y Laura también se interesaron en saber si había relación entre las variables
cuantitativas de su investigación sobre equidad de género, para ello intentaron
correlacionar la edad con la respuesta de alguna variable, pero el índice de correlación no
resultó fuerte, y la gráfica de dispersión no mostró que las variables se ajustaran a la
línea recta; después lo intentaron relacionando otras dos variables.
Para que veas los resultados que obtuvieron revisa el siguiente Excel
Consulta el Excel del tema 1, página 7:
42
Con esto terminamos el tema de correlación y regresión, ahora ya puedes correlacionar
variables cualitativas, cuantitativas y la combinación de ambas, ¿qué te parece si
compruebas lo aprendido?
Realiza este pequeño reto antes de pasar al siguiente tema.

¿Qué tanto aprendí de correlación y dispersión?
Ahora que ya viste el video para hacer los cálculos con Excel y que pusiste a prueba lo
aprendido, ¿qué te parece si lo aplicas a un caso real retomando los datos de la base que
tienes de tu investigación?
Hasta este momento solamente habías hecho una descripción a partir de las medidas de
tendencia central, así que ahora puedes retomar tu hipótesis para relacionar dos
variables cualitativas o una cualitativa con otra cuantitativa, o dos cuantitativas. Revisa
tu planteamiento del problema y tu hipótesis para poner en práctica lo aprendido y elige
entre hacer un análisis de regresión lineal o una tabla de datos cruzados. Tu asesor te
ayudará con gusto ante cualquier duda o dificultad que se presente.
Una vez que tengas los resultados, podrás integrarlos como parte de tu informe en la
sección de resultados. Cuida de no incluir el procedimiento, solamente integra las
gráficas y su descripción, con el valor del coeficiente de correlación si es que hubieras
correlacionado dos variables cuantitativas.
43
Distribución de probabilidades
Para iniciar con el tema de distribución de probabilidades te invitamos a contestar el
siguiente cuestionario para que conozcas el dominio que tienes sobre el tema y puedas
iniciar desde el punto que necesitas.

¿Dónde continúo?
Seguramente en más de una ocasión has comentado algo acerca de la probabilidad de

que ocurra un evento. Por ejemplo, la probabilidad de que llueva, la probabilidad de
encontrar a una persona conocida entre una multitud o la probabilidad de ganar la
lotería.
En las conversaciones coloquiales, cuando queremos hacer notar que la ocurrencia del
evento es cercana o lejanamente posible, generalmente le asignamos una medida
numérica. En términos más formales, la probabilidad no deja de estar relacionada con las
expresiones cotidianas, ya que en matemáticas la probabilidad de que ocurra un
evento es la frecuencia relativa con la que puede esperarse que ocurra. Esto es,
la probabilidad indica cuantitativamente (mide) la relación que existe entre el número de
veces que se presenta una situación o evento particular respecto del total de eventos,
que sería el 100%, por eso decimos: “tengo el 90% de probabilidad de ganar en el
juego”, o bien, todos cuando hemos jugado “volados” sabemos que tenemos el 50% de
probabilidad de ganar, porque la moneda solamente tiene dos caras.
44
La probabilidad se puede estudiar de manera matemática y es muy útil en diferentes
áreas para hacer predicciones, no solamente en los juegos de azar, por lo que
prácticamente todas las áreas manejan la probabilidad.
Por ejemplo las aseguradoras aplican la probabilidad para ofertar los seguros, por eso no
ofrecen seguros de vida a personas de edad avanzada o enfermas, pero insisten mucho
con personas jóvenes y sanas, pues estos últimos tienen menos probabilidad de usar el
seguro que están pagando.
En el control de calidad de productos también se calcula la probabilidad de que algún
artículo salga defectuoso por error humano, o la probabilidad de que ocurra un accidente.
En el área médica se aplica para saber qué probabilidad hay de que una persona sana
enferme en determinadas condiciones, eso les sirve para prever gastos y recursos.
Aprendamos más sobre la distribución de probabilidades y particularmente sobre la
distribución normal en el siguiente video:
La representación de una distribución de probabilidades se hace generalmente

en un sistema de ejes coordenados, colocando la variable aleatoria X en el eje
horizontal y la probabilidad asociada que puede tomar la variable aleatoria en
el vertical. En las distribuciones de probabilidad continua hay dos tipos de
gráficas que son muy comunes encontrar, la distribución normal, también
conocida como la campana de Gauss, cuyas medidas de tendencia central,
media, mediana y
45
moda son iguales, y las distribuciones sesgadas, ya sea con sesgo positivo o con
sesgo negativo. Nosotros estudiaremos la distribución normal porque muchos
fenómenos reales se distribuyen de esa manera, fenómenos naturales como un
sismo o un deslave por lluvias, fenómenos psicológicos como la reacción de las
personas ante un desastre natural, las opiniones también se distribuyen de
manera normal y fenómenos sociales como el matrimonio en una época
determinada.
La distribución normal es simétrica respecto de la media, esto quiere decir que
los datos se concentran en el centro por lo que tiene forma de campana y la
media divide el área a la mitad, esto es 50% de cada lado, por lo que las
medidas de tendencia central media, mediana y moda son iguales. Toda el
área debajo de la curva es igual 1, es asintótica al eje de las abscisas porque
nunca las toca y se utiliza para muestras grandes.
El área bajo la curva representa el 100% y se mide en desviaciones estándar
respecto de la media, la primera desviación estándar antes y después de la
media abarca el 68.3 % del área bajo la curva, esto quiere decir que existe el
68.3% de probabilidad de que en un evento ocurra en esta área, por lo que los
casos o situaciones que se distribuyen de manera normal se concentran en el
centro y hay muy pocos casos extremos.
Por ejemplo en psicología la inteligencia del grueso de la población se
concentra entre un CI de 85 y 115 puntos, esta es la inteligencia normal, la
segunda desviación estándar antes y después de la media abarca 95.4% del
área bajo la curva, y la tercera desviación estándar antes y después de la
media cubre prácticamente toda el área, esto es el 97.9%, por lo que las
personas con muy bajo nivel intelectual o muy alto nivel son muy escasos.
Como pudiste apreciar en el video la distribución normal es importante porque es un

modelo teórico ideal de cómo se comportan las variables continuas en una muestra y si
sabemos cómo se comporta una muestra, entonces se pueden hacer predicciones,
siempre y cuando la muestra sea lo suficientemente grande como para representar a la
población.
Por ejemplo, si se realiza una encuesta en una muestra de estudiantes de una escuela
para determinar sus hábitos alimenticios, lo que en realidad nos interesa es aprovechar
esa información para conocer los hábitos de la población estudiantil. De la misma
manera, cuando en la industria se selecciona una muestra de productos para verificar su
calidad, lo importante de esa muestra es que permite determinar la calidad de todo un
lote de producción. Piensa en los fabricantes de focos: seleccionan una muestra y los
mantienen encendidos para determinar el número de horas de duración; por supuesto no
podrían hacer esto con todos los focos, así que la información que obtengan de la
muestra debe servirles para calificar a toda su producción.
46
Como verás, resulta muy importante, necesario y económico realizar inferencias con
respecto a una población a partir de lo que se sabe de una muestra. La estadística ha
desarrollado para ello la teoría y los métodos; en particular, la estadística inferencial
trabaja fundamentalmente mediante el planteamiento de hipótesis, esto es, mediante el
planteamiento de afirmaciones que suponemos verdaderas y que analizamos para
comprobar o rechazar.
El proceso consiste en plantear dos hipótesis opuestas (una debe ser negación de la otra, de
manera que una resulte verdadera y otra falsa). La prueba de hipótesis busca demostrar que
una de ellas es muy improbable, lo que implica que la otra es probablemente la verdadera.
47
Las hipótesis estadísticas se denominan generalmente hipótesis nula (H0) e hipótesis
alterna (Ha). La hipótesis nula es la que se somete a prueba porque es la hipótesis que se
establece con el propósito de ser rechazada, en tanto que la hipótesis alterna es la
conclusión a la que se espera llegar.
Para las pruebas de hipótesis que vamos a estudiar vamos a

considerar que:
La hipótesis nula (H0) plantea que las dos medias que se

comparan son iguales:
En tanto que la hipótesis alterna (Ha) considera que las

medias que se comparan son diferentes:
Llegó el momento de saber cómo aplicar una prueba de hipótesis.
48
Pruebas de hipótesis
Existen varias pruebas de hipótesis. En este curso estudiaremos dos pruebas de hipótesis
que se utilizan para comparar las medias de dos grupos: la prueba normal y la t de
Student.
¿Cuándo utilizar una u otra?
Empecemos con la prueba normal
49
Prueba normal (z)
Prueba normal
Prueba de hipótesis normal Z
La prueba normal se realiza en cuatro pasos:

1. El primer paso es formular las hipótesis estadísticas, que son hipótesis nula
que es la vas someter a prueba con la intención de rechazarla y se
simboliza como HO, y la hipótesis alterna simbolizada como HA, que es la
conclusión a la que se pretende llegar, la hipótesis nula siempre propone la
igualdad entre las medias y la hipótesis alterna propone que las medias son
diferentes.
2. El paso 2 es elegir el nivel de significancia, esto es establecer el grado
de error que nos vamos a permitir, se simboliza con la letra griega alfa
(α) y generalmente en ciencias sociales se maneja un nivel de error del
5% lo que quiere decir que se trabaja con una certeza o nivel de
significancia del 95% de que los resultados obtenidos son correctos,
como la muestra es simétrica el 5% se divide entre dos, entonces la
zona de rechazo para cada lado es de 0.025, o lo que es lo mismo 2.5%.
3. El paso 3 es buscar el valor Z de tablas, buscamos en las tablas
probabilísticas con valores Z, qué valor tiene z al 2.5%. Como el área
bajo la curva es 1, se le resta 0.025 a la unidad y tenemos 0.975, este
valor lo buscamos en las tablas que está justo aquí, marcado con rojo.
Y buscamos el valor de Z que se forma con el número de la primera

columna que sería 1.9, al cual le vamos a sumar el valor de la primera
fila que es 0.06, lo que nos da un valor Z de 1.96 para una confiabilidad
del 95%. En una curva normal se señalan las zonas de rechazo para la
hipótesis nula, que es la que estamos sometiendo a prueba y escribimos
el valor Z es el que va a determinar la zona de rechazo. Como la
distribución normal tiene al centro el valor 0, a la izquierda tiene valores
negativos y a la derecha positivos, por lo que la zona de rechazo la
vamos a ubicar como todos los valores mayores a 1.96 sería la zona de
rechazo, y también todos los valores menores a -1.96.
50
4. El paso 4 es calcular el estadístico Z para compararlo con la Z de tablas que
̅ ̅ ̅ ̅
ya tenemos. La fórmula para calcular Z es esta: =

(
√
1− 2)
2 2
y nos muestra la
1 + 2
diferencia de la media del grupo 1, menos la media del grupo 2 entre la

raíz cuadrada de la suma de la desviación estándar del grupo 1 y la
desviación estándar del grupo 2, entre el tamaño de la muestra.
5. Una vez que ya tienes el valor de la Z calculada se compara con el valor

de la Z de tablas que ya tienes en una gráfica como la que se mostró en
la diapositiva anterior para saber si cae en la zona de rechazo o en la
zona de no rechazo, aquí la zona de rechazo la tenemos marcada con
color verde, y toda el área blanca es la zona de no rechazo para la
hipótesis que nula, que es la que estamos sometiendo a prueba.
6. Finalmente el paso 6 es obtener una conclusión, si la Z calculada cae en

la zona de rechazo se rechaza la hipótesis nula, lo cual quiere decir, que
la media de los grupos que comparamos no son iguales, pero si cae en
la zona de no rechazo, simplemente se concluye que no es suficiente
evidencia en que haya diferencia entre las medias.
Ahora veamos un ejemplo:

Se quiere comprobar si hay diferencias de opinión respecto a la igualdad de
derechos para hombres y mujeres. Para esto se tomó el reactivo 8 de la base
de datos sobre equidad de género.
Como primer paso se formulan las hipótesis y estadísticas, y en la hipótesis
nula se expresa la igualdad de las medias, en tanto que en la alterna se
expresa que hay diferencia, la hipótesis nula quedaría así:
Las mujeres opinan igual a los hombres respecto de la afirmación “todos
deben colaborar en el arreglo de la casa.”
La hipótesis alterna sería:
Las mujeres opinan diferente a los hombres respecto de la afirmación “todos
deben colaborar en el arreglo de la casa”
Como paso 2 se elige trabajar con una confiabilidad del 95%, o lo que es lo
mismo un nivel de error del 5%.
El paso 3 indica que obtengamos la Z de tablas que ya sabemos que para una
confiabilidad del 95% el valor Z es de 1.96.
En el paso 4 vamos a calcular el valor de la Z calculada, retomando los valores
de la media y desviación estándar de cada grupo. De este lado tenemos
nuestra fórmula y de este tenemos los datos de mujeres y de hombres,
tenemos la media
51
para cada grupo, la desviación estándar y el valor de n, sustituimos estos
valores en la fórmula.
Datos
Mujere Hombres
s 1 =4.90 2 = 4.88
̅ ̅
1= 0.38 2 = 0.42
= 69 ̅ ̅ ̅ ̅
= ( 1 − 2)
=
2 2
+
√1
4.90 − 4.88
2
2 2
√(0.38) + (0.42)
69
Empezamos a hacer nuestras operaciones y tenemos que 4.90-4.88 nos da un

valor de 0.02, elevamos el 0.38 al cuadrado y nos da 0.1444 y le sumamos el
cuadrado de 0.42, que nos da 0.1764 dividido entre 69. Hacemos la suma de
estos dos y nos da 0.3208. Después hacemos nuestra división 0.3208/69 y nos
da 0.004649, a esa cantidad le sacamos la raíz cuadrada, entonces tenemos
0.02 entre 0.06818 hacemos nuestra división y obtenemos el valor final de Z
que es Z= 0.29, ya tenemos nuestra Z calculada.
Una vez que ya tenemos el valor de la Z calculada la comparamos con el valor
de Z de tablas en una campana de Gauss como esta y vemos si cae en la zona
de rechazo, que aquí está marcado con verde o en la zona de no rechazo,
recuerda que al centro está el 0 entonces aquí ubicamos el valor de la Z
calculada que es 0.29 y vemos que cae en la zona de no rechazo, por lo tanto
podemos concluir lo siguiente, no hay suficiente evidencia para afirmar que la
opinión de las mujeres es diferente de la de los hombres respecto a que todos
deben de colaborar en el arreglo de la casa.
Ahora ya sabes cómo se aplica la prueba normal para comparar las medias de dos
grupos, pero es importante que sepas que no todas las muestras se distribuyen
normalmente y no siempre es posible trabajar con muestras lo suficientemente grandes,
por lo que en esos casos se usan otras pruebas estadísticas, y una de las más conocidas
es la t de Student.
52
T de Student
Fue propuesta por William S. Gosset en 1908, bajo el seudónimo de “Student” y surge de
la necesidad de evaluar probabilidades de muestras muy pequeñas, donde se desconoce
la desviación estándar de la población, por lo que no se ajustan a la distribución normal.
Su forma es muy parecida a la de la prueba normal, sólo que es más alargada.
La distribución t de student también se puede usar cuando cualquiera de las siguientes

condiciones se presentan:
La distribución de la muestra es normal
La distribución de la muestra es simétrica, unimodal, sin puntos

dispersos o alejados y n ≤ 15
La distribución de la muestra es moderadamente asimétrica, unimodal,

sin puntos dispersos y el tamaño de la muestra está entre 16 y 30
El tamaño de la muestra es mayor a 30 sin puntos dispersos (en este

caso también se puede utilizar la distribución normal)
53
Existen varios tipos de prueba t, las hay para muestras relacionadas, que se utilizan
cuando en una misma muestra se hacen dos mediciones, como cuando se aplica un
diseño pre test y postest, por ejemplo cuando en un salón de clase se mide el número de
palabras leídas antes de aplicar un método y después de haberlo aplicado.
Otra prueba t, que es la que vamos a conocer, es la prueba t para muestras
independientes, que se aplica a diferentes grupos, por ejemplo, retomando el mismo
ejemplo de la lectura, cuando se quiere saber qué método de lectura es más eficiente, y
se aplica cada método en dos grupos distintos.
Para aplicar la prueba de hipótesis se hace siguiendo básicamente los mismos pasos que
cuando se aplica la prueba normal. Veamos el procedimiento.
T de Student
Prueba de hipótesis t de Student para muestras independientes
El primer paso es formular las hipótesis estadísticas HO es la hipótesis nula

que manifiesta igualdad entre las medias y se somete a las pruebas con la
intención de rechazarla, en tanto HA es la hipótesis alterna que es la
conclusión a la queremos llegar y que manifiesta diferencia entre la medias.
54
El paso dos es elegir el nivel de significancia con el que vamos a trabajar, que
en este caso trabajaríamos al 95% de confiabilidad, o lo que es lo mismo nos
permitiríamos un 5% d error.
El paso tres es calcular la t con la siguiente formula:
̅ ̅
( 1 − 2)
1+ 2 1 1
√( )( + )
( 1−1) +( 2−1) 1 2
que expresa el cociente de la diferencia de medias entre el error estándar de la diferencia de las medias. Observa
que en esta fórmula se necesitan datos de los dos grupos que se están comparando, por lo que cada dato tiene su
̅
subíndice que indica a que grupo pertenece. Para hacer el cálculo de la t vas a necesitar: = Media de cada grupo
= Tamaño de la muestra de cada grupo
SS= Suma de cuadrados de cada grupo y su valor se obtiene sumando el

cuadrado de cada valor representado por X menos el cociente de la sumatoria
al cuadrado de todos los datos entre el tamaño de la muestra.
Una vez que se tiene el valor de la suma de los cuadrados se puede sustituir
todo para calcular el valor de t.
El paso 4 es obtener la t de tablas, para obtener la t de tabla necesitas el nivel
de significancia y los grados de libertad, estos los obtienes sumando el tamaño
de las dos muestras menos 2, para buscar el valor de la t de tablas primero
localiza en la primera columna los datos de libertad, que aquí tenemos
marcado en color rojo por ejemplo el 12 y en la primera fila localizas el valor
de alfa o nivel de error dividido entre 2; como se trata de una curva simétrica
el valor que vamos a localizar en la primer fila es 0.25 que al cruzarlo con la
columna tendremos el valor de la t calculada, que en este ejemplo sería
2.2010.
Como siguiente paso vamos a comparar el valor de la t de tabla con el valor de
la t calculada para saber si cae en la zona de rechazo o en la zona de no rechazo,
finalmente formulamos la conclusión.
Ahora veamos un ejemplo:
Para este ejemplo vamos a retomar los datos de la encuesta de equidad de
género. Se va atrabajar con varones y mujeres de 18 años y se va a analizar si
hay diferencia en la opinión que tienen respecto del reactivo 9 de la encuesta,
que es: los varones corren menor riesgo en la calle de noche que las mujeres,
por lo que la hipótesis nula HO es: Los hombres opinan igual que las mujeres,
respeto de la afirmación “los hombres corren menos riesgos en la calle de
noche que las mujeres. Y la hipótesis alterna es HA: Los hombres opinan
diferente que las mujeres respecto de la afirmación “los hombres corren
menos riesgos en la calle de noche que las mujeres”
Se decide trabajar con nivel de significancia del 95%, o lo que es lo mismo se
trabajara con error del 5%.
55
El siguiente paso es calcular el valor de t, para ello primero vamos a sumar los valores de 1, nuestro primer grupo que son 1 serían las mujeres y
tenemos que la sumatoria es 36.
Después hacemos los mismo sumamos los valores del segundo grupo que es el de los hombres
y la sumatoria de 2 es de 24, luego elevamos cada dato al cuadrado para obtener el cuadrado
de x, entonces 4 al cuadrado nos da 16, 3 al cuadrado nos da 9, 5 al cuadrado nos da 25, cero al
cuadrado nos da 0, cinco al cuadrado nos da 25, 3 al cuadrado nos da 9 que se repiten estos
datos y 5 al cuadrado nos da 25, sumamos todos los cuadrados y obtenemos que la sumatoria
de las x2 es 152 para el primer grupo.
Hacemos lo mismo para el segundo grupo, el primer dato es 1 elevado al
cuadrado es 1, 3 al cuadrado nos da 9, 0 al cuadrado nos da cero, 4 al
cuadrado nos da 16, 3 al cuadrado 9, cuatro al cuadrado, 16 y cinco al
cuadrado nos da 25, sumamos todos los cuadrados y tenemos que la
sumatoria de x2 para el segundo grupo es 92.
Ahora calculamos el promedio de cada grupo. Para el primer grupo de mujeres
es 3.6 y para hombres es 2.67. Aquí por alguna razón que no reconoció el
programa salió el signo de interrogación, pero es el promedio, ya sabemos que
n1 son 10 y n2 son 9.
Una vez que ya tenemos todos estos datos y antes de sustituir los valores en
la fórmula de t necesitamos calcular la suma de cuadrados para cada grupo.
Aquí tenemos la fórmula de la suma de cuadrados aparece con subíndice 1
para calcular el primer grupo que es el de mujeres y aquí aparece con
subíndice 2 para calcular el de los hombres, entonces podemos sustituir los
valores.
Vamos a empezar calculando SS para mujeres, nos pide primero la sumatoria de las x2, aquí está del primer grupo es 152 menos la sumatoria
de las x, la sumatoria de las x es 36 elevado al cuadrado es 1296, entre 1 que sabemos que son 10 datos, haciendo toda las operaciones nos da
22.4 de .
1
2
2
(∑ ) 1296
=∑ 1
− = 152 − = 152 − 129.6 = 22.4
1 1 1 10
Y hacemos ahora lo mismo para SS2, nos pide la sumatoria de las x2 que es 92,
menos las sumatoria de las x del segundo grupo que es 24 elevado al cuadrado
nos da 576 entre n que son 9 datos, hacemos las operaciones y nos da un valor de
SSpara el grupo dos de 28.
(∑ )2 576
2
=∑ 2
− = 92 − = 92 − 64 = 28
2 2 2 9
Y ahora sí podemos sustituir los valores en la fórmula de t, aquí nos va a pedir el promedio del primer
grupo menos el promedio del segundo grupo. Sabemos que el promedio del primer grupo 3.6 menos
el promedio del segundo grupo que es 2.67, entre la raíz cuadrada de 1 que es 22.4 más la raíz
cuadrada del segundo grupo que es 28, esto lo dividimos entre n 1-1, que sería 10-1 más n 2-1 que
seria 9-1, multiplicado por 1/10 más 1/9. Hacemos las operaciones.
56
̅
( 1 − 2)
1+ 2 1 1
√( )( + )
( 1−1) + ( 2 − 1) 1 2
̅
̅ ̅ ̅ ̅
= = =
(3.6−2.67)
0.93 0.93 0.93 0.93
= = = 1.118
22.4+ 28 1 1
50.4 √2.96 (0.21) √.6216 0.788

√( )( + ) √( )(0.1+0.11)
(10−1)+ (9−1) 10
9 17
Muy bien, ahora el paso cuatro es buscar el valor de la t de tablas para ello lo
primero que tenemos que buscar es los grados de libertad que es n 1+n2-2,
entonces los grados de libertad serían 10+9-2 que serían 17 grados de libertad,
ubicamos los 17 grados de libertad en la primera columna que estarían aquí, los
17 grados de libertad y como sabemos que vamos a trabajar con un error 5%
dividimos el 0.05 /2 que nos daría 0.025 que está aquí en la primer fila y cruzamos
los datos, y una vez que los cruzamos tenemos el valor de t de tabla que sería
2.110.
Ahora que ya tenemos el valor de la t calculada en la t de tabla los
comparamos y vemos que cae en la zona de no rechazo, aquí el valor de la t
de tablas sería 2.11, aquí tenemos los puntos mayores a 2.11 y aquí menores
a -2.11 como mi t calculada es de t=1.118 más o menos caería aquí, cae en la
zona de no rechazo, por lo que se concluye que no hay suficiente evidencia
para afirmar que hay
diferencias de opinión entre hombres y mujeres respecto de que “los hombres
corren menos riesgo en la calle de noche que las mujeres”.
Pongamos en práctica lo aprendido

¿Qué tanto aprendí de distribución de probabilidades?
Ahora que ya sabes cómo aplicar una prueba de hipótesis, puedes ponerlo en práctica
con los datos de tu investigación, seguramente te gustaría comparar la opinión de alguno
de tus reactivos por género, o por rango de edad, por estado civil o por cualquier otro
grupo que identifiques y que te gustaría comparar. Tu asesor te ayudará con gusto para
definir este punto si lo necesitas, pues con esta prueba vas a dar el toque final al informe
de investigación que has venido realizando.
57
Pero antes de que integres tu informe final y des por concluido este curso recapitulemos:
A lo largo de este curso has aprendido a observar de manera diferente el medio en el que
te desenvuelves, sabes que los aspectos sociales también son susceptibles de ser
medidos y analizados mediante el método científico, y que prácticamente todo evento o
circunstancia arroja datos susceptibles de ser analizados y que al sistematizarlos se
convierten en información valiosa que nos permite tomar mejores decisiones.
Hasta este momento hemos aplicado algunas herramientas estadísticas para procesar
datos, pero te has preguntado ¿qué pasa cuando lo que se quiere analizar tiene muchos,
muchos más datos de los que vimos en esta unidad? Tantos que no te los puedas
imaginar. Por ejemplo los efectos de las enfermedades en la población de los diferentes
países de acuerdo a su medio geográfico, o bien, ¿cómo hace un buscador para “saber”
qué página de internet es la más consultada sobre un tema si son millones de personas
quienes hacen las búsquedas? ¿Cómo funciona un reloj deportivo inteligente para
determinar cuánto tienes que correr hoy?Pues bien, como ya viste, los datos se pueden
convertir en información valiosa que nos permita entender lo que ocurre en el medio
donde estamos y tomar decisiones al respecto. Para tomar las decisiones no siempre se
trata de menos de 30 datos, o 200, o ni siquiera mil. Puede haber cantidades
exorbitantes para procesar, y en ese caso las herramientas que hemos visto en este
curso son insuficientes. Pero existe una herramienta para analizar grandes cantidades de
datos.
Estamos hablando de
Big data
¿Cuánto es una cantidad grande? Para que te des una idea estamos hablando de
petabytes (1015) o zetabytes (1021) y cada vez la producción de datos es mayor,
por lo que se requiere de programas especiales para analizar y procesar estas grandes
cantidades de datos en el menor tiempo posible con la mayor exactitud.
Los big data se caracterizan por la 5 V’s.
Volumen
58
Se trabaja con cantidades de datos mayores a petabytes o zetabytes
Variedad
Permiten almacenar todo tipo de datos, estructurados en tablas como fechas y números
o no estructurados como formatos PDF, correos electrónicos o documentos de textos.
Velocidad
Dada la velocidad con que se generan o se modifican, los datos se reciben y se
procesan en tiempo real, favoreciendo una mejor toma de decisiones.
59
4
Veracidad
Los datos son confiables, pues se eliminan aspectos que pueden hacerlos
imprevisibles como el tiempo.
Valor de dato
Reconocen qué datos deben analizar de acuerdo a la problemática de interés, por
ejemplo, para saber qué producto se vende más en una época determinada.
Generalmente a los big data se les vincula con datos informáticos, que arrojan las redes
sociales, correos electrónicos, consultas en la nube, imágenes, pagos con tarjeta de
crédito, compras en línea, etc. Y para que te des una idea del uso que pueden tener te
invitamos a ver las estadísticas móviles de Hans Rosling:
60
Uso del big data
¿Te parecieron familiares las gráficas que viste en el video? ¿Pudiste identificar las
variables en los ejemplos? ¿Notas la moda en la curva de la distribución mundial de
ingresos y cómo se distribuye el porcentaje en la curva?
En el diagrama de dispersión de la edad de supervivencia de los niños, ¿Los datos se
ajustan a una línea recta? ¿Reconociste a los quintiles como un término técnico que
puedes interpretar?
Si no pudiste contestar alguna de la preguntas, te invitamos a ver nuevamente el video y
a reconocer cómo el procesamiento de los big data, aunque se hace con otra tecnología,
sí puedes interpretarlos y comprenderlos a partir los conocimientos que adquiriste en
esta asignatura.
Finalmente es importante que sepas que los big data ofrecen un campo infinito de
aplicación y se utilizan para resolver problemas ambientales, de educación, de salud y de
seguridad, y si quieres saber dónde se están aplicando puedes consultar “6 casos de
éxito en la aplicación del Big Data” (TIC beat, 2016)
Consulta el siguiente link:

http://www.ticbeat.com/empresa-
b2b/casos-exito-aplicacion-big-data/
61
Es momento de integrar tu informe de investigación.
Ya llegamos al término de la asignatura y has venido trabajando arduamente sobre un

tema de tu interés, para conjuntar todo lo que has hecho en estas semanas, vas a
integrar un informe académico formal que ya habías venido realizando en la unidad 3 y
solamente falta que lo completes, ¿te acuerdas de este documento?
Carátula
Abstract
Palabras clave
Marco teórico
Método
o Planteamiento del
problema o Objetivo
o Hipótesis
o Variables dependiente e independiente
o Procedimiento
o Descripción de la muestra
Resultados
Conclusiones
Fuentes consultadas
Anexos
Veámoslo ºpor partes:
Ya tienes la carátula, ella debe contener título de tu investigación, los nombres de los
integrantes del equipo, sede, nombre del asesor y fecha de entrega.
El abstract es un resumen de toda tu investigación y debe tener el objetivo de la
investigación, explicar brevemente el método y los resultados.
Después del abstract van las palabras clave, seguidas del marco teórico que ya
trabajaste en la unidad 2.
También ya tienes el método, que debe tener el planteamiento del problema, objetivo,
hipótesis con las variables independiente y dependiente bien identificadas, la descripción
del procedimiento y de la muestra con sus gráficas.
En la sección de resultados vas a colocar las descripciones y gráficas que trabajaste en
la unidad 3, junto con los resultados de la tabla de datos cruzados o análisis de regresión
que trabajaste en la unidad 4, además de incluir los resultaos de una prueba de hipótesis,
tú decides si aplicas la normal o la t de Student. En los resultados no vas a exponer todo
el
62
procedimiento que seguiste para calcular la prueba de hipótesis, solamente planteas tus
hipótesis estadísticas, con qué confiabilidad trabajaste, el valor que obtuviste de la
prueba aplicada y la conclusión para saber si se rechazó o no la hipótesis nula.
Para las conclusiones, toma en cuenta que deben mencionar si comprobaste o no tu
hipótesis conceptual, la que planteaste en la unidad 2, pues todos los análisis
estadísticos se centraron en esta hipótesis, por lo que el lector debe tener total claridad
de qué se concluye del análisis de los resultados. También puedes incluir las limitaciones
del estudio, como las fallas o circunstancias que pudieran afecta la validez o confiabilidad
de tu investigación, esto ayudará a posteriores investigadores a corregir estos errores.
También puedes contrastar tus conclusiones con las de estudios previos que revisaste al
hacer el marco teórico y proponer interrogantes que no abarcó tu estudio o que surgieron
al hacerlo.
Después van las fuentes consultadas al estilo APA, y finalmente en el anexo vas a
incluir el formato de encuesta que aplicaste.
Para que tengas un claro ejemplo de cómo debe quedar tu informe final puedes ver el
informe de investigación sobre equidad de género que hicieron María, Jorge y Laura a
continuación.
Diferencia en la percepción de las responsabilidades que les corresponden

a hombres y mujeres. Un estudio en jóvenes preuniversitarios del oriente
de la Ciudad de México.
Presentan:
Anguiano Anguiano Jorge
López Aguirre Laura
Pérez Martínez María
Bachillerato en línea.
SEDE Ciudad de México
ASESOR: Teresita Aguirre
Fecha de entrega: 14 de febrero de 2017
Abstract: Las actividades y responsabilidades de hombres y mujeres son distintas,

aunque poco a poco se han ido homogeneizando, por lo que en este estudio se desea
investigar si la perspectiva de los jóvenes, como nuevas generaciones ha cambiado o
continúan separando las responsabilidades de acuerdo al género. Objetivo: Demostrar
que jóvenes preuniversitarios tienen diferente perspectiva de las responsabilidades que
le corresponde a cada uno de acuerdo a su género. Método: Se aplicó un cuestionario
tipo Likert a 72 estudiantes de bachillerato en una escuela particular ubicada al oriente
de la Ciudad de México, y participaron 39 mujeres y 33 varones, que fueron elegidos
por muestreo accidental, en edades de 15 a 19 años. Resultados: Se analizaron 5
reactivos en los que se
63
pedía la opinión acerca de actividades y responsabilidades típicas de cada género,
como el que la mujer sea la responsable de la limpieza y el varón el proveedor del
hogar y se encontró en todos los casos que los jóvenes estaban en su mayoría en
desacuerdo y completamente en descuerdo. Conclusiones: No se encontró diferencia
en la opinión de las responsabilidades que corresponden a hombres y mujeres de
acuerdo al género.
Palabras clave: Responsabilidades por género, perspectivas.
Marco teórico
Hablar de equidad de género es algo prácticamente cotidiano. Sin embargo, dentro de

este concepto existen muchas puntualizaciones que es necesario precisar. Podemos
hablar desde el punto de vista laboral, de salud, de derechos políticos, de derecho a la
educación, etc.
El concepto de equidad de género surge cuando se rompe el esquema patriarcal y se

busca la igualdad de derechos para hombres y para mujeres, para que todos tengan
una participación activa en la vida social y las mismas oportunidades de desarrollo.
Este tema es tan amplio que para abordarlo es necesario definirlo, la ONU, en la Cuarta
Conferencia sobre la Mujer en 1995, asentó que: “La igualdad de derechos,
oportunidades y acceso a los recursos, la distribución equitativa de las
responsabilidades familiares entre el hombre y la mujer y una colaboración armoniosa
entre ambos son esenciales para su bienestar y el de su familia, así como para la
consolidación de la democracia”. (ONU, 1995).
Como se puede apreciar, un aspecto fundamental dentro de la igualdad de género es la

cuestión de los roles de género, según la ONU, el término “género” se refiere al conjunto de
normas, prácticas e instituciones sociales que se establecen entre mujeres y hombres
(también conocidas como “relaciones entre los géneros”), por lo que de acuerdo al género,
a cada quien se le asignan tareas y responsabilidades específicas, las cuales son aprendidas
desde la niñez en casa y también de acuerdo al género se les enseña a que se comporten
de cierta manera ante determinadas situaciones, por ejemplo no se ve mal que las mujeres
lloren ante una molestia, lo cual no es bien visto en un hombre; o bien, las mujeres son las
responsables de la crianza de los hijos y los varones “le ayudan”. También en la toma de
decisiones para la elección de carrera, algo que puede parecer muy personal, hay
diferencias, pues aunque no es oficial, hay carreras que suelen elegir los varones y otras
que son elegidas más por mujeres; también en los trabajos hay una diferencia en cuanto a
los cargos que ocupan hombres y mujeres, e incluso en cuanto a salarios.
Es importante mencionar que la época y el contexto sociocultural tiene una influencia

de peso en estas conductas esperadas de acuerdo al género, en las responsabilidades
que se le asigna a cada uno y en los derechos que les corresponden, lo cual hace que
exista una brecha en cuanto a lo que se espera que hagan las mujeres y los hombres
tanto en el aspecto social como laboral, educativo e incluso personal.
64
Históricamente, los hombres y las mujeres han desempeñado roles muy distintos en
cuanto a su participación en la sociedad, tanto dentro como fuera de la casa, esto hace
que no existan condiciones de igualdad, pues hombres y mujeres tienen diferentes
responsabilidades, lo cual da lugar a derechos distintos. Sin embargo con los múltiples
cambios que surgen al modificarse el sistema y las actividades económicas, han dado
lugar a que los roles tradicionales ya no sean los mismos y la mujer empiece a adquirir
otras responsabilidades y a exigir iguales derechos a los que disfrutan los varones, ya
que al incorporarse a la fuerza laboral adquiere independencia económica y participa
en la toma de decisiones de su hogar y de su núcleo social.
Mucho se ha logrado en cuanto a la participación de la mujer en el mundo laboral, sin

embargo, las labores dentro de la casa siguen siendo realizadas principalmente por las
mujeres, ya sean la esposa, la hija o la abuela, incluso si trabajan fuera de casa, son
ellas las encargadas de administrar y mantener en buen estado el hogar, y esto es
transmitido generación tras generación. Según cifras del INEGI las mujeres destinan al
trabajo en el hogar un promedio de 42.3 horas, contra 15.2 horas que dedican los
varones, esto es, que las mujeres invierten tres veces más tiempo en el hogar que los
hombres. (CNDH, 2015)
Al paso del tiempo las mujeres han conquistado más espacio en los empleos, han
avanzado un poco en la política, pues todavía son muy pocas las mujeres que ocupan
cargos importantes en ella. En las universidades son muchas más las mujeres que se
matriculan en carreras “masculinas”; sin embargo, y a pesar de los logros alcanzados,
y de que la mujer ha demostrado que puede desempeñar labores con la misma
eficiencia que los hombres, y que ha adquirido responsabilidades fuera del hogar, la
educación informal, la de casa, justo la que está a cargo de las mujeres es la que sigue
marcando diferencias en las roles que desempeñan cada uno de los géneros.
En casa se aprende lo que corresponde hacer a un hombre y a una mujer y cuáles son
sus responsabilidades de acuerdo a su género, por lo que cabe preguntarse si las
nuevas generaciones, las de los jóvenes de nivel medio superior continúan siendo
educadas en casa para desempeñar los roles de género tradicionales.
En este sentido, la pregunta de investigación es ¿Los jóvenes preuniversitarios tienen
diferente perspectiva de las responsabilidades que le corresponde a cada uno de
acuerdo a su género? O siguen en la misma línea en cuanto a derechos y obligaciones
para cada uno.
Método
Planteamiento del problema
A pesar de los cambios en la sociedad, y de que la mujer se ha incorporado al campo

laboral igual que los hombres, desempeñando iguales labores y con las
65
mismas responsabilidades que ellos, la educación sigue marcando diferencias en las
roles que ha de desempeñar cada uno.
Este rol se aprende en casa y es en este primer núcleo donde se perpetúan y marcan
las responsabilidades que corresponden a cada género, por lo que cabe preguntarse si
las nuevas generaciones continúan siendo educados en casa para desempeñar los roles
de género tradicionales. Por lo que la pregunta para abordar este tema en el presente
trabajo es ¿Los jóvenes preuniversitarios tienen diferente perspectiva de las
responsabilidades que le corresponde a cada uno de acuerdo a su género?
Objetivo: Demostrar que jóvenes preuniversitarios tienen diferente perspectiva de las

responsabilidades que le corresponde a cada uno de acuerdo a su género.
Hipótesis: El género influye en la percepción de los jóvenes preuniversitarios respecto

de las responsabilidades que les corresponden a hombres y mujeres.
Variable independiente: Género de los jóvenes preuniversitarios.
Variable dependiente: Percepción de las responsabilidades que les
corresponde a cada género.
Procedimiento
Para realizar la investigación se aplicó un cuestionario tipo Likert a 72 estudiantes de nivel

medio superior (bachillerato) en una escuela particular ubicada al oriente de la Ciudad de
México, mismo que se puede ver en el Anexo. Se trata de una muestra no probabilística
donde se seleccionó a los participantes por muestreo accidental. Del total de la muestra, 33
son hombres y 39 mujeres, cuyas edades oscilan entre 15 a 19 años. 31 participantes
manifestaron tener estudios completos de bachillerato y 41 dijo tener estudios completos
de secundaria, todos con solteros y ninguno tiene hijos, solamente 4 trabajan actualmente.
A continuación se puede apreciar cómo estaba formada la muestra:
66
Del total 46% son hombres y 54% mujeres
En esta gráfica se puede apreciar que los participantes iban de 15 a 19 años de

edad, y de todas las edades, la de 16 fue la de mayor frecuencia.
67
Del total de encuestados, poco más de la mitad (57%) tiene estudios concluidos de
secundaria y están cursando actualmente el bachillerato. El resto (43%) ya concluyó
sus estudios de bachillerato.
Del total de participantes, la mayoría no trabaja (94%) y sólo el 6% sí trabaja actualmente.
68
Resultados
Se realizó un análisis de estadística descriptiva de 5 reactivos, relacionados con la

hipótesis; así mismo se realizó un análisis de correlación y una prueba de hipótesis.
En las tablas 1, 2 y 3 se pueden ver los datos obtenidos al calcular las medidas de
tendencia central, de dispersión y de posición de los reactivos analizados:
Tabla 1. Medidas de tendencia central

Reactivos Media Mediana Moda
1.Es responsabilidad de la mujer mantener la limpieza 1.07 1 0

del
hogar
3.Los hombres son los responsables de llevar el 1.38 2 0
sustento
a la casa
4.A la mujer le corresponde hacer de comer 0.92 1 0
9.Los hombres corren menos riesgos en la calle 2.74 3 3

de
noche que las mujeres
10. Una mujer exitosa termina quedándose sola 0.48 0 0
Tabla 2. Medidas de
dispersión
Reactivos Rango Varianza Desviación
estándar
1. Es responsabilidad de la mujer mantener la 5 2.31 1.52
limpieza del hogar
3.Los hombres son los responsables de llevar el 5 2.75 1.66
sustento a la casa
4.A la mujer le corresponde hacer de comer 5 1.74 1.32
9.Los hombres corren menos riesgos en la calle de 5 3.42 1.85
noche que las mujeres
10.Una mujer exitosa termina quedándose sola. 5 1.56 1.25
Tabla 3. Medidas de
posición
Reactivos Cuartil Decil 4 Percentil 80
3
(Q3) (D4) (P80)
69
1.Es responsabilidad de la mujer mantener la 2 0 3
limpieza del hogar
3.Los hombres son los responsables de llevar 3 1 4
el
sustento a la casa
4.A la mujer le corresponde hacer de comer 2 0 3
9.Los hombres corren menos riesgos en la 4 3 5
calle
de noche que las mujeres
10.Una mujer exitosa termina quedándose 1 0 2
sola.
Al graficar los resultados resulta interesante observar lo siguiente:
En esta gráfica, donde se muestran los resultados totales del reactivo “1. Es
responsabilidad de la mujer mantener la limpieza del hogar”, se aprecia
claramente que el promedio de los jóvenes encuestados está casi
completamente en desacuerdo con la afirmación y la moda indica que la opción
que más eligieron fue estar completamente en desacuerdo.
La forma de la gráfica muestra una tendencia a estar en desacuerdo con la

afirmación y los datos se encuentran concentrados a la izquierda.
70
El reactivo 1 también se analizó haciendo una tabla cruzada para comparar las
opiniones por género y se encontró que aunque en su mayoría, tanto hombres
como mujeres están completamente en desacuerdo, son más las mujeres que lo
están que los hombres, pues la cantidad de mujeres que están completamente
en desacuerdo casi duplica a la cantidad de varones que están completamente
en desacuerdo.
71
Se analizó el mismo reactivo comparando las opiniones del total de mujeres contra las
del total de hombres y sobresale que del total de las mujeres, el 56.41% están
completamente en desacuerdo en que mantener la limpieza del hogar es una
responsabilidad de la mujer; sin embargo, solamente una tercera parte de los hombres
(36.36%) está completamente en desacuerdo con esta afirmación.
En esta gráfica se puede observar que mientras los jóvenes creen que la limpieza del
hogar no solamente es responsabilidad de la mujer, el llevar el sustento a la casa
tampoco se ve como una responsabilidad propia de los varones, aunque
El promedio para esta afirmación fue 1.38, la mitad (mediana) eligió de 2 en adelante
y la otra mitad, de 2 o menos. La moda indica que la opción que más eligieron fue
estar completamente en desacuerdo.
72
Al analizar el reactivo “4. A la mujer le corresponde hacer de comer”, los jóvenes
encuestados manifestaron en su mayoría estar completamente en desacuerdo y una
cuarta parte está casi completamente en desacuerdo.
En el reactivo “9. Los hombres corren menos riesgos en la calle de noche que
las mujeres”, se observa que el promedio fue 2.74 y la mediana es 3, lo cual
quiere decir que la mitad está de acuerdo y la otra mitad en desacuerdo. La
opción más elegida fue también 3, que marca una tendencia hacia estar de
acuerdo con la afirmación.
73
Al graficar el reactivo “10. Una mujer exitosa termina quedándose sola”, se
observa que la mayoría está completamente en desacuerdo. Por lo que la
gráfica concentra sus datos en la opción 0 y tiene un promedio de 0.40. una
mediana de 0 y una moda de 0.
Esto también se observa claramente en la gráfica circular, donde se muestra

que el 65% está completamente en desacuerdo.
También se realizó una prueba de correlación de Pearson para saber si hay

correlación entre creer que los hombres son responsables de llevar el sustento a
la
74
casa y que pueden gritar cuando algo no les parece, y se obtuvo un coeficiente
de 0.32226085, lo cual indica que no hay correlación entre las variables, por lo
que no se pudo hacer el análisis de regresión.
Entonces se buscó si había correlación entre las variables edad y creer que a la
mujer le corresponde hacer de comer, y se obtuvo un valor r=0.04887842, por
lo que tampoco se encontró correlación entre estas variables y no procedió
hacer el análisis de regresión.
75
Como parte del análisis estadístico se aplicó una prueba de hipótesis con el
estadístico z (normal) a un nivel de significancia del 95% para saber si la
diferencia entre la opinión de hombres y mujeres respecto del reactivo “8. Todos
deben colaborar en el arreglo de la casa” es estadísticamente significativa.
Las hipótesis estadísticas planteadas fueron las siguientes:
Ho: Las mujeres opinan igual que los hombres respecto de la afirmación “Todos
deben colaborar en el arreglo de la casa”
Ha: Las mujeres opinan diferente a los hombres respecto de la afirmación

“Todos deben colaborar en el arreglo de la casa”
Se empleó el siguiente estadístico para calcular el valor z de la muestra
Y se obtuvo un valor de z=0.29, por lo que al 95% de confiabilidad se concluye que
No hay suficiente evidencia para afirmar que la opinión de las mujeres es

diferente a la de los hombres respecto de que todos deben colaborar en el
arreglo de la casa.
Conclusiones
Al hacer el análisis estadístico de las opiniones de jóvenes preuniversitarios

sobre su percepción sobre las obligaciones asignadas por género, no se
demuestra que tengan diferente perspectiva de las responsabilidades que le
corresponde a cada uno de acuerdo a su género, pues ambos manifestaron
estar en desacuerdo y completamente en desacuerdo con las afirmaciones en
las que se designaban actividades por género, y que se analizaron mediante los
reactivos:
2. Es responsabilidad de la mujer mantener la limpieza del hogar

76
3.Los hombres son los responsables de llevar el sustento a la casa
4.A la mujer le corresponde hacer de comer
9.Los hombres corren menos riesgos en la calle de noche que las mujeres
10.Una mujer exitosa termina quedándose sola.
Esto nos lleva a pensar que las responsabilidades de las actividades del hogar
se han ido modificando y con ello también ha cambiado la perspectiva que
tienen los jóvenes acerca de las funciones y responsabilidades que tienen y que
no dependen del género.
Al aplicar la prueba de hipótesis z se confirma que estadísticamente no hay

diferencia significativa entre las opiniones de hombres y mujeres, ambos
opinaron en el mismo sentido en todos los reactivos y tampoco se encontró
correlación entre la edad y la opinión de los jóvenes.
Esto no necesariamente conduce a que las actividades del hogar se asignen y/o
realicen de forma equitativa, pero muestra que las generaciones más jóvenes ya
no perciben que haya actividades que sean exclusivas de un género por el
hecho se ser hombre o mujer.
Una limitante del estudio es la muestra, que fue pequeña y solamente

contempló a la población de una escuela, lo cual puede influir porque se trata
de jóvenes que se desarrollan en ambientes similares. Por lo que se sugiere
ampliar la muestra y también ampliar el rango de edad de los participantes.
Fuentes consultadas:
CNDH. (2015) Responsabilidades familiares compartidas, disponible en
http://www.cndh.org.mx/sites/all/doc/Programas/Ninez_familia/Material/foll_respon
sabilidadesFamiliaresCompartidas.pdf
Hernández Prados, MA. y Lara Guillén, B. (2015) Responsabilidad familiar ¿una cuestión de
género?, en Revista de educación social, 21, disponible en
http://www.eduso.net/res/21/articulo/responsabilidad-familiar-una-cuestion-de- genero-
Naciones Unidas, (1995). Informe de la Cuarta Conferencia sobre la Mujer, 4 al 15 de septiembre de

1995, Beijing, China (A/CONF.177/20), párrafo 15.
77
ONU, (2008) El papel de los hombres y los niños en el logro de la igualdad entre los géneros, en
La mujer en el 2000 y después, disponible en
http://www.un.org/womenwatch/daw/public/w2000/08- 52641_Women2000_SP_FIN.pdf
ONU, (s/f) La distribución equitativa de las responsabilidades entre mujeres y hombres, incluyendo
cuidados, en Statements. Baha’I International Community, disponible en
https://www.bic.org/statements/la-distribucion-equitativa-de-las-responsabilidades- entre-
mujeres-y-hombres-incluyendo-ciudados#qUZMTmMHWI86QM4Y.97
SRE. (2016) El reparto de las tareas y responsabilidades entre mujeres y hombres, disponible en
https://www.gob.mx/sre/articulos/el-reparto-de-las-tareas- y-responsabilidades-entre-mujeres-y-
hombres
Anexo
Buenos (días / tardes / noches): Mi nombre es y soy estudiante del
Bachillerato a Distancia. Como parte de mi curso de investigación en ciencias

sociales estamos aplicando una encuesta anónima. Le agradeceré me permita
hacerle unas preguntas. Contestarlas le tomará menos de cinco minutos. ¿Me
permite encuestarlo/la? (Si la respuesta es sí, proseguir. Si la respuesta es no,
agradecer y buscar otro candidato).
Edad Género: M F ¿Tiene hijos?: No

Si
Grado máximo de estudios
concluidos:
Estado civil: Soltero
Casado
¿Está empleado/a actualmente? Si No
Instrucciones: Por favor escriba en una escala del 0 al 5 qué tanto

coincide con las siguientes afirmaciones, considerando que 0 es
totalmente en desacuerdo y 5 totalmente de acuerdo.
012345
1. Es responsabilidad de la mujer mantener la limpieza del
2. Los varones son más hábiles para negociar
3. Los hombres son los responsables de llevar el sustento a la casa
4. A la mujer le corresponde hacer de comer
5. Un hombre puede gritar cuando algo no le parece
78
6. La mujer que trabaja descuida su hogar aunque no quiera
7. El hombre merece descansar cuando llega de trabajar
8. Todos deben colaborar en el arreglo de la casa
9. Los hombres corren menos riesgos en la calle de noche que las
mujeres
10. Una mujer exitosa termina quedándose sola
¿Ya tienes listo tu informe con todas sus partes? Es

momento de enviarlo para que te evalúe tu asesor.

Informe de investigación
Estás a un par de pasos de concluir la asignatura. Es

momento de revisar lo que aprendiste en esta unidad.

¿Qué tanto aprendí de la correlación y la inferencia
estadística?
Antes de concluir queremos conocer tu

opinión sobre el curso.
79
Cuestionario de Opinión
Ahora sí, sólo queda un último reto. Veamos

qué tanto aprendiste en esta asignatura.

¿Qué tanto aprendí de Modelos cualitativos y
cuantitativos en Investigación Social?
¡Felicidades! Concluiste la asignatura y estás preparado para

realizar investigaciones aplicando lo aprendido.
❖
Chi cuadrada
Ahora que has llegado a este punto, ya puedes poner en práctica todos tus
conocimientos de estadística, puedes describir una muestra usando la estadística
descriptiva y también puedes hacer ajustes a la recta e incluso hacer pruebas de
hipótesis con variables cuantitativas con la prueba z y t de Student.
Seguramente te preguntarás qué pasa si quieres comparar variables nominales, que son
cualitativas. En este caso, cuando queremos comparar dos o más grupos independientes
organizados en una tabla de contingencia y saber si las diferencias se deben o no al azar
se aplica otra prueba estadística conocida como
80
Veamos una prueba Chi cuadrada para una tabla de 2X2.
la tabla se numera como sigue:
A B
C D
y se utiliza la siguiente fórmula:
¡Veamos un ejemplo!
Chi cuadrada
A continuación estudiaremos como hacer una prueba de hipótesis con la Chi

cuadrada para una tabla de 2x2.
Como ejemplo vamos a tomar un estudio donde se desea comparar los efectos
que tiene el ser fumador pasivo o activo para que desarrollen o no cáncer de
pulmón. Observa que se trata de dos grupos independientes, por un lado tenemos
81
los fumadores pasivos y por el otro a los fumadores activos y tenemos un
variable dependiente nominal que en este caso es dicotómica, pacientes con
cáncer de pulmón y pacientes sin cáncer de pulmón. Estas son condiciones
necesarias para aplicar una chi cuadrada.
Para aplicar la prueba de hipótesis empezaremos con el paso 1. Que es
formular las hipótesis estadísticas:
✓ Hipótesis nula Ho: Es la proporción de fumadores que desarrollaron
cáncer de pulmón es igual entre fumadores activos y pasivos.
✓ La hipótesis alterna Ha: La proporción de fumadores que
desarrollaron cáncer de pulmón es diferente entre fumadores activos y
pasivos.
Como paso 2. Se elige el nivel de significancia, en este caso lo tomaremos al

95%, lo cual quiere decir que trabajaremos con un grado de error del 5%.
Paso 3. Vamos a buscar el valor de chi cuadrada en tablas. Para una tabla de
2x2 siempre se usan los grados de libertad =1. Como tenemos un nivel de
error del 5% nos situamos en el renglón 1 que son los grados de libertad que
se encuentran ubicados en la primer columna y nos movemos hasta la
columna que nos indica el 5% de error, aquí ubicamos el valor de la chi
cuadrada que para este caso es 3.841, ahí está marcado en rojo.
El paso 4. Es calcular la chi cuadrada con la siguiente fórmula:
2
[( − ) 2 ]
2
=
( + )( + )( + )( + )
Esa fórmula la vamos a obtener al sustituir los valores de la tabla de

contingencias, donde tenemos en la primer columna los fumadores activos y
pasivos, las siguientes columnas nos dará los que tiene cáncer de pulmón y los
que no tienen cáncer de pulmón. Nuestra tabla de contingencias se divide en
cuatro cuadros donde el primero es A, el segundo es B, el tercero es C, y el
cuarto es D, de aquí es donde vamos a obtener los valores que vamos sustituir
en nuestra fórmula de la chi cuadrada.
Observa que en la fórmula tenemos. A, B, C, D, y hay una N, N se refiere a
nuestra población. Muy bien, entonces los valores que tenemos en nuestra
tabla, aquí ya tenemos el ejemplo con los valores, los vamos a sustituir en la
fórmula, nuestra formula dice chi cuadrada es igual a: 60
60 [(14 ∗ 18 − 8 ∗ 20) ]2
2= 2
(14 + 8) ( 20 + 18) (14 + 20) (8 + 18)
82
Ya todo queda sustituido, aquí en la fórmula de la chi cuadrada. Ahora lo que
procede es realizar las operaciones que nos indica la fórmula, ya con los
valores sustituidos, tenemos aquí ya los valores, y bueno empezamos
resolviendo el paréntesis que se encuentra aquí adentro: 60 2
60 [(14 ∗ 18 − 8 ∗ 20) ]
2= 2
(14 + 8) ( 20 + 18) (14 + 20) (8 + 18)
2= 60 [(252 − 160)30]2 =
(22) ( 38) (34) (26)
2= 60 [92 − 30]2 = 739024
60 (62)2
2= = 739024
2 (3844)60
= 739024 =
2 230640
= 739024 =
= .
Como paso 5. Vamos a comparar el valor de la chi cuadrada calculada contra

el valor de la chi cuadrada de tablas. Para esto vamos a dibujar nuestra gráfica
de la campana de Gauss y vamos a buscar la chi cuadrada de tablas,
recordemos que nuestra chi cuadrada de tablas tenía un valor de 3.84, la
situamos aquí dentro de la línea y marcamos nuestra zona d error en color
rojo, después vamos a situar el valor de la chi cuadrada calculada que tenía un
valor de 0.3121 vemos que cae en la zona de no rechazo.
Como paso 6. Llegamos a la conclusión de que no hay suficiente evidencia
para afirmar que la proporción de fumadores que desarrollaron cáncer de
pulmón es diferente entre fumadores activos y pasivos.
¡Ahora es tu turno!
83
Se realizó un estudio para conocer cómo se distribuye una pareja las tareas domésticas y
con las respuestas que dieron se formó la siguiente tabla de contingencias:
¿Quién hace las tareas domésticas en el hogar?
Yo Mi pareja Total marginal

Mujer 12 3 15
Hombre 6 9 15
Total marginal 18 12 N= 30
Aplica la Chi cuadrada para saber si la diferencia es estadísticamente significativa a un

nivel de significancia del 95%
Empieza formulando las hipótesis estadísticas:
Ho: _______________________________________________________________
Ha: _______________________________________________________________
La chi cuadrada de tablas al 95% es: ___________
La chi cuadrada calculada es (redondea a 2 dígitos): ___________
La chi cuadrada calculada cae en la zona de: ___________
Por lo tanto se concluye lo siguiente: ___________
Respuestas: Ho: La cantidad de mujeres que hace las tareas domésticas es igual a la de hombres que tienen esa responsabilidad en el
hogar, Ha:La cantidad de mujeres que hace las tareas domésticas es diferente a la de hombres que tienen esa responsabilidad en el hogar,
La chi cuadrada de tablas al 95% es: 3.841, La chi cuadrada calculada es (redondea a 2 dígitos): 3.47, La chi cuadrada calculada cae en la
zona de: no rechazo, Por lo tanto se concluye lo siguiente: No hay suficiente evidencia para afirmar que la cantidad de mujeres que hacen
las tareas domésticas es diferentes a la de hombres que tienen esa responsabilidad en el hogar.
84

Modelos CC U4

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Modelos CC U4

Încărcat de

Drepturi de autor:

Formate disponibile

Unidad 4.

La correlación de la inferencia estadística en la interpretación de la

En la unidad 3 hiciste un análisis estadístico de tu base de datos, ¿Te acuerdas? En

En la unidad anterior hiciste la descripción de la muestra con la que trabajaste tu

La estadística en la Psicología (hospital de salud mental)

Mi nombre es Laura Carrillo Alarcón, soy psicóloga clínica y terapeuta familiar, y

Realiza la actividad en plataforma:

Empecemos con el análisis de datos bivariados

Análisis de datos bivariados

1. Relacionar dos variables cualitativas

Ejemplo: ¿Habrá relación entre el género y la habilidad motora fina? (la

2. Relacionar una variable cualitativa (atributo) con una

Ejemplo: Hay relación entre el peso y el riesgo de enfermedad

Ejemplo: Hay relación entre el peso y la estatura

Como estudiamos en la unidad 3, el problema del tabaquismo afecta tanto a quien lo

Tabla 1. Tabla cruzada de frecuencias absolutas

Tiene cáncer de pulmón No tiene cáncer de pulmón Total marginal

Esta tabla se puede representar con una gráfica de barras

De un total de 60 personas, __________fuman y __________son fumadores

Respuestas: 22, 38, 12, 14, 8, 20, 18, 34, 26

Esta gráfica la hicimos a partir de frecuencias absolutas, ahora vamos a convertirlos en

Tabla 2. Tabla cruzada de frecuencias relativas

Tiene cáncer de pulmón No tiene cáncer de pulmón Total marginal

Al graficar la tabla de frecuencias relativas, obtendrás una gráfica como ésta si te

Ambas gráficas se obtienen de la tabla de frecuencias relativas.

Ahora es tu turno para describir la gráfica retomando

Del total de encuestados, un poco más de la tercera parte (__________%) son

De los fumadores activos el __________% tiene cáncer de pulmón y

Respuestas: 22, 38, 12, 14, 8, 20, 18, 34, 26

Tabla 3. Tabla cruzada de frecuencia relativa por renglón

Tiene cáncer de pulmón No tiene cáncer de pulmón Total marginal

Describe la gráfica retomando los datos de la tabla 3:

En la gráfica podemos comparar el efecto que tiene el tabaco en fumadores

Respuestas: 63.63, 36.36, 52.63, 47.36

Realiza el ejercicio en tu cuaderno y compara tus

Tabla 4. Tabla cruzada de frecuencia relativa por columna

Tiene cáncer de pulmón No tiene cáncer de pulmón

Describe la gráfica retomando los datos de la tabla 4:

Se observa que del total de quienes tienen cáncer de pulmón, el __________%

Respuestas: 41.18, 58.82, 30.77, 69.23

Veamos un caso para que pongas en práctica lo aprendido.

Tabla 1. Tabla cruzada de frecuencias absolutas

Casado Soltero Total marginal

Completa la tabla cruzada de frecuencias relativas

Tabla 2. Tabla cruzada de frecuencias relativas

Casado Soltero Total marginal

La gráfica muestra que del total de encuestados, __________% tenía estudios de

Tabla 3. Tabla cruzada de frecuencia relativa por renglón

Casado Soltero Total marginal

Respuestas: 85, 15, 95, 5, 60, 40

Respuestas: Nivel básico – Casado= 35.42, Nivel básico – Soltero= 25.00

La gráfica de la tabla 4 compara el nivel de estudios de los casados y solteros. En

Respuestas: 35.42, 38.78, 25, 25, 8.33, 66.67

¿Qué te recuerda esta notación? ¡Claro! Es la manera en que se representan las

Consulta el Excel en el tema 1, página 4:

Pero si se trata de dos variables cuantitativas, empecemos graficando con un diagrama

¡Veamos un diagrama de dispersión!

Si quieres saber cómo se elabora este tipo gráfica ve el siguiente video.

En esta ocasión vamos a aprender a hacer una gráfica de dispersión. Para

En esta otra gráfica también se observa

¿Cómo se hace un análisis de regresión lineal?

El análisis de regresión lineal se hace mediante 3 pasos:

1. Obtener el diagrama de dispersión

De un total de 60 personas, fuman y son fumadores