Documente Academic
Documente Profesional
Documente Cultură
Facultad de Psicología
CICLO 14-15
Mtra. Joanna Koral Chávez López
ÍNDICE
INTRODUCCIÓN ................................................................................................................................... 7
TEORIA DE LA PROBABILIDAD .............................................................................................................. 8
PRUEBA DE HIPÓTESIS ......................................................................................................................... 9
PROCEDIMIENTO PARA LLEVAR A CABO UNA PRUEBA DE HIPÓTESIS: ..................................................10
1.- Enunciar la hipótesis nula, la hipótesis de investigación y definir la dirección de la prueba ( si es de una
cola o de dos colas). ................................................................................................................................. 10
2.- Determinar el nivel de significancia α ................................................................................................. 11
3.- Seleccionar el estadístico de prueba y calcular el valor p................................................................... 12
4.- Tomar la decisión de aceptación o rechazo lo cual implica comparar el valor de p con (α) .............. 14
5.- Interpretar los resultados obtenidos .................................................................................................. 14
PRUEBAS DE ASOCIACIÓN...................................................................................................................19
Coeficiente de Correlación Producto-Momento de Pearson (r)............................................................23
Procedimiento para calcular la r .............................................................................................................. 23
Regla de decisión ..................................................................................................................................... 24
Tabla de varios niveles de significancia del coeficiente de correlación de Pearson (tabla 1).................. 24
EJEMPLO: s ............................................................................................................................................... 25
SPSS .......................................................................................................................................................... 26
Reporte de resultados de la correlación Pearson .................................................................................... 27
Coeficiente de Correlación de Spearman de Rangos Ordenados (rho)...................................................29
Procedimiento: ......................................................................................................................................... 30
Regla de decisión ..................................................................................................................................... 30
Tabla de varios niveles de significancia del coeficiente de correlación de Spearman (tabla 2) .............. 31
EJEMPLO: .................................................................................................................................................. 32
SPSS .......................................................................................................................................................... 33
Reporte de resultados de la correlación Spearman ................................................................................. 34
CHI-CUADRADA (X2)............................................................................................................................35
Características .......................................................................................................................................... 35
Procedimiento para calcular Chi- cuadrada ............................................................................................ 35
Regla de decisión...................................................................................................................................... 36
Grados de libertad.................................................................................................................................... 36
EJEMPLO ................................................................................................................................................... 36
CONCLUSIÓN ............................................................................................................................................ 37
SPSS .......................................................................................................................................................... 38
REGRESIÓN LINEAL .............................................................................................................................39
Introducción ............................................................................................................................................. 39
La recta de regresión ................................................................................................................................ 39
La mejor recta de regresión ..................................................................................................................... 41
Bondad de ajuste...................................................................................................................................... 42
Resumen................................................................................................................................................... 43
EJERCICIOS DE TAREA DE CORRELACIONES ..........................................................................................44
PRUEBAS PARAMÉTRICAS O DE COMPARACIÓN .................................................................................47
La prueba t .........................................................................................................................................47
La prueba t de Student relacionada (mismos grupos, muestras dependientes) ....................................50
Cuándo utilizarla....................................................................................................................................... 50
Lógica de la prueba .................................................................................................................................. 50
Procedimiento .......................................................................................................................................... 51
Regla de decisión...................................................................................................................................... 51
Como se escriben los resultados de la prueba t para muestras relacionadas ......................................... 51
Tabla de varios niveles de significancia para la prueba t de Student Relacionada (tabla 3) .................. 52
EJEMPLO ................................................................................................................................................... 53
SPSS .......................................................................................................................................................... 53
La prueba t de Student no relacionada (para muestras independientes) ..............................................57
Cuándo utilizarla....................................................................................................................................... 57
Lógica de la prueba .................................................................................................................................. 57
Procedimiento .......................................................................................................................................... 58
Regla de decisión...................................................................................................................................... 59
Tabla de varios niveles de significancia para la prueba t de Student No Relacionada (tabla 4) ............. 60
EJEMPLO ................................................................................................................................................... 61
SPSS .......................................................................................................................................................... 62
INTRODUCCIÓN AL ANÁLISIS DE LA VARIANZA ....................................................................................66
ANOVA UNIFACTORIAL MUESTRAS INDEPENDIENTES ..........................................................................71
Definición de varianza. ............................................................................................................................. 71
Uso de ANOVA unifactorial (para muestras independientes). ................................................................ 71
EJEMPLO: .................................................................................................................................................. 72
SPSS .......................................................................................................................................................... 75
Tabla de varios niveles de significancia para valores críticos de F (tabla 4) ........................................... 79
Tabla de varios niveles de significancia para valores críticos de F (tabla 4) continuación… ................... 80
Tabla de varios niveles de significancia para valores críticos de F (tabla 4) continuación… ................... 81
PRUEBAS NO PARAMÉTRICAS ............................................................................................................89
U de Man-Whitney .............................................................................................................................89
Características: ......................................................................................................................................... 89
Lógica de la prueba .................................................................................................................................. 89
Procedimiento para calcular U de Man-Whitney ................................................................................... 89
Regla de decisión...................................................................................................................................... 90
Tabla de varios Niveles de Significancia para U de Mann- Whitney (tabla 5) ....................................... 91
Tabla de varios Niveles de Significancia para U de Mann- Whitney (tabla 5) continuación. ................ 92
.................................................................................................................................................................. 92
EJEMPLO ................................................................................................................................................... 93
SPSS .......................................................................................................................................................... 94
Prueba de Rangos de Wilcoxon (W)....................................................................................................98
Características: ......................................................................................................................................... 98
Lógica de prueba ...................................................................................................................................... 98
Procedimiento para calcular el valor de W .............................................................................................. 98
Regla de decisión...................................................................................................................................... 99
Tabla de varios Niveles de Significancia para Wilcoxon (W) (tabla 6).................................................. 100
EJEMPLO ................................................................................................................................................. 102
Kruskal-Wallis (H) ............................................................................................................................. 107
Características: ....................................................................................................................................... 107
Lógica de prueba .................................................................................................................................... 107
Procedimiento para calcular el valor H ................................................................................................. 107
Regla de decisión ................................................................................................................................... 108
Tabla de varios Niveles de Significancia para H (tabla 7) ...................................................................... 108
Tabla de vario Niveles de Significancia para H (tabla 7) continuación .................................................. 108
EJEMPLO ................................................................................................................................................. 109
CONCLUSIÓN: ......................................................................................................................................... 110
SPSS ........................................................................................................................................................ 111
EJERCICIOS DE TAREA ............................................................................................................................. 113
Prueba de Friedman (𝑿𝒓𝟐) ............................................................................................................... 116
Características: ....................................................................................................................................... 116
Lógica de la prueba ................................................................................................................................ 116
Procedimiento para calcular el valor de 𝑿𝒓𝟐 ....................................................................................... 116
Regla de decisión.................................................................................................................................... 117
Tabla de varios Niveles de Significancia para Friedman (𝑿𝒓𝟐) (tabla 8) .............................................. 117
Tabla de varios Niveles de Significancia para Friedman (𝑿𝒓𝟐) (tabla 8) continuación… ...................... 117
EJEMPLO ................................................................................................................................................. 118
SPSS ........................................................................................................................................................ 120
EJERCICIOS DE TAREA ............................................................................................................................. 122
REFERENCIAS ................................................................................................................................... 122
ÍNDICE DE TABLAS
Tabla de varios niveles de significancia del coeficiente de correlación de Pearson (tabla 1)
Tabla de varios niveles de significancia del coeficiente de correlación de Spearman (tabla 2)
Tabla de varios niveles de significancia para la prueba t de Student Relacionada (tabla 3)
Tabla de varios niveles de significancia para la prueba t de Student No Relacionada (tabla 4)
Tabla de varios niveles de significancia para valores críticos de F (tabla 5)
Tabla de varios Niveles de Significancia para U de Mann- Whitney (tabla 6
Tabla de varios Niveles de Significancia para Wilcoxon (W) (tabla 7)
Tabla de varios Niveles de Significancia para H (tabla 8)
Tabla de varios Niveles de Significancia para Friedman (𝑿𝒓𝟐)(tabla 9)
Tabla de varios Niveles de Significancia para CHI-CUADRADA (X2) (tabla 10)
INTRODUCCIÓN
El estudio de determinadas características de una población se efectúa a través de diversas muestras
que pueden extraerse de ella.
El muestreo puede hacerse con o sin reposición, y la población de partida puede ser infinita o finita.
Una población finita en la que se efectúa muestreo con reposición puede considerarse infinita
teóricamente. También, a efectos prácticos, una población muy grande puede considerarse como
infinita. En todo nuestro estudio vamos a limitarnos a una población de partida infinita o a muestreo
con reposición.
Consideremos todas las posibles muestras de tamaño n en una población. Para cada muestra podemos
calcular un estadístico (media, desviación típica, proporción,...) que variará de una a otra. Así
obtenemos una distribución del estadístico que se llama distribución muestral.
Las dos medidas fundamentales de esta distribución son la media y la desviación típica (también
denominada error típico).
Hay que hacer notar que si el tamaño de la muestra es lo suficientemente grande las distribuciones
muestrales son normales y en esto se basarán todos los resultados que alcancemos.
El objetivo que se proponen las técnicas del análisis descriptivo es la presentación y la descripción de
los datos de nuestra investigación de la manera más significativa y eficaz. El análisis Inferencial va más
allá de la descripción de los datos; uno de sus objetivos básicos es hacer afirmaciones acerca de una, o
varias, características de la población a partir de los datos provenientes de una muestra. Para
generalizar en una población, de manera válida, los resultados obtenidos en una muestra es necesario
considerar la forma en la que se distribuyen los datos de la muestra e identificar un modelo estadístico
o probabilístico que corresponda al diseño de investigación utilizado y a las características de la variable
de interés (continua o discreta), a fin de establecer si las afirmaciones que hacemos de la población
tiene un sustento válido o son debidas al azar.
Un modelo estadístico es una distribución que describe la probabilidad de ocurrencia de las variables
aleatorias, es decir, la probabilidad de que la variable X tome cada uno de los valores posibles x, o
P(X=x); esto es: el grado en el cual los resultados que encontramos en una muestra ocurren en realidad
en la población. A esta correspondencia se le denomina función de probabilidad. Las distribuciones de
probabilidad pueden representarse mediante una tabla, una gráfica o una fórmula.
La mayoría de los casos prácticos a los que nos enfrentamos en Ciencias Sociales se refiere a variables
aleatorias cuyas funciones de probabilidad se ajustan a los modelos estadísticos o distribución de
probabilidades. Existen diferentes tipos de distribuciones de probabilidad. Una forma de clasificarlas es
mediante el tipo de variables: discretas (se cuentan) y continuas (se miden). Para las variables
continuas, la distribución de probabilidades se denomina función de densidad, ya que las
probabilidades corresponden a áreas bajo la curva.
Cuando se realiza una investigación, rara vez se extrae más de una muestra de una determinada
población. Esta muestra única se convierte en la base a partir de la cual realizamos inferencias acerca
de dicha población. Si extraemos numerosas muestras del mismo tamaño utilizando el mismo
7
Página
procedimiento de muestreo al azar, y calculamos un estadístico, por ejemplo la media o una proporción
para esa muestra, tendríamos múltiples ejemplos de dicho estadístico (Newton y Rudestam ,1999). Las
Estadística Inferencial Mtra. Joanna Koral Chávez López
diferencias entre las medias de las muestras extraídas nos darían una idea acerca de qué tan bien está
funcionando el procedimiento de muestreo empleado. Si este proceso se repite una gran cantidad de
veces obtendríamos una distribución de estas muestras, es decir, una distribución muestral. En
resumen, las distribuciones muéstrales se obtienen a partir de extraer muestras del mismo tamaño (n)
elegidas al azar en una población determinada. Cada muestra del mismo tamaño nos proporciona una
observación (dato), es decir, el estadístico muestral (x,α, P) que sería incluido en dicha distribución. La
probabilidad de obtener un estadístico determinado como resultado del azar está contemplado en la
distribución muestral del estadístico considerado, por lo que con dicha distribución se puede
determinar la probabilidad que corresponde a cada estadístico calculado y con ello evaluar si implica
que el estadístico observado es un resultado esperado por azar o no. Como puede advertirse, a cada
estadístico le corresponde una distribución muestral: media, diferencia entre medias, proporciones,
diferencias entre proporciones, varianzas, etc.
Una de las distribuciones muéstrales más importantes en Estadística es la distribución normal (z), con
mucho, la más importante de todas las distribuciones de probabilidad. Su gráfica produce la ya conocida
curva en forma de campana. Dicha distribución posee las siguientes características:
1. Tiene forma de campana.
2. Es asintótica con respecto al eje X.
3. Es simétrica.
4. El área total bajo la curva es igual a 1.
5. La mayor parte de los valores se concentran al centro de la distribución, mientras que en los
extremos se localizan el menor número de los casos.
Esto quiere decir que cuando la muestra es grande y ha sido elegida al azar, es decir: no seleccionada
propositivamente de acuerdo con ciertos parámetros muy particulares de la investigación, la
distribución de los datos tenderá a ser normal, por tanto, esta aproximación a la curva normal no
siempre se puede esperar, especialmente cuando la muestra de sujetos es muy pequeña.
TEORIA DE LA PROBABILIDAD
La teoría de la probabilidad es la parte de las matemáticas que estudia los fenómenos aleatorios Estos
deben contraponerse a los fenómenos determinísticos, los cuales son resultados únicos y/o previsibles
de experimentos realizados bajo las mismas condiciones determinadas, por ejemplo, si se calienta agua
a 100 grados Celsius a nivel del mar se obtendrá vapor. Los fenómenos aleatorios, por el contrario, son
aquellos que se obtienen como resultado de experimentos realizados, otra vez, bajo las mismas
condiciones determinadas pero como resultado posible poseen un conjunto de alternativas, por
ejemplo, el lanzamiento de un dado o de una moneda. La teoría de probabilidades se ocupa de asignar
un cierto número a cada posible resultado que pueda ocurrir en un experimento aleatorio, con el fin de
8
Utilizamos la estadística inferencial con el propósito de validar los datos que hemos obtenido a lo largo
de la investigación. Nuestro objetivo es llegar a una conclusión con respecto a nuestra hipótesis de
investigación, lo que nos conducirá a llevar a cabo una prueba de hipótesis; así, la hipótesis de
investigación derivará en una serie de hipótesis estadísticas.
PRUEBA DE HIPÓTESIS
El propósito de la prueba de hipótesis es ayudar al investigador a tomar una decisión acerca de una
población mediante el examen de una muestra de ella.
Hipótesis: Es una proposición acerca de una o más poblaciones. Dicha proposición se creerá cierta si
los datos de la muestra llevan al rechazo de la hipótesis nula.
Hipótesis nula (H0): se establece de tal forma que pueden ser evaluadas por medio de técnicas
estadísticas adecuadas. Esta hipótesis se establece con el propósito expreso de ser RECHAZADA. En
consecuencia, el complemento de la conclusión que el investigador desea alcanzar se convierte en el
enunciado de hipótesis nula. En el proceso de prueba, la hipótesis nula se rechaza o no se rechaza. Si la
hipótesis nula no se rechaza, se dirá que los datos sobre los cuales se basa la prueba no proporcionan
evidencia suficiente que cause el rechazo. Si el procedimiento de prueba conduce al rechazo, se
concluye que los datos disponibles no son compatibles con la hipótesis nula, pero sirven como apoyo a
alguna otra hipótesis.
En resumen, es posible establecer las siguientes reglas empíricas para decidir qué proposición se utiliza
como hipótesis nula y cuál como hipótesis de investigación.
Un aspecto que influye de manera especial en la probabilidad de rechazar o no la hipótesis nula (H0) es
si podemos predecir en qué dirección se ubicará nuestro estadístico muestral en relación con el
parámetro poblacional. La dirección de la prueba se establece mediante la hipótesis de investigación
y está determinada por el número de colas (una o dos colas) en la curva de distribución muestral. Para
definir si se trata de una prueba de una o dos colas, es necesario examinar cuidadosamente el objetivo
de investigación y la hipótesis de investigación para que a partir de ellos podamos enunciar nuestra
hipótesis de investigación (H1).
10
Página
Para controlar el error tipo I se utiliza un nivel de significancia α, el cual es el nivel de riesgo que estás
dispuesto a tomar al concluir que la hipótesis nula (H0) es falsa cuando es cierta. La siguiente tabla
muestra los niveles convencionales de significancia que se utilizan típicamente en la investigación.
11
Página
Adicionalmente, para seleccionar la prueba más apropiada para nuestra investigación, debemos
considerar otros criterios, los cuales se mencionan a continuación.
En vista de que la elección de la prueba estadística es una de las tareas más complejas del proceso de
investigación, checa el Árbol de decisión estadísticas para elegir la prueba adecuada para tu
investigación.
12
Página
La decisión sobre la aceptación de una hipótesis estadística está basada en si hay o no suficiente
evidencia para concluir que la hipótesis nula (H0) es falsa. Si la probabilidad del valor obtenido es
mayor que un nivel de significancia especificado, se acepta la hipótesis nula H0; si la probabilidad es
igual o menor al nivel especificado, se rechaza la hipótesis nula (H0) y se acepta la hipótesis de
investigación (H1).Cuando se acepta la hipótesis nula se concluye que es cierta, pero cuando los datos
la contradicen fuertemente se concluye que es falsa.
Entonces por todo lo anterior la prueba de hipótesis constituye la columna vertebral de nuestro
proyecto de investigación: ahí es donde reside nuestra tesis central, aquello que queremos comprobar.
El inicio del procedimiento de la prueba de hipótesis es establecer una o más hipótesis (Downie y Heath,
1973).
La primera que se establece es la hipótesis de la “no diferencia” o hipótesis nula, por ejemplo entre las
medias de dos poblaciones. Esto también puede hacerse planteando que las medias de ambas
poblaciones son iguales, o dicho de otra manera, las muestras estudiadas provienen de la misma
población.
Un siguiente aspecto a considerar es el nivel de significación (α) que tiene que ver con la seguridad que
queremos tener de no cometer errores al aceptar o rechazar la hipótesis nula. Así en un alfa de 5 (0.05),
tenemos 5 posibilidades por cada 100 veces que se extraiga una muestra de una población, de que la
diferencia o no diferencia encontrada sea incorrecta. Si establecemos un alfa de 1 (0.01), el riesgo de
equivocarnos es de uno en cien, si el alfa es menor: 0.001, el riesgo es de uno en mil y así
sucesivamente.
Con mucha frecuencia, nuestros estudios intentan medir el grado de relación que existe entre dos
variables determinadas. Nos preguntamos, por ejemplo: ¿en qué medida influye el grado de
escolaridad de los padres en el grado de escolaridad alcanzado por los hijos?, o bien, ¿en qué medida
las calificaciones grupales en matemáticas están vinculadas a las calificaciones en ciencias naturales o
al modelo de enseñanza del profesor de la asignatura?
entre dos o más variables son correctas. Para ello, requerimos elegir una prueba estadística que nos
permita realizar dicho contraste, sin embargo es importante considerar el objetivo de nuestra
Página
En el proceso de selección de la prueba estadística tenemos dos posibilidades: elegir una prueba
paramétrica o una no paramétrica. Cuando se cumplen determinados criterios (criterios
paramétricos); por ejemplo que los datos se encuentren mínimo en un nivel de medición intervalar,
que los datos de la muestra hayan sido obtenidos de una población normalmente distribuida, es posible
utilizar una prueba paramétrica. Si los datos no se ajustan a una distribución normal o si el nivel de
medición empleado no es por lo menos intervalar, entonces se utilizan pruebas no paramétricas.
15
Página
El Coeficiente de correlación es el indicador que nos permite examinar, de manera objetiva, la fuerza
y dirección de la relación entre variables que presentan un fundamento lógico y coherente para su
asociación, por lo que sus valores se calculan con una dirección de relación positiva o negativa,
alejándose o acercándose a la unidad.
Entre las pruebas no paramétricas que permiten identificar la fuerza y dirección de la asociación entre
variables, se encuentra:
Coeficiente de correlación de rangos ordenados de Spearman (rho): permite explicar la
dirección (positiva o negativa) de una relación, así como la proporción de la variación en los
rangos de Y, explicada por el conocimiento de los valores del rango de X. Aplica sólo para
variable de carácter ORDINAL.
Coeficiente de correlación de Pearson (r): Permite el dimensionar de la magnitud y dirección
de una relación entre variables medidas a partir de intervalos. La r de Pearson es un coeficiente
de correlación que mide la estrechez del ajuste de las coordenadas X, Y, alrededor de la línea de
regresión. Es apropiada para medir la relación entre variables de INTERVALO/RAZÓN U
ORDINAL, A mayor valor absoluto de la r de Pearson, las coordenadas estarán más cercanas a la
línea, lo que nos indica una mayor asociación entre las variable.
Prueba de Chi-cuadrada (X2): permite explicar la dirección (positiva o negativa) de una relación,
así como la proporción de la variación en los rangos de Y, explicada por el conocimiento de los
valores del rango de X. Aplica sólo para variable de carácter NOMINAL.
La comparación entre grupos es usualmente empleada en la investigación social, pues con ello se
comprueba la significancia al evaluar muestras que se incluyen y se excluyen de una situación
determinada. En el caso de la comparación de dos grupos se parte de considerar la presencia de un
determinado factor en uno de ellos, mientras que en el otro, ocurre el caso contrario.
medias muestrales para tres o más grupos o muestras independientes. La variable a partir de la
cual se calcula la media (variable dependiente) debe ser de INTERVALO/RAZON, siendo en este
Página
En ocasiones, los datos o las condiciones de nuestra investigación no cumplen o no tenemos elementos
para suponer que cubren estas condiciones (el más común es el nivel de medida de los datos).
En esos casos tenemos que recurrir a las pruebas no paramétricas que, aun cuando son menos
potentes, no establecen condiciones para los parámetros de la población de la cual se obtuvieron las
muestras.
El principio básico de las pruebas no paramétricas es el mismo que el de las pruebas paramétricas:
comparar los resultados obtenidos contra lo esperado por azar. Las pruebas no paramétricas ofrecen
algunas ventajas:
La prueba a utilizar en cada específico depende del objetivo de la investigación, en concordancia con
el objetivo de la prueba estadística, del nivel de medida de los datos, del número de muestras y de si
éstas son independientes o relacionadas
Cuando se realizan prueba de hipótesis, se calcula la probabilidad de que los resultados obtenidos en
una investigación puedan ser debidos al azar, en el supuesto de que la hipótesis nula sea cierta. Esta
probabilidad es el grado de significación estadística (valores menores a 0.05, como 0.04, 0.01 o 0.002)
o valor de p. Basándose en esta probabilidad, se decidirá rechazar o no la hipótesis nula. Así, cuanto
menor sea el valor de p, menor será la probabilidad de que los resultados obtenidos se deban al azar y
mayor evidencia habrá en contra de la hipótesis nula. Si dicha probabilidad es menor que un valor de p
fijado previamente (habitualmente se toma p<0.05), la hipótesis nula se rechazará. Así, cuando el valor
de p está por debajo de 0.05, se afirmará que el resultado es estadísticamente significativo y será no
17
18
Página
Para poder entender esta relación tendremos que analizarlo en forma gráfica:
edad peso Si tenemos los datos que se presentan en la tabla y consideramos que
la edad determina
demanda
el peso de las personas entonces podremos observar
15 60 la siguiente gráfica:
150
1698 47
30 75 100 2045 15
50 1348 100
18 67 1268 120
0
28 60
19 65
31 92
Donde los puntos representan cada uno de los pares ordenados y la
línea podría ser una recta que represente la tendencia de los datos, que
en otras palabras podría decirse, que se observa que a mayor edad mayor peso.
La correlación se puede explicar con la pendiente de esa recta estimada y de esta forma nos podemos
dar cuenta que también existe el caso en el que al crecer la variable independiente decrezca la variable
dependiente. En aquellas rectas estimadas cuya pendiente sea cero entonces podremos decir que no
existe correlación. Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra.
En caso de que suceda, diremos que las variables están correlacionadas o que hay correlación entre
ellas.
La correlación refleja si existe relación o asociación entre dos variables, no se habla de causalidad
(causa-efecto) por lo que no hay una variable dependiente y una independiente, aunque puede suceder
que una variable sea antecedente de otra. Un uso muy importante de la correlación es la determinación
de la “confiabilidad test- retest” de los instrumentos de prueba. La confiabilidad test-retest significa
que existe consistencia en los puntajes obtenidos en aplicaciones repetidas de la prueba.
Las técnicas correlacionales nos permiten cuantificar la relación entre los puntajes obtenidos en las dos
aplicaciones y, de esta manera, medir la confiabilidad test- retest del instrumento. La correlación sirve
principalmente para averiguar si existe una relación y para determinar su magnitud (fuerza) y dirección
(si esta es positiva o negativa) de esta.
19
La ausencia de asociación lineal no significa necesariamente que las variables no tengan relación
entre sí. Existen muchas variables con una correlación de tipo curvilíneo y debe ser evaluada de
otra manera.
Una forma gráfica de ver la relación entre variables son las gráficas de dispersión o dispersigrama
(gráfica de pares de valores X y Y), donde cada punto representa el lugar en que se cruzan las
calificaciones de la primera variable (X) y la segunda variable (Y) para cada participante. Si se traza una
línea que cruce la mayoría de los puntos se puede apreciar el tipo de relación. Existen varios tipos de
correlación:
20
Página
Grado de Correlación
El grado de correlación indica la proximidad que hay entre los puntos de la nube de puntos. Se
pueden dar tres tipos:
1. Correlación fuerte: la correlación será fuerte cuanto más cerca estén los puntos de la recta.
2. Correlación débil: la correlación será débil cuanto más separados estén los puntos de la recta.
3. Correlación nula
21
Página
Las coordenadas se usan también para ver qué tipo de regresión es, pues puede ser rectilínea, circular,
elíptica, etc. Por medio de la representación en el eje de coordenadas se obtiene la LINEA DE AJUSTE,
lo cual se logra por medio de la ecuación de la recta.
22
Página
Esta prueba permite estudiar hasta dónde los puntajes altos en una variable tienden a asociarse con
puntajes altos en la otra, y si los puntajes bajos en una tienden a asociarse con puntajes bajos en la
otra. La prueba de Pearson tiene en cuenta los valores reales de los puntajes al calcular el grado de
correlación entre dos variables. Por eso, en esta prueba si es importante que las dos variables se midan
con la misma escala.
El r refleja el grado de correlación y lo expresa con un número que va desde –1 (correlación negativa
perfecta) pasa por 0 (no existe correlación) hasta +1 (correlación positiva perfecta). Mientras más
cercano sea el valor observado de r a 1, más probablemente será significativo. Para que sea significativo,
el valor observado de Pearson (r) debe ser igual o mayor que los valores críticos indicados en la tabla.
Dónde:
N = número de participantes.
X, Y = calificaciones de las variables a relacionar.
∑XY = Multiplicar X por Y y sumar.
∑X y ∑Y= Sumar valores de cada variable.
(∑X)² y (∑Y)² = El total de la suma de cada condición elevado al cuadrado.
∑X² y ∑b² = Elevar cada valor al cuadrado y sumarlos.
2. Se debe buscar el valor de tabla para la correlación Pearson, para ello se calculan los grados de
libertad (gl = N – 1) y se establece el nivel de significancia para probar la H0.
23
Página
24
Página
Depresión Autoestima XY X2 Y2
X Y
26 8 208 676 64
24 12 288 576 144
18 26 468 324 676
17 29 493 289 841
18 30 540 324 900
7 31 217 49 961
15 19 285 225 361
20 18 360 400 324
18 28 504 324 784
∑X= 163 ∑Y= 201 ∑XY= 3363 ∑ X2=3187 2=
∑ Y 5055
(∑X)2= 26569 (∑Y)2= 40401 N=9
CONCLUSIÓN:
Se encontró una relación estadísticamente significativa, moderada e inversamente proporcional,
entre el puntaje de depresión y el de autoestima en estudiantes de preparatoria (rP = -0.761, p < 0.05) 25
Página
Ahora necesitamos enviar las variables quese deseen correlacionar a la ventana de Variables.
Después, seleccionar los Coeficientes de correlación los cuales pueden ser Pearson dependiendo del
nivel de medición de las variables.
26
Página
En el presente ejemplo se tiene una significancia de 0.017, menor a 0.05, por lo que se rechaza la
hipótesis nula, entonces: existe una relación entre el puntaje de depresión y el de autoestima en
estudiantes de preparatoria. Además esta relación es moderada e inversamente proporcional (tiene
signo negativo).
Correlaciones
mayor, al valor que hayamos elegido para la prueba de hipótesis. Además se debe escribir la conclusión
a la que se llega.
Página
28
Página
La función de la correlación de Spearman es determinar si existe una relación lineal entre dos variables
ordinales, y que esta relación no sea debida al azar (que la relación sea estadísticamente significativa).
Aunque una de las variables pueda ser de intervalo, de cualquier manera se utiliza esta prueba si una
de las dos está medida a nivel ordinal.
Esta es una prueba de asociación que mide el grado de correlación entre los puntajes obtenidos en dos
variables y que indica el nivel de significación de la correlación observada. Debe usarse cuando los datos
experimentales se miden en una escala ordinal o cuando los datos no cumplen los otros supuestos
necesarios para las pruebas paramétricas.
Lógica de la prueba
Si se predice que dos variables se correlacionan positivamente, los participantes que obtienen puntajes
bajos en una de ellas también deben obtener puntajes bajos en la otra, y los que obtienen puntajes
altos en una de ellas también deben obtener puntajes altos en la otra. Sin embargo, si no existe
correlación, es decir, si los puntajes están distribuidos al azar, como lo predice la hipótesis nula, los
rangos estarán mezclados puesto que un participante puede haber obtenido un rango alto en una de
las variables y un rango bajo en la otra.
La prueba de Spearman calcula las diferencias entre los rangos para los dos conjuntos de puntajes. Para
calcular el estadístico llamado rho se restan estas diferencias de 1. Es evidente que mientras más
pequeñas sean las diferencias entre los rangos de las dos condiciones, mayor será el valor de rho, es
decir, más se acercará a +1.
Para que el valor observado de rho pueda considerarse significativo, debe ser igual o mayor que los
valores críticos que se encuentran en la tabla.
6 ∑ 𝑑2
𝑟ℎ𝑜 = 1 −
𝑁(𝑁 2 − 1)
Dónde:
N = número de participantes
d2 = diferencias entre los rangos asignados a las variables elevadas al cuadrado
29
Página
7. Se debe buscar el valor de tabla del coeficiente Spearman en la tabla 2, para ello se utiliza el número
de casos (N) y el nivel de significancia elegido para probar la hipótesis nula.
Regla de decisión
Si el coeficiente Spearman obtenido es mayor o igual al de la tabla se rechaza la hipótesis nula.
Si 𝑟ℎ𝑜 obtenido ≥𝑟ℎ𝑜 crítico se rechaza la H0 y se aceptaH1
Si 𝑟ℎ𝑜 obtenido<𝑟ℎ𝑜 crítico se rechaza la H1 y se aceptaH0 30
Página
31
Página
H0: no existe relación entre la actitud hacia el psicólogo y la actitud hacia la psicoterapia, en
padres de familia.
H1: existe relación entre la actitud hacia el psicólogo y la actitud hacia la psicoterapia, en padres
de familia.
CONCLUSIÓN:
Se encontró una relación estadísticamente significativa, moderada y directamente proporcional,
entre la actitud hacia el psicólogo y la actitud hacia la psicoterapia, en padres de familia (rho = 0.769,
p = 0.05).
32
Página
En el paquete estadístico SPSS, siempre se presenta una matriz de correlación, en ésta se tienen todas
las variables incluidas en el análisis en los renglones y se repiten en las columnas, en el lugar en que se
cruza cada par de variables se tiene el coeficiente de Spearman y el nivel de significancia obtenido,
además del número de casos, esta organización presenta información redundante ya que las
correlaciones por cada pareja de variables se repiten siempre 2 veces.
En el presente ejemplo, el nivel de significancia 𝑟ℎ𝑜 obtenido =0.015 es menor a 0.05, por lo que se rechaza
33
la hipótesis nula, entonces: existe relación entre la actitud hacia el psicólogo y la actitud hacia la
Página
psicoterapia, en padres de familia. Además la correlación es moderada (está en el rango entre 0.5 y 0.8)
y directamente proporcional (tiene signo positivo).
Estadística Inferencial Mtra. Joanna Koral Chávez López
Dra. Fabiola González Betanzos
Correlaciones
CONCLUSIÓN:
Se encontró una relación estadísticamente significativa, moderada y directamente proporcional,
entre la actitud hacia el psicólogo y la actitud hacia la psicoterapia, en padres de familia (rho = 0.769,
p = 0.015) (ver diagrama). Estos datos se utilizarán para hacer la discusión posterior de los resultados
encontrados en el estudio
34
Página
El estadístico X² (que se pronuncia chi cuadrada o ji cuadrada) refleja el tamaño de las diferencias entre
las frecuencias observadas y esperadas. Hay mayor probabilidad de que el resultado sea significativo a
medida que la diferencia entre las frecuencias observadas y esperadas es mayor, por eso el valor
observado de X² debe ser igual o mayor que los valores críticos de la tabla.
Características
No analiza resultados solo categorías
Las categorías asignadas es la única medida del comportamiento de los participantes
La predicción se formula indicando el número de participantes que habrá en cada categoría
𝟐
(𝑶 − 𝑬)𝟐
𝒙 =∑
𝑬
5. Calcular los grados de libertad
R=# de filas
35
Página
Regla de decisión
Si el valor obtenido es mayor o igual al valor crítico de tabla se acepta la hipótesis de investigación.
Grados de libertad
Es el número de datos que pueden variar libremente al calcular dicho estadístico.
EJEMPLO
CUANDO USARLA. Cuando se asignan categorías a los participantes y los datos son nominales. Solo
analiza categorías no resultados.
Hipótesis de investigación
El investigador predijo que habría un mayor porcentaje de estudiantes de tecnología. Que adoptarían
hábitos de estudio regular en comparación con estudiantes de ciencias sociales.
Datos de la muestra
1. Estudio regular
2. Estudio irregular concentrado en días puntuales
3. Combinación de los 2 hábitos de estudio anterior
H0: No existe un número mayor de estudiantes de tecnología que tendrían hábitos de estudios regulares
en comparación con los estudiantes de ciencias sociales.
H1: Existe un número mayor de estudiantes de tecnología que tendrían hábitos de estudios regulares
en comparación con los estudiantes de ciencias sociales.
Frecuencia esperada
𝟏𝟔𝒙𝟒𝟒 𝟏𝟔𝑿𝟒𝟐
C1=E = 8.19 C4=E= =7.81 gl= (3-1)(2-1)=(2)(1) gl=2
𝟖𝟔 𝟖𝟔
𝟐𝟑𝑿𝟒𝟒 𝟐𝟑𝑿𝟒𝟐
C2=E= = 11.77 C5=E= =11.23
𝟖𝟔 𝟖𝟔
𝟒𝟕𝑿𝟒𝟒 𝟒𝟕𝑿𝟒𝟐
C3=E= =24.05 C6=E= =22.95
𝟖𝟔 𝟖𝟔
(𝑶 − 𝑬)𝟐
𝒙𝟐 = ∑
𝑬
Chi cuadrada calculada debe ser mayor que los valores críticos de la tabla.
gl =2 p<0.05
x2crit=5.99
3.11<5.99 aceptamos Ho
No se puede rechazar la hipótesis nula, lo que equivale a decir que la diferencia entre las frecuencias
observables y las frecuencias esperadas no es significativa.
CONCLUSIÓN
No existe un número mayor de estudiantes de tecnología que tendrían hábitos de estudios regulares
en comparación con los estudiantes de ciencias sociales. (X2=5.99, gl=2, p>0.05)
Los datos observados no confirman la hipótesis de investigación según la cual habría un número mayor
37
de estudiantes de tecnología que tendría hábitos de estudio regular en comparación con los estudiantes
de ciencias sociales.
Página
La prueba JI cuadrada solo puede comparar relaciones generales entre variables. Lo que equivale a
hipótesis bilateral. El motivo de ello es que las relaciones entre las variables se pueden interpretar de
distintas manera.
SPSS
Vamos a declarar primero las variables en spss
38
Página
La primera tabla nos muestra la frecuencia esperada y observada para cada categoría así como su
porcentaje y el total de participantes. La segunda tabla muestra el valor obtenido de Chi-cuadrada que
Estadística Inferencial Mtra. Joanna Koral Chávez López
Dra. Fabiola González Betanzos
es igual a 3.107 con un nivel de significancia p= 0.212 lo que significa que se acepta la hipótesis nula H0
ya que el valor de p es mayor a 0.05
Por lo tanto, no existe un número mayor de estudiantes de tecnología que tendrían hábitos de estudios
regulares en comparación con los estudiantes de ciencias sociales. (X2=3.11, gl=2, p>0.05)
REGRESIÓN LINEAL
Introducción
El análisis de regresión lineal es una técnica estadística utilizada para estudiar la relación entre
variables. Se adapta a una amplia variedad de situaciones. En la investigación social, el análisis de
regresión se utiliza para predecir un amplio rango de fenómenos, desde medidas económicas hasta
diferentes aspectos del comportamiento humano. En el contexto de la investigación de mercados
puede utilizarse para determinar en cuál de diferentes medios de comunicación puede resultar más
eficaz invertir; o para predecir el número de ventas de un determinado producto.
En física se utiliza para caracterizar la relación entre variables o para calibrar medidas. Etc.
Tanto en el caso de dos variables (regresión simple) como en el de más de dos variables (regresión
múltiple), el análisis de regresión lineal puede utilizarse para explorar y cuantificar la relación entre una
variable llamada dependiente o criterio (Y) y una o más variables llamadas independientes o predictoras
(X1,X2, ...,Xk), así como para desarrollar una ecuación lineal con fines predictivos. Además, el análisis de
regresión lleva asociados una serie de procedimientos de diagnóstico (análisis de los residuos, puntos
de influencia) que informan sobre la estabilidad e idoneidad del análisis y que proporcionan pistas sobre
cómo perfeccionarlo.
Nuestro objetivo es el de proporcionar los fundamentos del análisis de regresión. Al igual que en los
capítulos precedentes, no haremos hincapié en los aspectos más técnicos del análisis, sino que
intentaremos fomentar la compresión de cuándo y cómo utilizar el análisis de regresión lineal, y cómo
interpretar los resultados. También prestaremos atención a otras cuestiones como el chequeo de los
supuestos del análisis de regresión y la forma de proceder cuando se incumplen
La recta de regresión
En el tema anterior (sobre correlación lineal) hemos visto que un diagrama de dispersión ofrece una
idea bastante aproximada sobre el tipo de relación existente entre dos variables. Pero, además, un
diagrama de dispersión también puede utilizarse como una forma de cuantificar el grado de relación
lineal existente entre dos variables: basta con observar el grado en el que la nube de puntos se ajusta
39
sobre el tipo de relación existente entre dos variables, utilizarlo como una forma de cuantificar esa
El eje vertical muestra el número de calorías (por cada tercio de litro) y el horizontal el contenido de
alcohol (expresado en porcentaje). A simple vista, parece existir una relación positiva entre ambas
variables: conforme aumenta el porcentaje de alcohol, también aumenta el número de calorías. En esta
muestra no hay cervezas que teniendo alto contenido de alcohol tengan pocas calorías y tampoco hay
cervezas que teniendo muchas calorías tengan poco alcohol. La mayor parte de las cervezas de la
muestra se agrupan entre el 4,5 % y el 5 % de alcohol, siendo relativamente pocas las cervezas que
tienen un contenido de alcohol inferior a ése. Podríamos haber extendido el rango de la muestra
incluyendo cervezas sin alcohol, pero el rango de calorías y alcohol considerados parece bastante
apropiado: no hay, por ejemplo, cervezas con un contenido de alcohol del 50 %, o cervezas sin calorías.
¿Cómo podríamos describir los datos que acabamos de proponer? Podríamos decir simplemente que
el aumento del porcentaje de alcohol va acompañado de un aumento en el número de calorías; pero
esto, aunque correcto, es poco específico. ¿Cómo podríamos obtener una descripción más concreta de
los resultados? Podríamos, por ejemplo, listar los datos concretos de que disponemos; pero esto,
aunque preciso, no resulta demasiado informativo.
Podríamos hacer algo más interesante. Por ejemplo, describir la pauta observada en la nube de puntos
mediante una función matemática simple, tal como una línea recta. A primera vista, una línea recta
podría ser un buen punto de partida para describir resumidamente la nube de puntos de la figura 1.
Puesto que una línea recta posee una fórmula muy simple
𝑌 =𝑎 +𝑏 𝑋
alcohol cero. Conociendo los valores de estos dos coeficientes, se podría reproducir la recta y describir
con ella la relación existente entre el contenido de alcohol y el número de calorías. Aunque no entremos
Página
todavía en detalles de cómo obtener los valores de a y b, sí podemos ver cómo es esa recta (figura 2).
Vemos que, en general, la recta hace un seguimiento bastante bueno de los datos. La fórmula de la
recta aparece a la derecha del diagrama. La pendiente de la recta (b) indica que, en promedio, a cada
incremento de una unidad en el porcentaje de alcohol (Xi) le corresponde un incremento de 37,65
calorías (Y). El origen de la recta (a) sugiere que una cerveza sin alcohol (grado de alcohol cero) podría
contener –33,77 calorías. Y esto, obviamente, no parece posible.
Al examinar la nube de puntos vemos que la muestra no contiene cervezas con menos de un 2% de
alcohol. Así, aunque el origen de la recta aporta información sobre lo que podría ocurrir si extrapolamos
(Aplicar un criterio conocido a otros casos similares para extraer conclusiones o hipótesis) hacia abajo la pauta
observada en los datos hasta llegar a una cerveza con grado de alcohol cero, al hacer esto estaríamos
efectuando pronósticos en un rango de valores que va más allá de lo que abarcan los datos disponibles,
y eso es algo extremadamente arriesgado en el contexto del análisis de regresión.
contrario, al ser unas positivas y otras negativas, se anularían unas con otras al sumarlas).
Página
¿Cómo podemos cuantificar ese mejor o peor ajuste de la recta? Hay muchas formas de resumir el
grado en el que una recta se ajusta a una nube de puntos. Podríamos utilizar la media de los
residuos, o la media de los residuos en valor absoluto, o las medianas de alguna de esas medidas,
etc.
Una medida de ajuste que ha recibido gran aceptación en el contexto del análisis de regresión es el
coeficiente de determinación R2: el cuadrado del coeficiente de correlación múltiple. Se trata de
una medida estandarizada que toma valores entre 0 y 1 (0 cuando las variables son independientes
y 1 cuando entre ellas existe relación perfecta).
Este coeficiente posee una interpretación muy intuitiva: representa el grado de ganancia que
podemos obtener al predecir una variable basándonos en el conocimiento que tenemos de otra u
otras variables. Si queremos, por ejemplo, pronosticar el número de calorías de una cerveza sin el
conocimiento de otras variables, utilizaríamos la media del número de calorías. Pero si tenemos
información sobre otra variable y del grado de relación entre ambas, es posible mejorar nuestro
pronóstico. El valor R2 del diagrama de la figura 2 vale 0,83, lo que indica que si conocemos el
porcentaje de alcohol de una cerveza, podemos mejorar en un 83 % nuestros pronósticos sobre su
número de calorías si, en lugar de utilizar como pronóstico el número medio de calorías, basamos
nuestro pronóstico en el porcentaje de alcohol. Comparando este resultado con el correspondiente
al diagrama de la figura 3 (donde R2 vale 0,06) comprenderemos el valor informativo de R2: en este
42
segundo caso, el conocimiento del contenido de alcohol de una cerveza sólo nos permite mejorar
Página
nuestros pronósticos del precio en un 6 %, lo cual nos está indicando, además de que nuestros
pronósticos no mejoran de forma importante, existe un mal ajuste de la recta a la nube de puntos.
Estadística Inferencial Mtra. Joanna Koral Chávez López
Dra. Fabiola González Betanzos
Parece evidente, sin tener todavía otro tipo de información, que el porcentaje de alcohol de las
cervezas está más relacionado con el número de calorías que con su precio.
Resumen
En este primer apartado introductorio hemos aprendido que el análisis de regresión lineal es una
técnica estadística que permite estudiar la relación entre una variable dependiente (VD) y una o más
variables independientes (VI) con el doble propósito de:
1) Averiguar en qué medida la VD puede estar explicada por la(s) VI.
2) Obtener predicciones en la VD a partir de la(s) VI.
43
Página
2.- Para averiguar la validez de un determinado examen de lectura, los investigadores lo aplicaron a una muestra
de 20 estudiantes cuya habilidad para leer había sido previamente colocada por rangos por su profesor. El
puntaje del examen y el puntaje que el profesor dio para cada estudiante se enumeran a continuación: Utiliza
un α=0.05.
Estudiante Puntaje lectura Puntaje del
profesor
A 28 18
B 50 17
C 92 1
D 85 6
E 76 5
F 69 10
G 42 11
H 53 12
I 80 3
J 91 2
K 73 4
L 74 9
M 14 20
N 29 19
O 86 7
44
P 73 8
Q 39 16
R 80 13
Página
S 91 15
T 72 14
PARTICIPANTE X Y
A 82 42
B 98 46
C 87 39
D 40 37
E 116 65
F 113 88
G 111 86
H 83 56
I 85 62
J 126 92
K 106 54
L 117 81
5.- Un investigador suponía que el desempeño de los alumnos de la carrera de medicina en materias
afines y sinérgicas podría ser semejante. Para comprobar lo anterior, aplicó dos exámenes a un grupo
de diez alumnos (mientras más grande sea el valor mejor estudiante es). Al aplicarles un examen de
anatomía y otro de embriología, el investigador tenía la pretensión de averiguar si los estudiantes con
puntuaciones bajas en una materia obtenían puntuaciones bajas en la otra y si quienes obtenían
puntuaciones altas en una materia también lograban puntuaciones altas en la otra.
A continuación se muestran los resultados que consisten en aciertos obtenidos en una y otra materia
y expresados en números enteros. Utiliza un α=0.01.
7 87 95
8 53 52
9 83 77
Página
10 64 63
6.- ¿Cuáles de las siguientes variables tiene más probabilidad de mostrar una correlación claramente
positiva? ¿Cuáles no tiene ninguna probabilidad de mostrar correlación?
a) Estatura y número de pie
b) Número de entradas de cine vendidas y número de espectadores.
c) Cantidad de espinacas consumidas y número de aciertos en las quinielas de fútbol.
7.- ¿Cuáles de las siguientes correlaciones tiene probabilidad de ser correlaciones positivas o negativas?
a) Las temperaturas en invierno y el consumo de electricidad.
b) Índices de pluviosidad y cifras de ventas de paraguas.
8.- ¿Cuál de los tres coeficientes de correlación siguientes expresa las correlaciones más alta y más
baja?
+0.5 0 -0.9
46
Página
Las pruebas estadísticas paramétricas, como la de la “t” de Student o el análisis de la varianza (ANOVA),
es más potentes que las no paramétricas y se basan en que se supone una forma determinada de la
distribución de valores, generalmente la distribución normal, en la población de la que se obtiene la
muestra experimental.
Las pruebas paramétricas t están diseñadas para comprobar diferencias entre dos condiciones, utilizan
datos de Intervalo (se llaman así porque los intervalos entre resultados se consideran iguales,
permitiendo realizar cálculos numéricos en lugar de limitarse a clasificar los resultados).
Un principio general de las pruebas paramétricas es que la Varianza se calcula elevando los resultados
al cuadrado y sumándolos según diversas combinaciones. Cuando se usan pruebas paramétricas t el
término usual para describir la variabilidad es varianza. La varianza representa un cálculo aproximado
de la variabilidad en los resultados. La varianza esperada representa las diferencias entre las dos
condiciones que se espera encontrar en los resultados esto debido al efecto de la Variable
Independiente (V.I) seleccionada por el investigador. La varianza total representa el total de
variabilidad en los resultados que incluye la varianza debida a las diferencias pronosticadas y la varianza
debida a diferencias irrelevantes entre los distintos participantes (todas las variables que afectan a la
actuación de los participantes).
Las pruebas paramétricas t verifican si la varianza esperada es lo bastante elevada como para producir
un ratio de varianza elevado en el cual la varianza esperada entre dos condiciones es relativamente alta
en comparación con la varianza total.
La prueba t
Cuando se investiga en un nivel explicativo, la forma más simple de un diseño de investigación es
cuando se manipula una única Variable Independiente (VI) aplicando dos tratamientos y se observan
47
sus efectos en una única Variable Dependiente (VD). Muchas veces en vez de tener dos tratamientos
se compara un grupo control con una condición experimental (un tratamiento).
Página
Existen dos tipos de pruebas t dependiendo de si se utilizaron los mismos o diferentes participantes en
las pruebas.
DISEÑOS:
Distribución t de Student
Supuestos de la prueba t
Tanto la prueba t para muestras independientes como la prueba t para muestras relacionadas son
pruebas paramétricas basadas en la distribución normal. Por lo tanto, se asume:
Los datos deben estar medidos al menos en una escala de intervalo.
Si la distribución de las muestras se distribuye normalmente. En la pruebat para muestras
relacionadas la distribución muestral de las diferencias debe ser normal.
En la prueba t para muestras independientes, en la que tenemos dos grupos distintos de personas, se
asume:
Que las varianzas de esas poblaciones son iguales (o muy parecidas), para revisar este supuesto
se lleva a cabo el test de Levene.
Que las puntuaciones son independientes (porque provienen de diferentes personas).
de unidades estándares que están separando las medias de los dos grupos.
Estadística Inferencial Mtra. Joanna Koral Chávez López
Dra. Fabiola González Betanzos
La prueba t de Student relacionada (mismos grupos, muestras dependientes)
Con la prueba t se comparan las medias y las desviaciones estándar de grupo de datos y se determina
si entre esos parámetros las diferencias son estadísticamente significativas o si sólo son diferencias
aleatorias.
Consideraciones para su uso
El nivel de medición, debe ser de intervalo.
El diseño debe ser relacionado.
Cuándo utilizarla
La prueba t relacionada se usa para diseños experimentales con dos condiciones cuando se estudia una
variable independiente y cuando los mismos sujetos (o sujetos igualados) se desempeñan en ambas
condiciones (un diseño relacionado), es decir, cuando las dos condiciones se aplican a los mismos
participantes.
Lógica de la prueba
El objetivo es comparar las diferencias predichas entre las dos condiciones experimentales con la
variabilidad total de los puntajes. Cuando se tienen los mismos sujetos en ambas condiciones, es
posible comparar los pares de puntajes obtenidos por cada sujeto en cada una de las dos condiciones.
Lo mismo se aplica si hay pares de sujetos igualados respecto a todas las características relevantes. El
estadístico t representa el tamaño de las diferencias entre los puntajes de los sujetos para las dos
condiciones. Para que sea significativo, el valor observado de t tiene que ser igual o mayor que los
valores críticos de t.
H1: 1 2
H0: 1 2
H1 = La media de la medicion1 es diferente a la media de la medición 2
H0 = La media de la medicion1 es igual a la media de la medición 2
D
t
sD / N
Dónde:
t = valor estadístico de T student.
𝐷̅ = Valor promedio o media aritmética de las diferencias entre los momentos antes y después.
sD = desviación estándar de las diferencias entre los momentos antes y después.
50
N = Tamaño de la muestra.
En esta ecuación se compara la diferencia promedio entre las muestras ( D ) con la diferencia que se
Página
espera encontrar entre las medias de la población ( D ), tomando en cuenta el error estándar de las
̅ |2
∑|𝑑 − 𝐷
𝑆𝐷 = √
𝑁−1
Dónde:
̅ | = la diferencia de los puntajes y la media de la población.
|𝑑 − 𝐷
̅ |2 = elevar al cuadrado los puntajes de diferencia de la muestra.
|𝑑 − 𝐷
∑|𝑑 − 𝐷̅ |2 = suma de los cuadrados de los puntajes
Procedimiento
1. Ordenar los datos en función de los momentos antes y después, y obtener las diferencias entre
ambos.
̅ ).
2. Calcular la media aritmética de las diferencias (𝐷
3. Calcular la desviación estándar de las diferencias (𝑆𝐷 ).
4. Calcular el valor de t por medio de la ecuación.
5. Calcular los grados de libertad (gl) gl = N - 1.
6. Comparar el valor de t obtenido con respecto al valor de t crítico considerando los grados de
libertad en la tabla D para dos colas o una cola, a fin de obtener la probabilidad.
7. Toma de decisión: Si el valor de t obtenido es mayor o igual que el crítico de las tablas se rechaza
Ho y se acepta H1.
Regla de decisión
Si la tobtenido ≥ t crítico se rechaza Ho y se acepta H1
Si la tobtenido< t crítico se rechaza H1 y se acepta Ho.
CONCLUSIÓN:
En promedio, a los participantes a los que se les aplico la vacuna, con la segunda aplicación
51
52
Página
Hipótesis estadísticas
Ho:
aplicacion1 aplicacion2
H1: aplicacion1 aplicacion2
H0 = El bienestar subjetivo de los 10 participantes en la segunda aplicación es igual a la primera
aplicación.
H1 = El bienestar subjetivo de los 10 participantes en la segunda aplicación es mejor a la primera
aplicación.
D
SS A1 A2 d ̅
d- 𝐷 (d − 𝐷̅) D d
1 10 2 8 8-2.7=5.3 (5.3)2=28.09 t
sD / N N
2 5 1 4 4-2.7=1.3 1.09
3 6 7 -1 -1-2.7=-3.7 13.69
4 3 4 -1 -1-2.7=-3.7 13.69 SD d D2 =78.1/9 = √8.67 =
5 9 4 5 5-2.7=2.3 5.29 N 1
6 8 5 3 3-2.7=.3 0.09 2.94
7 7 2 5 5-2.7=2.3 5.29
8 5 5 0 0-2.7=-2.7 7.29 sD / N = 2.9458/3.1622=0.9315
9 6 3 3 3-2.7=.3 0.09
10 5 4 1 1-2.7=-1.7 2.89 Comparar las medias
Suma 64 37 27 78.1
2.7 − 0 2.7
Media 6.4 3.7 2.7 𝑡= = = 𝟐. 𝟖𝟗𝟖
0.9315 0.9315
gl= 10-1 =9 N=10
2.898 ≥ 2.821 ∴ Aceptamos la hipótesis de investigación en la cual nos dice que existen diferencias entre
la primer aplicación de la vacuna y la segunda.
SPSS
53
54
Página
Output 1 muestra una tabla resumen de los estadísticos para cada uno de las condiciones
experimentales. En cada condición nos dice cuál es la media, el número de participantes y la
desviación típica de la muestra. En la columna final señala el error estándar, que se calcula con la
desviación estándar dividida por la raíz cuadrada del tamaño de la muestra ( SE s / N ) por lo
tanto para la primera aplicación de la vacuna 2.1187 / 10 2.1187 / 3.1622 0.6699 .
Output 1:
En el output 2 se muestra la correlación de Pearson entre las dos condiciones. Cuando se utilizan
muestras relacionadas es posible que las condiciones experimentales estén correlacionadas, porque los
datos provienen de los mismos participantes. En este caso no existe una correlación (r =- 0.142) y no
es significativa porque p > 0.05.
Output 2:
N Correlación Sig.
Par 1 aplicacion1 y aplicacion2 10 -,142 ,695
El output 3 muestra la tabla más importante: en esta tabla se señala si las diferencias entre las medias
son suficientemente grandes para no ser consideradas un resultado debido al azar. Primero, la tabla
se obtiene la diferencia promedio entre las medias de las de los tratamientos (i.e. D , la puntuación
promedio es 6.4-3.7 = 2.7). En la tabla se informa de la desviación típica de la diferencia entre las
medias (2.9458) y lo más importante, el error estándar de las diferencias entre la aplicación de la
s 2.9458
vacunas para cada condición ( D 0.93155 ). El estadístico t se calcula dividiendo la media
N 10
de las diferencias por el error estándar de las diferencias t = 2.7/0.93155 = 2.898). Este valor de t se
compara con el valor de la distribución basándose en los grados de libertad y un valor de α). SPSS utiliza
los grados de libertad para calcular la probabilidad exacta del valor de t. Este valor de probabilidad está
55
en la columna etiquetada con Sig. (bilateral).SPSS señala únicamente la probabilidad bilateral (dos
Página
colas). Si en la investigación se hiciera una predicción específica (por ejemplo, que la ansiedad es mayor
cuando se utiliza una araña real) entonces se debe informar de la probabilidad unilateral (de una sola
Estadística Inferencial Mtra. Joanna Koral Chávez López
Dra. Fabiola González Betanzos
cola) para ello se debe dividir la probabilidad proporcionada por el SPSS entre dos. La probabilidad
bilateral en este caso es muy baja (p < 0.018) lo que significa que existe únicamente un 1.8% de
probabilidad de que un valor de t como el obtenido pueda pasar si la hipótesis nula fuera cierta. En
general se utiliza una p < 0.05 como estadísticamente significativa; por lo tanto, en nuestro caso la p
encontrada es significativa porque es menor que 0.05. El hecho de que el valor de t fuese negativo
quiere decir que en la primera aplicación de la vacuna el promedio fue menor a la de la segunda
aplicación.
Por lo tanto se puede concluir que si existen diferencias entre la primera aplicación de la vacuna y la
segunda, t (10) = 2.898, p < 0.05.
Finalmente, en el output se obtiene el intervalo de confianza del 95% para la diferencia entre las
medias. Imagina que tomamos 100 muestras de una población, entre los dos tratamientos y se calcula
la media ( D ) y un intervalo de confianza para la media. El intervalo de confianza nos dice los límites
entre los cuales estaría la diferencia real entre las medias, lo importante de este resultado es que no
contenga el cero, porque esto quiere decir que es improbable que la diferencia entre las medias sea
cero. Esto es muy importante, si recordamos al iniciar la explicación señalamos que se considera que
si se obtienen dos pares de muestras de una población se espera que el resultado de la diferencia entre
las muestras sea cero. Este intervalo nos dice que, basados en dos muestras reales, es improbable que
el valor verdadero de las diferencias entre las medias sea cero. Por lo tanto, podemos estar confiados
de que las dos muestras no representan muestras aleatorias de la misma población. Sino que
representan muestras de diferentes poblaciones que han cambiado por la manipulación experimental.
CONCLUSIÓN:
En promedio, a los participantes a los que se les aplico la vacuna, con la segunda aplicación
experimentaron de manera significativa una mejoría (M =3.7, SD=1.76) que en la primera
aplicación (M = 6.4, SD=2.11), t (10)=2.8984, p < 0.05.
56
Página
Con la prueba t para muestras relacionadas podemos buscar diferencias entre pares de puntuaciones,
porque las puntuaciones provienen de los mismos participantes y por lo tanto las diferencias
individuales entre las condiciones se elimina. Por lo tanto, las diferencias en las puntuaciones deberían
reflejar únicamente el efecto de la manipulación experimental. Sin embargo, cuando diferentes
participantes se encuentran en las diferentes condiciones los pares de puntuaciones pueden diferir no
solamente debido a la manipulación de la variable, sino también porque hay otras fuentes de
varianza (por ejemplo, las diferencias individuales en la motivación entre los participantes, el nivel de
inteligencia, atención, etc. ), como no es posible hacer una comparación para cada participante (como
se hizo en muestras relacionadas) entonces ahora haremos comparaciones basadas en las medias
totales de cada grupo o condición.
En la prueba t para muestras independientes se busca las diferencias entre grupos. En este caso, si
tomamos varios pares de muestras (de diferentes poblaciones) las diferencias entre las medias de las
muestras se va a desviar de la media de la diferencia ( D 1 2 ) algunas veces una pequeña cantidad
y ocasionalmente la diferencia será grande. Si graficamos la distribución muestral de las diferencias
entre cada par de medias se obtiene una distribución normal que nos dice que tanto podemos esperar
que dos muestras difieran y la desviación estándar señala que tanta variabilidad se puede esperar
únicamente por efecto del azar. Si la desviación estándar es grande se puede esperar que diferencias
grandes entre las medias de las muestras ocurran por azar; si la desviación estándar es pequeña
entonces únicamente se pueden esperar que ocurran diferencias pequeñas entre las muestras por
azar.
Cuándo utilizarla
Se usa para diseños en los que se estudia una variable independiente bajos dos condiciones, cuando
hay diferentes participantes en las dos condiciones. La prueba t es la prueba paramétrica equivalente
a la prueba no paramétrica de U de Mann-Whitney.
Lógica de la prueba
El objetivo primordial de la prueba t es comparar la cantidad de variabilidad debida a las diferencias
predichas en puntaje entre los dos grupos con la variabilidad total de los puntajes de los sujetos. Las
diferencias predichas se calculan en términos de las diferencias entre las medias de los puntajes de los
dos grupos. El valor real de esta diferencia entre las medias se tiene que comparar con la variabilidad
total de los puntajes. Si la variabilidad de los puntajes es pequeña, entonces una diferencia más bien
pequeña entre las medias de los grupos puede reflejar una diferencia consistente entre ellos. Sin
embargo, si la variabilidad entre los puntajes es muy grande, esto podría indicar que una proporción
mayor de esta variabilidad se debe a fluctuaciones en el desempeño de los sujetos, debidas a variables
desconocidas, más que a la diferencia predicha entre las condiciones experimentales.
57
Página
Dónde:
t = valor estadístico de la prueba de T de Student.
̅̅̅̅
𝑿𝟏 = valor promedio del grupo 1.
̅̅̅̅
𝑿𝟐 = valor promedio del grupo 2.
SD = desviación estándar.
N1 = tamaño de la muestra del grupo 1.
N2 = tamaño de la muestra del grupo 2.
𝑆𝐶1 + 𝑆𝐶2
𝑆𝐷 = √
(𝑁1 − 1) + (𝑁2 − 1)
Dónde:
𝑺𝑫 = desviación estándar.
SC = suma de cuadrados de cada grupo.
N = tamaño de la muestra 1 y 2.
(∑𝑥)2
𝑆𝐶 = ∑𝑥 2 −
𝑁
𝑔𝑙 = (𝑁1 + 𝑁2 ) − 2
Procedimiento
1. Determinar el promedio o media aritmética de cada grupo de población.
2. Calcular la suma de cuadrados de cada grupo.
3. Calcular la desviación estándar (SD) de ambos grupos.
4. Calcular los grados de libertad (gl) gl = (N1 + N2)– 2.
5. Obtener la probabilidad del valor t en la tabla D para dos colas o una cola, a fin de obtener la
probabilidad.
6. Toma de decisión: Si el valor de t calculado es mayor o igual que el registrado en las tablas se
rechaza Ho y se acepta H1.
58
Como hicimos con la prueba t para muestras relacionadas vamos a comparar el valor de t obtenido
Página
respecto del valor crítico de t de la distribución con grados de libertad igual a n1 n2 2 , si el valor
Estadística Inferencial Mtra. Joanna Koral Chávez López
Dra. Fabiola González Betanzos
obtenido excede el valor crítico rechazamos la Ho, es decir podemos estar seguros (con una
probabilidad de error del 5%) de que hay un efecto de la variable dependiente. Si se dan cuenta el
estadístico t lo podemos obtener únicamente conociendo la media, la desviación estándar y el
número de participantes de cada grupo.
Regla de decisión
Si la tobt ≥ tcrit se rechaza Ho y se acepta H1
Si la tobt< tcrit se rechaza H1 y se acepta Ho.
59
Página
60
Página
H0=Las diferencias observadas en la ansiedad que provoca una araña ya sea en foto o en real son
iguales. (La ansiedad que provoca una araña ya sea en foto es igual a que fuese real)
H1=La ansiedad que provoca una araña ya sea en foto o en real, son distintas. (La ansiedad que provoca
una araña ya sea en foto es diferente a que fuese real)
(∑𝑥)2
𝑆𝐶 = ∑𝑥 2 −
𝑁
𝑆𝐶1 + 𝑆𝐶2
𝑆𝐷 = √
(𝑁1 − 1) + (𝑁2 − 1)
𝑆𝐷 = √ =√ = 10.20
(11 + 11) 22
Página
𝑔𝑙 = (𝑁1 + 𝑁2 ) − 2
Para estos datos con 22 grados de libertad, al nivel de significancia establecido en el valor de 0.05, se
tiene un valor t en tabla de 2.074, el valor de t obtenido es menor al de la tabla (el signo no debe ser
tomado en cuenta) por lo tanto se acepta la H0, entonces: las diferencias observadas en la ansiedad que
provoca una araña ya sea en foto o real son iguales, es decir, no existen diferencias significativas entre
las medias de las dos muestras. En términos del experimento, se puede inferir que los aracnofóbicos
están igualmente ansiosos si se les presentan fotos y cuando se les presentan arañas reales.
SPSS
Los participantes nos permiten identificar a cada una de las personas que participaron en el estudio y
62
se define como nominal, en la variable grupo se señala a que condición pertenece cada uno de los
Página
participantes que se define como nominal, en nuestro caso los participantes que están en el grupo 0 se
expusieron a una foto de araña y los que tienen un código de 1 fueron expuestos a una araña real, para
Estadística Inferencial Mtra. Joanna Koral Chávez López
Dra. Fabiola González Betanzos
definirlo se debe ir a la columna donde dice valores y presionar del lado derecho y aparecerá el cuadro
que se muestra siguiendo la flecha; finalmente, tenemos a la variable dependiente que es ansiedad y
la medida debe ser “escala” (intervalo).
Una vez que hemos definido las variables vamos a la vista de datos, recuerda que en SPSS cada línea
representa un participante, por lo tanto, los datos ya no estarán como en la prueba t para muestras
relacionadas. En este caso los datos se colocan de la siguiente forma:
La variable grupo señala que participantes tuvieron la foto de una araña (grupo 0) y cuales una araña
real (grupo 1). Para el análisis debemos ir a:
Cuando se activa el cuadro de dialogo, selecciona la variable dependiente de la lista (dale un click a
Ansiedad) y colócala en donde dice Contrastar variables. Después es necesario seleccionar grupo y
transferirlo a la parte que dice Variable de agrupación. Una vez que has seleccionado la variable de
63
agrupación debes seleccionar donde dice Definir grupos. SPSS necesita saber cuáles son los códigos
numéricos que asignaste a tus dos grupos, una vez que hayas seleccionado los grupos (0 y 1) da click en
Página
El output de la prueba t para muestras independientes contiene únicamente dos tablas. La primera
tabla (output 1) presenta los estadísticos descriptivos para las dos condiciones. De esta tabla podemos
saber que ambos grupos tenían 12 participantes. El grupo que tenía una foto de araña tiene una
ansiedad promedio de 40, con una desviación estándar de 9.29. El error estándar de ese grupo (o
desviación estándar de la distribución muestral) es de 2.68 ( SE 9.293 / 12 9.293 / 3.464 2.68 ). La
tabla también señala que el nivel de ansiedad en los participantes a los que se les presentó una araña
real fue de 47, con una desviación estándar de 11.03 y un error estándar de 3.18 (
SE 11.029 / 12 11.029 / 3.464 3.18 ).
Output 1:
Estadísticos de grupo
En la segunda tabla (output 2) se presenta los resultados principales de la prueba. La primera columna
contiene los valores del estadístico, es importante notar que a diferencia de la prueba t para muestras
64
relacionadas, en esta prueba tenemos dos valores de t. En la 1) se han asumido varianzas iguales y en
Página
la 2) No se han asumido varianzas iguales. En el contraste tradicional en la prueba t ambos deben tener
varianzas más o menos iguales, pero si esto no ocurriera existe un ajuste que se hace a la prueba. Por
Estadística Inferencial Mtra. Joanna Koral Chávez López
Dra. Fabiola González Betanzos
lo tanto, antes de presentar los resultados es necesario comprobar si las varianzas son o no iguales.
Para ello se utiliza la prueba de Levene para la igualdad de varianzas que se encuentra en las primeras
dos columnas. La prueba de Levene es similar a la prueba t, sólo que en vez de probar la Ho: μ1= μ2,
2 2
sirve para probar si Ho: 1 2 , es decir si las varianzas son iguales. Por lo tanto, si el test de Levene
es significativo p ≤ 0.05 se rechaza la Ho y por lo tanto las varianzas no son iguales. Si por el contrario
p > 0.05 entonces se acepta la Ho y se asume que las varianzas son iguales. Para estos datos, el test
de Levene es no-significativo (porque la p = .386 que es mayor que 0.05). Una vez que hemos
comprobado que las varianzas son iguales debemos ir a la parte donde dice 1) se han asumido varianzas
iguales
Habiendo establecido la homogeneidad de las varianzas, vamos a mirar la prueba t. Primero señala que
la diferencia promedio entre las medias es ( X1 X 2 40 47 7 ) y el error estándar de la
distribución de las diferencias de las muestras, se calcula utilizando el divisor de la Ecuación 5:
Dos subdivisiones de la varianza total son: la varianza esperada y la varianza de error debida a los
efectos de variables irrelevantes no previstas.
La varianza debida a variables no previstas es la varianza de error, ya que, desde el punto de vista del
investigador, todo aquello que no ha sido pronosticado representa un error.
El análisis de varianza sirve para analizar los datos provenientes de diseños con una o más variables
independientes o factores (variables categóricas nominales u ordinales) y UNA variable dependiente
(variable medida con una escala de intervalo o razón). Los modelos de ANOVA permiten básicamente
comparar medias.
Aunque existen muchos y muy diferentes modelos de ANOVA vamos a atender a una
clasificación muy simple que tiene que ver con el número de factores que existen en el diseño de
investigación. El término factor en el contexto del ANOVA es sinónimo de variable independiente. Así,
al modelo de ANOVA diseñado para analizar los datos obtenidos utilizando un diseño con una variable
independiente se le llama ANOVA de un factor (en inglés one-way ANOVA), si el diseño tiene dos
variables independientes se le llama ANOVA de dos factores (two-way ANOVA). Etc. Cuando hay más de
un factor se les llama modelos factoriales.
El modelo de un factor sirve para comparar el tratamiento de varios grupos sobre una variable
dependiente. Se trata, por tanto, de una generalización de la prueba t para dos muestras
66
Recuerda:
Las hipótesis se plantean de manera similar a la prueba t únicamente que aquí hay más de dos
tratamientos y la hipótesis nula se rechaza (i.e. se cumple la H1) si se encuentran diferencias en al menos
dos grupos (o tratamientos).
a) Hipótesis estadísticas
Ho: tratamiento _ 1 tratamiento _ 2 tratamiento _ 3 ...
Antes de explicar cómo se realiza un ANOVA, es importante que nos quede claro porque no
simplemente llevamos a cabo varias pruebas t para comparar todas las combinaciones de los grupos en
los que estamos interesados. Vamos a imaginar una situación en la que queremos comparar tres
condiciones experimentales (o tratamientos), entonces llevamos a cabo tres pruebas por separado: 1)
comparamos tratamiento 1 y 2, 2) tratamiento 2 y 3 y 3) tratamiento 1 y 3. Si para cada uno de esas
pruebas se utiliza un nivel de significación del 0.05, entonces para cada prueba se comete un 5% de
error de rechazar de manera falsa la Ho (error Tipo I) Por lo tanto la probabilidad de no cometer el error
Tipo I es de 95%. Si se asume que cada test es independiente (por lo tanto, podemos multiplicar las
probabilidades) entonces la probabilidad de no cometer un error Tipo I cuando se realizan las 3 pruebas
3
es de (0.95 ) .95 .95 .95 .857 , entonces la probabilidad de cometer al menos un error Tipo I es
de 1 0.857 .143 o lo que es lo mismo del 14.3%, es decir, hemos incrementado la probabilidad de
0.5% a 14.3% este error que se comete cuando se realizan muchos análisis con los mismos datos se
n
llama tasa de errores simultáneos (o familywise error = 1 (9.95) , donde n es el número de test
realizados).
Interpretación de la F
Cuando realizamos una prueba t, se analiza la hipótesis que considera que las dos muestras tienen la
misma media. De forma similar, en la ANOVA se analiza si tres o más medias son iguales. Un ANOVA
produce un estadístico F o razón F, que es similar a una prueba t en el que se compara la razón entre la
cantidad de varianza explicada por el modelo respecto del error.
Fuentes de Varianza
Los distintos tipos de varianza se suelen llamar también fuentes de varianza. Este término se usa para
indicar que cada tipo de varianza procede de un tipo distinto de variable. Dichas variables son las
fuentes de la varianza. Las fuentes de varianza en ANOVA se muestran a continuación:
Fuentes de varianza en ANOVA
Fuentes de varianza Tipos de varianza
Variables independientes (pronosticadas) Varianza esperada
67
En ANOVA, las pruebas de significación se basan en la proporción entre la varianza entre las condiciones
esperada y la varianza de error.
Grados de libertad
Hay otro factor importante que debemos tener en cuenta a la hora de calcular varianzas y consultar las
tablas estadísticas. Para ello necesitamos conocer el número de grados de libertad (gl). El concepto de
grados de libertad surge de la idea de que las pruebas paramétricas calculan varianzas basadas en la
variabilidad de los resultados, por lo que es fundamental que todos los resultados tengas ¨libertad¨
para variar. La cuestión es si todos los resultados de un experimento son variables en la misma medida.
El concepto de grados de libertad es bastante difícil de entender. Un ejemplo experimental podría
ayudarnos a comprenderlo.
Suponga que hace un experimento y calcula el total de los resultados. Al copiar los resultados más
tarde, olvida incluir uno de los resultados de uno de los seis participantes y se queda con los resultados
que se muestran a continuación:
Resultados usados para calcular
los grados de libertad
Participante Resultados
1 12
2 13
3 10
4 11
5 14
6 -
Total 75
No tiene por qué alarmarse, pues sabe que con los cinco resultados y el total de los seis resultados
puede calcular el resultado olvidado para el participantes 6.Lo único que tiene que hacer es restar los
cinco resultados del total igual a 75; el resultado para el participante 6 sólo podría haber sido 15. La
consecuencia de esto es que el resultado para ese participante se puede predecir si conocemos los
otros resultados y el total. Es decir, dicho resultado no tiene ¨libertad¨ para variar.
Los grados de libertad tienen en cuenta el hecho de que uno de los resultados no varía porque se puede
predecir a partir de los otros cinco. El término ¨grados de libertad¨ se usa para indicar que todos los
demás resultados pueden variar.
68
Página
La medición de los datos es bastante fácil de realizar. Dado que ANOVA y las pruebas t son pruebas
paramétricas, que conllevan cálculos numéricos basados en sumas de cuadrados, la primera condición
es que los datos deben ser datos de intervalo, con intervalos iguales entre resultados en una escala
numérica continua.
El asunto de la distribución de los resultados es más complejo y por ello lo trataremos en detalle en el
apartado siguiente.
Distribución normal.
Una segunda condición para la pruebas paramétricas es que los resultados deberían estar distribuidos
según una distribución normal. El rasgo fundamental de una distribución de resultados normal es que
tiende a haber más resultados intermedios que resultados extremos. Esta es una característica bastante
generalizada de las distribuciones de resultados.
La tercera condición formal para los datos paramétricos se denomina Homogeneidad de la varianza
palabras que indican uniformidad, esto implica que la variabilidad de los resultados para cada condición
debería ser aproximadamente la misma.
Se ha demostrado que, siempre que los números de participantes para cada condición sean iguales, los
resultados de las pruebas paramétricas son bastante fiables, implicando esto que, si los datos tienen
aproximadamente una distribución normal y no hay grandes discrepancias entre las varianzas de las
condiciones, las pruebas paramétricas nos darán un análisis razonablemente exacto de los datos de un
experimento. Esta es una buena razón para asignar siempre el mismo número de participantes a cada
condición experimental.
69
Página
70
5. Varianza total.
6. Interacción A x S
Página
7. Interacción B x S
8. Interacción A x B x S
Definición de varianza.
En ANOVA (para muestras independientes) se pueden calcular tres fuentes de varianza. Éstas son:
Varianza esperada (debida a las diferencias pronosticadas entre las condiciones)
Varianza de error (debida a variables irrelevantes, incluidas las diferencias entre participantes).
Varianza total (que combina la varianza esperada y la varianza de error).
El análisis de varianza (ANOVA) de un factor sirve para comparar varios grupos en una variable
cuantitativa. Se trata, por tanto, de una generalización de la Prueba T para dos muestras independientes
al caso de diseños con más de dos muestras.
A la variable categórica (nominal u ordinal) que define los grupos que deseamos comparar la llamamos
independiente o factor y la representamos por VI. A la variable cuantitativa (de intervalo o razón) en la
que deseamos comparar los grupos la llamamos dependiente y la representamos por VD.
Si queremos, por ejemplo, averiguar cuál de tres programas distintos de incentivos aumenta de forma
más eficaz el rendimiento de un determinado colectivo, podemos seleccionar tres muestras aleatorias
de ese colectivo y aplicar a cada una de ellas uno de los tres programas.
Después, podemos medir el rendimiento de cada grupo y averiguar si existen o no diferencias entre
ellos. Tendremos una VI categórica (el tipo de programa de incentivos) cuyos niveles deseamos
comparar entre sí, y una VD cuantitativa (la medida del rendimiento), en la cual queremos comparar
los tres programas. El ANOVA de un factor permite obtener información sobre el resultado de esa
comparación. Es decir, permite concluir si los sujetos sometidos a distintos programas difieren la
medida de rendimiento utilizada.
La hipótesis que se pone a prueba en el ANOVA de un factor es que las medias poblacionales (las medias
de la VD en cada nivel de la VI) son iguales. Si las medias poblacionales son iguales, eso significa que los
grupos no difieren en la VD y que, en consecuencia, la VI o factor es independiente de la VD.
La estrategia para poner a prueba la hipótesis de igualdad de medias consiste en obtener un estadístico,
llamado F, que refleja el grado de parecido existente entre las medias que se están comparando. El
numerador del estadístico F es una estimación de la varianza poblacional basada en la variabilidad
existente entre las medias de cada grupo. El denominador del estadístico F es también una estimación
de la varianza poblacional, pero basada en la variabilidad existente dentro de cada grupo.
71
Si las medias poblacionales son iguales, las medias muestrales serán parecidas, existiendo entre ellas
Página
tan sólo diferencias atribuibles al azar. En ese caso, la estimación (basada en las diferencias entre las
medias) reflejará el mismo grado de variación que la estimación (basada en las diferencias entre las
Estadística Inferencial Mtra. Joanna Koral Chávez López
Dra. Fabiola González Betanzos
puntuaciones individuales) y el cociente F tomará un valor próximo a 1. Si las medias muestrales son
distintas, la estimación reflejará mayor grado de variación que la estimación y el cociente F tomará un
valor mayor que 1. Cuanto más diferentes sean las medias, mayor será el valor de F.
Si las poblaciones muestreadas son normales y sus varianzas son iguales, el estadístico F se distribuye
según el modelo de probabilidad F de Fisher-Snedecor (los grados de libertad del numerador son el
número de grupos menos 1; los del denominador, el número total de observaciones menos el número
de grupos). Si suponemos cierta la hipótesis de igualdad de medias, podemos conocer en todo
momento la probabilidad de obtener un valor como el obtenido o mayor (ver Pardo y San Martín, 1998,
págs. 248-250).
EJEMPLO:
Se presentaron listas de diez palabras a tres grupos distintos de seis individuos cada uno, para que las
memorizaran. El investigador predijo que la velocidad de presentación de listas de palabras influiría en
los resultados de memorización. La velocidad de presentación de palabras para el Grupo 1 fue menor,
una palabra cada 5 segundos (condición 1) para el Grupo 2 la velocidad fue intermedia, una palabra
cada 2 segundos (condición 2) y para el Grupo 3 la velocidad fue mayor, una palabra por segundo
(condición 3). Los resultados de memorización se muestran en la tabla siguiente. α=0.01.
Número de palabras memorizadas con tres velocidades de presentación.
Hipótesis estadísticas
Ho: condición_1 condición_ 2 condición_ 3
H1: Existen diferencias en al menos un par de condición.
Instrucciones paso a paso para calcular F ratio unifactorial para muestras independientes.
1.- La varianza entre condiciones SCesperada se calcula sumando los cuadrados de los totales para cada
condición, dividiendo la suma por n y restándole la constante.
∑ 𝑻𝟐 (∑ 𝒙)𝟐
72
𝐒𝐂𝐞𝐬𝐩𝐞𝐫𝐚𝐝𝐚 = −
𝒏 𝑵
Página
𝟐
∑ 𝑻 = suma de los cuadrados de los totales para cada condición
(∑ 𝒙)𝟐
𝟐
𝐒𝐂𝐭𝐨𝐭𝐚𝐥 = ∑𝒙 −
𝑵
𝟏𝟎𝟖𝟏𝟔
𝐒𝐂𝐭𝐨𝐭𝐚𝐥 = 𝟔𝟔𝟒 − = 𝟔𝟑. 𝟏𝟏
𝟏𝟖
3. La varianza de error SCerror se calcula restando la varianza esperada SCesperada y la varianza total SCtotal.
𝐒𝐂𝐞𝐫𝐫𝐨𝐫 = 𝐒𝐂𝐭𝐨𝐭𝐚𝐥 − 𝐒𝐂𝐞𝐬𝐩𝐞𝐫𝐚𝐝𝐚
4.- Se calcula los grados de libertad (gl) para cada tipo de varianza.
𝐠𝐥𝐞𝐬𝐩𝐞𝐫𝐚𝐝𝐚 = 𝐧ú𝐦𝐞𝐫𝐨𝐝𝐞𝐜𝐨𝐧𝐝𝐢𝐜𝐢𝐨𝐧𝐞𝐬 − 𝟏
𝐠𝐥𝐭𝐨𝐭𝐚𝐥 = 𝐍 − 𝟏
𝐠𝐥𝐞𝐫𝐫𝐨𝐫 = 𝐠𝐥𝐭𝐨𝐭𝐚𝐥 − 𝐠𝐥𝐞𝐬𝐩𝐞𝐫𝐚𝐝𝐚
glesperada = 3 − 1 = 2
gltotal = 18 − 1 = 17
glerror = 17 − 2 = 15
5.- MCesperada yMCerror se calculan dividiendo las sumas de cuadrados (SC) por los gl.
𝐒𝐂𝐞𝐬𝐩𝐞𝐫𝐚𝐝𝐚
𝐌𝐂𝐞𝐬𝐩𝐞𝐫𝐚𝐝𝐚 =
𝐠𝐥𝐞𝐬𝐩𝐞𝐫𝐚𝐝𝐚
𝐒𝐂𝐞𝐫𝐫𝐨𝐫
73
𝐌𝐂𝐞𝐫𝐫𝐨𝐫 =
𝐠𝐥𝐞𝐫𝐫𝐨𝐫
Página
31.67
MCerror = = 2.11
15
𝐌𝐂𝐞𝐬𝐩𝐞𝐫𝐚𝐝𝐚
𝑭ratio para =
𝐌𝐂𝐞𝐫𝐫𝐨𝐫
Tabla ANOVA unifactorial para muestras independientes
Fuentes de varianza Sumas de Grados de Cuadrados F ratio
cuadrados libertad medios
Velocidad de 31.44 2 15.72 F2,15
presentación inter =7.45
grupo
Error intragrupo 31.67 15 2.11
Total 63.11 17
CONCLUSIÓN:
Se encontró un efecto estadísticamente significativo en la velocidad de presentación de listas de
palabras sobre los resultados de memorización, [F (2,15)=7.45, p < 0.01].
Es fundamental consultar la tabla F para verificar las diferencias entre las medias en las tres condiciones.
Existen diferencias entre las medias para las tres condiciones (textos presentados a velocidades
distintas). Este hecho confirma la hipótesis de investigación según la cual las velocidades de
presentación de listas de palabras influirán en el número de palabras memorizadas, y que a mayor
velocidad (condición 3) se memorizarían menos palabras.
Observe que ANOVA sólo nos dice si hay diferencias generales significativas entre las condiciones
experimentales, lo que es equivalente a una hipótesis bilateral.
Comparaciones posteriores a F
74
Cuando se ha determinado que existen diferencias significativas entre los grupos, se debe especificar
dónde se encuentran las diferencias, para ello se analizan los grupos por pares, para hacerlo existen
Página
varios métodos, más o menos estrictos, diseñados para evitar el error tipo I debido al efecto Bonferroni.
SPSS
Declara la variable de agrupación y la variable dependiente (con las tres condiciones) y en la vista de
datos capture la información correspondiente a cada variable. Posteriormente vaya al menú analizar
comparar N, ANOVA de un factor.
En la siguiente ventana envié las variables a analizar, en la lista de dependientes coloque la variable
dependiente y en la opción factor coloque la variable de agrupación.
En el botón Post hoc seleccionar BONFERRONI e indicar el nivel de significación y dar click en
continuar
Output 2 es la prueba de homogeneidad de varianzas entre los grupos, H0: 𝒔𝟐𝟏 = 𝒔𝟐𝟐 = 𝒔𝟐𝟑 , la regla de
decisión es: si el nivel de significancia es menor o igual al 0.05 se rechaza la H0, en este caso el valor
de significancia ( .915) es mayor a 0.05, por lo que no se rechaza H0, entonces: las varianzas de los
grupos son iguales.
Como se puede observar la significancia de la comparación del grupo 1 (velocidad menor)y el grupo 2
(velocidad intermedia) es de 0.755, del 1 con el 3 (velocidad mayor) es de 0.006 y del grupo 2 y el grupo
3 es de 0.062, siguiendo la regla de decisión, la única comparación con diferencias estadísticamente
significativas es la correspondiente al grupo 1 con el grupo 3 entonces: el numero de palabras
recordadas es diferente entre el grupo 1 y 3 y podemos decir que las diferencias en el análisis de
varianza son debidas a este resultado.
78
Página
79
Página
80
Página
81
Página
82
Página
Ejercicio 1.- Supongamos que usted quiere determinar si ciertas situaciones producen distintos niveles
de tensión. Usted sabe que la cantidad de la hormona corticosterona que circula en la sangre es una
buena medida de tensión que presenta una persona. Usted dividió de manera aleatoria a 15 estudiantes
en 3 grupos de 5 individuos cada uno. Se midió el nivel de corticosterona de los alumnos del grupo 1,
inmediatamente después de que estos regresaron de vacaciones (tensión baja). Se midió el nivel de
corticosterona de los estudiantes del grupo 2, después que estos asistieron a sus clases durante una
semana (tensión moderada). Por último, se midió el nivel de corticosterona de los alumnos del grupo 3
inmediatamente antes de la semana de los exámenes finales (tensión alta). Todas las mediciones se
llevaron a cabo a la misma hora del día. Usted registro los datos tal como se presentan en la tabla. Los
datos están expresados en miligramos de corticosterona por cada 100 mililitros de sangre.
83
Página
84
Página
Antes de la Después de la
Campaña campaña
(Galones/mes) (Galones/mes)
55 48
43 38
51 53
62 58
35 36
48 42
58 55
45 40
48 49
54 50
56 58
32 25
85
Página
165 145
143 137
175 170
135 136
148 141
155 138
158 137
140 125
172 161
164 156
178 165
182 170
190 176
169 154
157 143
86
Página
Lesiones en el Lesiones en el
Área neutral Tálamo grupo
Grupo control Experimental
Grupo 1 Grupo 2
X1 X2
0.8 1.9
0.7 1.8
1.2 1.6
0.5 1.2
0.4 1.0
0.9 0.9
1.4 1.7
a) ¿Cuál es la 1.1 hipótesis de
investigación?
b) ¿Cuál es la hipótesis nula?
c) ¿Cuál es la conclusión? Utilizando α=0.05
87
Página
X1 X2 X3
92 86 81
86 93 80
87 97 72
76 81 82
80 94 83
87 89 89
92 98 76
83 90 88
84 91 83
88
Página
Características:
Niveles de medición ordinal.
Para muestras no relacionadas o independientes (grupos diferentes).
Diferencias entre condiciones.
Participantes distintos en cada grupo.
Es para dos grupos solamente, por lo tanto, son dos condiciones.
Lógica de la prueba
Esta prueba compara el orden de los rangos que se obtienen al ordenar las puntuaciones de
ambas muestras asignando el rango 1 a la puntuación menor y así sucesivamente. Con base en
estos rangos, se obtienen dos valores de U, uno para cada muestra y para la prueba de hipótesis
se toma el más pequeño.
Se utiliza para comparar dos grupos de rangos (medianas) y determinar que la diferencia no se
deba al azar (que la diferencia sea estadísticamente significativa)
3 11 = 11.5
11.5 2
3 12
Página
4 13
5.- Se busca el valor de tabla de U en la tabla 5 considerando el tipo de prueba (una cola
o dos colas), el nivel de significancia (α=0.05 o α=0.025) y utilizando el número de casos
de cada grupo (𝑛1 𝑦 𝑛2 ).
Para obtener el valor de U crítica, se utiliza el menor de los dos que aparecen (Ej. 13 y 51),
estos valores son los mismos para el tipo de prueba (una cola o dos colas) para cada
nivel de significancia que indica la tabla. Una vez hecho esto, se debe elegir el valor de
U más bajo y compararlo con el valor de U en la tabla también más bajo.
Regla de decisión
Si el valor obtenido es menor o igual al valor crítico o de tabla se acepta la hipótesis de
investigación H1 .
91
Página
92
Página
H1: El grupo B con el material con sentido recordará más que el grupo A.
2 1.5
H0: El grupo B con el material con sentido recordarán igual que el grupo A.
2 1.5
3 3
Condición A Condición B
4 4
(material Rango A (material Rango B
s/sentido) c/sentido) 5 5.5
3 3 9 11 5 5.5
4 4 7 9 6 7.5
2 1.5 5 5.5 6 7.5
6 7.5 10 12 7 9
2 1.5 6 7.5 8 10
5 5.5 8 10 9 11
∑x = 22 , X= 3.6 T1=23 ∑x = 45 , X= 7.5 T2=55 10 12
𝑛1 (𝑛1 + 1)
𝑈 = 𝑛1 𝑛2 + − 𝑇1
2
6(6+1)
U = (6)(6) + − 23 = 34
2
6(6+1)
U ′ = (6)(6) + − 55 = 2
2
El valor de Uobtenida = 2
Se obtiene el valor de Utabla = 7
Se checa la regla de decisión
Si 2 ≤ 7 se rechaza la H0 y se acepta H1
CONCLUSIÓN:
Se encontraron diferencias estadísticamente significativas entre el grupo que recordó
el material con sentido y el grupo que recordó el material sin sentido encontrándose
puntajes más altos en el grupo que aprendió material con sentido. U = 2(6,6, p <
0.05).
93
Página
94
Página
CONCLUSIÓN:
Se encontraron diferencias estadísticamente significativas entre el grupo que recordó
el material con sentido y el grupo que recordó el material sin sentido encontrándose
puntajes más altos en el grupo que aprendió material con sentido. U = 2(6,6, p <
0.05)
95
Página
1.- Un investigador predijo que una serie de palabras presentadas en la parte izquierda
de una pantalla se reconocerían más rápidamente que si se presentaban en la parte
derecha, debido a la dirección de lectura de izquierda a derecha en español. La medida
fue el tiempo necesario para reconocer las palabras. Los resultados son los siguientes:
Redactar la conclusión con un nivel de significancia α= 0.05.
H0: La serie de palabras presentadas en la parte izquierda de una pantalla se
reconocerían de igual manera que si se presentaban en la parte derecha.
H1: La serie de palabras presentadas en la parte izquierda de una pantalla se
reconocerían más rápidamente que si se presentaban en la parte derecha.
Condición A Condición B
Rango Rango
(presentación parte (presentación parte
A B
izquierda) derecha)
9 8
3 5
2 7
6 20
1 11
5 6
∑x = , X= T1= ∑x = , X= T2=
Nota: un Tx (total de categorías) menor representa un reconocimiento de palabras más
rápido.
96
Página
H0: Los hombres y las mujeres tienen diferente nivel de destreza para el razonamiento
abstracto.
H1: Los hombres son más hábiles para el razonamiento abstracto que las mujeres.
Condición A Rango Condición B
Rango B
Hombres A Mujeres
70 82
86 80
60 50
92 95
84 98
65 85
74 90
94 75
∑x = , X= T1= ∑x = , X= T2=
97
Página
Características:
Niveles de medición ordinal.
Para muestras relacionadas.
Mismos participantes o participantes igualados (características similares)
Dos mediciones (momentos).
Verifica diferencias pronosticadas entre dos condiciones experimentales.
Lógica de prueba
Tiene como objetivo comparar las diferencias entre cada par de puntajes, dando mayor peso a
las diferencias más grandes, de tal manera que se puede obtener el signo de las diferencias y
ordenarlas en términos de su tamaño absoluto.
Nota: en el caso de que existan valores repetidos, el rango que les corresponde es igual
al promedio de los rangos, es decir: la suma de los lugares asignados de manera
secuencial entre el número de veces que se repite cada número.
3.- Aplique el signo de la columna (d) a las columnas rangos positivos y negativos.
Fíjese en los signos positivos y negativos en las columnas de rango positivo y negativo.
4.- Calcule la suma de las categorías con signo positivo y signo negativo, por separado.
5.- El total de los rangos positivo o negativo, el menor es Wobtenido.
6.- Calcule el número de participantes N (sin contar los que tuvieron empate). N= 7-1
=6
7.- Obtenga W tabla, en tabla 6. Se busca el valor crítico de W en la tabla considerando el
tipo de prueba (una cola o dos colas), el nivel de significancia (α=0.05 o α=0.025 etc.) y
utilizando N (número de participantes).
Regla de decisión
Si el valor obtenido es menor o igual al valor crítico o de tabla se acepta la hipótesis de
investigación H1.
99
Página
100
Página
H1= Existen diferencias en el nivel de estrés laboral de los trabajadores de una empresa
antes y después de la implementación de un programa de mejoramiento del ambiente
laboral.
El valor de Wobtenido = 8
Se obtiene el valor de Wcrítico= 1
N= 7-1 =6
Se rechaza la H1 y se acepta H0
CONCLUSIÓN:
No Existen diferencias en el nivel de estrés laboral de los trabajadores de una empresa
antes y después de la implementación de un programa de mejoramiento del ambiente
laboral. W= 1(6, 𝑝 > 0.05)
102
Página
En el visor de
resultados
obtendrás un
103
CONCLUSIÓN:
No Existen diferencias en el nivel de estrés laboral de los trabajadores de una empresa
antes y después de la implementación de un programa de mejoramiento del ambiente
laboral. W= 1(6, 𝑝 > 0.05)
104
Página
1.- Un destacado grupo ecológico planea realizar una campaña activa para fomentar la
conservación de la flora y fauna silvestre en su país. Como parte de la campaña, piensan
exhibir una película producida con el fin de promover actitudes más favorables hacia la
conservación de la vida silvestre. Antes de exhibirla a todo el público, los promotores de
la campaña desean evaluar los efectos de la película. Para eso se elige al azar a un grupo
de 10 participantes y se les proporciona un cuestionario que mide la actitud individual
hacia la conservación de la vida silvestre. A continuación, se les proyecta la película y
después de la exhibición contestan de nuevo el cuestionario de actitudes. Éste tiene 50
puntos posibles y cuanto más alta sea la puntuación, tanto más favorable será la actitud
hacia la conservación de la vida silvestre. Los resultados se presentan en la siguiente
tabla:
H0=
Participa Actitud Rango Rangos Rangos
D
ntes Antes Después ordenado Positivos Negativos
1 40 44
2 33 40
3 36 49
4 34 36
5 40 39
6 31 35
7 30 27
8 36 42
9 24 35
10 20 28
∑ ∑
H0=
Ansiedad Rango Rangos Rangos
Participa
Tareas Tareas D ordenado Positivos Negativos
ntes
difíciles fáciles
1 48 40
2 33 27
3 46 34
4 42 28
5 40 32
6 27 24
7 31 33
8 42 39
9 38 31
10 34 39
11 38 29
12 44 34
∑ ∑
106
Página
Esta prueba debe usarse para diseños independientes cuando se aplican tres o más
condiciones a participantes distintos. Como estos participantes son expuestos sólo a una
de las condiciones para cada participante, todos los resultados de las tres condiciones
se deben clasificar de manera conjunta.
Características:
Niveles de medición ordinal.
Para 3 o más grupos diferentes o no relacionado (participantes distintos).
Cuando son diferentes tratamientos o condiciones.
Muestras pequeñas.
Lógica de prueba
La prueba compara los rangos obtenidos por cada uno de los grupos analizados, ordenando los
puntajes de la muestra total de menor a mayor. Suma Los rangos obtenidos por cada
submuestra y mediante la comparación de ellos, haciendo uso de una fórmula, obtiene el
estadístico H.
2.- Obtenga la suma de los puntajes y de los rangos para cada condición.
12 𝑇𝑐2
𝐻= [ ∑ ] − 3 (𝑁 + 1)
𝑁(𝑁 + 1) 𝑛𝐶
108
Página
109
Página
Posteriormente se les pidió a los tres grupos que solucionaran el problema. Los puntajes
se obtuvieron contando el número de equivocaciones en los movimientos. Los puntajes
fueron los siguientes: α=0.05
19 1
Grupo Rango Grupo Rango 2 Grupo Rango 3 19 2
1 1 2 3 20 3
20 3.5 25 7.5 19 1.5 20 4
27 9 33 10 20 3.5 22 5
19 1.5 35 11 25 7.5 23 6
23 6 36 12 22 5 25 7
89 20 129 40.5 86 17.5 25 8
27 9
400 1640.25 306.25
33 10
35 11
36 12
H1= Hay diferencias entre los instrumento que ayudan a la solución de problemas.
H0= No existen diferencias entre los instrumento que ayudan a la solución de
problemas.
12 𝑇 2𝐶
𝐻= [ ∑ ] − 3 (𝑁 + 1)
𝑁(𝑁 + 1) 𝑛𝐶
12 𝑇 2𝑐
𝐻= [ ∑ ] − 3 (12 + 1)
12(12 + 1) 𝑛𝐶
𝑁= 12
𝑛𝑐 = 𝑛1= 4 𝑛2 =4 𝑛3 = 4
𝑇𝑐 = 𝑇1 = 20 𝑇2 = 40.5 𝑇3 =17.5
𝑇𝑐2 = 𝑇12 = 400 𝑇22 = 1640.25 𝑇32 = 306.25
12 400 1640.25 306.25
( + +
𝐻= [12(13) 4 4 4 )] − 3 (13) = (0.077)(586.63)-3(13) = 45.17 –
39=6.17
CONCLUSIÓN:
Página
Existen diferencias entre los instrumentos que ayudan a la solución de problemas (H=
6.12, gl=2, p<0.05).
Estadística Inferencial Mtra. Joanna Koral Chávez López
Mtra. Mónica Fulgencio Juárez
SPSS
Para realizar el análisis de datos para la prueba Kruskal Wallis en SPSS ocupamos definir
dos variables, la variable dependiente (Ej. solución) y la variable categórica (Ej. Tipo
Instrumento) a la cual se le declara 3 valores, una vez declaradas las variables y
capturados los valores para cada una de ellas. Posteriormente se analizan los datos en
el menú /Pruebas no paramétricas /k muestras independientes.
En la ventana
pruebas para
varias muestras
independientes
en el cuadro lista contrastar variables enviar la variable dependiente (Ej. Solución) y
la variable categórica (Ej. Tipo Instrumento) a la variable de agrupación, y en el botón
definir grupos se indican el valor mínimo y máximo de las condiciones (Ej.1 y 3).
CONCLUSIÓN:
Existen diferencias entre los instrumento que ayudan a la solución de problemas (H=
112
H0=
114
Página
H0=
Características:
Niveles de medición ordinal.
Para 3 o más grupos relacionados.
3 o más condiciones a los mismos participantes.
Lógica de la prueba
Se utiliza para comparar dos grupos de rangos (medianas) y determinar que la diferencia no se
deba al azar (que la diferencia sea estadísticamente significativa)
𝐶 = Número de condiciones
𝑁= Número de personas
𝑇𝐶 = Suma de los rangos para cada condición
𝑇 2 𝐶 = Cuadrados de la suma de los rangos
∑𝑇 2 𝐶 = Suma de los cuadrados de TC
4.- Calcule los grados de libertad con la siguiente fórmula
gl= C – 1
𝐶 = Numero de condiciones
116
117
Página
118
Página
H0=
H0 = Los niños no ven diferencias entre las ilustraciones más atractivas que otras.
H1 = Los niños considerarían unas ilustraciones más atractivas que otras.
CONCLUSIÓN:
119
El investigador predijo que los niños considerarían unas ilustraciones más atractivas que
otras.
Página
En la ventana
pruebas para varias
muestras
relacionadas se
envían todas las
variables a analizar
al cuadro variables
de contraste en el
botón estadísticos seleccionar descriptivos, dar clic en continuar, en tipo de prueba
seleccionar Friedman y por último en aceptar.
120
Página
121
Página
H0=
REFERENCIAS
Wayne,D. (2011) Bioestadística: Base para el análisis de las ciencias de la salud. Cuarta edición
Ed. Limusa.
http://platea.pntic.mec.es/~anunezca/ayudas/probabilidad/probabilidad.htm
122
Página