Sunteți pe pagina 1din 30

Contrastes paramtricos para ms de dos muestras

TUTORIA: Diseos y Anlisis de Datos

ANLISIS DE VARIANZA (ANOVA)


Muchos trabajos de investigacin se utilizan ms de dos muestras o grupos y se requiere de un procedimiento que los compare simultneamente manteniendo constante el nivel de significacin alfa. Si se recurriese a la pueba t, entonces el error tipo I sera:

1- (1- )k

Existen diferencias en la renta familiar, segn zona geogrfica? Existen diferencias significativas en el rendimiento de tres grupos de operarios de una empresa segn el mtodo de adiestramiento (A, B o C) empleado en cada uno de esos tres grupos?.

Uno de los procedimientos de anlisis de datos ms utilizados para dar respuesta a estas preguntas es el ANOVA
Pedro Rodrguez-Min

ANOVA
TUTORIA: Diseos y Anlisis de Datos
Conceptos previos:
En los trabajos que implican la comparacin de ms de dos grupos hay que distinguir, previamente, aquellas situaciones en las que interviene:

Una variable independiente, tambin llamada experimental o factor Una variable dependiente

Tambin se debe distinguir entre el modelo de:

Efectos fijos: las inferencias solo pueden abarcar a los distintos niveles de la variable independiente o factor. Efectos aleatorios: los distintos niveles de la VI o factor representan una m.a.s de todos los posibles niveles del factor y las conclusiones (o inferencias) pueden generalizarse a todas ellas. Modelo equilibrado: el nmero de sujetos es el mismo para todos los grupos o niveles de la V.I. Modelo no equilibrado: el nmero de sujetos NO es el mismo en todos los grupos.
Pedro Rodrguez-Min

Estructura de los datos


TUTORIA: Diseos y Anlisis de Datos

Datos hipotticos para ms de dos grupos

Yij
Existen diferencias entre tres tipos de tcnicas de intervencin psicolgica (reestructuracin cognitiva, entrenamiento en agresividad, programa de ejercicios y nutricin) para el tratamiento de una depresin leve? Existen diferencias significativas en el tipo de docencia (ABP, trabajos, clase expositiva, tutora de trabajo en grupo) sobre el aprendizaje?

Niveles del factor A. A1 5 3 5 6 1 A2 1 2 2 0 3 4 A3 4 3 1 3 -------Ak 5 4 7 5

n1

n2

nk
Pedro Rodrguez-Min

Ejemplo
TUTORIA: Diseos y Anlisis de Datos
Existen diferencias significativas entre la formacin que reciben los estudiantes de Sociologa, Psicologa y Biologa en Anlisis de datos?.

Socio 4 3 2 3 3 4 2

Psico 1 2 0 2 4 3 2

Bio 1 1 2 0 2 0 1

1984-1994 T/Maker Co.

Pedro Rodrguez-Min

El modelo de ANOVA unifactorial


TUTORIA: Diseos y Anlisis de Datos

El modelo matemtico terico y lineal sobre la composicin de cualquier puntuacin, es:

Yij = + i + ij

Segn este modelo, cada puntuacin j del grupo i est basado en la suma de tres componentes:

= =

La media general de la poblacin de los distintos niveles que es desconocida y constante. La estimamos a partir de la media total de todas las puntuaciones. El efecto del nivel del tratamiento j que es constante para los sujetos de la poblacin del nivel j. Es igual a la diferencia entre la media del grupo y la media total. Es el error experimental y representa todas las fuentes de variacin no controladas. Es igual a la diferencia entre cada puntuacin y la media del grupo y tiene distribucin normal con media 0.

= YT
= Yi YT

= Yij Yi
Pedro Rodrguez-Min

Funcionamiento del modelo


TUTORIA: Diseos y Anlisis de Datos
Para la puntuacin:

Y21 = + 2 + 21

3 6 5 5 10 1

= YT

i = 2 = Y2 YT
ij = 21 = Y21 Y2
Pedro Rodrguez-Min

Teorema fundamental del ANOVA


TUTORIA: Diseos y Anlisis de Datos
Del modelo general del ANOVA se deduce la siguiente expresin, para una puntuacin concreta

i + ij = + Yij =
Reagrupando los trminos:

YT + (Yi YT ) + (Yij Yi )

(Yij YT ) =
Y generalizando para todas las puntuaciones, elevando los dos trminos de la Igualdad al cuadrado, y operando algebricamente, llegariamos tras varios pasos a:
2 = + ( Y Y ) n ( Y Y ) ( Y Y ) ij T j i T ij i 2 2 i =1 j =1 i =1 i =1 j =1 k n k k n

La variabilidad total de las puntuaciones se descompone en dos partes aditivas: La variabilidad entre-grupos y la variabilidad intra-grupos:

SCT = SCE + SCI


Pedro Rodrguez-Min

Teorema fundamental del ANOVA


TUTORIA: Diseos y Anlisis de Datos
Hay dos variabilidades que afectan a las puntuaciones:

La debida a los distintos niveles de la VI: La debida al error experimental: La

la variabilidad entre-grupos, y

variabilidad intra-grupos:

1 2 3

Si por simple azar podemos esperar un cierta variabilidad debida al error experimental (variabilidad intra-grupos), para que podamos afirmar que los niveles entre los tratamientos tienen efecto, la variabilidad existente entre los grupos (entre las medias de los grupos) debe ser mayor y superar significativamente a la variabilidad intra-grupos.

ESTO SE COMPRUEBA MEDIANTE UN CONTRASTE F ENTRE LAS DOS VARIABILIDADES.


Pedro Rodrguez-Min

Planteamiento general de los contrastes de hiptesis


TUTORIA: Diseos y Anlisis de Datos

CONDICIONES Y SUPUESTOS: descripcin de las caractersticas de la variable en la poblacin, la muestra y el nivel de medida de los datos. FORMULAR las hiptesis en funcin de los objetivos del experimento y de las hiptesis cientficas. Seleccionar y calcular el ESTADISTICO DE CONTRASTE conociendo su DISTRIBUCIN MUESTRAL Establecer las REGLA DE DECISIN (regin de aceptacin y de rechazo) en funcin del nivel de confianza establecido CONCLUIR en trminos de aceptacin o rechazo de la hiptesis nula INTERPRETAR el resultado en el contexto de la investigacin.

Pedro Rodrguez-Min

Condiciones del modelo


TUTORIA: Diseos y Anlisis de Datos
Para realizar un ANOVA con garantas en las conclusiones tomadas, se deben cumplir una serie de condiciones. Variable dependiente de tipo cuantitativo, es decir, medida al menos con escala de intervalo.

Independencia de las observaciones Normalidad Homocedasticidad.

El no cumplimiento de estos supuestos afecta al nivel de significacin alfa que no sera el fijado por el experimentador, sino otro distinto.

Pedro Rodrguez-Min

Planteamiento de la hiptesis
TUTORIA: Diseos y Anlisis de Datos

La hiptesis a contrastar es que la VI, factor o variable experimental, no tiene ningn efecto sobre la variable dependiente. En este caso, y con respecto al modelo, implica que el efecto de alfa es nulo:

X ij = + i + ij

H 0 : i = 0

H1 : i 0

Si el factor no tiene efecto sobre la VI, entonces las k muestras proceden de la misma poblacin o de poblaciones con la misma media.

H 0 : 1 = 2 = ... = K

H1 : 1 2 ... K al menos para un i

Pedro Rodrguez-Min

Estadstico de contraste
TUTORIA: Diseos y Anlisis de Datos
Para contrastar la hiptesis se comparan dos estimaciones de la varianza poblacional:

La obtenida a partir de las medias de los grupos o varianza inter-grupos La media ponderada de las varianzas de cada grupo, que constituye la varianza intra-grupos o varianza de error. Estas estimaciones de la varianza, se denominan MEDIAS CUADRTICAS (inter-grupos e intra-grupos, respectivamente).

SC MC = gl

Se demuestra que son estimaciones independientes de la varianza poblacional y su cociente forma el ESTADSTICO DE CONTRASTE, F
Pedro Rodrguez-Min

Estadstico de contraste
TUTORIA: Diseos y Anlisis de Datos
La varianza intra-grupos es un estimador insesgado de la varianza poblacional: La varianza inter-grupos tiene un sesgo positivo:
I 1 2 E ( MCInter ) = 2 + n i i ( I 1) i =1

E ( MCIntra ) = 2

Pero MCInter es una estimacin vlida de la varianza solo si H0 = es verdadera.

F=

MCInter = MCIntra

Pedro Rodrguez-Min

Estadstico de contraste
TUTORIA: Diseos y Anlisis de Datos

H 0 : i = 0 H1 : i 0

Si la varianza entre las medias es mayor que la varianza que cabra esperar por simple azar debidas a las fluctuaciones aleatorias, se deber a que la diferencia entre las medias es significativa, es decir, la VI tiene un efecto significativo sobre la VD o, en otras palabras tendriamos evidencias a favor de la H1: Pero MCInter es una estimacin vlida de la varianza solo si H0 = es verdadera.

I 1 2 E ( MCInter ) = + n i i ( I 1) i =1 2

E ( MCIntra ) = 2

MCInter F= = MCIntra
Pedro Rodrguez-Min

Conclusin
TUTORIA: Diseos y Anlisis de Datos
En todo caso, la razn se distribuye segn F con sus gl. Por ello podemos verificar la H0 comparando la razn obtenida con la que se esperara de la distribucin F.

Si la razn obtenida difiere mucho de la razn esperada, es decir, es mayor que el valor crtico, podemos concluir que H0 = se rechaza.

MCInter F= MCIntra

Pedro Rodrguez-Min

Clculo de la suma de cuadrados


TUTORIA: Diseos y Anlisis de Datos
El teorema fundamental del Anlisis de Varianza dice:

SCT = SCInter + SCIntra

(Y
i =1 j =1

ij

YT ) = n j (Yi YT ) + (Yij Yi )
2 2 i =1 i =1 j =1

Cmo se calculan?
Pedro Rodrguez-Min

Variabilidad total
TUTORIA: Diseos y Anlisis de Datos

SCT = (Yij YT ) 2 = .......


i =1 j =1

SCT = (Y11 Y ) + (Y21 Y ) + + (Yij Y ) = ...


2 2 2
Respuesta, X

SCT = Yij2

( Yij ) 2 N

Yij

Grupo 1

Grupo 2

Grupo 3

Pedro Rodrguez-Min

Variabilidad entre-grupos
TUTORIA: Diseos y Anlisis de Datos

SCEntre = n j (Yi YT ) 2
i =1

SCE = n1 (X 1 X ) + n2 (X 2 X ) + + n p (X p X )
2 2
2 ij

Respuesta, X

( Y ) ( Y ) SCEntre =
ij

ni

X3 X1
Grupo 1 Grupo 2

X2

Grupo 3

Pedro Rodrguez-Min

Variabilidad intra-grupos
TUTORIA: Diseos y Anlisis de Datos

SCIntra = (Yij Yi ) 2
i =1 j =1

SCI = (Y11 Y1 ) + (Y21 Y1 ) + + (Y pj Y p )


2 2

Respuesta, X

X3 X1
Grupo 1 Grupo 2

( Y ) SCIntra = Y n
2 ij ij

X2

Grupo 3

Pedro Rodrguez-Min

Resultados del ANOVA


TUTORIA: Diseos y Anlisis de Datos
Los resultados del ANOVA se presentan en una tabla resumen:

FV Inter Intra TOTAL

SC SCI SCE SCT

g.L I-1 N-I N-1

MC

Valor del estadstico F obtenido = 7.00 Valor crtico de F = 3.55 Obtener el valor de p Conclusin?

Pedro Rodrguez-Min

Ejemplo
TUTORIA: Diseos y Anlisis de Datos
Existen diferencias significativas entre la formacin en Anlisis de datos de los estudiantes de Sociologa, Psicologa y Biologa?.

Soc 4 3 2 3 3 4 2

Psi 1 2 0 2 4 3 2

Bio 1 1 2 0 2 0 1

SCT = Yij2

( Yij ) 2 N
2 2 ij ij

( Y ) ( Y ) SCEntre =
ni N

SCIntra = SCT SCE

( Y ) SCIntra = Y n
2 ij ij

Pedro Rodrguez-Min

Ejemplo
TUTORIA: Diseos y Anlisis de Datos
Socio 4 3 2 3 3 4 2 Y2 16 9 4 9 9 16 4 Psic 1 2 0 2 4 3 2 Y2 1 4 0 4 16 9 4 Bio 1 1 2 0 2 0 1 Y2 1 1 4 0 4 0 1

N = 21 n=7

Y = 42 Y2 = 116
( Yij ) 2 N

SCT = Yij2

Y2s = 67 Ys = 21

Y2p = 38 Yp = 14
2 ij ij

Y2b = 11 YB = 7
2

( Y ) ( Y ) SCEntre =
ni N

Pedro Rodrguez-Min

Ejemplo
TUTORIA: Diseos y Anlisis de Datos
Existen diferencias significativas entre la formacin en Anlisis de datos de los estudiantes de Sociologa, Psicologa y Biologa?.

( Y ) SCT = Y N
2 ij ij

( Y ) ( Y ) SCEntre =
2 ij ij

ni

42 2 = 116 = 32 21
Basta calcular dos SC para deducir la tercera:

212 14 2 7 2 42 2 = + + = 14 7 7 7 21
SCIntra = Yij2 ( Yij ) 2 n

SCIntra= SCT-SCEntre = 32 14 = 18

212 14 2 7 2 = 116 7 + 7 + 7 = 18
Pedro Rodrguez-Min

Resultados del ANOVA


TUTORIA: Diseos y Anlisis de Datos
Los resultados del ANOVA se presentan en una tabla resumen:

FV Inter Intra TOTAL


SC

g.L I-1=000 N-I=000 N-1=000

MC

Valor del estadstico F obtenido = Valor crtico de F al 0,05 Nivel crtico p Conclusin?

RECHAZAMOS LA HIPTESIS NULA ?


Pedro Rodrguez-Min

ANOVA usando razones bsicas


TUTORIA: Diseos y Anlisis de Datos
Socio 4 3 2 3 3 4 2 Y2 16 9 4 9 9 16 4 Psic 1 2 0 2 4 3 2 Y2 1 4 0 4 16 9 4 Bio 1 1 2 0 2 0 1 Y2 1 1 4 0 4 0 1
Representamos por Ai a la suma de las puntuaciones de cada nivel

A1= Ys = 21 Y2s = 67
2 A 1

A2 = Yp = 14 Y2p = 38

A3 = YB = 7

T=Ai = 42

Y2b = 11

[Y ] = Y 2 = 67 + 38 + 11 = 116

212 142 72 [A] = = + + = 98 7 7 7 ni 2 T 422 [T ] = = = 84 21 N


Pedro Rodrguez-Min

ANOVA usando razones bsicas


TUTORIA: Diseos y Anlisis de Datos
Socio 4 3 2 3 3 4 2 Y2 16 9 4 9 9 16 4
2 ij

Psic 1 2 0 2 4 3 2
2 ij

Y2 1 4 0 4 16 9 4

Bio 1 1 2 0 2 0 1

Y2 1 1 4 0 4 0 1

[Y ] = 116 [A] = 98

[T ] = 84

( Y ) SCT = Y N
SCEntre =
2 ij

SCT = [Y ] [T ]
2 ij

(Y ) (Y )
ni N

SCInter = [A] [T ] SCIntra = [Y ] [A]


Pedro Rodrguez-Min

SCIntra = SCT SCInter

Resultados del ANOVA


TUTORIA: Diseos y Anlisis de Datos
Los resultados del ANOVA se presentan en una tabla resumen:

FV Inter Intra TOTAL


SC

g.L

MC

Valor del estadstico F obtenido = Valor crtico de F al 0,05 Nivel crtico p Conclusin?

Pedro Rodrguez-Min

Contrastes a posteriori
TUTORIA: Diseos y Anlisis de Datos
COMPARACIONES MLTIPLES ENTRE MEDIAS.

Un ANOVA que termine con un estadstico F significativo que conduzca a rechazar la hiptesis nula, significa que existen diferencias entre las distintas medias, pero no dice entre cuales. Por ello, de la aceptacin de una hiptesis alternativa, se desprende alguna de las siguientes:

H 0 : 1 = 2 = ... = K
H 1 : 1 2 .... k

1 2 1 3
2 3 etc

De las cuales una o todas pueden ser aceptadas. Las pruebas de TUKEY, y SCHEFFE, analizan estas diferencias para detectar cules son significativas.
Pedro Rodrguez-Min

Prueba de Scheffe
TUTORIA: Diseos y Anlisis de Datos

Se puede aplicar a modelos equilibrados y no equilibrados. Consiste en obtener la diferencia mnima o rango crtico por encima de la cual existen diferencias entre las medias comparadas:

CRScheffe = ( k 1) Fcritico
a1 a2 a3 a4 a5

c2 j MCIntra n i

Coeficientes ci 0 0 1 2 -0,5 -1 0 0 -0,5 -1

2 H 0 : 2 2 3 5 = 0

H 0 : 2 =

3 + 5

1 1 H 0 : 2 3 5 = 0 2 2

CRScheffe = ( k 1) Fcritico

22 12 12 MCIntra + + n n n j j i
Pedro Rodrguez-Min

Prueba de Scheffe
TUTORIA: Diseos y Anlisis de Datos
Si, por lo general, nos interesa realizar todas las comparaciones posibles dos a dos, la expresin es:

CRScheffe = ( k 1) Fcritico

1 1 MCIntra + n n j i

1 1 = (3 1) 3,55 1 + = 2,66 0,53 = 1,41 7 7


3 2 = 1 < 1,41
Ps (2) Soc (3) Ps (2) 1 Bio (1) 2 1

XA XB

3 1 = 2 > 1,41

2 1 = 1 < 1,41
Pedro Rodrguez-Min