Sunteți pe pagina 1din 69

ANOVA (analysis of variance )

ANALISIS DE VARIANZA.
Estudiaremos el ANOVA de un factor como
como un procedimiento estadstico para
comprobar la igualdad de tres o ms medias
poblacionales utilizando datos obtenidos de
un estudio observacional.

Jos Luis Magaa

Comenzamos con un ejemplo:


La empresa NCP (National Computer Products) fabrica
impresoras y mquinas de fax en tres plantas
distintas. Para medir cuanto saben los empleados de
estas tres plantas acerca del programa Total Quality
Managment, una muestra aleatorizada de seis
empleados fue seleccionada de cada planta y fueron
sometidos a un exmen de evaluacin.
Se desea comprobar si :
H0: 1 = 2 = 3
Ha: No todas las medias poblacionales son iguales.
El ANOVA puede ser utilizado para determinar si las
Magaa
diferencias observadas Jos
enLuislas
tres medias muestrales

Jos Luis Magaa

En necesario utilizar terminologa un factor y una


respuesta, que en el caso de las dos variables del
estudio, las notas y la ubicacin de las plantas,
llamaremos variable dependiente (respuesta) a los
resultados de los exmenes y variable independiente
(factor) a la ubicacin de las plantas.
Supuestos para un ANOVA:
1.- La distribucin de cada poblacin es normal.
En nuestro ejemplo las notas deben de tener una
distribucin normal.
2.- La varianza de la variable de respuesta debe
de ser la misma para todas las poblaciones en
estudio. (igualdad de varianzas)
3.- Los resultados individuales
deben de ser
Jos Luis Magaa

Si los promedios de las tres poblaciones son iguales,


estos deben de tener magnitudes similares, a mas
cerca mas evidencia de igualdad y viceversa.
En otras palabras si la variabilidad entre las muestras
es pequea esto es evidencia a favor de Ho, pero si es
grande esto est a favor de Ha.
Si la hiptesis nula Ho: H0: 1 = 2 = 3 es cierta,
podemos utilizar la variabilidad entre los promedios
de las muestras para obtener un estimado de 2.
Hay que tener presente que:
La distribucin muestral del promedio de las muestras
para cualquier muestreo simple aleatorio de tamao n
que provenga de una poblacin con distribucin
normal se distribuir normalmente con promedio y
varianza 2 /n.
Jos Luis Magaa

Jos Luis Magaa

Por lo tanto si la hiptesis nula es verdadera podemos


pensar que cada uno de los promedios muestrales:
X1 = 79
X2 = 74
X3 = 66
Pertenecen a la distribucin de la figura anterior.
En ese caso el promedio y la varianza de estos datos
puede ser usados para estimar el promedio y la
varianza de la distribucin muestral (de la que se
asume son parte ellos si Ho es verdadera).
En el caso de este ejemplo en el que el tamao de los
subgrupos son iguales, el mejor estimador de la
media de la poblacin es
de los
Jos el
Luis promedio
Magaa

As X = (79+74+66)/3 = 73.
Nos referimos a este estimado como El Promedio
Global.
Un estimado de la varianza de la poblacin muestral
de X, 2 X est dada por la varianza de los promedios
de las tres muestras:
S2X = (79-73)2 + (74-73)2 + (66-73)2 / 3-1 = 86 / 2 =
43
Y como 2
2 = 2

= 2 / n =

Por lo tanto

Jos Luis Magaa

El resultado de ns2x = 258 es llamado


estimado de varianza entre subgrupos.
El estimador de varianza entre subgrupos es
basado en la suposicin de que la Ho en
verdadera, en este caso cada muestra viene
de la misma poblacin, y hay solo una
distribucin de muestreo de X.
Para ilustrar lo que sucede si Ho es falsa
supongamos medias distintas, que
provendran de 3 distintas poblaciones, por
lo que las medias seran distantes, as que
s2x sera grande causando el estimador de
varianza entre subgrupos
sea grande. En
Jos Luis Magaa

Jos Luis Magaa

La variacin dentro de cada una de las


muestras tiene un efecto importante en la
conclusin que hacemos en el ANOVA.
Cuando se toma una muestra aleatoria
simple de cada subgrupo de datos cada
varianza muestral de cada subgrupo provee
una estimacin insesgada de la varianza ;
as podemos combinarlas para obtener un
estimado general. Al estimado obtenido de
esta forma le llamamos varianza dentro de
subgrupos.
Debido a que cada varianza muestral provee
un estimado de la varianza basado solo en la
variacin dentro de cada muestra, la
Jos Luis Magaa
estimacin de la varianza dentro de

Cuando los tamaos de subgrupo son


iguales la varianza dentro de subgrupos
se puede obtener calculando el promedio de
las varianzas individuales.
Varianza dentro de subgrupos=
2within = 34+20+32 / 3 = 86 / 3 = 28.67.
Siendo que 2between = 258 es mucho mas
grande que 2within ; y siendo su ratio 258 /
28.67 = 9 esto nos hace pensar sospecha
que en este caso 2between no es un buen
estimador de 2 por lo que las medias
posiblemente no sean
Jos Luis iguales.
Magaa

En resumen, la lgica detrs de un ANOVA


est basada en el desempeo de dos
estimadores independientes de la varianza
comn de la poblacin, siendo una basada
en la variacin entre los promedios de las
muestras y la otra basada en la variabilidad
dentro de cada muestra.

Jos Luis Magaa

Prueba de Hiptesis para la igualdad de


medias de k poblaciones.

Jos Luis Magaa

Jos Luis Magaa

Varianza entre subgrupos.


A este estimador de la varianza le llamamos
cuadrado promedio de los subgrupos y se
denota por MSTR (por sus siglas en ingls
mean square due to treatments)
La frmula general para calcularlo es:
k

MSTR= nj (Xj X)2


j=1
_________
k1
Donde n es el nmero de rplicas en cada
tratamiento.
Jos Luis Magaa

Al numerador de la frmula anterior se le


denomina suma de cuadrados de
subgrupos y se denota por SSTR (sum of
squares due to treatments).
El denominador k 1, representa los grados
de libertad asociados al SSTR, as podemos
resumir:
MSTR = SSTR / K-1.
Si Ho es verdadera el MSTR una estimacin
insesgada de la varianza, en caso contrario
calcular un valor grande (irreal) de la
Jos Luis Magaa
variacin.

En nuestro caso:
k

SSTR= nj (Xj X)2 = 6(79-73)2+6(7473)2+6(66-73)2=


j=1

= 516
MSTR = SSTR / k-1 = 516 / 2 = 258.

Jos Luis Magaa

Varianza dentro subgrupos.


A este estimador de la varianza le llamamos
cuadrado promedio debido al error y se
denota por MSE (por sus siglas en ingls
mean square due to errors)
La frmula general para calcularlo es:
k

MSE = (nj 1)S2j


j=1
_________
nt k
Jos Luis Magaa

Al numerador de la frmula anterior se le


denomina suma de cuadrados debido al
error y se denota por SSE (sum of squares
due to errors).
El denominador del MSE nt k, representa
los grados de libertad asociados al SSE, as
podemos resumir:
MSE = SSE / nt k.
El MSE est basado en la variacin dentro de
cada subgrupo y no depende de si la Ho es
cierta o no. El MSE Jos
siempre
provee una
Luis Magaa

En nuestro caso:
k

SSE= (nj 1)S2j = (6-1)34 + (6-1)20 + (61)32 =


j=1

= 430
MSE = SSE/ nt k = 430 / 18 - 3 = 430 / 15 =
28.67

Jos Luis Magaa

Comparando los estimadores de


varianza: prueba F.
Si la Ho es verdadera el MSTR y el MSE
proveen dos estimados independientes e
insesgados de la varianza.
Debido a que la distribucin muestral del
ratio de dos estimadores independientes de
la varianza sigue una distribucin F, si la Ho
es verdadera este ratio debe de pertenecer a
la distribucin F.
El estadstico de Prueba ser F = MSTR / MSE
Jos Luis Magaa

En nuestro ejemplo:
F = 258 / 28.67 = 9
El valor crtico con F(=0.05, 2,15) = 3.68
Siendo F > F rechazamos Ho.
El p-value es 0.03 con lo cual tambin
rechazamos Ho.

Jos Luis Magaa

Tabla ANOVA.
Los resultados de los clculos del ANOVA
pueden ser mostrados en una tabla.
La suma de cuadrados asociada a la fuente
de variacin total es llamada suma de
cuadrados totales (SST).
La SST es la suma de SSTR + SSE, y que los
grados de libertad asociados a esta suma de
cuadrados es la suma de los grados de
libertad asociados a la varianza dentro y
fuera de subgrupos.
Jos Luis Magaa

Tabla ANOVA.
El SST dividido por sus grados de libertad nt
1 no es nada ms que la varianza total que
obtendramos al calcular la varianza de los 18
datos.

Jos Luis Magaa

El Anlisis de Varianza puede ser visto


como el proceso de particin de la suma
de cuadrados totales y grados de
libertad en sus fuentes de variacin
correspondiente: subgrupos y error.
Dividiendo cada suma de cuadrados por
su grado de libertad correspondientes
obtenemos los estimadores de varianza
que nos permiten calcular el estadstico
para probar la hiptesis de igualdad de
medias.

Jos Luis Magaa

ANALISIS DE VARIANZA
CON DOS FACTORES INTRODUCCIN AL DISEO
DE EXPERIMENTOS
(DOE)
Los estudios estadsticos
pueden ser

clasificados en experimentales u
observacionales.
En un estudio observacional o no-experimental
no se hace intento alguno por controlas los
factores que influyen en las respuestas, (una
encuesta sera un ejemplo clsico), en cambio
en un estudio experimental se identifican
variables de inters para luego identificar y
controlar uno o varios factores para obtener
datos acerca de la influencia de los factores
Jos Luis Magaa
en la o las variables.

Hablamos de Experimentos Factoriales cuando


hay varios factores de inters en un experimento,
por lo que debe emplearse un diseo factorial. En
este tipo de diseo los factores varan juntos.
Por experimento factorial entendemos que en
cada ensayo o rplica completos del experimento
se investigan todas las combinaciones posibles de
los niveles de los factores, por tanto si tenemos
los factores A y B el primero con a niveles y el
segundo con b niveles, cada rplica contiene
todas las ab combinaciones posibles .

Jos Luis Magaa

El efecto de un factor se define como el


cambio producido en respuesta a un cambio
en el nivel del factor. Esto se denomina efecto
principal, por que se refiere a los efectos
principales en el estudio.

Jos Luis Magaa

Otro diferenciador es entre los estudios


estadsticos es el proceso de replicas de
cada unidad experimental.

Jos Luis Magaa

Jos Luis Magaa

Jos Luis Magaa

Jos Luis Magaa

Jos Luis Magaa

Jos Luis Magaa

Jos Luis Magaa

Jos Luis Magaa

Jos Luis Magaa

Jos Luis Magaa

Jos Luis Magaa

Ejemplo :
El GMAT Graduate Managment Audition Test es
un test generalizado por las escuelas de
negocio para evaluar la habilidad de sus
aplicantes para cursar un programa de
graduacin en ese campo.
Loa rangos de notas van de 200 a 800 siendo
800 el valor que implica mayor aptitud
En un intento por mejorar el desempeo de los
estudiantes en GMAT una universidad est
considerando ofrecer los siguientes 3
Jos Luis Magaa
programas de preparacin:

1.- Una sesin de revisin de tres horas


cubriendo las preguntas ms frecuentes en el
examen.
2.- Un programa de un da cubriendo el material
relevante del examen.
3.- Un curso intensivo de diez semanas que
identifica las debilidades de cada estudiante y
las cubre con un programa especial.
As que el primer factor de este experimento es
el programa de preparacin con los tres niveles
descritos.

Jos Luis Magaa

El GMAT es tomado por alumnos de tres


escuelas:
1.-Escuela de Negocios
2.- Escuela de Ingeniera
3.- Escuela de Artes y ciencias.
Siendo este el segundo factor tambin con tres
niveles.
Habiendo 2 factores con 3 niveles cada uno
tenemos un experimento con 3X3=9
subgrupos. (32)
Para facilitar el calculo de este ejemplo
Luis Magaa
tomaremos solo dos Jos
replicas
para cada

Jos Luis Magaa

En total tendremos 18 estudiantes para el


estudio.
Los resultados obtenidos son:

Jos Luis Magaa

Los resultados del ANOVA que utilizaremos para


resolver este ejemplo nos responder:
Efecto del Factor A: Difieren los programas
de preparacin en trminos de efecto en los
resultados del examen?
Efecto del Factor B: Difieren las escuelas en
trminos de efecto en los resultados del
examen?
Efecto de Interaccin AB: Difieren los
resultados de los alumnos de una escuela si
han tomado un programa u otro?
Jos Luis Magaa

Si la interaccin de los dos factores es


significativa concluiremos que el efecto de
algn programa de preparacin depende de la
escuela.
Procedimiento ANOVA para el experimento.
La frmula para la suma de cuadrados:
SST= SSA + SSB + SSAB + SSE

Jos Luis Magaa

Donde
a = numero de niveles del factor a
b = numero de niveles del factor b
r = nmero de rplicas
nt = total de observaciones
del experimento
Jos Luis Magaa

Clculos:
Para calculas el estadstico F necesitamos
probar la significancia de los factores A y B y la
interaccin AB.
Desarrollamos los clculos en 5 pasos:
Paso 1: Calcular la suma total del
cuadrados: (el cuadrado de la diferencia de
cada dato contra el promedio total).
a

SST= (Xijk X )2= (500 515) 2 + ( 580


515) 2 +
i=1 j=1 k=1

Jos Luis Magaa

Paso 2: Calcular la suma de cuadrados del factor


A: (el cuadrado de la diferencia del promedio de los
seis datos para cada nivel de los tres programas de
preparacin contra el promedio total).
a

SSA= br (Xi X )2=


i=1

= (3)(2) [(493.33-515) 2 + ( 513.33-515) 2 + (538.33515) 2


= 6,100
Paso 3: Calcular la suma de cuadrados del factor
B: (el cuadrado de la diferencia del promedio de los
seis datos para cada nivel de las tres escuelas contra
el promedio total)
b

SSB= ar (Xj X )2=

Jos Luis Magaa

Paso 4: Calcular la suma de cuadrados de la


interaccin: (el cuadrado de: el promedio de cada
subgrupo menos el promedio de cada fila del factor A
correspondiente menos el promedio de columna del
factor B correspondiente ms el promedio total).
a

SSAB= r (Xij Xi Xj + X )2=


i=1 j=1

= (2)[(540-493.33-540 +515) 2 + (500-493.33560+515) 2 +


= (445-583.33-445+515) 2 = 11,200
Paso 5: Calcular la suma de cuadrados debido al
error:
SSE= SST SSA SSB SSAB
Jos Luis Magaa
= 82450 6100 45300
11200 = 19850.

Jos Luis Magaa

Jos Luis Magaa

Para este ejercicio = 0.05.


La significancia observada obtenida para el
factor A (calculada en software) es de 0.299
que es ms grande que 0.05 por lo que
concluimos que no existe diferencia
significativa en los promedios de los resultados
de los exmenes GMAT debida a los tres
programas de preparacin.
Para la escuela obtenemos un p-value de 0.005
que es menos 0.05 por lo que se concluye que
hay una diferencia significativa en los
promedios de las evaluaciones que depende de
que escuela vengan.Jos Luis Magaa

Finalmente para la interaccin el p-value es de


0.350 por lo que concluimos que no hay razn
para creer que los tres programas de
preparacin influyen de manera distinta a los
alumnos que provengan de una escuela
determinada.

Jos Luis Magaa

Anlisis Residual y Validacin


del Modelo (ANOVA un y de dos
factores).
El modelo de anlisis unidireccional de la
varianza da por sentado que las observaciones
se distribuyen normal e independientemente
con la misma varianza en cada tratamiento o
nivel de factor.
Estas suposiciones deben verificarse
examinando los residuos. Definimos un residuo
como: eij= yij yj, esto es la diferencia entre
cada observacin y su
correspondiente
media
Jos Luis
Magaa

La suposicin de normalidad puede verificarse


con un grfico de probabilidad de normalidad o
mejor aun de forma analtica con la tabla de
Looney & Gulledge ya sea para uno o dos
factores..

Jos Luis Magaa

Otro supuesto importante es la de igualdad de


varianzas en cada nivel del factor, para esto se
grafican los residuos contra los niveles de
factor y se compara la dispersin en los
residuos.
Tambin es til graficar los residuos contra Yij.

Jos Luis Magaa

Jos Luis Magaa

Para los casos con dos factores, la inconstancia


en los residuos se analiza graficando los
residuos contra cada factor en cada nivel por
separado .

Jos Luis Magaa

Jos Luis Magaa

Otro supuesto importante es la de


independencia de residuos, que puede
verificarse graficando los residuos contra el
tiempo u orden de la serie en que se ejecut el
experimento esto ya sea con uno o dos
factores.

Jos Luis Magaa

Prueba de Tukey para un factor.


Con la prueba F no sabemos que medias son
distintas por lo que necesitamos ms
informacin al respecto con otra prueba
estadstica.
Si hicisemos pruebas t para comparar cada
par de medias el error tipo I se incrementa de
forma considerable.
Esta prueba utiliza el valor:

Jos Luis Magaa

Para hacer la comparacin de diferencia significativa.

Donde q es una estadstico de rango


estudentizado que proviene de una distribucin
de rango estudentizado.

Sea q el valor de tabla


donde a es
el nmero de tratamientos y f los grados de
libertad del MSE.
Dos medias se consideran estadsticamente
diferentes si:
Jos Luis Magaa

Jos Luis Magaa

Jos Luis Magaa

Ejemplo:

Jos Luis Magaa

Jos Luis Magaa

Prueba de Tukey para dos factores.


Cuando ambos factores son fijos se hacen las
comparaciones entre medias individuales de
cualquier factor por separado.
Cuando hay interaccin significativa las
comparaciones entre las medias pueden ser
ocultas por la interaccin, en este caso se
aplica la prueba a las medias de un factor con
el otro factor fijo en un nivel particular.

Jos Luis Magaa

S-ar putea să vă placă și