Sunteți pe pagina 1din 10

Captulo 9

Anlisis de la varianza (un


factor): ANOVA
9.1.

Introduccin

Veamos cmo contrastar la igualdad de medias en dos poblaciones normales e independientes. En ocasiones necesitamos contrastar la igualdad de medias de un nmero mayor de
poblaciones para detectar posibles diferencias significativas entre ellas en cuanto a una variable
o caracterstica:
H0

: 1 = 2 = .... = I

H1

Alguna distinta,

siendo I el nmero de poblaciones. Surge as el anlisis de la varianza.


El anlisis de la varianza es un procedimiento creado por Fisher en 1925 para descomponer
la variabilidad de un experimento en componentes independientes que puedan asignarse a causas
distintas.
El problema general que vamos a estudiar es el siguiente: disponemos de n elementos que se
diferencian en un factor: por ejemplo, alumnos de distintas clases (factor clase), coches de distintas marcas (factor marca), componentes producidos por distintas mquinas (factor mquina),
etc. En cada elemento observamos una caracterstica continua (X) que vara aleatoriamente de
un individuo a otro: notas de Estadstica de los alumnos, consumo de gasolina, tiempo de vida
141

142

Captulo 9. Anlisis de la varianza (un factor): ANOVA

de los componentes, etc. A esta caracterstica se le llama variable respuesta. Nuestro objetivo
ser conocer si existe o no relacin entre la variable respuesta y el factor: habr diferencias en
las notas de los distintos grupos de Estadstica?, tendrn coches similares de distintas marcas
el mismo consumo de gasolina?, tendrn los componentes fabricados por las distintas mquinas
la misma duracin?.
Vamos a centrarnos en este ejemplo de las mquinas para ver y desarrollar el modelo inmerso
en un problema del anlisis de la varianza.
Supongamos que se desea comprobar si la duracin de piezas fabricadas por un grupo de I
mquinas es la misma, es decir, la duracin no depende de la mquina. Supongamos adems que
la duracin de las piezas producidas por una misma mquina vara debido a muchos factores
no controlables como por ejemplo la pureza de la materia prima, desajustes aleatorios de la
mquina, la habilidad del operario, etc. Es decir, la duracin de las piezas producidas por cada
mquina ser una variable aleatoria. Denotamos por yij la duracin de la pieza j producida
por la mquina i. Si para cada mquina i medimos la duracin a una muestra de ni piezas,
PI
tendremos un total de n = i=1 ni observaciones:

9.2.

Mq1

Mq2

MqI

y11
..
.

y21
..
.

yi1
..
.

y1j
..
.

y2j
..
.

y1n1

y2n2

...

yij
..
.
yinI

El modelo

Vamos a ajustar a nuestras observaciones un modelo matemtico de la forma yij = i +


uij , con el fin de poder tratarlas estadsticamente. Segn este modelo vamos a admitir que la
duracin de las piezas fabricadas por una misma mquina i oscila aleatoriamente alrededor de
un valor desconocido i que caracteriza a la mquina i (duracin media de sus piezas) y que las
diferencias entre los valores observados para esta mquina, yij , y su media, i , son el resultado
de mltiples factores que no controlamos y que influyen en la variable respuesta, en este caso
en la duracin. Las englobamos en un trmino uij llamado error experimental o perturbacin,
uij = yij i .

143

9.3. Contraste de igualdad de medias

Hiptesis del modelo:


E(uij ) = 0 i, j o E(yij ) = i .
V ar(uij ) = 2 i, j (homoscedasticidad).
E(uij urk ) = 0 i 6= r o j 6= k. (incorrelacin).
uij N (0, 2 ) o yij N (i , 2 ) (normalidad).
las dos hiptesis anteriores implican independencia.
En resumen: la variable respuesta en cada grupo sigue una distribucin Normal, la varianza
es la misma en todos los grupos y los grupos son independientes.
El paso siguiente sera estimar los parmetros del modelo.
Estimacin de los parmetros del modelo:
Los parmetros a estimar son: i , i = 1, ..., I, y 2 . Utilizamos para ello el mtodo de
mxima verosimilitud, y resultan:

i = yi. =

Xni

j=1

yij

, i = 1, .., I,
ni

XI Xni
2
yij yi.

j=1
i=1
2 =
,
n

Los residuos del modelo son uij = eij = yij yi. , y se utilizan sobre todo a la hora de
comprobar si se verifican o no las hiptesis del modelo. Si no se verifican, este modelo no sera
el adecuado.

9.3.

Contraste de igualdad de medias

Hemos visto que los yij N (i , 2 ) y son independientes. Por lo tanto los grupos (mquinas)
slo difieren en las medias, las varianza es la misma en todos. Esto significa que contrastar si
los grupos son estadsticamente iguales equivale a contrastar si sus medias lo son:

Delia Montoro Cazorla.

H0

: 1 = 2 = .... = I

H1

Dpto.

Alguna distinta
de Estadstica e I.O. Universidad de Jan.

144

Captulo 9. Anlisis de la varianza (un factor): ANOVA

9.4.

Descomposicin de la variabilidad

Segn se coment al principio, el anlisis de la varianza es un procedimiento para descomponer la variabilidad total presente en un experimento en componentes independientes que
puedan asignarse a causas distintas. Concretamente, segn el modelo se llega a que la variabilidad total en el experimento es igual a la suma de la variabilidad existente dentro de los grupos
ms la variabilidad existente entre los grupos.

yij y.. = (yi. y.. ) + (yij yi. ),


X
XX
XX

(yij y.. )2 =
ni (yi. y.. )2 +
e2ij
i

V T = V E + V NE
V T : Variabilidad total
V E : Variabilidad explicada por el modelo; variabilidad entre grupos
V N E : Variabilidad no explicada por el modelo, o residual; variabilidad dentro de los grupos.
La medida R2 =

VE
VT

indica la variabilidad que explica el modelo de entre toda la presente

en el experimento. Toma valores entre 0 y 1. Un valor prximo a 0 indicara que el modelo no


es vlido.

9.5.

Tabla Anova. Contraste de la F

El contraste bsico del anlisis de la varianza utiliza la descomposicin de la variabilidad


V T = V E + V N E.
Tabla ANOVA:
Fuentes de variabilidad
Entre grupos (VE)
Dentro de grupos (VNE)

Total (VT)

S. cuadrados
P

V E = i ni (yi. y.. )2
P P
V N E = i j e2ij =
P
= i ni 2ni
P P

V T = i j (yij y.. )2 =
= n 2n

G. libert.

Varianza

I 1

Se =

nI

SR

n1

Sy =

VE
I 1
V NE ,
=
nI

VT
n1

145

9.5. Tabla Anova. Contraste de la F

siendo yi. y 2ni respectivamente la media y varianza de los datos de la muestra del grupo

i , y y.. y 2n la media y varianza del total de las observaciones.


La media total puede calcularse de la siguiente forma:

y.. =

I
X

ni yi.

i=1

Contraste de la F :
H0

: 1 = 2 = .... = I

H1

Alguna distinta,

El estadstico de contraste (bajo H0 ) es:


2

F =

Se
2
SR

FI1,nI

Rechazamos H0 cuando F > F1,I1,nI . En tal caso, podremos decir que no se han
detectado diferencias significativas entre los grupos en cuanto a la variable respuesta, para
un nivel del significacin del x100 %.
Si rechazamos en el contraste anterior H0 estamos diciendo que no todas las medias de los
diferentes grupos son iguales simultneamente, sin embargo puede ocurrir que algunas de las
medias s coincidan.
Ejemplo 9.1: Un ingeniero de electrnica est interesado en estudiar el efecto sobre la
conductividad de una vlvula electrnica que tienen tres tipos diferentes de recubrimiento para
los tubos de rayos catdicos utilizados en un dispositivo de visualizacin de un sistema de
telecomunicaciones. Se obtienen los siguientes datos:
Tipo de recubrimiento

Conductividad

143

141

150

146

152

149

137

143

134

133

132

127

Contrastar con un nivel de significacin del 5 % si el tipo de recubrimiento tiene algn efecto
sobre la conductividad.
Delia Montoro Cazorla.

Dpto.

de Estadstica e I.O. Universidad de Jan.

146

Captulo 9. Anlisis de la varianza (un factor): ANOVA

Se supone que las muestras proceden de poblaciones normales e independientes con la misma
varianza.
Solucin: Queremos comprobar si la conductividad media de la vlvula ser la misma con
los tres tipos de recubrimiento, en cuyo caso el tipo de recubrimiento no tendra ningn efecto
sobre la conductividad.
Planteamos el contraste:
H0

: 1 = 2 = 3

H1

Alguna distinta

y seguidamente realizamos todos los clculos necesarios para rellenar la tabla Anova y concluir
en el contraste. Comenzamos con el clculo de las medias y varianzas en las muestras:

Muestra

Media (yi. )

Varianza ( 2ni )

Tamao (ni )

Tipo 1

145

11.5

Tipo 2

145.25

33.188

Tipo 3

131.5

7.25

y la media y varianza totales resultan: y.. = 140,583 y 2n = 58,576


Calculamos ahora las variabilidades explicada, no explicada y total.
X
V NE =
ni 2ni = 4(11,5 + 33,188 + 7,25) = 207,752
i

V T = n 2n = 12(58,576) = 702,912
V E = V T V N E = 495,160

Las varianzas explicada y no explicada son entonces:


2

Se

SR

VE
495,160
=
= 247,58
I 1
2
V NE
207,752
=
= 23,084,
nI
9

y el estadstico resulta:
2

F =

Se
2
SR

247,58
= 10,725
23,084

Ahora concluimos: como F = 10,725 es mayor que F0,95,2,9 = 4,26, rechazamos H0 . Existen
por tanto diferencias significativas entre los tres tipos de rucubrimiento, es decir, el tipo de
recubrimiento influye en la conductividad de la vlvula.

147

9.6. Ejercicios

9.6.

Ejercicios

1. Un fabricante est interesado en estudiar la resistencia a la tensin de una fibra sinttica,


y sospecha que puede estar relacionada con el porcentaje de algodn en su composicin.
Con este fin, estudia la resistencia de la fibra considerando 5 niveles de porcentaje de
algodn en su composicin. Los datos observados se muestran en la siguiente tabla.
Porcentaje de algodn

Tensin de ruptura

15

15

11

20

12

17

12

18

18

25

14

18

18

19

19

30

19

25

22

19

23

35

10

11

15

11

Contrastar al 5 % de significacin si el fabricante est acertado en su sospecha.


2. Un ingeniero de electrnica est interesado en estudiar el efecto sobre la conductividad
de una vlvula electrnica que tienen cinco tipos diferentes de recubriminento para los
tubos de rayos catdicos utilizados en un dispositivo de visualizacin de un sistema de
telecomunicaciones. Se obtienen los siguientes datos:
Tipo de recubrimiento

Conductividad

143

141

150

146

152

149

137

143

134

133

132

127

129

127

132

129

147

148

144

142

Contrastar con un nivel de significacin del 5 % si el tipo de recubrimiento tiene algn


efecto sobre la conductividad.
3. Un artculo publicado en el Journal of the Association of Asphalt Paving Technologists
(1998) describe un experimento para determinar el efecto de las burbujas de aire sobre
la resistencia del asfalto. Para fines del experimento, las burbujas se controlan en tres
niveles. bajo (2-4 %), medio (4-6 %) y alto (6-8 %). Los datos obtenidos aparecen en la
Delia Montoro Cazorla.

Dpto.

de Estadstica e I.O. Universidad de Jan.

148

Captulo 9. Anlisis de la varianza (un factor): ANOVA

tabla siguiente.
Resistencia del asfalto
Bajo
Burbujas de aire Medio
Alto

106

90

103

90

79

88

92

95

80

69

94

91

70

83

87

83

78

80

62

69

76

85

69

85

Afectan de manera significativa los diferentes niveles de burbujas de aire la resistencia


del asfalto?. Tomar = 0,05
Suponer que las muestras proceden de poblaciones normales, independientes, con la misma
varianza.
4. La tabla muestra las medidas hechas por Heyl de la constante G gravitatoria con bolas
hechas de oro, platino y vidrio. Contrastar la hiptesis de que los tres materiales tienen
la misma constante G. Tomar un nivel de significacin del 5 %.
Oro

6.683

6.681

6.676

6.678

6.679

Platino

6.661

6.661

6.667

6.667

6.664

Vidrio

6.678

6.671

6.675

6.672

6.674

6.672

5. Un artculo publicado en el Material Research Bulletin (1991) investig cuatro mtodos


diferentes para preparar el compuesto superconductor P bM o6 S8 . Los autores sostienen
que la presencia de oxgeno durante el proceso de preparacin afecta la temperatura
de transicin Tc de superconduccin del material. Los mtodos de preparacin 1 y 2
utilizan tcnicas que estn diseadas para eliminar la presencia de oxgeno, mientras que
los mtodos 3 y 4 permiten que el oxgeno est presente. Para cada mtodo se toman 5
observaciones de Tc (en 0 K). Los resultados son:
Mtodo

Temperatura de transicin Tc

14.8

14.8

14.7

14.8

14.9

14.6

15.0

14.9

14.8

14.7

12.7

11.6

12.4

12.7

12.1

14.2

14.4

14.4

12.2

11.7

149

9.6. Ejercicios

a. Tiene algn efecto la presencia de oxgeno durante la preparacin del compuesto en


la temperatura de transicin?. Realizar el contraste con un nivel de significacin del
5 %.
b. Existen diferencias significativas entre mtodos de un mismo tipo?. Tomar = 0,01.
6. Tres profesores dan clases tericas en una misma autoescuela. Se desea contrastar, si
existen diferencias significativas en la forma de enseanza de los tres profesores. Para ello
se seleccionan tres muestras de alumnos y se anota el nmero de preguntas correctas en
el examen.

Prof. 1

Prof. 2

Prof. 3

43

48

29

35

47

31

44

44

28

46

46

42

39

39

31

44

45

36

38

49

35

42

48

36

45

45

39

Contrastar al 5 % de significacin si existen diferencias entre los profesores.


7. Un grupo de qumicos estn interesados en estudiar la cantidad de radn liberado en las
duchas. Para ello realizan un experimento en el que se utiliza agua enriquecida con radn,
y se prueban tres dimetros diferentes para los orificios de las alcachofas. La siguiente
tabla recoge el radn liberado (en %) para cada dimetro:
Dimetro 1

80

83

83

84

85

84

81

Dimetro 2

74

75

76

74

75

78

76

Dimetro 3

60

62

59

61

62

63

64

En base a los datos obtenidos, podemos afirmar que el tamao del orificio afecta el
porcentaje de radn liberado?. Realizar el contraste con un nivel de significacin del 5 %.
Delia Montoro Cazorla.

Dpto.

de Estadstica e I.O. Universidad de Jan.

150

Captulo 9. Anlisis de la varianza (un factor): ANOVA

Nota: Suponer para todos los ejercicios normalidad, independencia, e igualdad de varianzas en las poblaciones.

S-ar putea să vă placă și