Sunteți pe pagina 1din 24

ANÁLISIS DE LA VARIANZA

Se llama ANÁLISIS DE LA VARIANZA a un método estadístico que permite comparar


dos o más poblaciones a través de sus promedios o medias esperadas utilizando las varianzas
muestrales.

LOS MODELOS
Para mejor comprensión del método, se supone que se tiene una única población, dis-
tribuida normalmente, y que las unidades experimentales que generan dicha población se pue-
dan clasificar de acuerdo a un determinado criterio, generando de esta manera tantas pobla-
ciones normales como categorías tenga el criterio.
Un criterio de clasificación: Si las unidades experimentales son homogéneas, enton-
ces el único criterio de clasificación es el de las poblaciones.
Dos criterios de clasificación: Si las unidades experimentales son heterogéneas, en-
tonces, antes de clasificar las unidades dentro de las distintas poblaciones, hay que clasificar
las unidades experimentales por bloques o estratos, dentro de los cuales se reúnan aquellas
que sean homogéneas entre sí. En este caso los estratos constituyen un segundo criterio de
clasificación.

NOMENCLATURA y DEFINICIONES
La siguiente nomenclatura es la que será utilizada en todo este capítulo:
Y : Población o Variable en estudio, distribuida normalmente.
 = E (Y) : Promedio o media esperada de la población general.
u = Y –  : Variable residual poblacional.
 2u = E (Y - )2 : Varianza esperada de la población general. Esta varianza se llama
VARIANZA RESIDUAL(1)
k : Cantidad de poblaciones a comparar
Yi : i-ésima población. i = 1,k

i = E (Yi) : Promedio o media esperada de la i-ésima población. i = 1 , k

ui = Yi – i : Variable residual correspondiente a la i-ésima población. i = 1 , k

 i2 = E (Yi - i)2 : Varianza esperada de la i-ésima población. i = 1 , k

Para la aplicación del método, las k poblaciones son homoscedásticas, o sea que todas
las poblaciones tienen que tener el mismo valor de la varianza,  u2 :
 12 =  22 = ··· =  k2 =  u2
Simbólicamente
Y  No ( ;  2u )

1
Algunos autores llaman VARIANZA DE ERROR
ESTADÍSTICA – C. Capriglioni Página 1
Análisis de la Varianza

Yi  No (i ;  2u )  i = 1 , k

Si los promedios esperados de las k poblaciones fuesen iguales, entonces todos serían
iguales a *
1 = 2 = ··· = k = *

Si alguna población tuviese un promedio distinto a *, entonces esa población estaría
provocando un efecto diferente al resto.
Se llama EFECTO POBLACIÓN o EFECTO PROCESO o EFECTO TRATAMIENTO
a un parámetro que surge de la diferencia entre la media o promedio esperado de una pobla-
ción y el promedio general.
i = (i – *) efecto que provoca la i-ésima población (2)
Si
i = i – * entonces i = * + i
y si ui = Yi – i entonces Yi = i + ui
Reemplazando i se tiene el siguiente modelo, llamado MODELO ESTADÍSTICO
DE ANÁLISIS DE LA VARIANZA PARA UN CRITERIO DE CLASIFICACIÓN
Yi = * + i + ui
Los parámetros a estimar en este modelo son:
 2u ;  ; i
Cuando las unidades experimentales se clasifican en bloques o estratos, se tiene:
k : Cantidad de poblaciones o tratamientos
b : Cantidad de bloques o estratos.
Yij : i-ésima población en el j-ésimo bloque. i = 1,k  j = 1,b

 = E (Yij) :
uij = Yij - : Variable residual poblacional.
 2u = E (Yij - )2 : Varianza esperada de la población general. VARIANZA RESIDUAL.

i = Ei (Yij) : Promedio o media esperada de la i-ésima población. i = 1 , k

j = Ej (Yij) : Promedio o media esperada del j-ésimo bloque. j = 1 , b

ui = Yij – i : Variable residual correspondiente a la i-ésima población. i = 1 , k

uj = Yij – j : Variable residual correspondiente al j-ésimo bloque. j = 1 , b

Se llama EFECTO BLOQUES o EFECTO ESTRATO a un parámetro que surge de la


diferencia entre la media o promedio esperado de un bloque y el promedio general.

2
: Letra griega llamada THAO
Página 2 ESTADÍSTICA – C. Capriglioni
Análisis de la Varianza

j = (j – *) efecto que provoca el j-ésimo bloque

Reemplazando en i y j, se tiene el siguiente modelo, llamado MODELO ES-


TADÍSTICO DE ANÁLISIS DE LA VARIANZA PARA DOS CRITERIOS DE CLA-
SIFICACIÓN

Yij = * + i +  j + uij

LAS HIPÓTESIS
La hipótesis que se plantea tiene que ver con el EFECTO POBLACIÓN, o EFECTO
TRATAMIENTO. Nótese que si todos los promedios son iguales, entonces, el parámetro
EFECTO TRATAMIENTO de todas las poblaciones son iguales a cero. La hipótesis nula a pro-
bar y la correspondiente hipótesis alternativa son:
H0: i = 0  i
H1: i / i  0 (3)

EL MÉTODO
El método que se utiliza en el ANÁLISIS DE LA VARIANZA para probar la hipótesis de
que todos los EFECTOS TRATAMIENTO son iguales, consiste en tomar una muestra de cada
población y particionar la variación total de ella en grupos que reflejen las fuentes que provo-
can tal variación. Hay dos tipos de fuentes de variación, un tipo es el grupo de las fuentes que
es posible controlar llamada VARIACIÓN SISTEMÁTICA, y el otro grupo son las fuentes
no controlables llamada VARIACIÓN ALEATORIA O RESIDUAL. El objetivo es detec-
tar y aislar cuál o cuáles son las variaciones que se presentan en un conjunto de datos que se
pueden atribuir a las CAUSAS CONTROLABLES DE VARIACIÓN y qué parte de la
variación total se puede atribuir al azar CAUSAS NO CONTROLABLES O RESIDUA-
LES DE VARIACIÓN.
VARIACIÓN TOTAL = VARIACIÓN SISTEMÁTICA + VARIACIÓN ALEATORIA

MODELO A UN CRITERIO DE CLASIFICACIÓN


PRESENTACIÓN DEL MODELO
Para la aplicación de este modelo se considera que las unidades experimentales son
homogéneas, o sea que presentan características similares, por lo tanto la clasificación, o
asignación, de las unidades experimentales a las distintas poblaciones se realiza aleatoriamen-
te utilizando el Muestreo Simple al Azar.
Sean k poblaciones,
Yi i =1, k
cada una de ellas con promedio esperado desconocido y todas con varianza esperadas desco-
nocidas pero iguales

3
“Existe al menos una población tal que el efecto tratamiento sea distinto de cero”.

ESTADÍSTICA – C. Capriglioni Página 3


Análisis de la Varianza

E(Yi) = i y V(Yi) =  2u i =1, k


y sean
ni : El tamaño de la muestra correspondiente a la i-ésima población. i = 1 , k

yij : El valor de la j-ésima observación correspondiente a la muestra de la


i-ésima población
entonces se tiene:
k
n* =  ni : Tamaño total de la muestra.
i1

k ni
 y ij
i1 j1
y : Media aritmética muestral general. Estimador de 
n*
ni
 y ij
j1
yi = : Media muestral correspondiente a la muestra de la i-ésima
ni
población.

 
eij = y ij - y : Residuo muestral general.

 2 : Suma de cuadrado total.


k ni k ni
SCTOTAL =  eij =  y ij - y
i1 j1 i1 j1

 ni  y i  y 
k 2
SCENTRE POB = : Suma de cuadrado entre poblaciones.
i1

k ni
SCDENTRO DE POB =  y ij - y i 2 : Suma de cuadrado dentro de las
i1 j1
poblaciones.
Se puede demostrar que
SCTOTAL = SC ENTRE POB + SCDENTRO DE POB

 y - y  =  n  y  y  +  y
k ni k k ni
2
ij
2
i i ij 
- yi 2
i1 j1 i1 i1 j1

Se llama CUADRADO MEDIO a la varianza muestral que se obtiene haciendo el cociente


entre una suma de cuadrados y sus respectivos grados de libertad.

SC ENTRE POB
Cme ENTRE POB = : Cuadrado medio entre poblaciones
k -1

Página 4 ESTADÍSTICA – C. Capriglioni


Análisis de la Varianza

SC DENTRO POB
Cme DENTRO POB = : Cuadrado medio dentro de las poblaciones
n*- k

En adelante, por cuestiones de mejor claridad en el vocabulario, la SUMA DE CUA-


DRADOS ENTRE POBLACIONES y la SUMA DE CUADRADOS DENTRO DE LAS POBLACIONES
se llamarán, respectivamente, SUMA DE CUADRADOS DE TRATAMIENTO y SUMA DE CUA-
DRADO DE ERROR; como así también el CUADRADO MEDIO ENTRE POBLACIONES y el
CUADRADO MEDIO DENTRO DE POBLACIONES, se llamarán, respectivamente, CUADRADO
MEDIO DE TRATAMIENTO y CUADRADO MEDIO DE ERROR.

SCENTRE POB = SCTRAT


SCDENTRO POB = SCERROR
Cme ENTRE POB = Cme TRAT
Cme ENTRE POB = Cme ERROR
Como ya se ha establecido, los Cuadrados Medios son varianzas muestrales y son es-
timadores de la varianza residual poblacional,  2u .
El Cme TRAT es un estimador sesgado de la varianza  2u

1 k
E(Cme TRAT) =  u2  
k  1 i1
ni   2i

El Cme ERROR es un estimador insesgado de la varianza  2u

E(Cme ERROR) =  2u
Dado que las poblaciones tienen distribución normal y que los cuadrados medios son
varianzas muestrales, su cociente tiene DISTRIBUCIÓN F de SNÉDECOR con los grados de
libertad de la suma de cuadrados entre tratamientos en el numerador, y con los grados de
libertad de la suma de cuadrados del error en el denominador

CmeTRAT  u2
· ~ F [(k - 1);(n*- k)] g.l.
CmeERROR 1 k
 u2  
k  1 i1
ni   2i

Nótese que si el efecto tratamiento, o efecto población, correspondiente a todas las


poblaciones es nulo, o sea que si todas la medias poblacionales son iguales, entonces, tanto el
Cme TRAT, como Cme ERROR, están estimando al mismo parámetro. En este caso
CmeTRAT
~ F [(k - 1);(n*- k)] g.l.
CmeERROR

Luego, el estadígrafo de prueba que se utiliza para el análisis de varianza es el cociente


entre el Cme TRAT y el Cme ERROR. Tradicionalmente, el Cme TRAT siempre es el numerador
y debería ser mayor que el Cme ERROR. Por esta razón, habitualmente, la prueba de análisis de
ESTADÍSTICA – C. Capriglioni Página 5
Análisis de la Varianza

la varianza es unilateral derecha y el punto crítico es el fractil de orden (1-) de la distribu-


ción F de Snédecor, con (k-1) grados de libertad en el numerador y (n*- k) grados de libertad
en el denominador. Si el Cme TRAT no fuese mayor que el Cme ERROR, se debería utilizar otro
modelo.

VENTAJAS Y DESVENTAJAS DEL MODELO


El MODELO DE ANÁLISIS DE LA VARIANZA A UN CRITERIO DE CLASIFICACIÓN es
un modelo flexible en lo que se refiere a la cantidad de tratamientos y al tamaño de la mues-
tra, ya que ambas cantidades sólo están limitadas por el material experimental disponible.
Aunque lo ideal es que el tamaño de la muestra para cada población sea la misma el modelo
permite que los tamaños de muestra sean distintos y el análisis estadístico es el mismo tanto
cuando los tamaños de muestra son iguales o no. Por otro lado, la cantidad de grados de liber-
tad para estimar el error es máximo, lo cual mejora la precisión de la prueba y es de suma
importancia cuando los experimentos son pequeños (grados de libertad del error experimental
menor que 20). La única desventaja del modelo está dada por el hecho de que al no haber res-
tricciones para la aleatorización, el error incluye algunas variaciones no aleatorias, que no
pueden ser aisladas o no son consideradas o tenidas en cuanta en la investigación, lo cual pue-
de conducir a una pérdida de precisión.

FÓRMULAS DE TRABAJO
Para facilitar los cálculos se proponen las siguientes fórmulas de trabajo:
k ni
T=  y ij = Total observado de la variable en la muestra.
i1 j1

ni
Ti =  y ij = Total observado de la variable correspondiente al tratamiento i-ésimo.
j1

T
y = = Media muestral general.
n*
Ti
yi = = Media muestral del i-ésimo tratamiento.
ni

 y ij - y 
k ni k ni n
2 T2 k i
SCTOTAL = =  Yij2 
n*
=   y ij2  n *  y 2
i1 j1 i1 j1 i1 j1

  T i2 T2
k 2 k k
SCTRAT =  ni  yi  y = n 
n*
=  ni  yi2  n *  y 2
i1 i1 i i1

k ni
SCERROR =  y ij - y i 2 = SCTOTAL - SCTRAT
i1 j1

Página 6 ESTADÍSTICA – C. Capriglioni


Análisis de la Varianza

PROCEDIMIENTO PARA LA REALIZACIÓN DE LAS PRUEBAS


Primero se identifican las poblaciones cuyos promedios esperados se desea probar si
son iguales y luego, se plantean las hipótesis, tal como se ha explicado en el punto correspon-
diente.
H0: i = 0  i
H1: i / i  0
Luego se realiza la clasificación y se toman las muestras. Los datos se presentan en
una tabla como la que sigue, ubicando en los encabezados de las columnas los nombres de las
poblaciones o tratamientos, P1 ; P2 ; · · · ; Pk. En las últimas filas se calculan los totales nece-
sarios para la utilización de las fórmulas de trabajo.
POBLACIONES
P1 P2 . . . Pk

y11 y21 · · · yk1

y12 y22 · · · yk2

   

y1j y2j · · · ykj

   
y 1n y 2n · · · y kn
1 2 k
n1 n2 nk k ni
TOTAL
DE LA  y 1j = T1  y 2j = T2 . . .  y kj = Tk  y ij = T
MUESTRA j1 j1 j1 i1 j1
T1
TAMAÑOS k
DE n1 n2 . . . nk  ni = n*
MUESTRAS i1

Ti2 T12 T22 Tk2 k T2

ni n1 n2
. . .
nk
n i
i1 i
T T T
PROMEDIOS y1  1 y2  2 . . . yk  k
MUESTRALES n1 n2 nk
k
ni  y i2 n1  y12 n2  y 22 . . . nk  y k2  ni  yi2
i1

Una vez que se ha calculado la suma de cuadrados y los cuadrados medios correspon-
dientes a las distintas fuentes de variación, es costumbre presentar los resultados en un cuadro
llamado TABLA DE ANÁLISIS DE LA VARIANZA o TABLA DE ANVA(4).
En esta tabla también se presenta el valor numérico del estadígrafo de prueba y el pun-
to crítico.
4
En inglés ANOVA
ESTADÍSTICA – C. Capriglioni Página 7
Análisis de la Varianza

TABLA DE ANVA A UN CRITERIO DE CLASIFICACIÓN

Valor del
Fuente de Punto crítico
SC GL CMe estadígrafo
Variación pc
de prueba

k T2 CM TRAT
T2 SC TRAT
TRAT. n i

n*
k-1
k 1 CMERROR
F [(k - 1);(n*- k)] ;(1- )
i1 i

SC ERROR
ERROR SCTOTAL - SCTRAT n* - k
n * k

T2
TOTAL  Yij2  nt
n* - 1
i j

La regla de decisión estadística es

CM TRAT
Si  pc entonces se rechaza la H0.
CMERROR

Esto quiere decir que por lo menos una de las poblaciones tiene un promedio esperado
distinto al resto.

Ejemplo 1
En una escuela técnica se desea comparar cinco métodos de entrenamiento para fabricar pie-
zas torneadas. Se tomó una muestra de 20 alumnos en idénticas condiciones iniciales y de
aprendizaje y se les asignaron al azar la misma cantidad de alumnos a cada método. La varia-
ble que se midió fue el tiempo que tardaban en tornear una pieza completa luego de haber sido
capacitados. Los resultados se presentan en la siguiente tabla:

Página 8 ESTADÍSTICA – C. Capriglioni


Análisis de la Varianza

MÉTODO A MÉTODO B MÉTODO C MÉTODO D MÉTODO E

63 92 65 70 76
57 81 66 73 82
67 85 58 78 87
61 87 68 81 83

Con un nivel de significación del 5%, ¿es posible afirmar que hay diferencias significativas
entre los tiempos medios de torneado correspondiente a cada uno de los métodos?
SOLUCIÓN
Se plantean las hipótesis nula y alternativa
Ho: i = 0  i
H1: i / i  0
Datos:
Cantidad de poblaciones: k = 5
Tamaño de la muestra para cada población: n1 = n2 =  = n5 = 4
Tamaño de la muestra general: n* = 20
Grados de libertad de la Suma de Cuadrados de Tratamientos: k – 1 = 4
Grados de libertad de la Suma de Cuadrados de Error: n* – k = 15

CM TRAT
Fc =  F(4;15)
CMERROR

Si Fc ≥ 3,06 entonces se rechaza la hipótesis nula

En la siguiente tabla se calculan los totales necesarios para tener las correspondientes sumas
de cuadrados.

ESTADÍSTICA – C. Capriglioni Página 9


Análisis de la Varianza

MÉTODO MÉTODO MÉTODO MÉTODO MÉTODO


A B C D E
63 92 65 70 76
57 81 66 73 82
67 85 58 78 87
61 87 68 81 83
TOTAL
DE LA 248 345 257 302 328 T = 1480
MUESTRA
TAMAÑOS
DE 4 4 4 4 4 n* = 20
MUESTRAS

Ti2 248 2 345 2 257 2 302 2 328 2


5 T2

ni
 nii
=111341,5
4 4 4 4 4 i1

PROMEDIOS
MUESTRALES
62 86.25 64.25 75.5 82

5
ni  y i2 15376 29756.25 16512.25 22801 26896  ni y i2 = 11341.5
i1

La suma del cuadrado de las observaciones.


k ni
 y ij2 = 111648
i1 j1
Reemplazando en las fórmulas de trabajo se obtienen las sumas de cuadrados
k ni
T2
SCTOTAL =  yij2  n*
= 111648 – 109520 = 2128
i1 j1

k T i2 T2
SCTRAT = n 
n*
= 111341,5 – 109520 = 1821,5
i1 i

SCERROR = SCTOTAL - SCTRAT = 2128 – 1821,5 = 306,5

TABLA DE ANVA
FV SC GL CMe ep pc
TRATAMIENTOS 1821,5 (5 –1) = 4 455,38 22,29 3,06
(ENTRE MÉTODOS)
ERROR 306,5 (20 – 5) = 15 20,43
(DENTRO DE LOS MÉTODOS)

TOTAL 2128 (20 – 1) = 19

Como ep = 22,29 es mayor que la pc = 3,06 se rechaza la hipótesis nula y se concluye que
por lo menos uno de los métodos tiene un promedio distinto al resto.
Página 10 ESTADÍSTICA – C. Capriglioni
Análisis de la Varianza

MODELO A DOS CRITERIOS DE CLASIFICACIÓN


PRESENTACIÓN DEL MODELO
Para la aplicación de este modelo hay que considerar que las unidades experimentales
son heterogéneas, o sea que presentan diferentes características, por lo tanto, antes de clasifi-
car las unidades experimentales en las distintas poblaciones, hay que formar estratos o blo-
ques dentro de los cuales las unidades experimentales sean homogéneas. De cada bloque se
toma al azar una unidad experimental y se asigna al azar una población o tratamiento.
Sean k poblaciones clasificadas en n bloques,
Yij i =1, k ; j 1, n
cada una de ellas con promedio esperado desconocido y todas con varianza esperadas desco-
nocidas pero iguales

E(Yij) = i y V(Yij) =  2u i =1, k


y sea
yij : El valor de la observación correspondiente al j-ésimo bloque de la i-ésima
población.
Entonces se tiene:
n* = k  n: Tamaño total de la muestra.
k n
 y ij
i1 j1
y : Media aritmética muestral general. Estimador de 
nk
n
 y ij
j1
yi = : Media muestral correspondiente a la muestra de la i-ésima
n
población.
k
 y ij
i1
yj= : Media muestral correspondiente a la muestra del j-ésimo
k
bloque.

 
eij = y ij - y : Residuo muestral general.

 2 : Suma de cuadrado total.


k n k n
SCTOTAL =  eij =  y ij - y
i1 j1 i1 j1

 2 : Suma de cuadrado entre poblaciones.


k
SCENTRE POB = n   y i  y
i1

 2 : Suma de cuadrado entre bloques.


n
SCENTRE BLOQUES = k   y j  y
j1

ESTADÍSTICA – C. Capriglioni Página 11


Análisis de la Varianza

 y ij - yi - y j  y 
k n 2
SCDENTRO DE POB = : Suma de cuadrado dentro.
i1 j1
SUMA DE CUADRADOS TOTAL es la suma del cuadrado de las desviaciones entre cada
valor de la muestra y la media muestral general. Mide la variación total que hay dentro de la
muestra, o sea, a variación propia o intrínseca que se produce por causas aleatorias y no alea-
torias. La SUMA DE CUADRADOS TOTAL tiene (n*-1) grados de libertad.
La SUMA DE CUADRADOS ENTRE POBLACIONES es la suma del cuadrado de
las desviaciones entre la media de cada muestra y la media muestral general. Mide la varia-
ción entre las medias muestrales de cada población y la media muestral general. Cuanto ma-
yor sea esta suma de cuadrados, mayor será la diferencia entre las medias muestrales de las
poblaciones. La SUMA DE CUADRADOS ENTRE POBLACIONES constituye una FUENTE SIS-
TEMÁTICA DE VARIACIÓN y tiene (k – 1) grados de libertad.
La SUMA DE CUADRADOS ENTRE BLOQUES es la suma del cuadrado de las
desviaciones entre la media de cada bloque y la media muestral general. Mide la variación
entre las medias muestrales de cada bloque y la media muestral general. La SUMA DE CUA-
DRADOS ENTRE BLOQUES constituye una FUENTE SISTEMÁTICA DE VARIACIÓN y tiene
(n – 1) grados de libertad.
La SUMA DE CUADRADOS DENTRO DE LAS POBLACIONES Y BLOQUES
es la suma del cuadrado de las desviaciones entre cada valor de la muestra y su respectiva
media muestral, a través de todos los bloques. Mide la variabilidad que se produce por causas
aleatorias. La SUMA DE CUADRADOS DENTRO DE LAS POBLACIONES constituye una FUEN-
TE ALEATORIA DE VARIACIÓN y tiene (nk – k – n + 1) = (n - 1)  (k - 1) grados de libertad.
Se puede demostrar que
SCTOTAL = SC ENTRE POB + SC ENTRE BLOQUES + SCDENTRO DE POB

 y - y  = n   y  y  + k   y 2 +  y 2
k n 2 k 2 n k n
ij i j y ij - yi - y j  y
i1 j1 i1 j1 i1 j1
SC ENTRE POB
Cme ENTRE POB = : Cuadrado medio entre poblaciones.
k -1
SC ENTRE BLOQUES
Cme ENTRE BLOQUES = : Cuadrado medio entre bloques.
n -1
SC DENTRO POB
Cme DENTRO POB = : Cuadrado medio dentro de las poblaciones.
n  1  k  1
Como se ha explicado para el MODELO A UN CRITERIO DE CLASIFICACIÓN, en ade-
lante, por cuestiones de mejor claridad en el vocabulario, la SUMA DE CUADRADOS ENTRE
POBLACIONES y la SUMA DE CUADRADOS DENTRO DE LAS POBLACIONES se llamarán, res-
pectivamente, SUMA DE CUADRADOS DE TRATAMIENTO y SUMA DE CUADRADO DE
ERROR, respectivamente; como así también el CUADRADO MEDIO ENTRE POBLACIONES y
el CUADRADO MEDIO DENTRO DE POBLACIONES, se llamarán, respectivamente, CUADRA-
DO MEDIO DE TRATAMIENTO y CUADRADO MEDIO DE ERROR.

SCENTRE POB = SCTRAT


SCDENTRO POB = SCERROR
Cme ENTRE POB = Cme TRAT
Cme ENTRE POB = Cme ERROR
Página 12 ESTADÍSTICA – C. Capriglioni
Análisis de la Varianza

El estadígrafo de prueba que se utiliza para el análisis de varianza a dos criterios de


clasificación es el mismo que se utiliza para el análisis de la varianza a un criterio de clasifi-
cación, o sea, el cociente entre el Cme TRAT y el Cme ERROR.

CmeTRAT
~ F [(k - 1);(n- 1)(k-1)] g.l.
CmeERROR

VENTAJAS Y DESVENTAJAS DEL MODELO


El MODELO DE ANÁLISIS DE LA VARIANZA A DOS CRITERIOS DE CLASIFICACIÓN
presenta la ventaja de que se pueden agrupar las unidades experimentales de modo tal que se
logre mayor precisión que con el MODELO A UN CRITERIO DE CLASIFICACIÓN y no hay
restricción en cuanto a la cantidad de bloques. La única desventaja del modelo está dada por
el hecho de que cuando no hay suficiente heterogeneidad como para que se justifique la estra-
tificación, se reduce innecesariamente los grados de libertad del ERROR con la consecuente
pérdida de sensibilidad de la prueba.

FÓRMULAS DE TRABAJO
Para facilitar los cálculos se proponen las siguientes fórmulas de trabajo:
k n
T = R =  y ij = Total observado de la variable en la muestra.
i1 j1

n
Ti =  y ij = Total observado de la variable correspondiente al tratamiento i-ésimo.
j1

k
Rj =  y ij = Total observado de la variable correspondiente al bloque j-ésimo.
i1

T R
y = = = Media muestral general.
n* n*
Ti
yi = = Media muestral del i-ésimo tratamiento.
n
Rj
yj = = Media muestral del j-ésimo bloque.
k

 y ij - y 
k n 2 k n
T2 k n
SCTOTAL = =  y ij  2
=   y ij2  n *  y 2
i1 j1 i1 j1 nk i1 j1

k
 T i2
  T2
k 2 k
i1
SCTRAT = n   y i  y =  = n   yi2  n  k  y 2
i1 n n k i1

ESTADÍSTICA – C. Capriglioni Página 13


Análisis de la Varianza
n
 R 2j
 2 = j1k
n n
T2
SCBLOQUE = k   y j  y  = k   y 2j  n  k  y 2
j1 n k j1

k ni
SCERROR =  y ij - y i 2 = SCTOTAL - SCTRAT - SCBLOQUE
i1 j1

PROCEDIMIENTO PARA LA REALIZACIÓN DE LAS PRUEBAS


Primero se estratifica, o sea se forman los n bloques, luego se identifican las k pobla-
ciones a probar si sus promedios esperados son iguales. Tal como se ha explicado en el punto
correspondiente, se plantean las hipótesis, nula y alternativa.
H0: i = 0  i
H1: i / i  0
Se realizan las clasificaciones asignando aleatoriamente todos los tratamientos en un
mismo bloque, y en cada uno de los bloques.
Los datos se presentan en una tabla como la que sigue, ubicando en los encabezados
de las columnas los nombres de las poblaciones o tratamientos, P1 ; P2 ; · · · ; Pk, y en las
filas se colocan los bloques, B1 ; B2 ; · · · ; Bn.
En las últimas filas y en las últimas columnas se calculan los totales necesarios para la
utilización de las fórmulas de trabajo.

POBLACIONES
TOTAL DE
BLOQUES P1 P2 . . . Pk CADA BLOQUE R 2j
Rj
B1 y11 y21 · · · yk1 R1 R 12

B2 y12 y22 · · · yk2 R2 R 22

      

Bn y1n y2n · · · ykn Rn R n2


TOTAL n
k n
DE CADA
TRAT. T1 T2 . . . Tk  y ij =T=R  R 2j
Ti i1 j1 j1

k
Ti2 T12 T22 . . . Tk2  Ti2
i1

PROMEDIOS y1 y2 . . . yk
MUESTRALES

Una vez que se ha calculado la suma de cuadrados y los cuadrados medios correspon-
dientes a las distintas fuentes de variación, como ya se ha dicho, es costumbre presentar los
Página 14 ESTADÍSTICA – C. Capriglioni
Análisis de la Varianza

resultados en la TABLA DE ANÁLISIS DE LA VARIANZA o TABLA DE ANVA(5).


En esta tabla también se presenta el valor numérico del estadígrafo de prueba y el pun-
to crítico.
TABLA DE ANVA A DOS CRITERIOS DE CLASIFICACIÓN

Fuente Valor del


Punto crítico
de SC GL CMe estadígrafo
pc
Variación de prueba

TRAT.  T i2 k-1
SC TRAT CM TRAT
F [(k - 1);(nk- k)] ;(1- )
i1 T2 k 1 CM ERROR

n nk
k

BLOQUE  R 2i T2 n-1
SC BLOQUE
i1 n 1

k nk

SCTOTAL – SC ERROR
ERROR (n-1)(k-1)
-SCTRAT-SCBLOQUE n  1k  1

T2
TOTAL  y ij2  nk nk - 1
i j

La regla de decisión estadística es


CM TRAT
Si  pc entonces se rechaza la H0.
CMERROR

Esto quiere decir que por lo menos una de las poblaciones tiene un promedio esperado
distinto al resto.

5
En inglés ANOVA

ESTADÍSTICA – C. Capriglioni Página 15


Análisis de la Varianza

Ejemplo 2
Se realizó un experimento a fin de comparar los rendimientos de 6 deportistas sometidos a 4
pruebas distintas cada uno. A fin de eliminar la variabilidad entre las pruebas, estas pruebas se
consideran bloques. La variable que se midió fue el tiempo para completar la prueba, obte-
niéndose los siguientes resultados:

DEPORTISTA

PRUEBA A B C D E F

1 12 13 14 10 12 8

2 17 20 20 18 17 9

3 20 23 29 26 21 14

4 10 19 22 22 12 13

Verifique, con un nivel de significación del 5% si hay diferencias entre los rendimientos me-
dios de los deportistas.
SOLUCIÓN
Se plantean las hipótesis nula y alternativa
Ho: i = 0  i
H1: i / i  0
Datos:
Cantidad de poblaciones: k = 6
Cantidad de bloques: n = 4
Tamaño de la muestra general: nk = 24
Grados de libertad de la Suma de Cuadrados de Tratamientos: k – 1 = 5
Grados de libertad de la Suma de Cuadrados de Bloques: n – 1 = 3
Grados de libertad de la Suma de Cuadrados de Error: (n – 1) (k – 1) = 15
CM TRAT
Fc =  F(5;15)
CMERROR

Si Fc ≥ 2,9 entonces se rechaza la hipótesis nula


En la siguiente tabla se calculan los totales necesarios para tener las correspondientes sumas
Página 16 ESTADÍSTICA – C. Capriglioni
Análisis de la Varianza

de cuadrados.

DEPORTISTAS
(POBLACIONES)

TOTAL DE
PRUEBAS A B C D E F CADA BLOQUE R 2j
(BLOQUES)
Rj
1 12 13 14 10 12 8 69 4761
2 17 20 20 18 17 9 101 10201
3 20 23 29 26 21 14 133 17689
4 10 19 22 22 12 13 98 9604
TOTAL n
k n
 y ij = 401  R j = 42255
DE CADA 2
TRAT. 59 75 85 76 62 44
Ti i1 j1 j1

k
Ti2 3481 5625 7225 5776 3844 1936  Ti2 =27887
i1

PROMEDIOS
MUESTRALES
14,75 18,75 21,25 19 15,5 11

k n
 y ij2 = 7425
i1 j1

T2
k n 4012
SCTOTAL =  y ij  2
= 7425 - = 724, 96
i1 j1 nk 24

k
 T i2 27887 4012
i1 T2
SCTRAT =  =  = 271,71
n n k 4 24
n
 R 2j
j1 T2 42255 4012
SCBLOQUE =  =  = 342,46
k n k 6 24

SCERROR = SCTOTAL - SCTRAT - SCBLOQUE = 724,96 – 271,71 – 114,15 = 110,79

Con estos resultados se construye la siguiente tabla de ANVA.

ESTADÍSTICA – C. Capriglioni Página 17


Análisis de la Varianza

TABLA DE ANVA
FV SC GL CMe ep pc
TRATAMIENTOS 271,71 5 54,342 7,36 2,9
(ENTRE DEPERTISTAS)

BLOQUES 342,46 3 114,153

ERROR 110,79 15 7,386

TOTAL 724,96 23

Como ep = 7,35 es mayor que la pc = 2,9 se rechaza la hipótesis nula y se concluye que por
lo menos uno de los deportistas un rendimiento promedio distinto al resto.

PRUEBA DE TUKEY
Tukey ha desarrollado una distribución basada en la distribución de Student, general-
mente simbolizada ttuk, y ha demostrado que
yi  y j
ttuk =  ttuk  i =1 ; k  j = 1; k i  j
2  CMe ERROR
nA

Donde, si los tamaños de muestra para cada población es el mismo, entonces


nA = n
si los tamaños de muestra para cada población son distintos, entonces nA es el pro-
medio armónico de los tamaños de muestra para cada población.
k
nA =
k
1
n
i1 i
Los fractiles de la distribución de Tukey están tabulados para pruebas bilaterales, sólo
para los niveles de significación de 5% y 1%.
Las hipótesis son

H0: i = j  i – j = 0  i = 1 ; (k - 1)  j = 2;k i > j

H1: i  j  i – j  0

() k
El estadígrafo de prueba para la realización de las 2 pruebas simultáneas es

yi  y j
ttuk =  ttuk
2  CMe ERROR
nA

Como en toda prueba bilateral, si

Página 18 ESTADÍSTICA – C. Capriglioni


Análisis de la Varianza

yi  y j
 pc entonces, se rechaza H0
2  CMe ERROR
nA

donde pc es el valor de la tabla de Tukey, correspondiente a un nivel de significación  y los


grados de libertad del ERROR.
Por una cuestión práctica la prueba se realiza de la siguiente manera:
Primero se calcula la mínima diferencia con la que no se rechaza la hipótesis nula
haciendo
2  CMERROR
tuk = pc
nA
()
k
luego se realizan las 2 diferencias entre las medias muestrales

yi  y j   i = 1 ; (k - 1)  j = 2;k i > j

( )
Para cada par y i ; y j la regla de decisión es

si y i  y j  tuk entonces la media esperada de la población i es distinta a la


media esperada de la población j.

Ejemplo 3
Tomando los datos del Ejemplo 1 donde se comparan 5 métodos de entrenamiento para fabri-
car piezas torneadas y cada tratamiento se repitió 4 veces, se tienen los siguientes promedios
muestrales
y A = 62 ; y B = 86,25 ; y C = 64,25 ; y D = 75,5 ; y E = 82
El valor pc de la tabla de Tukey para un nivel de significación del 5%, 5 tratamientos y 15
grados de libertad de error es
pc = 3,09
entonces
2  20,43
tuk = 3,09 = 9,87
4

Se calcula el módulo de las 10 diferencias entre las medias muestrales, se comparan con el valor
tuk = 9,87.
Para realizar las comparaciones, se recomienda construir una la tabla de doble entrada,
poniendo, tanto en la columna matriz como en los encabezados de las columnas, las medias
muestrales de los tratamientos. En el cuerpo del cuadro se ponen las diferencias positivas en-
tre las medias muestrales. Aquellas diferencias que resultan mayores a tuk, se indican con un
asterisco.

ESTADÍSTICA – C. Capriglioni Página 19


Análisis de la Varianza

Yk  Ym y A = 62 y B = 86,25 y C = 64,25 y D = 75,5 y E = 82

y A = 62 0 24,25* 2,25 13,5* 20*

y B = 86,25  0 22* 10,75* 4,25

y C = 64,25   0 11,25* 17,75*

y D = 75,5    0 6,5

y E = 82     0

Se detectan diferencias de los promedios esperados:


 entre el método B y los métodos A, C y D
 entre el método E y los métodos A y C
 entre el método D y los métodos A y C

El promedio del método C no difiere del promedio del método A


Por lo tanto, de las diferencias encontradas, se concluye que el método A y el método C son
los más efectivos, en cuanto a que los alumnos entrenados con dichos métodos tardan menos
que los entrenados con los otros.

PRUEBA DE DUNNETT
En algunos casos se desea detectar la efectividad de tratamientos o proceso nuevos,
por lo tanto es necesario tomar un tratamiento o proceso conocido para que actúe como con-
trol y luego se compara cada uno de los nuevos procesos con el control. Para realizar estas
comparaciones se utiliza la prueba de DUNNETT.
Sean
h : Cantidad de tratamientos a comparar contra el control = k – 1.
  0: Media esperada de la población que se toma como control
i:  i = 1 ; h Media esperada de la i-ésima nueva población
y 0 : Media muestral correspondiente a la muestra de la población Control.

y i : Media muestral correspondiente a la muestra de la i-ésima nueva población


DUNNETT ha desarrollado una distribución también basada en la distribución de Stu-
dent, simbolizada tdun, y ha demostrado que
yi - y 0
tdun =  tdun  i =1 ; h
2  CMe ERROR
nA

Donde, si los tamaños de muestra para cada población es el mismo, entonces


nA = n
Si los tamaños de muestra para cada población son distintos, entonces nA es la parte
entera del promedio armónico de los tamaños de muestra para cada población.

Página 20 ESTADÍSTICA – C. Capriglioni


Análisis de la Varianza

 
 
 k 
nA = ent  
 k 1 
  
 i1 ni 
Los fractiles de la distribución de Dunnett están tabulados para pruebas bilaterales,
sólo para los niveles de significación de 5% y 1%.
Las hipótesis son
H0: i = 0  i – 0 = 0  i =1 ; h

H1: i  0  i – 0  0
El estadígrafo de prueba para la realización de las k pruebas simultáneas es
yi - y 0
tdun =  tdun  i =1 ; h
2 · CMe ERROR
nA

Como en toda prueba bilateral, si

yi - y 0
 pc entonces, se rechaza H0
2 . CMe ERROR
nA

donde pc es el valor de la tabla de Dunnett, correspondiente a un nivel de significación , los


grados de libertad del ERROR y la cantidad de tratamientos a comparar contra el control, h.
Por una cuestión práctica la prueba se realiza de la siguiente manera:
Primero se calcula la mínima diferencia con la que no se rechaza la hipótesis nula
haciendo
2  CMERROR
dun = pc
nA
luego se realizan las h diferencias entre la media las medias muestrales de cada tratamiento y
la media muestral del tratamiento control
(yi - y 0 )  i =1 ; h
Para cada par (y i ; y 0 ) la regla de decisión es:

Si y i - y 0  dun entonces la media esperada de la población i es distinta a


la media esperada de la población control.
Entre aquellos tratamientos que resulten distintos del control, se realiza una prueba de
Tukey para establecer cuál o cuales son distintos entre sí.

Ejemplo 4
Se realizó un experimento a fin de comparar los efectos que tuvieron, sobre las ventas tres
ESTADÍSTICA – C. Capriglioni Página 21
Análisis de la Varianza

tipos de promociones. La variable que se midió fue la cantidad de unidades vendidas en cada
una de las sucursales. Dado que las ventas en las sucursales no se pueden considerar homogé-
neas, se realizó un diseño a dos criterios de clasificación. Para establecer si las promociones
son efectivas, se realizaron ventas sin promoción, consideradas como control. Los resultados
se presentan en el siguiente cuadro:

SUCURSALES

PROMOCIÓN 1 2 3 4 5 6

1. CONTROL 64 53 65 70 72 78

2. MUESTRA GRATIS 87 77 86 95 99 84

3. REGALO EN EL PAQUETE 90 84 80 90 95 101

4. DESCUENTO EN EFECTIVO 95 90 97 101 122 125

Verifique, con un nivel de significación del 5% si hay diferencias entre las ventas promedio
de las promociones.
SOLUCIÓN
Se plantean las hipótesis nula y alternativa
Ho: i = 0  i
H1: i / i  0
Datos:
 = 0,05
Cantidad de poblaciones: k = 4
Cantidad de bloques: n = 6
Tamaño de la muestra general: nk = 24
Grados de libertad de la Suma de Cuadrados de Tratamientos: k – 1 = 3
Grados de libertad de la Suma de Cuadrados de Bloques: n – 1 = 5
Grados de libertad de la Suma de Cuadrados de Error: (n – 1) (k – 1) = 15
CM TRAT
Fc =  F(3;15)
CMERROR

Siguiendo los pasos explicados en el Ejemplo 2 se puede determinar el cuadro de ANVA.

Página 22 ESTADÍSTICA – C. Capriglioni


Análisis de la Varianza

Si Fc ≥ 3,287 entonces se rechaza la hipótesis nula


En la siguiente tabla se calculan los totales necesarios para tener las correspondientes sumas
de cuadrados.
TABLA DE ANVA
FV SC GL CMe ep pc
TRATAMIENTOS 4398 3 1466 35,3537 3,287
(ENTRE PROMOCIONES)

BLOQUES 1430 5 286

ERROR 622 15 41,4667

TOTAL 724,96 23

Como Fc = ep = 35,3537 es mayor que la pc = 3,287 se rechaza la hipótesis nula y se con-


cluye que por lo menos una de las promociones tiene ventas promedio distinto al resto.
El primer tratamiento se usa como tratamiento control (no hacer promociones), por lo tanto
hay que utilizar la prueba de Dunnet para establecer cuál de los otros difiere del control.
Las hipótesis son
H0: i = 0  i – 0 = 0  i =1 ; 3

H1: i  0  i – 0  0
El estadígrafo de prueba para la realización de las 3 pruebas simultáneas es
yi - y 0
tdun =  tdun  i =1 ; 3
2 · CMe ERROR
nA

Como en toda prueba bilateral, si

yi - y 0
 pc entonces, se rechaza H0
2 . CMe ERROR
nA

  = 0,05
los grados de libertad del ERROR
G.L.E = 15
la cantidad de tratamientos a comparar contra el control
h=3
entonces, de acuerdo a la tabla,
pc = 2,61
Se calcula la mínima diferencia con la que no se rechaza la hipótesis nula haciendo

ESTADÍSTICA – C. Capriglioni Página 23


Análisis de la Varianza

2  CMERROR 2  41, 4667


dun = pc = 2,61· = 9,7
nA 6

se realizan las h = 3 diferencias entre la media las medias muestrales de cada tratamiento y la
media muestral del tratamiento control.

y 0 = 62 ; y 1 = 88 ; y 2 = 90 ; y 3 = 105

y 1 - y 0 = 88 – 62 = 26 > 9,7  Hay diferencia entre la promoción 1 y el Control

y 2 - y 0 = 90 – 62 = 28 > 9,7  Hay diferencia entre la promoción 2 y el Control

y 3 - y 0 = 105 – 62 = 43 > 9,7  Hay diferencia entre la promoción 3 y el Control

Entre los tres tratamientos que resultan distintos del control, se realiza una prueba de
Tukey para establecer cuál o cuales son distintos entre sí.
El valor pc de la tabla de Tukey para un nivel de significación del 5%, 3 tratamientos y 15
grados de libertad de error es
pc = 2,60
entonces
2  41, 4667
tuk = 2,60 = 9,66
6

Se calcula el módulo de las diferencias entre las medias muestrales, se comparan con el valor tuk
Como ya se ha explicado, para realizar las comparaciones, se recomienda construir una la
tabla de doble entrada, poniendo, tanto en la columna matriz como en los encabezados de las
columnas, las medias muestrales de los tratamientos. En el cuerpo del cuadro se ponen las
diferencias positivas entre las medias muestrales. Aquellas diferencias que resultan mayores a
tuk, se indican con un asterisco.

Yk  Ym y 1 = 88 y 2 = 90 y 3 = 105

y 1 = 88 0 2 17 *

y 2 = 90  0 15 *

y 3 = 105   0

Se detectan diferencias entre los promedios de la promoción 3 y las promociones 1 y 2


El promedio de la promoción 1 no difiere del promedio de la promoción 2.

Página 24 ESTADÍSTICA – C. Capriglioni

S-ar putea să vă placă și