Sunteți pe pagina 1din 23

Universidad Nacional de Cajamarca

Facultad de Ingeniería

E.A.P. Ingeniería Civil

ESTADÍSTICA APLICADA

Teoría y problemas de Análisis de


Varianza

Docente
- Lic. MACETAS HERNÁNDEZ, Miguel Ángel

Integrantes
- ROJAS HONORES, Diego Manuel
- SANGAY CACHI, Geanpierre
- VALDEZ YAJAHUANCA, Jerfin Alexander
Universidad Nacional de Cajamarca “Norte de la Universidad Peruana” Estadítica Aplicada

Comparación de las medias de varias poblaciones


Vimos cómo se contrasta la hipótesis de la igualdad de dos medias poblacionales. De
hecho, presentamos dos contrastes, que eran adecuados dependiendo del desafío
experimental, es decir, del mecanismo empleado para generar las observaciones
muéstrales. Concretamente, nuestros contrastes portan de observaciones pareadas 0 de
muestras aleatorias independientes. Esta distinción es importante y, para aclararla, nos
detendremos a examinar un sencillo ejemplo. Supongamos que nuestro objetivo es
comparar el consumo de combustible de dos tipos de automóviles: A y B. Podríamos
seleccionar aleatoriamente 10 personas para que recorrieran una determinada distancia
con estos automóviles, asignando a cada una un automóvil de cada tipo, de manera que
cada una condujera tanto un automóvil A como un automóvil B. Las 20 cifras de
consumo de combustible resultantes consistían en 10 parejas, cada una de las cuales
corresponde a un conductor. Este es el desafío por parejas enlazadas y su atractivo
reside en su capacidad para hacer una comparación entre las cantidades de interés (en
este caso, el consumo de combustible de los dos tipos de automóvil), teniendo en cuenta
al mismo tiempo la posible importancia de otro factor relevante (las diferencias entre los
conductores). Así, si se observa la existencia de una diferencia significativa entre el
comportamiento de los automóviles A y el de los B, tenemos alguna seguridad de que
no se debe a diferencias de conducta de los automovilistas. Otro desafío será tomar 20
conductores y asignar aleatoriamente 10 a los automóviles A y 10 a los automóviles B
(aunque, en realidad, no es necesario hacer el mismo número de pruebas con cada tipo
de automóvil). Las 20 cifras de consumo de combustible resultantes constituirán un par
de muestras aleatorias independientes de 10 observaciones cada una sobre los
automóviles A y B. En el apartado 11.1 analizamos métodos adecuados para contrastar
la hipótesis nula de la igualdad de un par de medias poblacionales en estos dos tipos de
desafío. En este capítulo, nuestro objetivo es extender estos métodos al desarrollo de
contrastes de la igualdad de la media de varias poblaciones. Supongamos, por ejemplo,
que nuestro estudio incluyera un tercer tipo de automóvil, el automóvil C. La hipótesis
nula de interés será en ese caso que la media poblacional del consumo de combustible
de los tres tipos de automóviles es igual. Mostramos como pueden realizarse contrastes
de esas hipótesis, comenzando con el caso en el que se toman muestras aleatorias
independientes. En el apartado 17.5 analizamos la extensión del contraste vasado en
datos pareados. Supongamos que a 7 de 20 conductores se les asigna un automóvil A, a
7 un automóvil B y a 6 un automóvil C. Utilizando los datos de la Tabla 17.1,
calculamos
Media muestral de los automóviles A = 20,9
Media muestral de los automóviles B = 23,2
Media muestral de los automóviles C = 22,9
Naturalmente, estas medias muéstrales no son todas iguales. Sin embargo, como
siempre, cuando se contrastan hipótesis, interesa saber mil es la probabilidad de que las
diferencias de ese tipo surgieran por casualidad, aunque se cumpliera en realidad la
hipótesis nula.

Facultad de Ingeniería E.A.P. Ingeniería Civil 1


Universidad Nacional de Cajamarca “Norte de la Universidad Peruana” Estadítica Aplicada

EI modelo para un análisis de la varianza de un factor


Supongamos que tenemos muestras aleatorias independientes de n1, n2 , ... , nK
observaciones de K poblaciones. Si las medias poblacionales son /11' /12' ... , /1K' el
análisis de la varianza de un factor pretende contrastar la hip6tesis nula

En este apartado presentamos un contraste de la hip6tesis nula de que las medias de K


poblaciones son iguales, dadas muestras aleatorias independientes de esas poblaciones.
El primer paso obvio es calcular las medias muéstrales de los K grupos de
observaciones. Estas medias muéstrales se representan por medio de Xl' X2, ... , xK . En
términos formales.

Donde ni representa el número de observaciones muéstrales del grupo i. En esta


notación, ya hemos observado con los datos de la Tabla.

Ahora bien, la hipótesis nula a de interés especifica que las K poblaciones tienen una
media común. Un paso lógico es, pues, estimar esa media común a partir de las
observaciones muéstrales. Esta es simplemente la suma de todos los valores muéstrales
dividida por su número total. Si n representa el número total de observaciones
muéstrales, entonces

En nuestro ejemplo, n = 20. La media global de las observaciones muéstrales puede


expresarse entonces de la forma siguiente:

Donde el doble sumatorio indica que sumamos todas las observaciones de cada grupo y
las de todos los grupos, es decir, sumamos todas las observaciones existentes. Una
expresi6n equivalente es

Descomposición de la suma de los cuadrados en el


análisis de la varianza de un factor.
Supongamos que tenemos muestras aleatorias independientes de n1, n2 , .•• , nK
observaciones de K poblaciones. Sean x1' x2 ' ••• , xK las medias muéstrales de los K
grupos y x la media muestral global. Definimos las siguientes sumas de los cuadrados

Facultad de Ingeniería E.A.P. Ingeniería Civil 2


Universidad Nacional de Cajamarca “Norte de la Universidad Peruana” Estadítica Aplicada

Donde xij representa la j-esima observaci6n muestral del i-esimo grupo. Entonces:

La descomposición de la suma total de 'los cuadrados en la suma de dos componentes -


las sumas de los cuadrados dentro de los grupos y entre los grupos- constituye la base
del contraste de la igualdad de las medias poblacionales de los grupos basado en el
análisis de la varianza. Podemos considerar que esta descomposición expresa la
variabilidad total de todas las observaciones muéstrales en torno a su media global
como la suma de la variabilidad dentro de los grupos y la variabilidad entre los grupos.

Nuestro contraste de la igualdad de las medias poblacionales se basa en el supuesto de


que las K poblaciones tienen una varianza común. Si la hipótesis nula a de que las
medias poblacionales son iguales es verdadera, cada una de las sumas de los cuadrados,
SCD y SCG, puede utilizarse como base para estimar la varianza poblacional común.
Para obtener estas estimaciones, deben dividirse las sumas de los cuadrados par el
número correspondiente de grados de libertad.
Se obtiene un estimador encestado de la varianza poblacional si se divide SCD por (n -
K). La estimación resultante se denomina media de los cuadrados dentro de los grupos y
se representa par medio de MCD, de manera que

Si las medias poblacionales son iguales, se obtiene otro estimador insesgado de la


varianza poblacional dividiendo SCG por (K - 1), que también se muestra en el
apéndice del capítulo. La cantidad resultante se llama media de los cuadrados entre los
grupos y se representa por medio de MCG; por l0 tanto

Cuando las medias poblacionales no son iguales, la media de los cuadrados entre los
grupos no constituye una estimación insesgada de la varianza poblacional común. EI
valor esperado de la variable aleatoria correspondiente es mayor que la varianza
poblacional común, ya que también contiene información sobre los cuadrados de las
diferencias de las verdaderas medias poblacionales. Si la hipótesis nula fuera verdadera,

Facultad de Ingeniería E.A.P. Ingeniería Civil 3


Universidad Nacional de Cajamarca “Norte de la Universidad Peruana” Estadítica Aplicada

ahora tendríamos dos estimaciones insesgadas de la misma cantidad, la varianza


poblacional común. Sería razonable esperar que estas estimaciones fueran muy
parecidas. Cuanto mayor es la diferencia entre estas dos estimaciones, manteniéndose
todo 10 de más constante, mayor es nuestra sospecha de que la hipótesis nula no es
verdadera. EI contraste de la hipótesis nula se basa en el cociente entre las medias de los
cuadrados

Si este cociente es cercano a 1, hay pocas razones para dudar de la hipótesis nula de la
igualdad de las medias poblacionales. Sin embargo, como ya hemos refilado, si la
variabilidad entre los grupos es grande en comparación con la variabilidad dentro de los
grupos, sospechamos que la hipótesis nula es falsa. Lo es cuando el cociente F tiene un
valor muy superior a 1. En ese caso, se rechaza la hipótesis nula. Cabe deducir un
contraste formal del hecho de que, si la hipótesis nula de la igualdad de las medias
poblacionales es verdadera, la variable aleatoria sigue una distribución F (analizada en
el apartado 11.4) con '(K - 1) grados de libertad en el numerador y (n - K) grados de
libertad en el denominador, suponiendo que las distribuciones poblacionales son
normales.

Contraste de hipótesis basado en el análisis de la


varianza de un factor

Supongamos que tenemos muestras aleatorias independientes de n1, n2 , ... , nK


observaciones de K poblaciones. Sea n el tamaño total de la muestra, de manera que

Definimos las medias de los cuadrados de la forma siguiente:

La hipótesis nula que se contrasta es que las K medias poblacionales son iguales; es
decir

Postulamos los siguientes supuestos adicionales: 1. Las varianzas poblacionales son


iguales. 2. Las distribuciones poblacionales son normales. La regia de decisión de un
contraste de nivel de significación x es:

Donde FK - 1, n- K" es el numero para el que

Facultad de Ingeniería E.A.P. Ingeniería Civil 4


Universidad Nacional de Cajamarca “Norte de la Universidad Peruana” Estadítica Aplicada

Y la variable aleatoria FK - 1 n - K sigue una distribución F con (K - 1) grados de


libertad en el numerador y (n - K) grados de libertad en el denominador. EI p-valor de
este contraste es el grado más bajo de significación que nos permitirá rechazar la
hipótesis nula.

Modelo poblacional en el caso del análisis de la


varianza de un factor

Es útil observar el modelo del análisis de la varianza de un factor desde una perspectiva
diferente. Sea la variable aleatoria Xi) la j-esima observaci6n de la i-esima poblaci6n y
fila media de esta poblaci6n. En ese caso, Xij puede concebirse como la suma de dos
partes: su media y una variable aleatoria cij de media 0. Por l0 tanto, podemos escribir

Ahora bien, como se toman muestras aleatorias independientes, las variables aleatorias
cij no están correlacionadas entre sí. Además, dado nuestro supuesto de que las
varianzas poblacionales son iguales, se deduce que las cij tienen todas ellas las mismas
varianzas. Por 10 tanto, estas variables aleatorias satisfacen los supuestos habituales
impuestos a los términos de error de un modelo de regresión múltiple. Esta ecuaci6n
puede verse como un modelo de regresi6n con los planímetros desconocidos 111' J-l2'
... , 11K' La hip6tesis nula de interés es

EI supuesto apiadado de la normalidad facilita el contraste de estos planímetros. El


modelo puede expresarse de una forma algo distinta. Sea media global de las K
poblaciones combinadas y Gi la diferencia entre la media poblacional del i-esimo grupo
y esta media global, de manera que

Sustituyendo en la ecuaci6n original, tenemos que

Por 10 que una observaci6n está formada por la suma de una media global 11, un
término específico del grupo G; y un error aleatorio Bi)' Entonces, nuestra hip6tesis
nula es que cada media poblacional 11; es igual que la media global, 0 sea

EI contraste de Kruskal-Wallis
El contraste del análisis de la varianza de un factor del apartado generaliza al caso en el
que hay varias poblaciones el contraste t utilizado para comparar dos medias
poblacionales cuando se dispone de muestras aleatorias independientes. EI contraste se
basa en el supuesto de que las distribuciones poblacionales subyacentes son normales.
En el apartado 15.3 introdujimos el contraste de Mann-Whitney, un contraste no
paramétrico que es válido para comparar las posiciones centrales de dos poblaciones
basado en muestras aleatorias independientes, incluso cuando las distribuciones

Facultad de Ingeniería E.A.P. Ingeniería Civil 5


Universidad Nacional de Cajamarca “Norte de la Universidad Peruana” Estadítica Aplicada

poblacionales no son normales. También es posible desarrollar una alternativa no


paramétrica a al contraste del análisis de la varianza de un factor.
Este contraste se conoce con el nombre de contraste de Kruskal-Wallis y se emplea
cuando un investigador tiene poderosas razones para sospechar que las distribuciones
poblacionales subyacentes pueden ser muy diferentes de la normal. Al igual que la
mayoría de los contrastes no paramétricos que ya hemos visto, el contraste de Kruskal-
Wallis se basa en los puestos ocupados por las observaciones muéstrales en las
ordenaciones correspondientes. Mostraremos como se calcula el estadístico del
contraste utilizando los datos sobre el con sumo de combustible de la Tabla 17.1. Los
valores muéstrales se juntan y se ordenan en sentido ascendente, como en la Tabla l7.6,
utilizando la media de los puestos en caso de empate.
Supongamos que tenemos muestras aleatorias independientes de n1, n2 , ... , nK
observaciones de K poblaciones. Sea

El número total de observaciones muéstrales. Sean R1, R2 , …, RK las sumas de los


puestos de las K muestras cuando se juntan las observaciones muéstrales y se ordenan
en sentido ascendente. EI contraste de la hip6tesis nula, Ho' de la igualdad de las medias
poblacionales se vas a en el estadístico

La regia de decisi6n de un contraste al nivel de significación a es

Donde X~ 1 " es el número que es superado con la probabilidad C por una variable
aleatoria l con (K - 1)' grados de libertad. Este método es aproximadamente valido,
siempre que la muestra contenga al menos cinco observaciones de cada población.

Análisis de la varianza bifactorial: una observación por


celda, bloques aleatorizados

Aunque lo que nos interesa principalmente es el análisis de un aspecto de un


experimento, podemos sospechar que hay un segundo factor que influye
significativamente en el resultado. En los apartados anteriores de este capítulo hemos
analizado un experimento en el que el objetivo era comparar el consumo de combustible
de tres tipos de autom6viles. Hemos recogido datos de tres muestras aleatorias
independientes de pruebas y los hemos analizado por medio de un análisis de la
varianza de un factor. Hemos supuesto que la variabilidad de los datos muéstrales se
debía dados causas: a la existencia de verdaderas diferencias entre los tres tipos de
autom6viles y a una variaci6n aleatoria. De hecho, podríamos sospechar que parte de la
variabilidad aleatoria observada se debe a las diferencias entre los hábitos de los
conductores. Si fuera posible aislar este último factor, disminuirla la cantidad de
variabilidad aleatoria del experimento. Eso permitirá, a su vez, detectar más fácilmente
las diferencias de rendimiento entre los autom6viles. En otras palabras, desafiando un
experimento para tener en cuenta las diferencias entre las características de los
conductores, confiamos en conseguir un contrate más poderoso de la hip6tesis nula de

Facultad de Ingeniería E.A.P. Ingeniería Civil 6


Universidad Nacional de Cajamarca “Norte de la Universidad Peruana” Estadítica Aplicada

que las medias poblacionales del consumo de combustible de todos los tipos de
autom6viles son iguales. De hecho, es bastante sencillo desafiar un experimento que
pueda tener en cuenta la influencia de un segundo factor de este tipo. Supongamos, una
vez más, que tenemos tres tipos de autom6vil (por ejemplo, autom6viles IX,
autom6viles f3 y autom6viles y) cuyo consumo de combustible queremos comparar.
Consideramos un experimento en el que se realizan seis pruebas con cada tipo de
autom6vil. Si se realizan estas pruebas utilizando seis conductores, cada uno de los
cuales conduce un autom6vil de los tres tipos, es posible, dado que cada tipo de
automóvil será probado por cada conductor, extraer de los resultados informaci6n sobre
la variabilidad de los conductores, así como informaci6n sobre las diferencias entre los
tres tipos de autom6vil. La variable adicional - en este caso, los conductores- se
denomina a veces variable de bloqueo. Se dice que este experimento está organizado en
bloques; en nuestro ejemplo, habrá seis bloques, uno por cada conductor. Este tipo de
desafío por bloques puede utilizarse para obtener información sobre dos factores
simultáneamente. Supongamos, por ejemplo, que queremos comparar el con sumo de
combustible de diferentes tipos de automóvil, pero también de diferentes tipos de
conductores. En concreto, es posible que nos interese saber c6mo influye la edad de los
conductores en el consumo de combustible. Para eso, podemos subdividir los
conductores en grupos de edad. Podríamos utilizar los seis grupos de edad siguientes
(en años).

1. 25 años o menos
2. 26-35
3. 36-45
4. 46-55
5. Más de 65

Antes de preguntarnos mil es el contraste adecuado de la hipótesis que nos interesa, es


útil examinar el modelo poblacional en el que nos basamos implícitamente.
Supongamos que la variable aleatoria Xi) corresponde a la observaci6n del i-esimo
grupo y el j-esimo bloque. Se considera que este valor es la suma de los cuatro
componentes siguientes. 1. Una media «global» 11. 2. Un planímetro G; que es
específico del i-esimo grupo y que mide la diferencia entre la media de ese grupo y la
media global. 3. Un planímetro Bj, que es específico del i-esimo bloque y que mide la
diferencia entre la media de ese bloque y la media global. 4. Una variable aleatoria f.ij'
que representa el error experimental, 0 sea la parte de la observaci6n que no es
explicada ni por la media global ni por la pertenencia a los grupos 0 los bloques.
Podemos escribir, pues,

Se supone que el término de error f.ij satisface los supuestos habituales del modelo de
regresi6n múltiple. En concreto, pues, se supone que las varianzas son independientes e
iguales. En tal caso, podemos formular la expresi6n anterior de la forma siguiente:

A continuaci6n, dados los datos muéstrales, estimamos la media global 11 por medio de
la media muestral global X, por lo que (xi) - x) es una estimaci6n del primer miembro.
La diferencia Gj entre la media poblacional del i-esimo grupo y la media poblacional
global se estima por medio de la correspondiente diferencia entre las medias muéstrales,
(Xi. - x)

Facultad de Ingeniería E.A.P. Ingeniería Civil 7


Universidad Nacional de Cajamarca “Norte de la Universidad Peruana” Estadítica Aplicada

Asimismo, B) se estima por medio de (x.) - x). Por último, restando, estimamos el
término de error:

Tenemos, pues, considerando los miembros muéstrales, que

En esta ecuaci6n, la variabilidad muestral total de las observaciones en torno a la media


global es la suma de las variabilidades que se debe en a las diferencias entre los grupos,
a las diferencias entre los bloques y al error, respectivamente. Es en la descomposici6n
de estas sumas de los cuadrados en la que se basa el análisis de experimentos de este
tipo. El análisis se llama análisis de la varianza bifactorial, ya que los datos se clasifican
de dos formas, por grupos y por bloques

Descomposición de la suma de los cuadrados del


análisis de la varianza bifactoria
Supongamos que tenemos una muestra de observaciones y que xi" es la observaci6n del
j-esimo grupo y el j-esimo bloque. Supongamos que hay K grupos y H bloques, 10 que
hace un total de

Observaciones. Sean las medias muéstrales de los grupos Xi' (i = 1, 2, ... , K), las
medias · muéstrales de los bloques X. U = 1, 2, ... , H) y la media muestral global x.
Definimos las siguientes sumas de los cuadrados:

Facultad de Ingeniería E.A.P. Ingeniería Civil 8


Universidad Nacional de Cajamarca “Norte de la Universidad Peruana” Estadítica Aplicada

Entonces

A partir de aquí, los contrastes relacionados con el análisis de la varianza bifactorial se


realizan de la misma forma que los contrastes relacionados con el análisis de la varianza
de un factor del apartado 17.2. En primer lugar, obtenemos la media de los cuadrados
dividiendo cada una de las sumas de los cuadrados por el número correspondiente de
grados de libertad. En el caso de la suma total de los cuadrados, los grados de libertad
son 1 menos que el número total de observaciones, es decir, (n - 1). En el caso de la
suma de los cuadrados entre grupos, los grados de libertad son 1 menos que el número
de grupos, 0 sea (K - 1). Asimismo, en el caso de la suma de los cuadrados entre
bloques, el número de grados de libertad es (H - 1). Por 10 tanto, restando, los grados de
libertad correspondientes a la suma de los cuadrados de los errores son

La hipótesis nula de que las medias poblacionales de los grupos son iguales puede
contrastarse entonces por medio del cociente entre la media de los cuadrados de los
grupos y la media de los cuadrados de los errores, A menudo se incluye una variable de
bloqueo en el análisis simplemente para reducir la variabilidad debida al error
experimental. Sin embargo, a veces también tiene interés la hipótesis de que las medias
poblacionales de los bloques son iguales. Esta hipótesis puede contrastarse por medio
del cociente entre la media de los cuadrados de los bloques y la media de los cuadrados
de los errores de la ecuación 17.19. AI igual que ocurre en el caso del análisis de la
varianza de un factor, la comparación proviene de la probabilidad de una cola de la
distribución F.

Contrastes de hipótesis en el caso del análisis de la


varianza bifactorial

Supongamos que tenemos una observación muestral para cada a combinación grupo-
bloque en un desafío que contiene K grupos y H bloques:

Donde G es el efecto del grupo y B es el efecto del bloque. Definamos las siguientes
medias de los cuadrados:

Suponemos que los términos de error 8 jj del modele son independientes entre si y
tienen la misma varianza. Suponemos, además, que estos errores siguen una
distribución normal. La regia de decisión de un contraste al nivel de significación (J. de
la hipótesis nula, Ho' de que las K medias poblacionales de los grupos son iguales es

Facultad de Ingeniería E.A.P. Ingeniería Civil 9


Universidad Nacional de Cajamarca “Norte de la Universidad Peruana” Estadítica Aplicada

La regia de decisión de un contraste al nivel de significación (J. de la hipótesis nula, Ho'


de que las H medias poblacionales de los bloques son iguales es

Aquí, Fv" V2, ~ es el número que es superado con la probabilidad (J. por una variable
aleatoria que sigue una distribución F con v1 grados de libertad en el numerador y v2
grados de libertad en el denominador.
Por 10 tanto, basándose en estos datos, se rechaza claramente al nivel de significaci6n
del 1 por ciento la hip6tesis de que las medias poblacionales del con sumo de
combustible de los tres tipos de autom6viles son iguales.

Análisis de la varianza bifactorial: más de una


observación por celda

Para representar las observaciones muéstrales individuales, necesitamos un subíndice


triple, por 10 que Xijl representa la l-esima observaci6n de la ij-esima celda, es decir, la
l-esima observaci6n de la celda correspondiente al i-esimo grupo y el j-esimo bloque. Al
igual que antes, K representa el número de grupos y H el número de bloques. L
representa el número de observaciones por celda. Por 10 tanto, en el ejemplo de la Tabla
17.10, K = 3, H = 5 y L = 3.
Observaciones muéstrales sobre K grupos y H Bloques; L observaciones por celda

Basándonos en los resultados de un experimento de este tipo, podemos contrastar tres


hip6tesis nulas: ninguna diferencia entre las medias de los grupos, ninguna diferencia
entre las medias de los bloques y ninguna interacci6n entre los grupos y los bloques.
Para realizar estos contrastes, calculamos de nuevo varias medias muéstrales, que se
definen y se calculan de la forma siguiente.
1. Medias de los grupos La media de todas las observaciones muéstrales del i-esimo
grupo se representa por medio de Xi… por lo que

Facultad de Ingeniería E.A.P. Ingeniería Civil 10


Universidad Nacional de Cajamarca “Norte de la Universidad Peruana” Estadítica Aplicada

2. Medias de los bloques La media de todas las observaciones muéstrales del j-esimo
bloque se representa por medio de x.j., por lo que

3. Medias de las celdas Para comprobar la posibilidad de que haya interacciones


entre los grupos y los bloques, es necesario calcular la media muestral de cada
celda. Sea xu. la medi8 muestral de la (ij)-esima celda. En ese caso

4. La media de todas las observaciones muéstrales se representa por medio de X, por


10 que

Ahora bien, para comprender mejor el análisis, es útil basamos en el modelo


poblacional supuesto. Sea Xjil la variable aleatoria correspondiente a la l-esima
observaci6n de la ij-esima celda. En ese caso, el modelo supuesto en nuestro análisis es

Los tres primeros términos del segundo miembro son exactamente los mismos que los
del modelo en el que no había repeticiones. Representan, al igual que antes, una media
global, un factor específico del grupo y un factor específico del bloque. El termino
siguiente, Iii' representa el efecto de estar en la ji-esima casilla, dado que ya se tienen en
cuenta el efecto global, el efecto del grupo y el efecto del bloque. Si no hubiera ninguna
interacci6n entre los grupos y los bloques, este término sería O. Su presencia en el
modelo nos permite averiguar si hay interacci6n. Por último, el termino de error, eijl, es
una variable aleatoria que representa el error experimental. Replanteamos el modelo en
forma de desviaciones con respecto a la media:

Se demuestra que la suma total de los cuadrados puede descomponerse en la suma de


cuatro términos, que representan la variabilidad que se debe a los grupos, a los bloques,
a la interacci6n entre los grupos y los bloques y al error. En las ecuaciones 17.20 a
17.25 se muestra la descomposici6n en la que se basan los contrastes sin indicar en
detalle c6mo se obtienen.

Análisis de la varianza bifactorial: varias observaciones


por celda

Supongamos que tenemos una muestra de observaciones sobre K grupos y H bloques y


L observaciones por celda. Sea xi/ la I-esima observaci6n de la celda del i-esimo grupo

Facultad de Ingeniería E.A.P. Ingeniería Civil 11


Universidad Nacional de Cajamarca “Norte de la Universidad Peruana” Estadítica Aplicada

y el j-esimo bloque. Sea x la media muestra global, xj •• las medias muéstrales de los
grupos, x.j • las medias muéstrales de los bloques y Xi' las medias muéstrales de las
celdas. A continuaci6n, definimos las siguientes sumas de los cuadrados y los grados de
libertad correspondientes:

Dividiendo las sumas de los cuadrados de los componentes por sus grados de libertad
correspondientes, tenemos las medias de los cuadrados MCG, MCB, MCI Y MCE. Los
contrastes de las hip6tesis de que no hay efectos de los grupos, de los bloques y de la
interacci6n se basan en los respectivos cocientes F:

Los contrastes se realizan comparando estas cifras con las distribuciones F con los
correspondientes grados de libertad del numerador y el denominador. Su validez se basa
en el supuesto de que los eij/ se comportan como una muestra aleatoria extra de una
distribuci6n normal.

Facultad de Ingeniería E.A.P. Ingeniería Civil 12


Universidad Nacional de Cajamarca “Norte de la Universidad Peruana” Estadítica Aplicada

Formato general de la tabla del análisis de la varianza bifactorial con L observaciones


por celda.

Cálculos del análisis de la varianza normalmente se realizan utilizando un paquete


estadístico como Minitab, por 10 que raras veces la complejidad aritmética limita los
análisis prácticos_ Los grados de libertad de la figura se deducen del hecho de que en el
caso de estos datos tenemos que
K=3 H=5 L=3
Las medias de los cuadrados se obtienen dividiendo las sumas de los cuadrados por los
grados de libertad correspondientes. Por último, los cocientes F se obtienen dividiendo,
a su vez, cada una de las tres primeras medias de los cuadrados por la media de los
cuadrados de los errores.

Facultad de Ingeniería E.A.P. Ingeniería Civil 13


Universidad Nacional de Cajamarca “Norte de la Universidad Peruana” Estadítica Aplicada

Ejercicios Resueltos

1. En un experimento se compararon tres métodos de enseñar un idioma


extranjero; para evaluar la instrucción, se administró una prueba de
vocabulario de 50 preguntas a los 24 estudiantes del experimento repartidos
de a ocho por grupo.
a) ¿Cuál es la variable respuesta y la explicativa en este estudio?
R:
La variable respuesta es el puntaje en la prueba de vocabulario
La variable explicativa son los métodos de enseñanza (auditivo, traducción y
combinado). Es un factor con 3 niveles.
b) Complete la tabla de ANOVA:

Solución
Pasos para completar la tabla:
1.Calculo los grados de libertad, en el total son n-1 y n=24, por lo tanto, son 23.
Los grupos a comparar son 3 por lo tanto los gl Inter son 2, verifico que (2+21) son los
23 del total.
2.La suma de cuadrados Inter se obtiene multiplicando la media cuadrática por los gl,
i.e. 323.792*2=647.584
3.Teniendo la SC Inter, saco la SC Intra restando 1460.958-647.584=813.374
4. Con la SC Intra y los gl calculo la media cuadrática Intra =813.374/21=38.732
5. Por último, con las dos MC calculo el test F=323.792/38.732=8.360

Facultad de Ingeniería E.A.P. Ingeniería Civil 14


Universidad Nacional de Cajamarca “Norte de la Universidad Peruana” Estadítica Aplicada

c) Qué supuestos debería verificar el investigador, escriba las hipótesis asociadas a


ellos.
R:
El investigador antes de comparar las medias, debe verificar los supuestos de
Normalidad y de Homogeneidad delas varianzas (el supuesto de independencia se
comprueba en el diseño, dividió a 8 estudiantes por cada método).
Hipótesis:
1)Normalidad: Necesita realizar 3 pruebas de hipótesis, una para cada grupo del tipo:

𝐻0 ∶ 𝑙𝑜𝑠 𝑝𝑢𝑛𝑡𝑎𝑗𝑒𝑠 𝑑𝑒𝑙 𝑔𝑟𝑢𝑝𝑜 𝑖 𝑠𝑜𝑛 𝑖𝑔𝑢𝑎𝑙𝑒𝑠


𝐻1 ∶ 𝑙𝑜𝑠 𝑝𝑢𝑛𝑡𝑎𝑗𝑒𝑠 𝑑𝑒𝑙 𝑔𝑟𝑢𝑝𝑜 𝑖 𝑛𝑜 𝑠𝑜𝑛 𝑛𝑜𝑟𝑚𝑎𝑙𝑒𝑠

donde i representará cada método de enseñanza: auditivo, traducción y combinado.

2) Homocedasticidad: la hipótesis es:


𝐻0 ∶ 𝜎12 = 𝜎22 = 𝜎32
𝐻1 ∶ 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑖𝑓𝑖𝑒𝑟𝑒
Donde 1= método auditivo, 2= método traducción, 3= método combinado.

d) Asuma que se cumplen los supuestos y realice la prueba de interés para el


investigador. Informe la conclusión del estudio.

R:
Si se cumplen los supuestos, entonces podemos comparar las medias de los métodos de
enseñanza usando el test Fde la ANOVA:
Hipótesis:

Facultad de Ingeniería E.A.P. Ingeniería Civil 15


Universidad Nacional de Cajamarca “Norte de la Universidad Peruana” Estadítica Aplicada

𝐻0 ∶ 𝜇1 = 𝜇2 = 𝜇3
𝐻1 ∶ 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑑𝑜𝑠 𝑚𝑒𝑑𝑖𝑎𝑠 𝑛𝑜 𝑠𝑜𝑛 𝑖𝑔𝑢𝑎𝑙𝑒𝑠

De la tabla de ANOVA sacamos el test F=8,36 al que corresponde un valor-p de 0,002,


este valor-p es menor que el nivel de significación de 0,05, por lo tanto, rechazamos la
hipótesis nula y concluimos que existen diferencias significativas entre las medias de
los métodos de enseñanza al 5%.

2. Un exceso de ozono es una señal de contaminación. Se tomaron seis


muestras de aire de concentraciones de ozono (en partes por 10 mil)
en cuatro ciudades de la séptima región (Curicó, Talca, Linares y Maule)
y se determinó el contenido de ozono. Use las salidas de SPSS para llevar
a cabo el Análisis de Varianza (ANOVA) paso a paso. Al final informe
sobre la situación del ozono a las autoridades regionales.

Solución
Si ordenamos los promedios vemos que en Curicó se obtiene el promedio más bajo de
ozono, luego está Maule, Talca y Linares. Llama la atención que en Linares se den
promedios mayores que en Talca que es una ciudad mayor.

Deberíamos mostrar un gráfico de caja, pero no tenemos los datos. Segundo,


verificamos los supuestos, primero el supuesto de independencia se cumple ya que
los datos son de distintas ciudades, hay independencia; seguimos con el de Normalidad
(usaremos el Test de Kolmogórov-Smirnov)
𝐻0 ∶ 𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑑𝑒 𝑜𝑧𝑜𝑛𝑜 𝑑𝑒 𝐶𝑢𝑟𝑖𝑐ó 𝑒𝑠 𝑛𝑜𝑟𝑚𝑎𝑙
𝐻1 ∶ 𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑑𝑒 𝑜𝑧𝑜𝑛𝑜 𝑑𝑒 𝐶𝑢𝑟𝑖𝑐ó 𝑁𝑂 𝑒𝑠 𝑛𝑜𝑟𝑚𝑎𝑙

Estadístico de KS= 0,214, valor-p=0,2 mayor que 0,05 por lo tanto acepto normalidad

Facultad de Ingeniería E.A.P. Ingeniería Civil 16


Universidad Nacional de Cajamarca “Norte de la Universidad Peruana” Estadítica Aplicada

𝐻0 ∶ 𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑑𝑒 𝑜𝑧𝑜𝑛𝑜 𝑑𝑒 𝑇𝑎𝑙𝑐𝑎 𝑒𝑠 𝑛𝑜𝑟𝑚𝑎𝑙


𝐻1 ∶ 𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑑𝑒 𝑜𝑧𝑜𝑛𝑜 𝑑𝑒 𝑇𝑎𝑙𝑐𝑎 𝑁𝑂 𝑒𝑠 𝑛𝑜𝑟𝑚𝑎𝑙

Estadístico de KS= 0,285, valor-p=0,138 mayor que 0,05 por lo tanto acepto normalidad

𝐻0 ∶ 𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑑𝑒 𝑜𝑧𝑜𝑛𝑜 𝑑𝑒 𝐿𝑖𝑛𝑎𝑟𝑒𝑠 𝑒𝑠 𝑛𝑜𝑟𝑚𝑎𝑙


𝐻1 ∶ 𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑑𝑒 𝑜𝑧𝑜𝑛𝑜 𝑑𝑒 𝐿𝑖𝑛𝑎𝑟𝑒𝑠 𝑁𝑂 𝑒𝑠 𝑛𝑜𝑟𝑚𝑎𝑙

Estadístico de KS= 0,102, valor-p=0,2 mayor que 0,05 por lo tanto acepto normalidad

𝐻0 ∶ 𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑑𝑒 𝑜𝑧𝑜𝑛𝑜 𝑑𝑒 𝑀𝑎𝑢𝑙𝑒 𝑒𝑠 𝑛𝑜𝑟𝑚𝑎𝑙


𝐻1 ∶ 𝑙𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑑𝑒 𝑜𝑧𝑜𝑛𝑜 𝑑𝑒 𝑀𝑎𝑢𝑙𝑒 𝑁𝑂 𝑒𝑠 𝑛𝑜𝑟𝑚𝑎𝑙

Estadístico de KS= 0,190, valor-p=0,2 mayor que 0,05 por lo tanto acepto normalidad
Conclusión general, podemos aceptar el supuesto de Normalidad de estos datos en todas
las ciudades.
Continuamos con el supuesto de homocedasticidad, realizamos el test de Levene para
la hipótesis:

𝐻0 ∶ 𝜎12 = 𝜎22 = 𝜎32


𝐻1 ∶ 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑖𝑓𝑖𝑒𝑟𝑒

Donde 1=Curicó, 2=Talca, 3=Linares y 4=Maule


Resultado según tabla: Estadístico= 1,081, valor-p=0,38, es mayor que 0,05, por lo tanto
acepto la hipótesis nula y podemos concluir que las varianzas son homogéneas. Se
cumple el supuesto de homocedasticidad.
En vista que se cumplen todos los supuestos ANOVA, procedemos a comparar las
medias de las mediciones de ozono en las 4 ciudades con el test de ANOVA, la
hipótesis es:
𝐻0 ∶ 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4
𝐻1 ∶ 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑑𝑜𝑠 𝑚𝑒𝑑𝑖𝑎𝑠 𝑛𝑜 𝑠𝑜𝑛 𝑖𝑔𝑢𝑎𝑙𝑒𝑠

Facultad de Ingeniería E.A.P. Ingeniería Civil 17


Universidad Nacional de Cajamarca “Norte de la Universidad Peruana” Estadítica Aplicada

Según la tabla el F observado es 9,418 y el valor-p es menor que 0,001, por lo


tanto, rechazamos la hipótesis nula, y concluimos que existen diferencias significativas
entre los promedios de ozono en estas ciudades.
Ahora nos interesa saber qué promedios son diferentes. Para eso hacemos test
de comparaciones múltiples de Tukey, que controla la tasa de error tipo I.
Mirando la tabla de la salida de SPSS podemos construir la siguiente tabla con los
promedios ordenados de menor a mayor:

Informe:
Después de estudiar los datos, podemos llegar a una conclusión global de que Curicó,
Maule y Talca tienen promedios similares de ozono, en cambio Linares aparece con
niveles significativamente superiores (al 5%).

3. En un experimento se compararon tres métodos de enseñar un idioma


extranjero; para evaluar la instrucción, se administró una prueba de
vocabulario de 50 preguntas a los 24 estudiantes del experimento repartidos
de a ocho por grupo.

a) ¿Cuál es la variable respuesta y la explicativa en este estudio?


b) Complete la tabla de ANOVA.
c) Qué supuestos debería verificar el investigador, escriba las hipótesis
asociadas a ellos.

Facultad de Ingeniería E.A.P. Ingeniería Civil 18


Universidad Nacional de Cajamarca “Norte de la Universidad Peruana” Estadítica Aplicada

Solución
a) La variable respuesta es el puntaje en la prueba de vocabulario.
La variable explicativa son los métodos de enseñanza (auditivo, traducción y
combinado). Es un factor con 3 niveles.

b) Pasos para completar la tabla:

- Cálculo los grados de libertad, en el total son n-1 y n=24, por lo tanto, son
23. Los grupos a comparar son 3 por lo tanto los gl Inter son 2, verifico que
(2+21) son los 23 del total.
- La suma de cuadrados Inter se obtiene multiplicando la media cuadrática por
los gl, i.e. 323.792*2=647.584
- Teniendo la SC Inter, saco la SC Intra restando 1460.958-647.584=813.374
- Con la SC Intra y los gl calculo la media cuadrática Intra
=813.374/21=38.732
- Por último, con las dos MC calculo el test F=323.792/38.732=8.360

c) El investigador antes de comparar las medias, debe verificar los supuestos de


Normalidad y de Homogeneidad de las varianzas (el supuesto de independencia
se comprueba en el diseño, dividió a 8 estudiantes por cada método).

4. Se busca determinar la influencia de la orientación psicológica en los


métodos de crianza de los niños, mediante una comparación entre liberales y
conservadores. Queremos hacer varias comparaciones que presenten varios
puntos en la escala psicológica, podríamos comparar la permisibilidad en la
crianza de los niños de conservadores, liberales, radicales y moderados.

Facultad de Ingeniería E.A.P. Ingeniería Civil 19


Universidad Nacional de Cajamarca “Norte de la Universidad Peruana” Estadítica Aplicada

Fórmula: Suma total de todos los cuadrados.

N = número de datos de todos los grupos.


n = número de datos de un grupo.

Grupo 1: (1.5 - 1.75)2 (4) = (-0.25)2 (4) = 0.6 (4) = 0.24


Grupo 2: (2 - 1.75)2 (4) = (0.25)2 (4) = 0.6 (4) = 0.24
Grupo 3: (1.75 - 1.75)2 (4) = (0)2 (4) = 0
Grupo 4: (1.75 - 1.75)2 (4) = (0)2 (4) = 0
SCinter = 0.24 + 0.24 + 0 + 0 = 0.48 Variación que existe entre los grupos.
Cálculo de:

Facultad de Ingeniería E.A.P. Ingeniería Civil 20


Universidad Nacional de Cajamarca “Norte de la Universidad Peruana” Estadítica Aplicada

Comprobación
SCT = SCinter + SCintra
SCintra = SCT – SCinter
SCinter = 0.48 = 0.5
SCintra = 6.5
SCT = 6.5 + 0.5 = 7
SCintra = 7 - 05 = 6.5
Calculamos la media cuadrática (cuadrado medio) Existe una media de variación
conocida como la media cuadrática o varianza, que obtenemos dividiendo SCintra o
SCinter mediante los grados de libertad apropiados.

Cálculo de la media cuadrática:

glinter = K - 1 = 4 - 1 = 3
glintra = NT + K = 16 - 4 = 12

Facultad de Ingeniería E.A.P. Ingeniería Civil 21