Analisis de Varianzas

Ao de la Integracin Nacional y el Reconocimiento de Nuestra Diversidad
UNIVERSIDAD NACIONAL DE PIURA
2012
ANLISIS DE VARIANZA
Docente : Dr. Alfredo Sulln Len Curso

:
Bioestadstica
Alumnos :
Antn Checa, Justo Bautista Castillo, Jairo Puelles Facundo, Zulema Reyes Castro, Yamila Smbala Jalca, Giennier
FACULTAD DE MEDICINA HUMANA
UNIVERSIDAD NACIONAL DE PIURA FACULTAD DE MEDICINA HUMANA
BIOESTADSTICA Anlisis de Varianza
INTRODUCCION
Del mismo modo que el contraste generalizaba el contraste de dos proporciones, es necesario definir un nuevo contraste de hiptesis que sea aplicable en aquellas situaciones en las que el nmero de medias que queremos comparar sea superior a dos. Es por ello por lo que el anlisis de la varianza, ANOVA surge como una generalizacin del contraste para dos medias de la de Student, cuando el nmero de muestras a contrastar es mayor que dos. Por ejemplo, supongamos que tenemos 3 muestras de diferentes tamaos que suponemos que provienen de tres poblaciones normales con la misma varianza:
Si queremos realizar el contraste
podramos en plantearnos como primer mtodo el fijar una cantidad
prxima a cero y realizar
los
contrastes siguientes con
como nivel de significacin:
de modo que se aceptara H1 y se rechazara H0 slo si alguna de las hiptesis alternativas H1', H1'' H1''' es aceptada y rechazada su correspondiente hiptesis nula. El error de tipo I para este contraste es:
Por ello el nivel de significacin obtenido para este contraste sobre la igualdad de medias de tres muestras no es como hubisemos esperado obtener inicialmente, sino . Por ejemplo, si tomamos un nivel de significacin para cada uno de los contrastes de igualdad de dos medias, se obtendra que el nivel de significacin (error de tipo I) para el contraste de las tres medias es de 1-0,93=0,27, lo que es una cantidad muy alta para lo que acostumbramos a usar. En consecuencia, no es adecuado realizar el contraste de igualdad de medias de varias muestras mediante una multitud de contrastes de igualdad de medias de dos muestras. Una tcnica que nos permite realizar el contraste de modo conveniente es la que exponemos en este captulo y que se denomina anlisis de la varianza.
1. ANOVA CON UN FACTOR

Se denomina modelo factorial con un factor o ANOVA con un factor al modelo (lineal) en el que la variable analizada la hacemos depender de un slo factor de tal manera que las causas de su variabilidad son englobadas en una componente aleatoria que se denomina error experimental:
Vamos a exponer esto con ms claridad. Consideremos una variable sobre la que acta un factor que puede presentarse bajo un determinado nmero de niveles, t. Por ejemplo podemos considerar un frmaco que se administra a t=3 grupos de personas y se les realiza cierta medicin del efecto causado: Resultado de la medicin Gripe (nivel 1) 5 3 2 5 4 3
Apendicitis (nivel 2) 8 9 6 7 8 9 10 8 10 Sanos (nivel 3) 2 3 2 1 2 3 2
En este caso los factores que influyen en las observaciones son tres: el que la persona padezca la gripe, apendicitis, o que est sana. De modo general podemos representar las t muestras (o niveles) del siguiente modo: Niveles Nivel Nivel ... Nivel Observaciones de X x11 x12 x21 x22 ... xt1 xt2 x2n2 x1n1 tamaos muestrales n1 n2 ... xtnt nt
donde por supuesto, los tamaos de cada muestra ni, no tienen por que ser iguales. En este caso decimos que se trata del modelo no equilibrado.
a. Observacin
De ahora en adelante asumiremos que las siguientes condiciones son verificadas por las t muestras:

Las observaciones proceden de poblaciones normales; Las t muestras son aleatorias e independientes. Adems, dentro de cada nivel las observaciones son independientes entre s. En el modelo de un factor suponemos que las observaciones del nivel i, xij, provienen de una variable Xij de forma que todas tienen la misma varianza --hiptesis de homocedasticidad:
o lo que es lo mismo,
De este modo es el valor esperado para las observaciones del nivel i, y los errores son variables aleatorias independientes, con valor esperado nulo, y con el mismo grado de dispersin para todas las observaciones. Otro modo de escribir lo mismo consiste en introducir una cantidad que sea el valor esperado para una persona cualquiera de la poblacin (sin tener en cuenta los diferentes niveles), y considerar los efectos introducidos por los niveles, de modo que
b. Especificacin del modelo

Con todo lo anterior, el modelo ANOVA de un factor puede escribirse como
y con la siguiente interpretacin:

es una constante comn a todos los niveles; es el efecto producido por el i-simo nivel. Al sumarlos todos deben compensarse los efectos negativos con los positivos para que la media comn a todos los niveles sea realmente . Esto implica en particular que los efectos, independientes; , de los niveles no son
es la parte de la variable Xij no explicada por ni , y que se distribuye del mismo modo (aunque independientemente) para cada observacin, segn la ley gaussiana:
sta es la condicin de homocedasticidad, y es fundamental en el anlisis de la varianza. Obsrvese que ahora podemos escribir el contraste de que los diferentes niveles no tienen influencia sobre la observacin de la variable como:
o bien 6
b.i. Observacin
Se utiliza el nombre de anlisis de la varianza ya que el elemento bsico del anlisis estadstico ser precisamente el estudio de la variabilidad. Tericamente es posible dividir la variabilidad de la variable que se estudia en dos partes:

La originada por el factor en cuestin; La producida por los restantes factores que entran en juego, conocidos o no, controlables o no, que se conocen con el nombre de error experimental.
Si mediante los contrastes estadsticos adecuados la variacin producida por cierto factor es significativamente mayor que la producida por el error experimental podemos aceptar la hiptesis de que los distintos niveles del factor actan de forma distinta.
b.ii. Ejemplo
Consideremos dos muestras tomadas en diferentes niveles de una variable, de forma que ambas tengan la misma varianza muestral (lo que indica que no se puede rechazar la igualdad de varianzas poblacionales) y medias muestrales bastante diferentes. Por ejemplo:
La dispersin calculada al medir la de los dos niveles conjuntamente es mucho mayor que la de cada uno de ellos por separado. Por tanto puede deducirse que ambos niveles no tienen el mismo valor esperado.
c. ALGO DE NOTACIN RELATIVA AL MODELO

Este apartado est dedicado a introducir alguna notacin para escribir los trminos que sern ms importantes a la hora de realizar un contraste por el mtodo ANOVA. En primer lugar tenemos:
Usando estos trminos vamos a desglosar la variacin total de la muestra en variacin total dentro de cada nivel (intravariacin) ms la variacin entre los distintos niveles (intervariacin). Para ello utilizamos la proposicin:
donde
c.i. Observacin
En el clculo del estadstico intervienen N cantidades, ligadas por una relacin:
de este modo el nmero de grados de libertad de este estadstico es N-1 (recurdese la nocin de grados de libertad de un estadstico, pgina ). Por razones anlogas tenemos que el nmero de grados de libertad de es N-t y el de est-1. As introducimos los siguientes estadsticos:
Estos son los estadsticos que realmente nos interesan a la hora de realizar el contraste de igualdad de medias. Cuando la diferencia entre los efectos de los diferentes niveles sea muy baja, es de esperar que la cuasivarianza total sea prxima a la intravarianza, o lo que es lo mismo, que la intervarianza sea pequea en relacin con la intravarianza. Obsrvese la figura 11.1 9
Figura: En la figura de superior no existe una evidencia significativa en contra de que las medias de los tres grupos de observaciones coinciden. En la figura inferior s.
2. FORMA DE EFECTUAR EL CONTRASTE

Consideramos el contraste
10
y suponemos que estamos en las condiciones del modelo factorial de un factor. Si H0 es cierta se puede demostrar que el siguiente estadstico se distribuye como una de Snedecor:
Luego si al calcular Fexp obtenemos que donde es un nivel de significacin dado, deberemos de rechazar la hiptesis nula (ya que si H0 fuese cierta, era de esperar que fuese pequeo en relacin con ).
3. MTODO REDUCIDO PARA EL ANLISIS DE UN FACTOR

En este apartado vamos a resumir lo ms importante de lo visto hasta ahora, indicando la forma ms sencilla de realizar el contraste. En primer lugar calculamos los siguientes estadsticos a partir de la tabla de las observaciones en cada nivel:
Niveles Observaciones de X Clculos al margen
11
Nivel 1 x11 x12
x1n1 n1
Nivel 2 x21 x22
x2n2 n2
...
...
... ...
Nivel t
xt1 xt2
xtnt
nt
Entonces las siguientes cantidades admiten una expresin muy sencilla:
Calculamos 12
y dado el nivel de significacin valor
buscamos en una tabla de la distribucin
de Snedecor el
rechazando H0 si Fexp>Fteo, como se aprecia en la Figura 11.2.
Figura: Regin crtica en un contraste ANOVA.
13
a. Ejemplo
Se aplican 4 tratamientos distintos a 4 grupos de 5 pacientes, obtenindose los resultados de la tabla que se adjunta. Queremos saber si se puede concluir que todos los tratamientos tienen el mismo efecto. Para ello vamos a suponer que estamos en condiciones de aplicar el modelo de un factor11.2.
Tratamientos
Observaciones
ni
Tratamiento 1 -1 1 2 0 -1 5 Tratamiento 2 -2 -4 -5 -4 -7 5 Tratamiento 3 0 -1 -2 -4 -1 5 Tratamiento 4 1 4 6 3 8 5 N=20
1 -22 -8 22
1/5 484/5 64/5 484/5
7 110 22 126 A=265
Fuente de variacin
grados de Suma cuadrados Cuasivarianzas Estadstico libertad
Entre
t-1=3
= B-C
Fexp
tratamientos
=204,15
=68,167
=18,676
Dentro de los N-t=16
= A-B
Fteo = Ft-1,N-t
14
UNIVERSIDAD NACIONAL DE PIURA FACULTAD DE MEDICINA HUMANA tratamientos =58,4 =3,65
BIOESTADSTICA Anlisis de Varianza =3,24
Figura: Se rechaza la hiptesis de que los tratamientos tienen el mismo efecto en los tres grupos.
En conclusin, Fexp>Fteo, como se observa en la Figura 11.3, por tanto se ha de rechazar la igualdad de efectos de los tratamientos. En la Figura 11.4 se representan las observaciones de cada nivel de tratamiento mediante una curva normal cuyos parmetros se han estimado puntualmente a partir de las observaciones. Obsrvese que las diferencias ms importantes se encuentran entre Los tratamientos 2 y 4. Esto motiva los contrastes de comparaciones mltiples (dos a dos), para que, en el caso en que la igualdad de medias sea rechazada, se pueda establecer qu niveles tuvieron mayor influencia en esta decisin.
Figura: Las diferencias ms importantes se encuentran entre los niveles 2 y 4.
15
16
4. ANLISIS DE LOS RESULTADOS DEL ANOVA: COMPARACIONES MLTIPLES

Una vez contrastado el que existen diferencias significativas mediante el anlisis de la varianza, nos interesa conocer que niveles del factor son los que han influido ms para que se de este resultado. Como ilustracin, en el ltimo ejemplo se ve claramente que los tratamientos segundo y cuarto dan resultados muy diferentes, y probablemente de hay venga el que se haya rechazado la igualdad de todos los efectos. El mtodo ms utilizado consiste en realizar todas las comparaciones por parejas:
lo que corresponde a los ya conocidos contrastes de la de Student, que tienen en este caso como estadstico experimental a (de nuevo suponiendo la homocedasticidad en todas las muestras):
ya que la intravarianza
, es un estimador de
con N-t grados de libertad.
17
5. ANOVA DE VARIOS FACTORES

Hemos estudiado el modelo ANOVA de un factor, tambin denominado modelo de efecto fijo. Existen otros modelos denominados ANOVA de varios factores que no vamos a estudiar aqu, pero que vamos a enunciar brevemente. Como ilustracin podemos escribir el modelo ANOVA de dos factores con interaccin en el cual se tiene
Si suponemos que no hay interaccin entre ambos factores, es decir, cada factor acta independientemente del otro, tenemos el modelo de efectos aditivos:
En ambos casos se supone que las cantidades son independientes para todos los niveles i1 e i2 y todos los individuos jdentro de esos niveles, estando equidistribuidos y con la misma varianza segn una ley gaussiana:
18
6. CONSIDERACIONES SOBRE LAS HIPTESIS SUBYACENTES EN EL MODELO FACTORIAL

Para aplicar el modelo de un factor hemos hecho, entre otras, las siguientes suposiciones:
Las observaciones de cada muestra han de ser independientes y tambin la de las muestras entre s. Para ello podemos aplicar cualquiera de los contrastes no paramtricos de aleatoriedad. En principio esta aleatoriedad es algo que es bastante razonable admitir si la metodologa para elegir los datos (muestreo) ha sido realizada siguiendo tcnicas adecuadas. Los datos han de ser normales en cada una de las muestras. Esto es algo que debera ser contrastado previamente antes de utilizar el ANOVA de un factor mediante, por ejemplo, el test de ajuste a la distribucin normal mediante el estadstico bien el test de d'Agostino, que veremos ms adelante en la pgina cmodo de utilizar; Las varianzas de cada muestra son todas iguales, es decir: que ya conocemos, o , y que es mucho ms
Para esto podemos utilizar un par de contrastes que exponemos brevemente a continuacin: contraste de Cochran y contraste de Bartlett.
Figura: En la figura superior hay evidencia en contra de la homocedasticidad en las tres muestras. En la inferior, no.
19
a. Contraste de homocedasticidad de Cochran

Este test se aplica cuando y si ha sido verificada previamente la aleatoriedad y la normalidad de las observaciones. En este caso . El estadstico del contraste es:
donde se define
como la cuasivarianza de la muestra del nivel i, es decir
Fijado un nivel de significacin
se busca en la tabla de la distribucin de Cochran el valor
20
y se rechaza H0 si Rexp>Rteo.
b. Contraste de homocedasticidad de Bartlett

Este test se aplica si estamos en la misma situacin que en el de Cochran, pero en este caso no es necesario el que todas las muestras sean del mismo tamao. El estadstico del contraste es:
siendo
Se rechaza H0 si
21

Analisis de Varianzas

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Analisis de Varianzas

Încărcat de

Drepturi de autor:

Formate disponibile

Ao de la Integracin Nacional y el Reconocimiento de Nuestra Diversidad

UNIVERSIDAD NACIONAL DE PIURA

Docente : Dr. Alfredo Sulln Len Curso

FACULTAD DE MEDICINA HUMANA

UNIVERSIDAD NACIONAL DE PIURA FACULTAD DE MEDICINA HUMANA

BIOESTADSTICA Anlisis de Varianza

Si queremos realizar el contraste

podramos en plantearnos como primer mtodo el fijar una cantidad

prxima a cero y realizar

contrastes siguientes con

como nivel de significacin:

UNIVERSIDAD NACIONAL DE PIURA FACULTAD DE MEDICINA HUMANA

BIOESTADSTICA Anlisis de Varianza

UNIVERSIDAD NACIONAL DE PIURA FACULTAD DE MEDICINA HUMANA

BIOESTADSTICA Anlisis de Varianza

1. ANOVA CON UN FACTOR

Apendicitis (nivel 2) 8 9 6 7 8 9 10 8 10 Sanos (nivel 3) 2 3 2 1 2 3 2

UNIVERSIDAD NACIONAL DE PIURA FACULTAD DE MEDICINA HUMANA

BIOESTADSTICA Anlisis de Varianza

UNIVERSIDAD NACIONAL DE PIURA FACULTAD DE MEDICINA HUMANA

BIOESTADSTICA Anlisis de Varianza

b. Especificacin del modelo

y con la siguiente interpretacin:

UNIVERSIDAD NACIONAL DE PIURA FACULTAD DE MEDICINA HUMANA

BIOESTADSTICA Anlisis de Varianza

UNIVERSIDAD NACIONAL DE PIURA FACULTAD DE MEDICINA HUMANA

BIOESTADSTICA Anlisis de Varianza

c. ALGO DE NOTACIN RELATIVA AL MODELO

UNIVERSIDAD NACIONAL DE PIURA FACULTAD DE MEDICINA HUMANA

BIOESTADSTICA Anlisis de Varianza

UNIVERSIDAD NACIONAL DE PIURA FACULTAD DE MEDICINA HUMANA

BIOESTADSTICA Anlisis de Varianza

2. FORMA DE EFECTUAR EL CONTRASTE

UNIVERSIDAD NACIONAL DE PIURA FACULTAD DE MEDICINA HUMANA

BIOESTADSTICA Anlisis de Varianza

3. MTODO REDUCIDO PARA EL ANLISIS DE UN FACTOR

Niveles Observaciones de X Clculos al margen

UNIVERSIDAD NACIONAL DE PIURA FACULTAD DE MEDICINA HUMANA

BIOESTADSTICA Anlisis de Varianza

Nivel 1 x11 x12

Nivel 2 x21 x22

Entonces las siguientes cantidades admiten una expresin muy sencilla:

UNIVERSIDAD NACIONAL DE PIURA FACULTAD DE MEDICINA HUMANA

BIOESTADSTICA Anlisis de Varianza

y dado el nivel de significacin valor

buscamos en una tabla de la distribucin

rechazando H0 si Fexp>Fteo, como se aprecia en la Figura 11.2.

Figura: Regin crtica en un contraste ANOVA.

UNIVERSIDAD NACIONAL DE PIURA FACULTAD DE MEDICINA HUMANA

BIOESTADSTICA Anlisis de Varianza

Tratamiento 1 -1 1 2 0 -1 5 Tratamiento 2 -2 -4 -5 -4 -7 5 Tratamiento 3 0 -1 -2 -4 -1 5 Tratamiento 4 1 4 6 3 8 5 N=20

1/5 484/5 64/5 484/5

7 110 22 126 A=265

grados de Suma cuadrados Cuasivarianzas Estadstico libertad

Dentro de los N-t=16

UNIVERSIDAD NACIONAL DE PIURA FACULTAD DE MEDICINA HUMANA tratamientos =58,4 =3,65

BIOESTADSTICA Anlisis de Varianza =3,24

Figura: Las diferencias ms importantes se encuentran entre los niveles 2 y 4.

UNIVERSIDAD NACIONAL DE PIURA FACULTAD DE MEDICINA HUMANA

BIOESTADSTICA Anlisis de Varianza

UNIVERSIDAD NACIONAL DE PIURA FACULTAD DE MEDICINA HUMANA

BIOESTADSTICA Anlisis de Varianza

4. ANLISIS DE LOS RESULTADOS DEL ANOVA: COMPARACIONES MLTIPLES

con N-t grados de libertad.