Documente Academic
Documente Profesional
Documente Cultură
2012
ANLISIS DE VARIANZA
Bioestadstica
Alumnos :
Antn Checa, Justo Bautista Castillo, Jairo Puelles Facundo, Zulema Reyes Castro, Yamila Smbala Jalca, Giennier
INTRODUCCION
Del mismo modo que el contraste generalizaba el contraste de dos proporciones, es necesario definir un nuevo contraste de hiptesis que sea aplicable en aquellas situaciones en las que el nmero de medias que queremos comparar sea superior a dos. Es por ello por lo que el anlisis de la varianza, ANOVA surge como una generalizacin del contraste para dos medias de la de Student, cuando el nmero de muestras a contrastar es mayor que dos. Por ejemplo, supongamos que tenemos 3 muestras de diferentes tamaos que suponemos que provienen de tres poblaciones normales con la misma varianza:
los
de modo que se aceptara H1 y se rechazara H0 slo si alguna de las hiptesis alternativas H1', H1'' H1''' es aceptada y rechazada su correspondiente hiptesis nula. El error de tipo I para este contraste es:
Por ello el nivel de significacin obtenido para este contraste sobre la igualdad de medias de tres muestras no es como hubisemos esperado obtener inicialmente, sino . Por ejemplo, si tomamos un nivel de significacin para cada uno de los contrastes de igualdad de dos medias, se obtendra que el nivel de significacin (error de tipo I) para el contraste de las tres medias es de 1-0,93=0,27, lo que es una cantidad muy alta para lo que acostumbramos a usar. En consecuencia, no es adecuado realizar el contraste de igualdad de medias de varias muestras mediante una multitud de contrastes de igualdad de medias de dos muestras. Una tcnica que nos permite realizar el contraste de modo conveniente es la que exponemos en este captulo y que se denomina anlisis de la varianza.
Vamos a exponer esto con ms claridad. Consideremos una variable sobre la que acta un factor que puede presentarse bajo un determinado nmero de niveles, t. Por ejemplo podemos considerar un frmaco que se administra a t=3 grupos de personas y se les realiza cierta medicin del efecto causado: Resultado de la medicin Gripe (nivel 1) 5 3 2 5 4 3
En este caso los factores que influyen en las observaciones son tres: el que la persona padezca la gripe, apendicitis, o que est sana. De modo general podemos representar las t muestras (o niveles) del siguiente modo: Niveles Nivel Nivel ... Nivel Observaciones de X x11 x12 x21 x22 ... xt1 xt2 x2n2 x1n1 tamaos muestrales n1 n2 ... xtnt nt
donde por supuesto, los tamaos de cada muestra ni, no tienen por que ser iguales. En este caso decimos que se trata del modelo no equilibrado.
a. Observacin
De ahora en adelante asumiremos que las siguientes condiciones son verificadas por las t muestras:
Las observaciones proceden de poblaciones normales; Las t muestras son aleatorias e independientes. Adems, dentro de cada nivel las observaciones son independientes entre s. En el modelo de un factor suponemos que las observaciones del nivel i, xij, provienen de una variable Xij de forma que todas tienen la misma varianza --hiptesis de homocedasticidad:
o lo que es lo mismo,
De este modo es el valor esperado para las observaciones del nivel i, y los errores son variables aleatorias independientes, con valor esperado nulo, y con el mismo grado de dispersin para todas las observaciones. Otro modo de escribir lo mismo consiste en introducir una cantidad que sea el valor esperado para una persona cualquiera de la poblacin (sin tener en cuenta los diferentes niveles), y considerar los efectos introducidos por los niveles, de modo que
es una constante comn a todos los niveles; es el efecto producido por el i-simo nivel. Al sumarlos todos deben compensarse los efectos negativos con los positivos para que la media comn a todos los niveles sea realmente . Esto implica en particular que los efectos, independientes; , de los niveles no son
es la parte de la variable Xij no explicada por ni , y que se distribuye del mismo modo (aunque independientemente) para cada observacin, segn la ley gaussiana:
sta es la condicin de homocedasticidad, y es fundamental en el anlisis de la varianza. Obsrvese que ahora podemos escribir el contraste de que los diferentes niveles no tienen influencia sobre la observacin de la variable como:
o bien 6
b.i. Observacin
Se utiliza el nombre de anlisis de la varianza ya que el elemento bsico del anlisis estadstico ser precisamente el estudio de la variabilidad. Tericamente es posible dividir la variabilidad de la variable que se estudia en dos partes:
La originada por el factor en cuestin; La producida por los restantes factores que entran en juego, conocidos o no, controlables o no, que se conocen con el nombre de error experimental.
Si mediante los contrastes estadsticos adecuados la variacin producida por cierto factor es significativamente mayor que la producida por el error experimental podemos aceptar la hiptesis de que los distintos niveles del factor actan de forma distinta.
b.ii. Ejemplo
Consideremos dos muestras tomadas en diferentes niveles de una variable, de forma que ambas tengan la misma varianza muestral (lo que indica que no se puede rechazar la igualdad de varianzas poblacionales) y medias muestrales bastante diferentes. Por ejemplo:
La dispersin calculada al medir la de los dos niveles conjuntamente es mucho mayor que la de cada uno de ellos por separado. Por tanto puede deducirse que ambos niveles no tienen el mismo valor esperado.
Usando estos trminos vamos a desglosar la variacin total de la muestra en variacin total dentro de cada nivel (intravariacin) ms la variacin entre los distintos niveles (intervariacin). Para ello utilizamos la proposicin:
donde
c.i. Observacin
En el clculo del estadstico intervienen N cantidades, ligadas por una relacin:
de este modo el nmero de grados de libertad de este estadstico es N-1 (recurdese la nocin de grados de libertad de un estadstico, pgina ). Por razones anlogas tenemos que el nmero de grados de libertad de es N-t y el de est-1. As introducimos los siguientes estadsticos:
Estos son los estadsticos que realmente nos interesan a la hora de realizar el contraste de igualdad de medias. Cuando la diferencia entre los efectos de los diferentes niveles sea muy baja, es de esperar que la cuasivarianza total sea prxima a la intravarianza, o lo que es lo mismo, que la intervarianza sea pequea en relacin con la intravarianza. Obsrvese la figura 11.1 9
Figura: En la figura de superior no existe una evidencia significativa en contra de que las medias de los tres grupos de observaciones coinciden. En la figura inferior s.
10
y suponemos que estamos en las condiciones del modelo factorial de un factor. Si H0 es cierta se puede demostrar que el siguiente estadstico se distribuye como una de Snedecor:
Luego si al calcular Fexp obtenemos que donde es un nivel de significacin dado, deberemos de rechazar la hiptesis nula (ya que si H0 fuese cierta, era de esperar que fuese pequeo en relacin con ).
11
x1n1 n1
x2n2 n2
...
...
... ...
Nivel t
xt1 xt2
xtnt
nt
Calculamos 12
de Snedecor el
13
a. Ejemplo
Se aplican 4 tratamientos distintos a 4 grupos de 5 pacientes, obtenindose los resultados de la tabla que se adjunta. Queremos saber si se puede concluir que todos los tratamientos tienen el mismo efecto. Para ello vamos a suponer que estamos en condiciones de aplicar el modelo de un factor11.2.
Tratamientos
Observaciones
ni
1 -22 -8 22
Fuente de variacin
Entre
t-1=3
= B-C
Fexp
tratamientos
=204,15
=68,167
=18,676
= A-B
Fteo = Ft-1,N-t
14
Figura: Se rechaza la hiptesis de que los tratamientos tienen el mismo efecto en los tres grupos.
En conclusin, Fexp>Fteo, como se observa en la Figura 11.3, por tanto se ha de rechazar la igualdad de efectos de los tratamientos. En la Figura 11.4 se representan las observaciones de cada nivel de tratamiento mediante una curva normal cuyos parmetros se han estimado puntualmente a partir de las observaciones. Obsrvese que las diferencias ms importantes se encuentran entre Los tratamientos 2 y 4. Esto motiva los contrastes de comparaciones mltiples (dos a dos), para que, en el caso en que la igualdad de medias sea rechazada, se pueda establecer qu niveles tuvieron mayor influencia en esta decisin.
15
16
lo que corresponde a los ya conocidos contrastes de la de Student, que tienen en este caso como estadstico experimental a (de nuevo suponiendo la homocedasticidad en todas las muestras):
ya que la intravarianza
, es un estimador de
17
Si suponemos que no hay interaccin entre ambos factores, es decir, cada factor acta independientemente del otro, tenemos el modelo de efectos aditivos:
En ambos casos se supone que las cantidades son independientes para todos los niveles i1 e i2 y todos los individuos jdentro de esos niveles, estando equidistribuidos y con la misma varianza segn una ley gaussiana:
18
Las observaciones de cada muestra han de ser independientes y tambin la de las muestras entre s. Para ello podemos aplicar cualquiera de los contrastes no paramtricos de aleatoriedad. En principio esta aleatoriedad es algo que es bastante razonable admitir si la metodologa para elegir los datos (muestreo) ha sido realizada siguiendo tcnicas adecuadas. Los datos han de ser normales en cada una de las muestras. Esto es algo que debera ser contrastado previamente antes de utilizar el ANOVA de un factor mediante, por ejemplo, el test de ajuste a la distribucin normal mediante el estadstico bien el test de d'Agostino, que veremos ms adelante en la pgina cmodo de utilizar; Las varianzas de cada muestra son todas iguales, es decir: que ya conocemos, o , y que es mucho ms
Para esto podemos utilizar un par de contrastes que exponemos brevemente a continuacin: contraste de Cochran y contraste de Bartlett.
Figura: En la figura superior hay evidencia en contra de la homocedasticidad en las tres muestras. En la inferior, no.
19
donde se define
20
y se rechaza H0 si Rexp>Rteo.
siendo
Se rechaza H0 si
21