Sunteți pe pagina 1din 19

M etodos Estad sticos II

Sabando/Villa Cox/Mej a

Apuntes de Clase # 5
Fecha: II T ermino-2012

Pruebas Concernientes a la Varianza

Hay varias razones por las que es importante probar las hip otesis concernientes a las varianzas de las poblaciones. En lo que concierne a las aplicaciones directas, un fabricante que tiene que cumplir con especicaciones r gidas tendr a que efectuar pruebas sobre la variabilidad de su producto, tal vez un maestro desea saber si ciertas aseveraciones son verdaderas acerca de la variabilidad que puede esperar en el desempe no de un estudiante, y quiz a un farmac eutico tiene que comprobar si la variaci on en la potencia de una medicina est a dentro de los l mites permisibles. En lo que concierne a aplicaciones indirectas, las pruebas acerca de las varianzas a menudo son prerrequisitos para las pruebas concernientes a otros par ametros. Por ejemplo, la prueba t de dos muestras requiere que las varianzas de las dos poblaciones sean iguales, y en la pr actica esto signica que quiz a tengamos que comprobar la razonabilidad de esta suposici on antes de efectuar la prueba concerniente a las medias. Entre las pruebas que estudiaremos est a una prueba de la hip otesis nula de que la varianza de una poblaci on normal es igual a una constante dada y la prueba de raz on de verosimilitud de la igualdad de las varianzas de dos poblaciones normales. Dada una muestra aleatoria de tama no n de una 2 2 poblaci on normal, queremos probar la hip otesis nula 2 = 0 contra una de las alternativas 2 = 0 , 2 2 2 2 > 0 o < 0 , la t ecnica de la raz on de verosimilitud nos lleva a una prueba que se basa en s2 , el valor de la varianza de la muestra. Podemos escribir as las regiones cr ticas para probar la hip otesis nula contra las dos alternativas de 2 2 un lado como 2 2 y , donde ,n1 1,n1 (n 1)s2 2 0

2 =

En lo que concierne a la alternativa bilateral, rechazamos la hip otesis nula si 2 2 /2,n1 o 2 2 1/2,n1 , y el tama no de todas estas regiones cr ticas es, por supuesto, igual a . Ejemplo 7.0.1 Suponga que el espesor de una parte usada de un semiconductor es su dimensi on cr tica y que las mediciones del espesor de una muestra aleatoria de 18 de dichas partes tiene la varianza s2 = 0.68, donde las mediciones son en mil esimas de una pulgada. El proceso considera que est a bajo control si la variaci on del espesor est a dada por una varianza no mayor que 0.36. Suponga que las mediciones constituyen una muestra aleatoria de una poblaci on normal, pruebe la hip otesis nula 2 = 0.36 contra la hip otesis alternativa 2 > 0.36 en el nivel 0.05 de signicancia. Soluci on 1. H0 : 2 = 0.36 H1 : 2 > 0.36 = 0.05 2. Rechace la hip otesis nula 2 27.587, donde 2 = y 27.587 es el valor de 2 0.05,17 . (n 1)s2 2 0

A5-1

3. Al sustituir s2 = 0.68, 2 =0.36 y n = 18, obtenemos 2 = 17(0.68) = 32.11 0.36

4. Puesto que 2 = 32.11 excede a 27.587, la hip otesis nula debe rechazarse y el proceso para la manufactura de las partes debe ajustarse.

Advierta que si hubiera sido 0.01 en el ejemplo anterior, no se podr a haber rechazado la hip otesis nula, puesto que 2 = 32.11 no excede a 2 = 33 . 409. Esto sirve para indicar una vez m as 0.01,17 que la elecci on del nivel de signicancia es algo que siempre se debe especicar por adelantado, de manera que se nos libre de la tentaci on de escoger un valor que casualmente satisfaga nuestro nes. Dadas muestras aleatorias independientes de tama no n1 y n2 de dos poblaciones normales con las 2 2 varianzas 1 y 2 , encontramos as que las regiones cr ticas correspondientes de tama no para probar 2 2 2 2 2 2 la hip otesis nula 1 = 2 contra las alternativas unilaterales 1 > 2 o 1 < 2 son, respectivamente, s2 1 s2 2 f,n1 1,n2 1 y s2 2 s2 1 f,n2 1,n1 1

2 2 La regi on cr tica apropiada para probar la hip otesis nula contra la alternativa bilateral 1 = 2 es

s2 1 s2 2 y s2 2 s2 1

f/2,n1 1,n2 1

si

s2 1

s2 2

f/2,n2 1,n1 1

si

2 s2 1 < s2

Advierta que esta prueba se basa totalmente en la cola del lado derecho de la distribuci on F, lo cual se hace posible por el hecho que si la variable aleatoria X tiene la distribuci on F con v1 y v2 grados 1 tiene la distribuci on F con v1 y v2 grados de libertad. de libertad, entonces X Ejemplo 7.0.2 Al comparar la variabilidad de la resistencia a la tracci on de dos clases de acero estructural, un experimento dio los resultados siguientes: n1 = 13, s2 = 19.2, n2 = 16 y s2 1 2 = 3.5, donde las unidades de medici on son 1,000 libras por pulgadas cuadrada. Suponga que las mediciones constituyen variables aleatorias independientes de dos poblaciones normales, prueba de hip otesis nula 2 2 1 = 2 en el nivel 0.002 de signicancia. Soluci on
2 2 1. H0 : 1 = 2 2 2 H1 : 1 = 2 = 0.02

2. Puesto que s2 1

s2 otesis nula si 2 , rechace la hip

s2 1 s2 2

3.67, donde 3.67 es el valor de f0.001,12,15 .

2 3. Al sustituir s2 1 = 19.2 y s1 = 3.5, obtenemos

s2 19.2 1 = = 5.49 s2 3.5 2 4. Puesto que f = 5.49 excede a 3.67, se debe rechazar la hip otesis nula; concluimos que la variabilidad de la resistencia a la tracci on de las dos clases de acero no es la misma.

A5-2

El an alisis de una tabla r c

El m etodo que describiremos se aplica a dos clases de problemas, que dieren conceptualmente pero se analizan de la misma manera. En la primera clase de problema tratamos con muestras de r poblaciones multinomiales, en donde cada ensayo permite c resultados posibles. Este ser a el caso, por ejemplo, cuando se pregunta a las personas entrevistadas en cierto distrito si est an a favor de una candidata, en contra de ella, o indecisos. En este caso r = 5 y c = 3. Tambi en hubiera sido el caso si a cada comprador se le hubiera preguntado si favorec a el detergente A, el detergente B , o no le importaba si era uno o el otro. As podr amos haber obtenido los resultados que se muestran en la siguiente tabla 3 3: N umero que favorece el detergente A Los Angeles San Diego Fresno 174 196 148 N umero que favorece el detergente B 93 124 105 N umero de indiferentes 133 180 147 400 500 400

La hip otesis nula que quisi eramos probar en un problema como este es que estamos muestreando r poblaciones multinomiales id enticas. En forma simb olica, si ij es la probabilidad del j esimo resultado de la i esima poblaci on, quisi eramos probar la hip otesis nula 1j = 2j = ... = rj para j = 1, 2, ...., c. La hip otesis alternativa ser a que 1j , 2j , ... = rj no son todas iguales al menos para un valor de j . En el ejemplo anterior tratamos con tres muestras, cuyos tama nos jos se dieron en los totales de los renglones, 400, 500 y 400; por otra parte, los totales de las columnas se dejaron al azar. En la otra clase de problema donde se aplica el m etodo de esta secci on, estamos tratando con una muestra y los totales de los renglones as como el de las columnas se dejan al azar. Para dar un ejemplo, consideremos la siguiente tabla de un estudio de la relaci on, si la hay, de los IQ de las personas que han pasado por el programa de capacitaci on de una compa n a grande y su desempe no subsecuente en el trabajo: Desempeo Aceptable 64 76 23 163

Pobre Abajo del promedio IQ En el promedio Arriba del promedio 167 42 10 119

Bueno 25 56 37 118 156 174 70 400

En este caso hay una muestra de tama no 400, y los totales de los reglones as como los totales de las columnas se dejan al azar. Es principalmente en relaci on con problemas como este que las tablas rc se conocen como tablas de contingencia. La hip otesis nula que queremos probar por medio de la tabla anterior es que el desempe no en el trabajo de las personas que han pasado por el programa de capacitaci on es independiente de su IQ. En general, si ij es la probabilidad de que un elemento caer a en la celda que pertenece al i esimo rengl on y la j esima columna, i es la probabilidad de que un elemento caer a en el i esimo rengl on, y j es la probabilidad de que un elemento caer a en la j esima columna, la hip otesis nula que queremos probar es ij = i j

A5-3

para i = 1, 2, ..., r y j = 1, 2, ..., c. Correspondientemente, la hip otesis alternativa es ij = i j para al menos un par de valores de i y j . Puesto que el m etodo por el cual analizamos una tabla r c es el mismo sin importar si estamos tratando con r muestras de poblaciones multinomiales con c resultados diferentes o una muestra de una poblaci on multinomial con rc resultados diferentes, examin emoslo aqu con respecto al u ltimo. En lo que sigue, denotaremos la frecuencia observada en el i esimo rengl on y la j esima columna con fij , los totales de los renglones con fi , los totales de las columnas con fj y el gran total, la suma de todas las frecuencias de las celdas, con f . Con esta notaci on, estimamos las probabilidades i y j como fj fi y j = f f y bajo la hip otesis nula de independencia obtenemos i = fi fj fi fj f = f f f para la frecuencia esperada para la celda en el i esimo rengl on y la j esima columna. Advierta que eij as obtenida al multiplicar el total del regl on al cual pertenece la celda por el total de la columna a la cual pertenece y despu es dividir entre el gran total. eij = i j f = Una vez que hemos calculado la eij , basamos nuestra decisi on en el valor de
r c

2 =
i=1 j =1

(fij eij )2 eij

y rechazamos la hip otesis nula si excede a 2 ,(r 1)(c1) . El n umero de grados de libertad es (r 1)(c 1), y en relaci on con esto hagamos la siguiente observaci on: siempre que se estimen frecuencias de celdas en f ormulas de ji cuadrada con base en datos de conteo muestrales, el n umero de grados de libertad es s t 1, donde s es el n umero de t erminos en la suma y t es el n umero de par ametros independientes reemplazados por estimadores. Al hacer la prueba para las diferencasi entre k proporciones con la estad stica ji cuadrada, tenen amos s = 2k y t = k , puesto que ten amos que estimar los k par ametros 1 , 2 , ..., k y el n umero de grados de libertad fue 2k k 1 = k 1. Cuando hacemos la prueba para independencia en una tabla de contingencia r c tenemos s = rc y t = r + c 2, puesto que los r par ametros i y los c par ametros j no son todos independientes: sus sumas respectivas deben ser igual a 1. As , obtenemos s t 1 = rc (r + c 2) 1 = (r 1)(c 1). Puesto que la estad stica de prueba que hemos descrito s olo tiene aproximadamente una distribuci on ji cuadrada (r 1)(c 1) grados de libertad, es costumbre usar esta prueba s olo cuando ninguna de las eij es menor que 5; esto algunas veces requiere que combinemos algunas de las celdas con una p erdida correspondiente en el n umero de grados de libertad. Ejemplo 8.0.3 Use los datos mostrados en la siguiente tabla para probar en el nivel 0.01 de signicancia si la habilidad de una persona en matem aticas es independiente de su inter es en la estad stica.

Habilidad en matem aticas Baja Promedio Alta Bajo Inter es en la estad stica Promedio Alto Soluci on A5-4 63 58 14 42 61 47 15 31 29

1. H0 : La habilidad en matem aticas y el inter es en la estad stica son independientes. H1 : La habilidad en matem aticas y el inter es en la estad stica no son independientes. = 0.02 2. Rechace la hip otesis nula 2 13.277, donde
r c

2 =
i=1 j =1

(fij eij )2 eij

y 13.277 es el valor de 2 0.01,4 . 120 135 120 150 = 45.0, = 50.0 y 120 3. Las frecuencias esperadas del primer regl on son 360 360 45.0 - 50.0 = 25.0, donde hicimos uso del hecho que para cada regl on o columna la suma de las frecuencias de celdas esperadas es igual a la suma de las frecuencias correspondientes observadas. En forma similar, las frecuencias esperadas del segundo regl on son 56.25, 62.5 y 31.25, y las del tercer regl on (todas se obtuvieron al restar de los totales de las columnas) son 33.75, 37.5 y 18.75. Entonces, al sustituir en la f ormula para 2 nos da: 2 = (42 50.0)2 (29 18.75)2 (63 45.0)2 + + ... + = 32.14 45.0 50.0 18.75

4. Puesto que 2 = 32.14 excede a 13.277, se debe rechazar la hip otesis nula; concluimos que hay una relaci on entre la habilidad de una persona en matem aticas y su inter es en la estad stica. Una deciencia del an alisis ji cuadrada de una tabla r c es que no toma en consideraci on un posible orden de los renglones y/o columnas. Por ejemplo, en el ejemplo la habilidad en matem aticas as como el inter es en la estad stica se ordenan de bajo promedio a alto, y el valor que obtenemos para 2 permanecer a igual si los renglones y/o las columnas se intercambiaran entre s . Tambi en, las columnas de la tabla de los detergentes reejan un orden de preferir B (no preferir A) a ser indiferentes a preferir A, pero en este caso no hay un orden espec co de los renglones.

Bondad del Ajuste

La prueba de bondad del ajuste considerada aqu se aplica a situaciones en las que queremos determinar si un conjunto de datos se puede considerar como una muestra aleatoria de una poblaci on que tiene una distribuci on dada. Para ilustrar, suponga que queremos decidir, con base en los datos (frecuencias observadas) de la siguiente tabla, si el n umero de errores que un cajista hace al componer una galera de tipos es una variable aleatoria que tiene una distirbuci on de Poisson: Frecuencia observada fi 18 53 103 107 82 46 18 10 2 1 Probabilidades de Poisson con = 3 0.0498 0.1494 0.2240 0.2240 0.1680 0.1008 0.0504 0.0216 0.0081 0.0038 Frecuencias Esperadas ei 21.9 65.7 98.6 98.6 73.9 44.4 22.2 9.5 3.6 1.7

N umero de errores 0 1 2 3 4 5 6 7 8 9

A5-5

Para determinar un conjunto correspondiente de frecuencias esperadas para una muestra aleatoria de una poblaci on de Poisson, primero usamos la media de la distribuci on observada para estimar 1, 341 = 5.05 o, aproximadamente = 3. Despu es, el par ametro de Poisson , obtenemos = 440 copiamos las probabilidades de Poisson para = 3 de la tabla (usamos probabilidad de 9 o m as en vez de la probabilidad de 9) y multiplicamos por 440, la frecuencia total, y obtenemos las frecuencias esperadas mostradas en la columna del lado derecho de la tabla. Para probar la hip otesis nula que las frecuencias observadas constituyen una muestra aleatoria de una poblaci on de Poisson, debemos juzgar qu e tan buen ajuste tenemos, o qu e tan pr oxima es la correlaci on, entre los dos conjuntos de frecuencias. En general, para probar la hip otesis nula H0 que un conjunto de datos observados viene de una poblaci on que tiene una distribuci on especicada contra la alternativa de que la poblaci on tiene alguna otra distribuci on, calculamos
m

=
i=1

(fi ei )2 ei

y rechazamos H0 en el nivel de signicancia si 2 2 umero de ,mt1 , donde m es el n t erminos en la suma y t es el n umero de par ametros independientes estimados con base en los datos muestrales. En el ejemplo anterior, t = 1 puesto que s olo se estima un par ametro con base en los datos, y el n umero de grados de libertad es m - 2. Ejemplo 9.0.4 Para los datos en la tabla anterior, pruebe al nivel 0.05 de signicancia si el n umero de errores que el cajista hace al componer una galera de tipos es una variable aleatoria que tiene una distribuci on de Poisson. Soluci on (Puesto que las frecuencias esperadas correspondientes a ocho y nueve errores son menores que 5, se combinan las dos clases.) 1. H0 : El n umero de errores es una variable aleatoria de Poisson. H1 : El n umero de errores no es una variable aleatoria de Poisson = 0.05 2. Rechace la hip otesis nula 2 14.067, donde
m

2 =
i=1

(fi ei )2 ei

y 14.067 es el valor de 2 0.05,7 . 3. Al sustituir en la f ormula para 2 , obtenemos 2 = (53 65.7)2 (3 5.3)2 (18 21.9)2 + + ... + = 6.83 21.9 65.7 5.3

4. Puesto que 2 = 6.83 es menor que 14.067, no se puede rechazar la hip otesis nula; ciertamente, la proximidad de la correlaci on entre las frecuencias observadas y esperadas sugiere que la distribuci on de Poisson proporciona un buen ajuste.

10

An alisis de la varianza en un sentido

Para dar un ejemplo de una situaci on t pica donde har amos un an alisis de la varianza en un sentido, suponga que queremos comparar la acci on limpiadora de tres detergentes con base en las siguientes lecturas de blancura en 15 muestras de tela blanca, que primero se mancharon con tinta china y despu es se lavaron en una m aquina tipo agitador con los detergentes respectivos.

A5-6

Detergente A: 77, 81, 71, 76, 80 Detergente B : 72, 58, 74, 66, 79 Detergente C: 76, 85, 82, 80, 77 Las medias de estas tres muestras fueron 77, 68 Y 80, y queremos saber si las diferencias entre ella son signicativas o si se pueden atribuir al azar. En general, en un problema como este, tenemos muestras aleatorias independientes de tama no n de k poblaciones. El j esimo valor de la i esima poblaci on se denota con xij , estos es, Poblaci on 1: x11 , x12 , ..., x1n Poblaci on 2: x21 , x22 , ..., x2n ... Poblaci on 3: xk1 , xk2 , ..., xkn Y supondremos que las variables aleatorias correspondientes Xij , que son todas independientes tienen distribuciones normales con las respectivas medias i y la varianza com un 2 . Al enunciar estas suposiciones de una manera algo diferente, podr amos decir que el modelo para las observaciones est a dada por xij = + eij para i = 1, 2, ..., k y j = 1, 2, ..., n, donde eij son los valores de nk variables aleatorias independientes que tienen distribuciones normales con medias cero y la varianzan com un 2 . Para permitir la generalizaci on de este modelo a clases de situaciones m as complicadas, suelen escribirse en la forma xij = + i + eij para i = 1, 2, ..., k y j = 1, 2, ..., n. En este caso se conoce como la gran media, y las i ,
k

llamadas los efectos del tratamiento, son tales que


i=1

i = 0. Advierta que hemos escrito merk

amente la media de la i esima poblaci on como i = + i e impuesto la condici on


i=1

i = 0 de

manera que la media de las i sea igual a la gran media . La pr actica de referirse a las diferencias poblacionales como diferentes tratamientos se debe al hecho que muchas t ecnicas del an alisis de la varianza se desarrollaron originalmente en relaci on con experimentos agr colas donde, por ejemplo, diferentes fertilizantes se consideraban como diferentes tratamientos aplicados a la tierra. As , nos referimos a los tres detergentes de este ejemplo como tres tratamientos diferentes, y en otros problemas podemos referirnos a cuatro nacionalidades como cuatro tratamientos diferentes, cinco clases de campa nas de publicidad como cinco tratamientos diferentes, y as sucesivamente. Niveles es otro t ermino que se usa a menudo en vez de tratamientos. La hip otesis nula que queremos probar es que las medias de las poblaciones son todas iguales, esto es, que 1 = 2 = ... = k o, equivalentemente, que H0 : i = 0 y 1, 2, ..., k

Correspondientemente, la hip otesis alternativa es que las medias de las poblaciones no son todas iguales; esto es: H1 : i = 0 para al menos un valor de i

La prueba misma se basa en un an alisis de la variabilidad total de los datos combinados (nk - 1 multiplicado por su varianza), lo cual est a dado por
k n

(xij x ..)2
i=1 j =1

donde

x .. =

1 xij nk i=1 j =1

A5-7

Si la hip otesis nula es verdadera, toda esta variabilidad se debe al azar, pero si no es verdadera, entonces parte de la suma de los cuadrados anteriores se debe a las diferencias entre las medias de las poblaciones. Para aislar, o separar, estas dos contribuciones a la variabilidad total de los datos, nos referimos al siguiente teorema. Teorema 10.0.1
k n k k n

(xij x ..)2 = n
i=1 j =1 i=1

..)2 + (xi x
i=1 j =1

(xij x i ) 2

donde x i es la media de las observaciones de la i esima poblaci on y x .. es la media de todas las nk observaciones. Demostraci on
k n k n

(xij x ..)2
i=1 j =1

=
i=1 j =1 k n

[( x i x ..) + (xij x i )]2 [( xi x ..)2 + 2( xi x ..)(xij x i ) + ( xij x i ) 2 ]


i=1 j =1 k n k n k n

=
i=1 j =1 k

( x i x ..)2 + 2
i=1 j =1 k n

( x i x ..)(xij x i ) +
i=1 j =1

( xij x i ) 2

= n
i=1 n

( x i x ..)2 +
i=1 j =1

(xij x i ) 2

puesto que
j =1

(xij x i ) = 0 para cada valor de i.

Es costumbre referirse a la expresi on en el lado izquierdo de la identidad del teorema como la suma de cuadrados total, al primer t ermino de la expresi on en el lado derecho como la suma de cuadrados de los tratamientos, y al segundo t ermino como suma de cuadrados del error, donde error denota error experimental, o azar. Correspondiente, denotamos estas tres sumas de cuadrados por STT, SS(Tr) y SSE, y podemos escribir SST = SS(Tr) + SSE Ahora hemos logrado lo que nos propusimos hacer: dividir STT, una medida de la variaci on total de los datos combinados en dos componentes: el segundo componente, SSE, mide la variaci on fortuita (la variaci on dentro de las muestras); el primer componente, SS(Tr), tambi en reeja la variaci on fortuita cuando la hip otesis nula es verdad, pero tambi en reeja la variaci on entre las medias de las poblaciones cuando la hip otesis nula es falsa. Puesto que, para cada valor de i, las xij son los valores de una muestra aleatoria de tama no n de una poblaci on normal con la varianza 2 , para cada valor de i 1 i ) 2 (Xij X 2 j =1 es una variable aleatoria que tiene la distribuci on ji cuadrada con n - 1 grados de libertad. Adem as, puesto que las k variables aleatorias son independientes, se sigue que 1 i )2 (Xij X 2 i=1 j =1 es una variable aleatoria que tiene la distribuci on ji cuadrada con k (n - 1 ) grados de libertad. Puesto que la media de una distribuci on ji cuadrada es igual a sus grados de libertad, encontramos A5-8
k n n

1 que 2 SSE es un valor de una variable aleatoria que tiene la media k (n 1), y por lo tanto que SSE SSE puede servir como una estimaci on de 2 . Esta cantidad , se llama el cuadrado k (n 1) k (n 1) medio del error, y se denota por MSE. Tambi en, puesto que bajo la hip otesis nula las x i son valores de variables aleatorias independi2 , entonces entes que tienen distribuciones normales id enticas con la media y la varianza n n i X.. )2 (X 2 i=1 es una variable aleatoria que tiene la distribuci on ji cuadrada con k - 1 grados de libertad. Puesto SS(Tr) que la media de esta distribuci on es k - 1, se sigue que proporciona una segunda estimaci on k1 SS(Tr) de 2 . Esta cantidad , se llama cuadrado medio de los tratamientos, y se designa por k1 MS(Tr). Por supuesto, si la hip otesis nula es falsa, entonces, MS(Tr) proporciona una estimaci on de 2 m as cualquier variaci on que pudiera haber entre la medias de las poblaciones. Esto sugiere que rechacemos la hip otesis nula de que las medias de las poblaciones son todas iguales cuando MS(Tr) es apreciablemente m as grande que MSE. Para situar esta situaci on sobre una base precisa, tendremos que suponer sin demostraci on que los estimadores correspondientes son independientes, pues con esta suposici on podemos utilizar SS(Tr) MS(Tr) (k 1) 2 f= = SSE MSE 2 k (n 1) es un valor de una variable aleatoria que tiene la distribuci on F con k 1 y k (n 1) grados de libertad. As , rechazamos la hip otesis nula de que las medias de las poblaciones son todas iguales si el valor que obtenemos para f excede a f,k1,k(n1) , donde es el nivel de signicancia. El procedimiento que hemos descrito en esta secci on se llama un an alisis de la varianza en un sentido, y los detalles necesarios suelen presentarse en el siguiente tipo de tabla de an alisis de la varianza:
k

Fuente de variaci on Tratamientos Error Total

Grados de libertad k1 k (n 1) kn 1

Suma de los cuadrados SS(Tr) SSE SST

Cuadrado medio MS(Tr) MSE f (MS)Tr MSE

Para simplicar el c alculo de las diversas sumas de cuadrados, solemos usar las f ormulas de c alculo siguientes, Teorema 10.0.2
k n

SST =
i=1 j =1

x2 ij

1 T2 kn

A5-9

SS(Tr) =

1 1 T 2 .. T2 n i=1 i kn

donde Ti es el total de los valores obtenidos para el i esimo tratamiento y T .. es el total general de todas las nk observaciones. Luego, el valor de SSE se puede obtener al sustraer SS(Tr) de SST. Ejemplo 10.0.5 Con respecto al ejemplo mencionado de los detergentes, pruebe al nivel 0.01 de signicancia si las diferencias entre las medias de las lecturas de blancura son signicativas. Soluci on 1. H0 : i = 0 para i = 1, 2, 3 H1 : i = 0 para al menos un valor de i = 0.01 2. Rechace la hip otesis nula si f 6.93, donde f se obtiene por medio de un an alisis de la varianza en un sentido, y 6.93 es el valor de f0.01,2,12 . 3. Las sumas y las sumas de los cuadrados requeridas son T1 = 385, T2 = 340, T3 = 400, x2 = 85, 041, y la sustituci on de estos valores junto con k = 3 y n = 5 en T.. = 1, 125 y las f ormulas nos da SST = 85, 041 y SS(Tr) = 1 1 (3852 + 3402 + 4002 ) (1, 125)2 = 390 5 15 1 (1, 125)2 = 666 15

Entonces, por sustracci on, SSE = 666 - 390 = 276, y los c alculos restantes se muestran en la siguiente tabla de an alisis de la varianza

Fuente de variaci on Tratamientos Error Total

Grados de libertad 2 12 14

Suma de los cuadrados 390 276 666

Cuadrado medios 390 = 195 2 276 = 23 12 f 195 = 8.48 23

Advierta que los cuadrados medios son simplemente la suma de lso cuadrados divididas entre los grados de libertad correspondientes. 4. Puesto que f = 8.48 excede a 6.93, se debe rechazar la hip otesis nulas, y concluimos que los tres detergentes no son igualmente ecaces.

A5-10

Los par ametros del modelo, y las ij , suelen estimarse con el m etodo de los m nimos cuadrados. Esto es, sus estimaciones son los valores que minimizan
k n

[xij ( + i )]2
i=1 j =1 k

sujeta a la restricci on que


i=1

i = 0.

11

An alisis de la varianza en dos sentidos sin interacci on

Hay especialmente dos formas diferentes de analizar los experimentos de dos variables, y depende de si las dos variables son independientes o si interaccionan. Para ilustrar lo que queremos decir aqu por interacci on, suponga que una fabricante de neum aticos est a experimentando con diferentes neum aticos y encuentran que una clase es especialmente buena en carreteras de terracer a, mientras que otra clase es especialmente buena para uso en pavimento duro. Si este es el caso, decimos que hay una interacci on entre las condiciones de la carretera y el dise no del neum atico. Para presentar la teor a del an alisis de la varianza en dos sentidos, nos referiremos a las dos variables como tratamientos y bloques; en forma alternativa, tambi en nos podemos referir a ellos como el factor A y el factor B o como renglones y columnas. As , si xij para i = 1, 2, ..., k y j = 1, 2, ..., n son los variables de variables aleatorias independientes que tienen distribuciones normales con las respectivas medias ij y la varianza com un 2 , consideraremos el arreglo Bloque 1 Tratamiento 1 Tratamiento 2 ... Tratamiento k x11 x21 ... xk 1 Bloque 2 x12 x22 ... xk 2 ... ... ... ... ... Bloque n x1n x2n ... xkn

y escribimos el modelo para un an alisis de la varianza en dos sentidos (sin interacci on) como xij = + i + j + eij para i = 1, 2, ..., k y j = 1, 2, ..., n. En este caso es la gran media, los efectos del tratamiento i
k n

son tales que


i=1

i = 0, los efectos de bloque j son tales que


j =1

j = 0, y las eij son valores de

variables aleatorias independientes que tienen distribuciones normales con media cero y la varianza com un 2 . Observe que ij = + i + j
k n

ij
i=1 j =1

nk

Las dos hip otesis nulas que queremos probar son que los efectos del tratamiento son todos igual a cero y que los efectos de los bloques son todos igual a cero; esto es H0 : i = 0 y para i = 1, 2, ..., k

A5-11

H0 : j = 0

para j = 1, 2, ..., n

La alternativa a H0 es que los efectos del tratamiento no son todos iguales a cero, y la alternativa a H0 es que los efectos de los bloques no son todos iguales a cero. Simb olicamente, H1 : i = 0 y H1 : j = 0 para al menos un valor de j para al menos un valor de i

El an alisis en dos sentidos mismo que se basa en la generalizaci on siguiente Teorema 11.0.3
k n k n k n

(xij x ..)2 = n
i=1 j =1 i=1

( x i x ..)2 + k
j =1

( xj x ..)2 +
i=1 j =1

(xij x i x j + x ..)2

donde x i es la media de las observaciones para el i esimo tratamiento, x j es la media de las observaciones para el j esimo bloque, y x .. es la media de todas las nk observaciones. La expresi on en el lado izquierdo de la identidad es la suma de cuadrados total SST y el primer t ermino en el lado derecho es la suma de cuadrados de los tratamientos SS(Tr). Al medir la variaci on ermino en le lado derecho es la suma de cuadrados de los bloques SSB entre las xi , el segundo t y el tercer t ermino en el lado derecho es la nueva suma de cuadrados del error SSE. As tenemos SST = SS (T r) + SSB + SSE SS (T r) SSE y son los valores de variables 2 2 aleatorias independientes que tienen distribuciones ji cuadrada con k - 1 y (n 1)(k 1) grados de libertad. Si H0 no es verdadera, entonces SS(Tr) tambi en reejar a la variaci on entre las i , rechazamos H0 si fT r f,k1,(n1)(k1) , donde y se puede demostrar que si H0 es verdad, entonces SS(Tr) MS(Tr) (k 1) 2 = = SSE MSE (n 1)(k 1) 2

fT r

Aqu y en lo que sigue, los cuadrados medios son de nuevo las sumas de los cuadrados respectivos divididos por sus grados de libertad. SSB SSE De la misma manera, si H0 es verdad, entonces y son los valores de variables aleatorias 2 2 independientes que tienen distribuciones ji cuadrada con n 1 y (n 1)(k 1) grados de libertad. Si H0 no es verdadera, entonces SSB tambi en reejar a la variaci on entre las i y, rechazamos H0 si fB f,k1,(n1)(k1) , donde: SSB MSB (n 1) 2 fB = = SSE MSE (n 1)(k 1) 2 Esta clase de an alisis se llama un an alisis de la varianza en dos sentidos, y los detalles necesarios suelen presentarse en el siguiente tipo de tabla de an alisis de la varianza:

A5-12

Fuente de variaci on Tratamientos Bloques Error Total

Grados de libertad k1 k (n 1) (n 1)(k 1) nk 1

Suma de los cuadrados SS(Tr) SSB SSE SST

Cuadrado medios MS(Tr) MSB MSE fT r = fB = f


(M S )T r M SE M SB M SE

Teorema 11.0.4 SSB =

1 1 T 2 .. T2 k j =1 j kn

donde Tj es el total de los valores obtenidos en el j esimo bloque y T .. es el total general de las nk observaciones.

Entonces, el valor de SSE se puede obtener al restar SS(Tr) y SSB de SST. Ejemplo 11.0.6 De acuerdo a la siguiente tabla tenemos: Lunes Ruta 1 Ruta 2 Ruta 3 Ruta 4 22 25 26 26 Martes 26 27 29 28 Mi ercoles 25 28 33 27 Jueves 25 26 30 30 Viernes 31 29 33 30

pruebe en el nivel 0.05 de signicancia si las diferencias entre las medias obtenidas por las diferentes rutas (tratamientos) son signicativas y tambi en si las diferencias entre las medias obtenidas para los diferentes d as de las semana (bloques) son signicativas. Soluci on 1. H0 : i = 0 para i = 1, 2, 3, 4 H0 : j = 0 para j = 1, 2, 3, 4, 5 H1 : i = 0 para al menos un valor de i H1 : j = 0 para al menos un valor de j = 0.05 para ambas pruebas 2. Rechace la hip otesis nula para los tratamientos si fT r 3.49 y rechace la hip otesis nula para los bloques si fB 3.26, donde fT r y fB se obtiene por medio de un an alisis de la varianza en dos sentidos, y 3.49 y 3.26 son, respectivamente, los valores de f0.05,3,12 y f0.05,4,12 . 3. Las sumas y las sumas de los cuadrados requeridas son T1 = 129, T2 = 135, T3 = 151, T4 = 141, T1 = 99, T2 = 110, T3 = 113, T4 = 111, T5 = 123, T.. = 556 y x2 = 15, 610, y la sustituci on de estos valores junto con k = 4 y n = 5 en las f ormulas nos da

A5-13

SST

= =

15, 610

1 (556)2 20

SS(Tr)

= =

SSB

= =

153.2 1 1 (1292 + 1352 + 1512 + 1412 ) (556)2 5 20 52.8 1 1 (992 + 1102 + 1132 + 1112 + 1232 ) (556)2 4 20 73.2

y por tanto SSE = 153.2 52.8 73.2 = 27.2 Los c alculos restantes se muestran en la siguiente tabla de an alisis de la varianza:

Fuente de variaci on Tratamientos Bloques Error Total

Grados de libertad 3 4 12 19

Suma de los cuadrados 52.8 73.2 27.2 153.2

Cuadrado medios 52.8 = 17.6 3 73.2 = 18.3 4 27.2 = 2.27 12 f 17.6 = 7.75 2.27 18.3 = 8.06 2.27

4. Puesto que fT r = 7.75 excede a 3.49 y fB = 8.06 excede a 3.26, se deben rechazar ambas hip otesis nulas. En otras palabras, las diferencias entre las medias obtenidas para las cuatro rutas son signicativas y tambi en lo son las diferencias entre las medias obtenidas para los diferentes d as de la semana. Sin embargo, advierta que no podemos concluir que la ruta 1 es necesariamente la m as r apida y que en viernes las condiciones de tr aco son siempre las peores. Todo lo que hemos mostrado por medio del an alisis es que las diferencias existen, y si queremos ir un paso m as all a y precisar la naturaleza de las diferencias, tendremos que usar una prueba de comparaciones m ultiple.

12

An alisis de la varianza en dos sentidos con interacci on

Los bloques en el anterior an alisis de la varianza en dos sentidos pueden considerarse como repeticiones, o r eplicas de un experimento dise nado para probar las diferencias entre los tratamientos. Si se expandiera el modelo para el analisis de la varianza en dos sentidos xij = + i + j + eij para incluir un t ermino de interacci on ( )ij , se volver a xij = + i + j + ( )ij + eij

A5-14

y ni habr a manera de distinguir entre el t ermino de error ij y el t ermino de interacci on ( )ij . Supongamos, sin embargo, que la totalidad del experimento se replicara m veces; esto es, que xijr sea la observaci on que corresponde al tratamiento i en el bloque j y la r eplica r(r = 1, 2, ..., m). El modelo del an alisis de la varianza se podr a escribir ahora como xijr = + i + j + r + ( )ij + eijr En este caso r es el efecto de la r esima r eplica, y los efectos son tales que
k n m k n

i =
i=1 j =1

j =
r =1

r =
i=1

( )ij =
j =1

( )ij = 0

y las eijr son los valores de variables aleatorias independientes que tienen distribuciones normales con media cero y la varianza com un 2 . En este caso ijr = + i + j + r + ( )ij por lo que
k n m

ijr
i=1 j =1 r =1

mnk Las hip otesis nulas que queremos probar son H0 H0 H0


(4) H0 (1)

: i = 0 : j = 0 : r = 0

para i = 1, 2, ..., k para j = 1, 2, ..., n para r = 1, 2, ..., m y j = 1, 2, ..., n

(2)

(3)

: ( )ij = 0

para toda i = 1, 2, ..., k

La hip otesis alternativa en cada caso anuncia que al menos uno de los par ametros en la hip otesis nula correspondiente no es igual a cero. Advierta que la j ya no necesita considerarse como bloques (repeticiones del experimento bajo condiciones variables). Debido a que la totalidad del experimento se replica, las j se pueden considerar ahora como los efectos de una segunda variable controlada o tratamiento. El an alisis de la varianza se basa en el siguiente teorema. Teorema 12.0.5
k n m k n

(xijr x ..)2
i=1 j =1 r =1

mn
i=1 m

( xi x ...)2 + mk
j =1 k

( xj x ...)2
n

nk
r =1 k n

( xr x ...)2 + m
i=1 j =1 m

( xij x i x j + x ...)2

+
i=1 j =1 r =1

( xijr x ij x r + x ...)2

donde x i es la media de las observaciones del i esimo valor del primer tratamiento, x j es la media de el j esimo valor del segundo tratamiento, x r es la media de la r esimo r eplica, x ij es la media del i esimo y j esimo valores de los dos tratamientos (promediados sobre las r eplicas) y x ... es la gran media de todas las rnm observaciones.

Demostraci on

Para probar el teorema, primero escribiremos la identidad A5-15

xijr x ... = ( xi x ...) + ( xj x ...) + ( xr x ...) + ( xij x i x j + x ...) + ( xijk x ij x r + x ...) Cuando elevamos al cuadrado cada lado de esta identidad y sumamos sobre i, j y r, se puede mostrar que todos los t erminos con productos cruazdos suman cero. An aloga a la clasicaci on en dos sentidos sin interacci on, la expresi on en el lado izquierdo de la identidad es la suma de cuadrados total, SST, y los dos primeros t erminos en la derecha son la suma de cuadrados de los tratamientos, que ahora denotaremos con SSA y SSB. El tercer t ermino en el lado derecho es la suma de cuadrados para las r eplicas, SSR, el cuarto t ermino es la suma de cuadrados para las interacciones, SSI, y el t ermino nal es la nueva suma de cuadrados de los errores, SSE. As , SST = SSA + SSB + SSR + SSI + SSE y se puede mostrar que si
(1) (4) H0 , ..., H0

son verdad, las cantidades

SSA MSA (k 1) 2 = fA = SSE MSE (m 1)(nk 1) 2 SSB MSB (n 1) 2 fB = = SSE MSE (m 1)(nk 1) 2 SSR MSR (m 1) 2 = fR = SSE MSE 2 (m 1)(nk 1) SSI MSI (n 1)(k 1) 2 fI = = SSE MSE (m 1)(nk 1) 2 todas tienen distribuciones F con, respectivamente, k 1, n 1, m 1 y (k 1)(n 1) grados de libertad en el numerador y (m 1)(nk 1) grados de libertad en el denominador. Para probar cada una de las hip otesis nulas, rechazamos la hip otesis nula en el nivel de signicancia si el valor f -correspondiente excede a f con los grados de libertad apropiados para el numerador y el denominador. Estos resultados se pueden resumir en la siguiente tabla de an alisis de la varianza.

Fuente de variaci on Tratamiento A Tratamientos B R eplicas Interacci on Error Total

Grados de libertad k1 n1 m1 (n 1)(k 1) (m 1)(nk 1) mnk 1

Suma de los cuadrados SSA SSB SSR SSI SSE SST

Cuadrado medio MSA MSA MSR MSI MSE f fA = fB = fR = fI =


M SA M SE M SB M SE M SR M SE M SI M SE

A5-16

Los c alculos necesarios para obtener las diversas sumas de los cuadrados en la tabla de an alisis de la varianza se simplican enormemente con la aplicaci on de las f ormulas contenidas en el siguiente teorema. Teorema 12.0.6 SSA SSB = = 1 T2 C nm i=1 i 1 T2 C km j =1 j 1 T2 C kn r=1 r 1 T 2 SSA - SSB C m i=1 j =1 ij 1 T2 C m i=1 j =1 r=1 ijr SST - SSA - SSB - SSR - SSI
k n m k n m n k

SSR

SSI

SSI SSE

= =

2 donde Ti , Tj y T r , son los totales de los valores obtenidos para el tratamiento A, tratamiento B y las r eplicas, respectivamente, y Tij es la suma sobre las r eplicas obtenidas para los valores correspondientes a la combinaci on del tratamiento A en el nivel i y el tratamiento B en el nivel j . Tambi en,

T 2 ... mnk donde T ... es el valor del total general de todas las nmk observaciones. C= Ejemplo 12.0.7 Cuatro dise nos de compresores para aire acondicionado se probaron en cuatro regiones diferentes de Estados Unidos. Las pruebas se repitieron al instalar aires acondicionados adicionales en una segunda estaci acion de enfriamiento. A continuaci on est an los tiempos de aver a (al mes m as cercano) para cada compresor probado. R eplica 1 Dise no: Noreste Sureste Noroeste Sureste A 58 40 63 36 B 35 18 44 9 C 72 54 81 47 D 61 38 52 30 A 49 38 59 29 R eplica 2 B 24 22 16 13 C 60 64 60 52 D 64 50 48 41

Pruebe en el nivel 0.05 de signicancia si las diferencias entre las medias determinadas para los dise nos, para las regiones, y para las r eplicas son signicativas y para la signicancia de la interacci on entre los dise nos del compresor y las regiones. Soluci on 1. H0 : i = 0 para i = 1, 2, ..., k (2) H0 : j = 0 para j = 1, 2, ..., n (3) H0 : r = 0 para r = 1, 2, ..., m A5-17
(1)

H0 : ( )ij = 0 para toda i = 1, 2, ..., k y j = 1, 2, ..., n = 0.05 para ambas pruebas Las hip otesis alternativa en cada uno de los casos anuncia que al menos uno de los par ametros en la hip otesis nula correspondiente no es igual a cero. 2. Rechace la hip otesis nula para el tratamiento A (dise nos) o para el tratamiento B (regiones) si fA o fB , respectivamente, es igual o excede a 3.29. Rechace la hip otesis nula para las r eplicas si fR 4.54. Rechace la hip otesis nula para la interacci on del tratamiento A y el tratamiento B si fI 2.59. 3. Las sumas y las sumas de los cuadrados requeridas se facilitan al cosntruir la siguiente tabla en dos sentidos que da las sumas Tij . Dise nos B C 59 40 60 22 181 132 118 141 99 490

(4)

A Noreste Sureste Noroeste Sureste Totales 107 78 122 65 372

D 125 88 100 71 384

Totales 423 324 423 257 1427

As , por ejemplo, T1 = 372, T2 = 324, T11 = 107, y as sucesivamente. Tambi en, calculamos a partir de los datos originales T1 = 783, y T2 = 689. La suma de cuadrados total es x2 = 73, 667. La sustituci on de estos valores junto con k = n = 4 y r = 2 en las f ormulas nos da C= al entero m as cercano y 1 (3722 + 1812 + 4902 + 3842 ) 63, 635 8 6, 203 1 (4232 + 3242 + 4232 + 2572 ) 63, 635 8 2, 475 1 (7382 + 6892 ) 63, 635 16 75 1 (1072 + 592 + 1322 + .. + 992 + 772 ) 6, 203 2, 475 63, 635 2 311 73, 667 6, 203 2, 475 75 311 63, 635 = 968 1 (1, 427)2 = 63, 635 32

SSA

= =

SSB

= =

SSR

= =

SSI y por tanto SSE

= = =

Los c alculos restantes se muestran en la siguiente tabla de an alisis de la varianza:

A5-18

Fuente de variaci on Dise nos Regiones R eplicas Interacci on Error Total

Grados de libertad 3 3 1 9 15 31

Suma de los cuadrados 6,203 2,475 75 311 968

Cuadrado medio 2,068 825 75 35 65


2068 65 825 65 75 65 35 65

f = 31.8 = 12.7 = 1.2 = 0.5

4. Puesto que f para los dise nos (3.18) y para las regiones (12.7) exceden a 3.49, se deben rechazar ambas hip otesis nulas. En otras palabras, las diferencias entre las medias obtenidas para los cuatro dise nos de compresoras y para las cuatro regiones de Estados Unidos rutas son signicativas. Sin embargo, los valores para las r eplicas (1.2) y para la interacci on entre los dise nos y las regiones (0.5) no exceden a 4.54 y 2.59, respectivamente; as , no podemos concluir que las medias de las dos r eplicas son signicativamente diferentes o que hay una interacci on entre los dise nos y las regiones. Habiendo demostrado por medio de este an alisis que hay diferencias en el dise no de las compresoras y que no hay interacci on con las regiones nos interesa qu e dise nos tienen la vida m as larga.

A5-19

S-ar putea să vă placă și