Sunteți pe pagina 1din 46

ESTADISTICA PARA INVESTIGACION EN SALUD

MODULO 3 :

PRUEBAS DE HIPOTESIS

FERNANDO QUEVEDO RICARDI MARCELA BARRIA CONCHA

Facultad de Medicina. Universidad de Chile Septiembre 2006

Objetivo del Mdulo

Entregar los elementos que permitan al alumno realizar pruebas de hiptesis para comparar el promedio de una muestra con el promedio del universo, el porcentaje de una muestra con el porcentaje del universo, los porcentajes de dos muestras, los promedios de dos o ms muestras, y evaluar la asociacin entre dos variables.

Contenidos Temticos

Prembulo Captulo I: Prueba de hiptesis para comparar una muestra con el universo Promedio Porcentaje Captulo II: Prueba de hiptesis para comparar dos muestras Promedio Porcentaje Captulo III: Prueba de Ji cuadrado Prueba de asociacin Prueba de bondad de ajuste Captulo IV: Anlisis de varianza: generalidades Regresin: generalidades

Aprendizajes Esperados
Al finalizar el mdulo 3, usted estar en condiciones de lo siguiente: Formular hiptesis estadsticas correspondientes a un problema de investigacin. Elegir el estadstico de prueba apropiado para la hiptesis planteada. Elegir el nivel de significacin de la prueba. Buscar en la tabla el valor del estadstico de prueba asociado al nivel de significacin (valor crtico). Calcular el estadstico de prueba con los datos del problema.

Tomar una decisin respecto de las hiptesis, en funcin del valor del estadstico de prueba. Sacar conclusiones fundamentadas en la decisin.

Prembulo

Antes que Nada


Es frecuente, especialmente en el campo de la salud, que un profesional en ejercicio de su actividad observe un fenmeno que lo hace pensar que el grupo al que est observando tiene un comportamiento especial respecto a una determinada variable. As, por ejemplo, un kinesilogo puede pensar que los pacientes sometidos a una secuencia especial de ejercicios demoran menos en recuperar la funcin muscular que aquellos tratados con el mtodo tradicional. A un mdico radicado en Punta Arenas le puede parecer que los suicidios adolescentes son ms frecuentes en su regin. Un profesional de la nutricin puede creer que los pacientes con problemas de absorcin intestinal responden mejor a una alimentacin con verduras que con carnes. El director de salud de una municipalidad puede pensar que su consultorio tiene mejor resolucin de problemas complejos que el consultorio del municipio vecino. Detrs de todas estas situaciones se esconde una hiptesis que espera para ser verificada. Definicin de hiptesis Una hiptesis se define como una afirmacin transitoria que debe ser sometida a prueba. La inferencia estadstica propone un procedimiento para llevar a cabo la prueba de las hiptesis. Propone, primero, enunciarlas formalmente y luego contrastarlas con la evidencia de los datos. Son los datos, entonces, con su coro de caractersticas, los que dirn si una hiptesis es falsa o verdadera. Este procedimiento se realiza considerando a los parmetros, que ya sabemos corresponden al universo, como los objetos para los cuales se enuncian las hiptesis. Dicho de otro modo, las hiptesis se enuncian para los parmetros. Por ejemplo, una hiptesis, al decir: el promedio de das de recuperacin de la enfermedad X es 25, est afirmando que, en el universo, los pacientes se demoran en promedio 25 das en mejorar. Ser tarea del investigador probar la veracidad o falsedad de dicha afirmacin contrastando el valor propuesto para el parmetro del universo (25), con los datos reales provenientes de una muestra cualquiera. Si producto de esta comparacin resulta que el promedio obtenido en la muestra es de 22 das, se le encarga a la estadstica que resuelva el dilema de si la diferencia entre el promedio muestral (22) y el poblacional (25) permite 3

aceptar como verdadera la hiptesis planteada. Ser el mtodo estadstico el que permita en definitiva resolver este dilema, evaluando la significacin de la diferencia entre 22 y 25.
Son demasiados

...

Creo que la media es 25 das...

Azar o no? El mtodo de las pruebas de hiptesis consiste fundamentalmente en establecer la probabilidad de que sea consecuencia del azar la diferencia existente entre dos cantidades. Se pueden distinguir dos situaciones: a. Diferencia entre un valor muestral y el parmetro. b. b. Diferencia entre dos o mas valores muestrales. En el caso a, se tratar de evaluar la diferencia entre un valor obtenido en la muestra (estadstico) y un valor correspondiente en el universo (parmetro), y en el caso b se evaluar la diferencia entre dos valores provenientes de dos muestras (estadsticos). Los valores que se comparen, ya sean de la muestra o del universo, pueden ser promedios, porcentajes u otros. Nosotros nos ocuparemos slo de promedios y porcentajes. En general, lo que hace una prueba estadstica es evaluar la diferencia entre dos o ms valores (dos promedios, dos porcentajes). Respecto de esta diferencia se elabora una hiptesis previa y se plantea formalmente en trminos estadsticos. Luego, usando la distribucin de probabilidad adecuada, se calcula la probabilidad de la diferencia entre los valores comparados. Si la probabilidad de obtener tal diferencia es pequea, diremos que dicha diferencia es significativa.

Estadstico de Prueba
Para realizar tan delicada operacin debemos utilizar el instrumento apropiado. A dicho instrumento le llamaremos estadstico de prueba. Con los datos de nuestras muestras podremos calcular el estadstico de prueba. Luego buscaremos la probabilidad de 4

ocurrencia de dicho estadstico en la tabla correspondiente (Normal, t de student u otra) y a la luz de la probabilidad obtenida tomaremos una decisin respecto de nuestra querida hiptesis.

Rechazo H0

Rechazo H0

No rechazo H0

0: =25

Esto, que hemos descrito en forma bastante general, lo iremos desarrollando aplicado a problemas e hiptesis especficas en el transcurso del mdulo 3, pero trataremos de mantener para todas las situaciones un mismo esquema de trabajo. Ese esquema es el siguiente: 1. Plantear la hiptesis en trminos estadsticos. Esta etapa consiste en representar el problema de investigacin bajo la forma de dos hiptesis excluyentes: la Hiptesis Nula y la Hiptesis Alternativa. a) Hiptesis Nula. Esta hiptesis plantea que los valores comparados son iguales. Dependiendo del problema podr presentarse como:

b) Hiptesis Alternativa. Esta hiptesis plantea que los valores comparados son distintos y por lo tanto pertenecen a universos distintos. Dependiendo del problema podr presentarse como:

2. Elegir un nivel de significacin. El nivel de significacin es la probabilidad de que la diferencia observada se deba al azar. Interesa que esta probabilidad sea pequea, por eso, en la prctica se utilizan valores iguales o inferiores a 0,05. El valor ms usado es 0,05 pero tambin puede ser 0,04; 0,02; 0,01; etc. Al nivel de significacin se le identifica con la letra griega alfa ( ). Al elegir un

valor de alfa concreto, estamos dejando la mitad de alfa en cada extremo de la distribucin de probabilidades ( / 2 ). <br>

3. Calcular el estadstico de prueba a base de los datos muestrales. El estadstico que se utilice para la prueba de la hiptesis depender de los elementos que participan en l. As, cuando se trate comparar 2 promedios usaremos el estadstico t de Student; cuando necesitemos comparar dos porcentajes muestrales usaremos Z, etc. Pero ya iremos viendo a cada uno de estos estadsticos actuar en terreno. 4. Buscar, en la tabla correspondiente. La probabilidad de obtener un valor igual o mayor al estadstico calculado, cuando ste sea positivo, o La probabilidad de obtener un valor menor o igual, cuando el estadstico sea negativo. En resumen: P ( z z0 ) cuando z0 sea positivo o P ( z z0 ) cuando z0 sea negativo.

5. Comparar la probabilidad obtenida en la tabla con el nivel de significacin elegido en el punto 2 y tomar una decisin respecto de las hiptesis planteadas. Parece evidente que para tomar una buena decisin es conveniente disponer de criterios. Debemos decidir si la hiptesis nula es verdadera o falsa. Entonces, de acuerdo a la evidencia aportada por los datos de la muestra aceptaremos o rechazaremos la hiptesis nula segn el siguiente criterio: Se rechazar la hiptesis nula si la probabilidad encontrada en la tabla es inferior a la mitad del nivel de significacin ( / 2) . 6. Elaborar una conclusin derivada de la decisin. Una vez tomada la decisin sobre las hiptesis debemos exponer lo que esto significa en el contexto de nuestro problema particular.

7. Apoyar todo el proceso de anlisis con un grfico del problema. A la hora de tomar la decisin es muy til y orientador un buen grfico donde se consigne el nivel de significacin, el valor del estadstico y la probabilidad asociada a l.

Captulo I

Prueba de Hiptesis para Comparar una Muestra con el Universo

Para solucionar los problemas planteados en este captulo haremos uso de dos estadsticos. Usaremos uno u otro dependiendo de la situacin problema. A continuacin se presenta el esquema de solucin general que aplicaremos en cada una de tres situaciones problema. a) Se est comparando el promedio de la muestra con el promedio del universo y se conoce la desviacin estndar del universo. Estadstico a utilizar: z0 = Donde: 1. z0 tiene probabilidad de ocurrencia en la tabla de distribucin normal, x 0 es el promedio de la muestra, 2. es el promedio del universo, 3. 0 es la deviacin estndar del universo y 4. 5. n es el tamao de la muestra. b) Se est comparando el promedio de la muestra con el promedio del universo y NO se conoce la desviacin estndar del universo. Estadstico a utilizar: t 0 = Donde: 1. t0 tiene probabilidad e de ocurrencia en la tabla de distribucin t de Student con n-1 grados de libertad. 7
x 0 0 s/ n

x 0 0 / n

2. 3. 4. 5.

es el promedio de la muestra, es el promedio del universo, 0 es la deviacin estndar del universo y n es el tamao de la muestra.
x0

c) Se est comparando el porcentaje de la muestra con el porcentaje del universo. Estadstico a utilizar: z0 =
p0 P0 ( P0 Q0 ) / n

Donde: 1. 2. 3. 4. 5. z0 tiene probabilidad de ocurrencia en la tabla de distribucin normal, p0 es el porcentaje de la muestra, P es el porcentaje del universo, 0 Q0 es el complemento P0 (100-P0) y n es el tamao de la muestra.

Comparacin del Promedio de una Muestra con el Promedio del Universo


El problema para el investigador es el siguiente: en una poblacin determinada, el peso de nacimiento promedio es 3,38 kilos y la desviacin estndar 0,42 kilos. Se sospecha que los hijos de madres adolescentes tienen un peso de nacimiento diferente, probablemente menor. En una muestra de 25 recin nacidos de madres adolescentes se obtuvo un promedio de peso al nacimiento de 2,85 kg, con una desviacin estndar de 0,5 kg. Se puede aceptar la hiptesis de que esta muestra pertenece a una poblacin cuyo promedio y desviacin estndar son, respectivamente, 3,38kg y 0,42kg? Identifiquemos los elementos del problema: 1. 2. 3. 4. 5. Promedio del universo 0 = 3,38 Promedio de la muestra x = 2,85 Desviacin estndar del universo = 0,42 Desviacin estndar de la muestra s = 0,5 Tamao de muestra n=25
0

Una vez identificados los datos del problema, buscaremos la solucin guiados por el esquema bsico. 1. Planteamiento de hiptesis en trminos estadsticos. 8

H 0 : = 3,38

Esta hiptesis (hiptesis nula) plantea que la muestra, aunque tiene un promedio diferente, proviene de un universo cuyo promedio es 3,38 y que la diferencia entre promedio de la muestra y promedio del universo est dentro del error de muestreo.
H1 : 3,38

Esta hiptesis (hiptesis alternativa) plantea que la muestra no proviene de este universo ya que la diferencia entre promedio de muestra y promedio del universo es mayor que el error de muestreo (recuerde el error de los intervalos de confianza). 2. Elegir el nivel de significacin. Elegimos un nivel de significacin = 0,05 . Este valor lo fija el investigador y debe ser menor o igual a 0,05. 3. Calcular el estadstico de prueba. Como se conoce la desviacin estndar del universo ( ) el estadstico para someter a prueba esta hiptesis ser Z y su frmula de clculo es:
z= x0 / n

Llevando los datos del problema a la frmula del estadstico se obtiene:


z= 2,85 3,38 = -6,3 0,42 / 25

Entonces, el valor del estadstico de prueba es -6,3. 4. Buscar en la tabla normal la probabilidad de ocurrencia que tiene un valor de z igual o inferior a -6,3. Vemos en la tabla que el mximo valor de z que aparece es -3,49 y que la probabilidad de encontrar un valor igual o inferior a -3,49 es 0,0002 (probabilidad de la cola). 5. Comparar la probabilidad obtenida en la tabla con el nivel de significacin elegido en el punto 2 y tomar una decisin respecto de las hiptesis planteadas. Dado que el valor de Z calculado (-6,3) est en un extremo de la curva, la probabilidad de obtener un valor igual o inferior a l es menor que la mitad del nivel de significacin elegido ( / 2 = 0,025 ). El hecho de que la probabilidad asociada al estadstico de prueba

sea menor que la mitad del nivel de significacin nos conduce a la decisin de rechazar la hiptesis nula (segn el criterio enunciado). 6. Elaborar una conclusin derivada de dicha decisin. Ya que rechazamos la hiptesis nula, que plantea que la muestra observada pertenece a un universo con promedio 3,38 kg, podemos afirmar lo contrario, es decir que: la muestra de 25 RN no pertenece al universo con promedio 3,38, pertenece a un universo cuyo promedio es distinto de 3,38. Esta afirmacin se hace con un nivel de significacin de 0,05. 7. Apoyar todo el proceso de anlisis con un buen grfico del problema.
Grfico del problema.

Se observa en el grfico que la probabilidad del estadstico de prueba es inferior a la mitad del nivel de significacin lo que indica que la diferencia entre la muestra y el universo es significativa. Supongamos ahora que el investigador no tiene informacin sobre la desviacin estndar del universo. En ese caso la nica diferencia en la solucin estar en el estadstico de prueba, que en vez de usar z deber usar t.
t= x 0 0 s/ n = 2,85 3,38 0,5 / 25

= - 5,3

Buscamos en la tabla t, con 24 grados de libertad, la probabilidad asociada a este valor. Mirando la tabla, en la fila de los 24 grados, se observa que el ltimo valor a la derecha es 3,745. Subiendo desde este valor hasta la primera fila de la tabla encontramos que la probabilidad asociada a los valores superiores a 3,745 es 0,0005. Como la curva es simtrica se supone que ambas colas tienen igual probabilidad, por lo tanto podemos asociar tambin a - 3,745 una probabilidad de 0,0005. Finalmente, como la probabilidad del estadstico de prueba (0,0005) es menor que la mitad del nivel de significacin (0,025), nuestra decisin de rechazo de la hiptesis nula se mantiene y por consiguiente tambin se mantienen las conclusiones.

10

Comparacin del Porcentaje de una Muestra con el Porcentaje del Universo


El problema para el investigador es el siguiente: en una poblacin determinada, 28,2% de las personas presentan algn problema de salud mental. Producto de su experiencia en un consultorio rural, un profesional de la salud sospecha que en la poblacin asignada a ese consultorio el porcentaje de personas con problemas de salud mental es superior al de la poblacin. Con el objeto de probar su hiptesis toma una muestra al azar, de 63 personas, encontrando un 31% de ellas con problemas de salud mental. A la luz de estos antecedentes, se puede aceptar la hiptesis de que el porcentaje de problemas de salud mental en este consultorio es distinto de 28,2? Cules son los datos que entrega el problema? P0= 28,2 Q0= 71,8 p0= 31 n= 63 Porcentaje del universo con problemas de salud mental Porcentaje del universo sin problemas de salud mental Porcentaje de la muestra Tamao de la muestra

1. Las hiptesis sern:

H 0 : P = 28 ,2 H 1 : P 28 ,2

2. Elegiremos un nivel de significacin = 0,04 3. El estadstico de prueba ser:


z0 = p 0 P0 ( P0 Q0 ) / n = 31 28,2 (28,2 71,8) / 63 = 0,49

4. Buscamos en la tabla normal la probabilidad asociada a un valor de z mayor de 0,49. Como la tabla entrega la probabilidad de encontrar un valor de z inferior a 0,49 (0.6879), la probabilidad de valores de z mayores a 0.49 se obtiene por diferencia: 1- 0,6879 = 0,3121.

11

5. Comparamos la probabilidad encontrada con la mitad del nivel de significacin:


/ 2 = 0,02

6. Dado que el valor de z calculado (0,49) se encuentra ms o menos al centro de la curva, su probabilidad, segn tabla es de 0,3121 que resulta mayor a la mitad del nivel de significacin elegido ( / 2 = 0,02 ) . Esto nos conduce a la decisin de aceptar la hiptesis nula (ver grfico).

7. Aceptar la hiptesis nula significa aceptar que el porcentaje de problemas de salud mental en la muestra no es significativamente distinto del porcentaje del universo. Por lo tanto, el porcentaje de problemas de salud mental del consultorio estudiado no es distinto al de la poblacin.

12

Ejercicio, Captulo I, Mdulo 3


Problema 1 El porcentaje de complicaciones postoperatorias en los pacientes sometidos a una determinada intervencin quirrgica es de 12%. Se aplica una nueva tcnica a una muestra de 36 pacientes y se obtiene un 9% de pacientes con complicaciones. Se puede aceptar la hiptesis de que el porcentaje de complicaciones con la nueva tcnica es distinto al tradicional? Use un nivel de significacin de 0,04. Si lo desea, puede usar tablas como las que se muestran para anotar sus datos y los pasos del desarrollo en su archivo Word. Elementos (datos) del problema P0= Q0= p0= n= Descripcin del dato

Pasos del desarrollo del problema: 1.- Hiptesis 2.- Nivel de significacin 3.- Estadstico de prueba 4.- Probabilidad 5.- Comparacin de la probabilidad encontrada con el nivel de significacin y decisin. 6.- Conclusin

13

No olvide dibujar su grfico. Problema 2 En una empresa con 62 empleados se observa un gasto medio en salud de 292 unidades monetarias y una desviacin estndar de 40 unidades. Con el antecedente de que el gasto medio en salud de la poblacin del pas es de 308 unidades monetarias Se puede afirmar que el gasto medio en salud de los empleados de la empresa es distinto al del pas? Use alfa de 0,05. Elementos (datos) del problema Descripcin del dato

Desarrollo del problema: 1.- Hiptesis 2.- Nivel de significacin 3.- Estadstico de prueba 4.- Probabilidad 5.- Comparacin de la probabilidad encontrada con el nivel de significacin y decisin. 6.- Conclusin No olvide dibujar su grfico.

14

Para Tener Presente

Una hiptesis es una afirmacin transitoria que debe ser sometida a prueba. <br> El mtodo de las pruebas de hiptesis consiste fundamentalmente en establecer la probabilidad de que la diferencia entre dos cantidades sea consecuencia del azar. <br> Pasos para realizar una prueba de hiptesis: 1. Plantear la hiptesis en trminos estadsticos: Hiptesis Nula: los valores comparados son iguales. H 0 : = 0 o H 0 : P = P0 H 0 : 1 = 2 o H 0 : P = P2 1 Hiptesis Alternativa: los valores comparados son distintos y por lo tanto pertenecen a universos distintos. H 1 : 0 o H 1 : P P0 H 1 : 1 2 o H 1 : P P2 1 2. Elegir un nivel de significacin o alfa ( ): Se utilizan valores iguales o inferiores a 0,05. El valor ms usado es 0,05. Se deja la mitad de alfa en cada extremo de la distribucin de probabilidad ( / 2 ). 3. Calcular el estadstico de prueba con los datos muestrales: El estadstico que se utilice depender de los elementos que participan en el problema. 4. Buscar, en la tabla correspondiente, la probabilidad de obtener un valor igual o mayor al estadstico calculado, cuando ste sea positivo, y la probabilidad de obtener un valor menor o igual, cuando el estadstico sea negativo. 5. Comparar la probabilidad obtenida en la tabla con el nivel de significacin elegido en el punto 2 y tomar una decisin respecto de las hiptesis planteadas: se rechazar la hiptesis nula si la probabilidad es inferior a la mitad del nivel de significacin. 6. Elaborar una conclusin derivada de la decisin

15

7. Apoyar el proceso de anlisis con un grfico del problema

Captulo II Prueba de Hiptesis para Comparar dos Muestras


Para desarrollar este tema seguiremos un esquema similar al del captulo anterior. Estudiaremos tres situaciones problema que, sin ser las nicas, son las ms frecuentes. a) Comparacin de la diferencia de promedios de dos muestras independientes. b) Comparacin de promedios de dos muestras pareadas. c) Comparacin de porcentajes de dos muestras.

Consideraciones previas
Antes de analizar la diferencia entre los promedios muestrales debemos responder algunas preguntas importantes que harn la diferencia en el procedimiento a seguir. 1.-Se trata de dos muestras independientes o pareadas? Diremos que dos muestras son independientes cuando no se establece ninguna relacin previa al anlisis entre las unidades de una y otra muestra. Por ejemplo, sujetos de uno y otro curso, enfermos de dos consultorios, hombres comparados con mujeres. En cambio diremos que se trata de muestras pareadas si en forma previa al anlisis, se forman parejas entre los individuos de una muestra con los individuos de la otra muestra. Por ejemplo, el caso con su control, distintas dietas pueden probarse en dos animales de la misma camada, Sin embargo, cuando queda ms clara esta situacin es cuando se comparan distintas medidas para los mismos individuos; por ejemplo, al medir antes y despus del tratamiento a un mismo grupo de individuos se obtienen resultados pareados o correlacionados. 2.-Son conocidos los valores de la varianza, o las varianzas de los supuestos universos? Como existe la posibilidad de que ambas muestras provengan de un mismo universo, entonces en ese caso se tratara de una sola varianza del universo. Se conoce dicha varianza?

16

Pero tambin existe la posibilidad de que las muestras comparadas provengan de universos distintos y en ese caso habra dos varianzas universales. Son stas conocidas? 3.-A la luz de las varianzas de las muestras, podemos suponer que las varianzas son iguales? Bueno, en esta parte y con todo derecho, podramos reclamar en contra de las complicaciones de la estadstica, pero seguramente el cumplimiento de estas exigencias nos permitir obtener resultados ms confiables. Cada posible respuesta a estas interrogantes nos conducir a ocupar una frmula distinta para calcular el estadstico. Por ello veremos, en primer lugar, la forma de responder a las preguntas planteadas.

Las Respuestas
La respuesta a la primera pregunta es fcil, porque se encuentra incorporada dentro del mismo problema de investigacin: es una caracterstica de los datos; forma parte del diseo de la investigacin. La segunda pregunta tampoco es tan complicada porque ser cuestin de revisar los antecedentes de que dispone el investigador. Lo ms frecuente es que este dato se desconozca y, por lo tanto, para efectos de este curso, nosotros asumiremos que la o las varianzas del universo son desconocidas. Para responder a la tercera pregunta se hace necesario realizar una prueba de hiptesis para probar la igualdad o diferencia de las varianzas. La realizacin de la misma no es difcil y es frecuente que los programas computacionales de anlisis estadstico la hagan en forma automtica sin que sea necesario solicitarla, y la entreguen como parte de los resultados. Como lo ms frecuente es que las varianzas de las muestras comparadas tengan varianzas similares, nosotros en este curso haremos los anlisis bajo este supuesto. Hechas estas aclaraciones procederemos a describir en forma general los estadsticos que participan en cada situacin. a) Comparar los promedios de dos muestras independientes (con varianzas desconocidas y supuestas iguales) Estadstico a utilizar:
t0 = s
2

x1 x 2 1 1 + n1 n 2

Donde:

17

1. t0 tiene probabilidad e de ocurrencia en la tabla de distribucin t de Student con n1 + n2 2 grados de libertad.

(n 1) s1 + (n2 1) s2 2. s = 1 n1 + n2 2
2

es la varianza comn estimada.

3. t0 tiene probabilidad de ocurrencia en la tabla t. 4. 5.


x1

es el promedio de la muestra 1 y

x2

es el promedio de la muestra 2.

n1 y n2 son los tamaos de las respectivas muestras.

b) Comparar los promedios de dos muestras pareadas. Estadstico a utilizar: t 0 = Donde: 6. t0 tiene probabilidad e de ocurrencia en la tabla de distribucin t de Student con n-1 grados de libertad. 7.
D

D0 sD / n

es la diferencia promedio entre las parejas de datos.

s D es la desviacin estndar de las diferencias entre las 8. parejas de datos.

9.

n es el tamao de la muestra (nmero de parejas de datos).

c) Comparar los porcentajes de dos muestras.


z0 = p1 p 2 1 1 pq + n1 n 2
n1 p1 + n 2 p 2 n1 + n 2

Estadstico a utilizar:

Con p = Donde:

6. z0 tiene probabilidad de ocurrencia en la tabla de distribucin normal. 7. 8.


p

es la estimacin del porcentaje comn.

q es el complemento de p (100-p).

9. n1 y n2 son los tamaos de las respectivas muestras.

18

Comparacin de los Promedios de Dos Muestras Independientes (con Varianzas Desconocidas e Iguales)
El problema para el investigador es el siguiente: en una maternidad de la Regin Metropolitana se sospecha que los hijos de madres adolescentes tienen un peso de nacimiento diferente, probablemente menor, al peso de los recin nacidos de madres mayores de 25 aos. Con el objeto de probar la hiptesis se tom una muestra de 36 recin nacidos de madres adolescentes obteniendo un promedio de peso al nacimiento de 2,85 kg, con una desviacin estndar de 0,5 kg, y una muestra de 28 recin nacidos de madres mayores de 25 aos obteniendo en promedio 3,05 kg y una desviacin estndar de 0,42. Identifiquemos los elementos del problema. 6. Promedios de las muestras 1 y 2 x1 = 2,85 y x 2 = 3,05 7. Desviaciones estndar de las muestras 1 y 2 s1 = 0,5 y s2 = 0,42 8. Tamaos de las muestras n1=36 y n2=28 Una vez identificados los datos del problema, buscaremos la solucin guiados por el esquema bsico que usted ya conoce del captulo anterior. 1. Planteamiento de hiptesis en trminos estadsticos.
H 0 : 1 = 2

Esta hiptesis (hiptesis nula) plantea que las muestras, aunque tienen promedios diferentes, provienen de un mismo universo y que la diferencia observada se debe al azar.
H 1 : 1 2

Esta hiptesis (hiptesis alternativa) plantea que las muestras provienen de universos con promedios distintos. 2. Elegimos un nivel de significacin = 0,05 . Calcular el estadstico de prueba:

s2 =

( n1 1) s1 + (n2 1) s2 (36 1)0,52 + ( 28 1)0,42 2 = = 0,21 n1 + n2 2 36 + 28 2


19

t0 =

x1 x 2 1 1 s + n1 n2
2

3,05 2,85 1 1 0,21 + 36 28

= 1,73

Nota: Se aconseja restar al mayor de los promedios, el menor, de tal modo que la diferencia resulte positiva y facilite de este modo su bsqueda en la tabla. Entonces el estadstico de prueba es t=1,73 3. Como los grados de libertad son 62 (n1 +n2-2), buscamos en la tabla t, con 60 grados de libertad, la probabilidad de ocurrencia que tiene un valor de t igual o superior a 1,73. Vemos en la tabla que 1,73 se encuentra entre 1,671 y 2,021 por lo tanto la probabilidad de un valor superior a l es mayor que la mitad de alfa.(0,025)(probabilidad de la cola). 4. El hecho de que la probabilidad asociada al estadstico de prueba sea mayor que la mitad del nivel de significacin nos conduce a la decisin de aceptar la hiptesis nula. 5. Aceptar la hiptesis nula significa aceptar que el peso promedio al nacimiento es igual en madres adolescentes y madres mayores de 25 aos. Ambas muestras provienen de un mismo universo. 6. Grfico del problema.

Se observa en el grfico que la probabilidad del estadstico de prueba es superior a la mitad del nivel de significacin (0,025), lo que indica que la diferencia entre las muestras no es significativa.

Comparacin de Dos Muestras con Observaciones Pareadas

20

Con el objeto de evaluar el efecto de la instruccin en el conocimiento de los alumnos, se tom una muestra de 10 alumnos y se compararon las notas obtenidas antes y despus de la instruccin. Los resultados fueron los siguientes. Antes: 4, 4 Despus: 4, 0 3, 7 5, 2 4, 7 5, 7 2,8 4,2 4,2 4,8 4,3 3,9 3,5 4,1 3,7 3,0 3,1 4,6 1,9 6,8

Como aqu lo que interesa es evaluar el cambio individual se hace necesario generar una variable que exprese ese cambio. Proponemos entonces crear la variable x que exprese la diferencia entre las mediciones individuales. De este modo la variable x = Despus - Antes ser nuestra variable de estudio y respecto de ella formularemos la hiptesis nula
H 0 : = 0 plantea que el promedio real (del universo) de las diferencias individuales es

cero y la hiptesis alternativa


H 1 : 0 plantea que el promedio real de las diferencias es distinto de cero.

Para decidir entre las hiptesis ser necesario calcular un estadstico de prueba en base a los valores de la variable x Antes Despues
4,4 3,7 4,7 2,8 4,2 4,3 3,5 3,7 3,1 1,9 4 5,2 5,7 4,2 4,8 3,9 4,1 3 4,6 6,8

x
-0,4 1,5 1 1,4 0,6 -0,4 0,6 -0,7 1,5 4,9

El esquema de esta prueba de hiptesis corresponde al utilizado para comparar un promedio muestral con el promedio del universo, visto en el captulo anterior. 21

Empezaremos calculando promedio y desviacin estndar para la variable diferencia (x) y a continuacin someteremos a prueba la hiptesis de que el promedio de las diferencias observadas ( ) es igual a cero. Promedio de la muestra x =1 Desviacin estndar s =1,25 Estadstico de prueba ser:
t= x 0 0 10 = = 2,5 s/ n 1,25 / 10

Buscamos ahora en la tabla t, con 9 (n-1) grados de libertad, la probabilidad asociada a este valor. Mirando la tabla, en la fila de los 9 grados, se observa que el valor asociado a la mitad de alfa (0,025) es 2,262. Como el valor 2,5 se encuentra hacia la derecha de 2,262 nos conduce al rechazo de la hiptesis nula. Por lo tanto el promedio de las diferencias antes despus es significativo, lo que nos permite conclur que, asociado a la intervencin educativa, se observa un aumento significativo del puntaje en los alumnos estudiados.

Comparacin de los Porcentajes de Dos Muestras


El problema para el investigador es el siguiente. En un consultorio urbano, el 28,2% de una muestra de 47 personas presenta algn problema de salud mental. En una muestra de 63 personas de un consultorio rural, el 31% de las personas tiene algn problema de salud mental.

22

A la luz de estos antecedentes, se puede aceptar la hiptesis de que el porcentaje de problems de salud mental en el consultorio rural es distinto al del consultorio urbano? Cules son los datos que entrega el problema? p1= 28,2 Porcentaje de problems de salud mental en la muestra urbana. p2= 31 Porcentaje de problems de salud mental en la muestra rural. n1= 47 Tamao de la muestra urbana. n2= 63 Tamao de la muestra rural.

1. Las hiptesis sern:


H 0 : P = P2 y H1 : P P2 1 1

2. Elegiremos un nivel de significacin = 0,04 3. El estadstico de prueba ser:


z0 = p1 p 2 1 1 pq + n1 n 2

Calcularemos primero el porcentaje comn (p)


n1 p1 + n2 p2 47 28,2 + 63 31 = = 29 ,8 n1 + n2 47 + 63

p=

Entonces p=29,8 y q=100-p=70,2. Luego reemplazamos todos los valores en la formula de Z


z0 = 28 ,2 31 1 1 29 ,8 70 ,2 + 47 63 = 0,31

4. Buscamos en la tabla normal la probabilidad asociada a un valor de z menor de -0,31.

23

Resulta 0,3783. 5. Comparamos la probabilidad encontrada con la mitad del nivel de significacin.
/ 2 = 0,02

6. Dado que el valor de z calculado (-0,31) se encuentra ms o menos al centro de la curva, su probabilidad, segn tabla es de 0,3783 que resulta mayor a la mitad del nivel de significacin elegido / 2 = 0,02 ) . Esto nos conduce a la decisin de aceptar la hiptesis nula (ver grfico).

7. Aceptar la hiptesis nula significa aceptar que el porcentaje de problemas de salud mental es similar en ambos consultorios.

Ejercicio, Captulo II, Mdulo 3 Problema 1


El porcentaje de complicaciones postoperatorias en 15 pacientes sometidos al procedimiento tradicional es de 12%. Se aplica una nueva tcnica a una muestra de 22 pacientes y se obtiene un 9% de complicaciones. Se puede aceptar la hiptesis de que el porcentaje de complicaciones con la nueva tcnica es distinto al tradicional? Use un nivel de significacin de 0,01. Si lo desea, puede usar tablas como las que se muestran a continuacin para anotar sus datos y los pasos del desarrollo. Elementos (datos) del problema p1 = q1 = Descripcin del dato

24

p2 = q2 = n1 = n2 = Pasos del desarrollo del problema: 1.- Hiptesis 2.- Nivel de significacin 3.- Estadstico de prueba 4.- Probabilidad 5.- Comparacin de la probabilidad encontrada con el nivel de significacin y decisin. 6.- Conclusin No olvide dibujar su grfico.

Problema 2
En una empresa pblica de 62 empleados, se observa un gasto medio en salud de 282 unidades monetarias y una desviacin estndar de 40 unidades. En una empresa privada, con 57 empleados, el gasto medio en salud es de 308 unidades monetarias con desviacin estndar de 25 unidades. Se puede afirmar que el gasto medio en salud de los empleados de la empresa pblica es distinto al gasto medio en salud de los empleados de la empresa privada? Use alfa de 0,05. Elementos (datos) del problema Descripcin del dato

25

Desarrollo del problema: 1.- Hiptesis 2.- Nivel de significacin 3.- Estadstico de prueba 4.- Probabilidad 5.- Comparacin de la probabilidad encontrada con el nivel de significacin y decisin. 6.- Conclusin No olvide dibujar su grfico.

Problema 3
Se desea conocer el efecto de un anticonceptivo oral sobre el peso corporal de las usuarias. Para ello se toma una muestra de 9 mujeres sanas y se mide su peso antes de iniciar el tratamiento y tres meses despus. Se obtienen los siguientes resultados: Mujer 1 2 3 4 5 6 7 8 9 Peso inicio 53 62 57 66 59 62 53 62 57 Peso a los 3 meses 54 65 62 64 62 63 55 62 58

26

Pruebe la hiptesis de que el peso de las mujeres a los 3 meses de tratamiento es distinto del peso inicial. Use un nivel de significacin de 0,01. Elementos (datos) del problema Descripcin del dato

Desarrollo del problema: 1.- Hiptesis 2.- Nivel de significacin 3.- Estadstico de prueba 4.- Probabilidad 5.- Comparacin de la probabilidad encontrada con el nivel de significacin y decisin. 6.- Conclusin No olvide dibujar su grfico.

Solucin de los ejercicios:

Para Tener Presente

Al estudiar diferencias entre dos muestras se identifican las siguientes situaciones

27

problema: 1. Comparacin de la diferencia de promedios de dos muestras independientes. 2. Comparacin de promedios de dos muestras pareadas. 3. Comparacin de porcentajes de dos muestras. Muestras independientes son aquellas en las cuales los sujetos de una muestra no tienen relacin alguna con los de la otra muestra. Muestras pareadas son aquellas en las cuales los individuos o las mediciones de una muestra estn de alguna manera ligados o pareados con los de otra muestra. El caso ms tpico es el de las mediciones repetidas en los mismos sujetos.

Situaciones problema y estadstico a usar


Situacin problema
Comparacin de promedios de dos muestras independientes (con varianzas desconocidas y supuestas iguales)

Estadstico a usar

Otras frmulas

t0 = s
2

x1 x 2 1 1 + n1 n 2

s2 =

(n1 1) s1 + (n 2 1) s 2 n1 + n 2 1

Grados de libertad: n1+n2-2

S2 varianza comn estimada

Comparacin de promedios de dos muestras pareadas

La variable de trabajo es la diferencia entre cada par de datos

Se debe calcular promedio y desviacin estndar de la variable diferencia

t0 =

D0 sD / n

Grados de libertad: n-1

Comparacin entre los porcentajes de dos muestras

z0 =

p1 p 2 1 1 pq + n1 n 2

p=

n1 p1 + n 2 p 2 n1 + n 2

P: estimacin del porcentaje comn

28

Captulo III

La Prueba de Ji-cuadrado Introduccin

Del mismo modo que los estadsticos z, con su distribucin Normal y t, con su distribucin t de Student, nos han servido para someter a prueba hiptesis que involucran a promedios y porcentajes, el estadstico ji-cuadrado, que tiene distribucin de probabilidad del mismo nombre, nos servir para someter a prueba hiptesis referidas a distribuciones de frecuencias. En primer lugar usaremos el estadstico ji-cuadrado para probar la asociacin entre dos variables, y luego lo usaremos para evaluar en qu medida se ajusta la distribucin de frecuencias obtenida con los datos de una muestra, a una distribucin terica o esperada. En trminos generales, esta prueba contrasta frecuencias observadas con las frecuencias esperadas de acuerdo con la hiptesis nula. Al igual que en el caso de las pruebas anteriormente estudiadas, ilustraremos con ejemplos.

Ji- cuadrado como Prueba de Asociacin


Supongamos que un investigador est interesado en evaluar la asociacin entre uso de cinturn de seguridad en vehculos particulares y el nivel socioeconmico del conductor del vehculo. Con este objeto se toma una muestra de conductores a quienes se clasifica en una tabla de asociacin encontrando los siguientes resultados: Uso de Cinturn SI NO TOTAL Nivel socioec. bajo 8 13 21 Nivel socioec. medio 15 16 31 Nivel socioec. alto 28 14 42 TOTAL 51 43 94

Permiten estos datos afirmar que el uso del cinturn de seguridad depende del nivel socioeconmico? Usaremos un nivel de significacin alfa = 0,05.

29

Los pasos del anlisis estadstico en este caso son los siguientes: 1. En primer lugar debemos plantear las hiptesis que someteremos a prueba: H0: El uso de cinturn de seguridad es independiente del nivel socioeconmico. H1: El uso del cinturn de seguridad depende del nivel socioeconmico. En esta prueba estadstica siempre la hiptesis nula plantea que las variables analizadas son independientes. 2. En segundo lugar debemos obtener (calcular) las frecuencias esperadas. Estas son las frecuencias que debieran darse si las variables fueran independientes, es decir, si fuera cierta la hiptesis nula. Las frecuencias esperadas se obtendrn de la distribucin de frecuencias del total de los casos, 51 personas de un total de 94 usan el cinturn y 43 de 94 no lo usan. Esa misma proporcin se debera dar al interior de los tres grupos de nivel socioeconmico, de manera que el clculo responde al siguiente razonamiento: si de 94 personas 51 usan cinturn, de 21 personas, cuantas debieran usarlo? La respuesta a esta pregunta se obtiene aplicando la regla de tres y es 11,4. Este procedimiento debe repetirse con todas las frecuencias del interior de la tabla. El detalle de los clculos es el siguiente: Nivel bajo: (21x51/94)=11,4 - (21x43/94) = 9,6 Nivel medio: (31x51/94)=16,8 - (31x43/94) = 14,2 Nivel alto: (42x51/94)=22,8 - (42x43/94) = 19,2 Estas son las frecuencias que debieran presentarse si la hiptesis nula fuera verdadera y, por consiguiente, las variables fueran independientes. Estos valores los anotamos en una tabla con las mismas celdas que la anterior; as tendremos una tabla con los valores observados y una tabla con los valores esperados, que anotaremos en cursiva, para identificarlos bien. Uso de cinturn Nivel bajo SI 11,4 NO 9,6 TOTAL 21 Nivel medio 16,8 14,2 31 Nivel alto 22,8 19,2 42 TOTAL 51 43 94

30

3. Ahora debemos calcular el estadstico de prueba. En este caso, el estadstico de prueba es Ji-cuadrado que, como dijimos al comienzo, compara las frecuencias que entregan los datos de la muestra (frecuencias observadas) con las frecuencias esperadas, y tiene la siguiente frmula clculo: (oi ei ) 2 2 = ei donde oi representa a cada frecuencia observada y ei representa a cada frecuencia esperada. De este modo el valor del estadstico de prueba para este problema ser:
2 =
(oi ei ) 2 = ei

(8 11,4) 2 (13 9,6) 2 (15 16 ,8) 2 (16 14 ,2) 2 ( 28 22 ,8) 2 (14 19 ,2) 2 + + + + + = 5,23 11,4 9,6 16 ,8 14 ,2 22 ,8 19 ,2

Entonces 2 = 5,23 . Este es el valor de nuestro estadstico de prueba que ahora, siguiendo el procedimiento de problemas anteriores (paso 4), debemos comparar con un valor de la tabla de probabilidades para ji-cuadrado ( 2 ), que est en el anexo Tablas estadsticas. Esta tabla es muy parecida a la tabla t de student, pero tiene slo valores positivos porque ji-cuadrado slo da resultados positivos (vase grafico que muestra la forma de la curva, con valores desde 0 hasta infinito).

Uso de tabla ji-cuadrado


La tabla de ji-cuadrado tiene en la primera columna los grados de libertad y en la primera fila la probabilidad asociada a valores mayores a un determinado valor del estadstico (vase grfico de la tabla). Los grados de libertad dependen del nmero de celdas que tiene la tabla de asociacin donde estn los datos del problema y su frmula de clculo es muy sencilla: Grados de libertad (gl) = (n de filas 1) x (n de columnas 1)

31

As, en nuestro ejemplo, en que hay 2 filas y 3 columnas, los grados de libertad sern: gl = (2 - 1) x (3 - 1) = 2 Ntese que no se consideran la fila ni la columna de los totales. Al comienzo elegimos un nivel de significacin alfa = 0,05. Entonces un valor de tabla para 2 asociado a 2 grados de libertad y alfa 0,05 es 5,99.

32

Por lo tanto, como en el grfico dibujado ms abajo, vemos que 5,23 se encuentra a la izquierda de 5,99, la probabilidad asociada a valores superiores a 5,23 es mayor que alfa (0,05). Segn esto, debemos aceptar la hiptesis nula que plantea que las variables uso de cinturn de seguridad y nivel socioeconmico son independientes.

Limitaciones y correcciones
Cuando resulta alguna frecuencia esperada inferior a 5, se recomienda aplicar la correccin de Yates. Esta consiste en restar del valor absoluto de cada diferencia, el valor 0,5. De tal modo que la frmula de ji-cuadrado corregida sera:

=
2

( oi ei 0,5) 2 ei

Si alguna de las frecuencias esperadas resulta inferior a 1, se recomienda reagrupar categoras tratando de aumentar las frecuencias pequeas..

Ji-cuadrado como Prueba de Bondad de Ajuste


Tambin se puede usar el estadstico ji-cuadrado para evaluar cuan buena puede resultar una distribucin terica, cuando pretende representar la distribucin real de los datos de una muestra determinada. A esto se le llama evaluar la bondad de un ajuste. Probar la bondad de un ajuste es ver en qu medida se ajustan los datos observados a una distribucin terica o esperada. Tomemos como ejemplo la distribucin esperada para los individuos de una poblacin que son clasificados segn grupo sanguneo.

33

Segn estudios realizados en poblacin, se espera que dicha distribucin, en porcentajes, sea la siguiente: Grupo AB A B 0 Frecuencia esperada 2% 30,5% 9,3% 58,2%

En una muestra de 150 dadores de sangre se encontr la siguiente distribucin: Grupo AB A B 0 Frecuencia observada 4 48 15 83

1. Las hiptesis del problema son: H0: los datos se ajustan a la distribucin terica. H1: los datos no se ajustan a la distribucin terica. 2. Siguiendo el esquema general de solucin propuesto para las pruebas de hiptesis, ahora corresponde elegir un nivel de significacin. Elijamos entonces alfa = 0,01. El estadstico de prueba ser ji-cuadrado, cuya frmula ya conocemos:

2 =

(oi ei ) 2 ei

Debemos calcular las frecuencias esperadas en nuestro grupo. Si aplicamos los porcentajes esperados a la muestra de 150 casos podemos obtener las siguientes frecuencias esperadas (ei): Grupo AB A B 0 Total Frec. oi 4 48 15 83 150 Frec. ei 3,00 45,75 13,95 87,30 150,00

34

Los grados de libertad de esta tabla se obtienen restando 1 al nmero de filas, en este caso: gl = 4 -1 = 3. Recordemos que la fila del total no se considera para los grados de libertad. Si ya tenemos las frecuencias observadas y esperadas, podemos proceder a evaluar la diferencia entre ellas utilizando el estadstico ji-cuadrado. Si la diferencia entre frecuencias observadas y esperadas es grande, significar que la hiptesis nula es falsa, o sea, esta distribucin no se ajusta a la distribucin terica y si, en cambio, resulta que la diferencia entre frecuencias observadas y esperadas no es muy grande, significar que la hiptesis nula es verdadera; por lo tanto, la distribucin en la muestra se ajusta a la distribucin terica y diremos que no hay significacin estadstica. El valor del estadstico de prueba ( 2 ) es una medida de la diferencia entre frecuencias observadas y esperadas; por lo tanto, mientras mayor resulte 2 , ms fcil ser rechazar la hiptesis nula. 3. Calculemos entonces nuestro estadstico de prueba con los datos de nuestro ejemplo:

2 =
2 = 0,4

(oi ei ) 2 (4 4) 2 (48 45,75) 2 (15 13,95) 2 (83 87,3) 2 = + + + = 0,4 ei 4 45,75 13,95 87,3

4. Ahora debemos comparar este valor con el valor de ji-cuadrado de la tabla que buscaremos con alfa=0,01 y 3 grados de libertad. Segn tabla ese valor es 11,34. 5. Al comparar el valor del estadstico de prueba (0,4) con el valor de tabla (11,34), vemos que 0,4 se encuentra a la izquierda de 11,34 desplazado hacia el centro de la curva y que, por lo tanto, la probabilidad de valores mayores a l es muy superior al nivel de significacin alfa = 0,01. 6. Conclusin Dado que la probabilidad de 2 0,4 es mayor que alfa, se acepta la hiptesis nula. Esto significa que los datos observados se ajustan a la distribucin terica, por lo tanto las diferencias observadas no son estadsticamente significativas. 7. Grfico

35

Ejercicio, Captulo III, Mdulo 3

Problema 1
Intentando determinar si el sexo influye en el nmero de licencias por enfermedad, en un consultorio de atencin primaria se tom una muestra de pacientes en control y se les clasific segn sexo y nmero de licencias por enfermedad obtenidas durante el ao. Los datos se clasificaron en una tabla de 4 filas y 2 columnas. Se obtuvo un valor de jicuadrado de 8,31. Con estos datos complete el siguiente cuadro y dibuje el grfico correspondiente. 1.- Hiptesis 2.- Nivel de significacin 3.- Estadstico de prueba 4.- Probabilidad 5.- Comparacin de la probabilidad encontrada con el nivel de significacin y decisin. 6.- Conclusin Alfa = 0,05

Problema 2
El gerente de una planta industrial pretende determinar si el nmero de empleados que asisten al consultorio mdico de la planta se encuentra distribuido en forma equitativa,

36

durante los 5 das de trabajo de la semana. Durante un perodo de trabajo de un mes se registr el siguiente nmero de consultas por da: Lunes 49 Martes 35 Mircoles 32 Jueves 39 Viernes 45

Usando = 0,05 , existe alguna razn para creer que el nmero de empleados que asisten al consultorio mdico, no se encuentra distribuido en forma equitativa durante los das de trabajo de la semana? Con estos datos complete el siguiente cuadro y dibuje el grfico correspondiente. 1.- Hiptesis 2.- Nivel de significacin 3.- Estadstico de prueba 4.- Probabilidad 5.- Comparacin de la probabilidad encontrada con el nivel de significacin y decisin. 6.- Conclusin Alfa = 0,05

Para Tener Presente


La prueba Ji cuadrado se usa para someter a prueba hiptesis referidas a distribuciones de frecuencias. Esta prueba contrasta frecuencias observadas con frecuencias esperadas. Sus usos son dos: - Prueba de asociacin, en que se prueba la dependencia o independencia entre dos variables. - Prueba de bondad de un ajuste, en que se prueba si una determinada distribucin de frecuencias se ajusta a un modelo terico.

37

El valor de Ji cuadrado est determinado por los grados de libertad, que se calculan de la siguiente manera: - Prueba de asociacin (filas 1) x (columnas 1) - Prueba de bondad de un ajuste: filas 1

Captulo IV

Generalidad de Anlisis de Varianza (ANOVA) y Regresin Introduccin


Cuando trabajamos con variables cuantitativas continuas, por su misma naturaleza, las posibilidades de anlisis estadstico se extienden hasta el infinito. As de inmensa es tambin la riqueza de conclusiones que podremos extraer. Esto se ha desarrollado de manera explosiva gracias a los programas estadsticos a los que en la actualidad tenemos acceso. Sin embargo, siempre se necesitar la interpretacin de esos resultados que a veces con un simple click tenemos en nuestras manos. Ejemplos de lo anterior son el anlisis de varianza, conocido como ANOVA y la regresin lineal simple y mltiple, entre otros mtodos, algunos muy complejos.

Anlisis de Varianza
La tcnica del anlisis de varianza se aplica con distintos objetivos. Es frecuente su uso en el anlisis de resultados de estudios que utilizan diseos de asignacin aleatorizada, en que se comparan simultneamente varias combinaciones experimentales. En este captulo nos 38

limitaremos a hacer uso del anlisis de varianza para la comparacin de promedios de ms de dos muestras. A diferencia de los captulos anteriores, no entregaremos el detalle de los clculos necesarios para hacer el anlisis, sino que, siguiendo el enfoque general de los problemas de pruebas de hiptesis: sealaremos la oportunidad de su aplicacin, identificaremos los elementos que participan en el anlisis, veremos la forma adecuada de plantear las hiptesis, identificaremos la distribucin de probabilidad del estadstico de prueba, revisaremos los criterios de decisin, y orientaremos al estudiante en la elaboracin de las conclusiones. En todo este proceso supondremos que el valor del estadstico de prueba se obtiene con cualquier programa estadstico de computacin.

El mtodo de anlisis de varianza es apropiado para someter a prueba la hiptesis de que los promedios de tres o ms muestras son iguales. Para empezar debemos sealar que se trabaja con los valores individuales, que tienen variabilidad dentro de cada grupo en estudio y tambin existe variabilidad entre los grupos. La varianza total, entonces, se descompone en: varianza entre grupos y varianza dentro de los grupos. El estadstico de prueba (f) es el cuociente entre estas dos varianzas. Si el resultado es igual a 1 significa que ambas varianzas son iguales y por lo tanto la variacin entre los grupos es equivalente a la variacin dentro de los grupos. Si el estadstico f resulta ser suficientemente mayor que 1, diremos que la varianza entre los grupos es mayor que la varianza dentro de los grupos y que, por lo tanto, los grupos difieren entre s. Las hiptesis sern:
H 0 : 1 = 2 = 3 , los promedios son iguales

H 1 : al menos 2 promedios son diferentes


V1 cuyos valores de probabilidad asociados se V2 encuentran en la tabla de Fisher que ocupa las pginas 5, 6 y 7 de las tablas estadsticas (Vase Anexo 1: Tablas estadsticas).

El estadstico de prueba es

F =

39

En la frmula de F, V1 representa la varianza entre los grupos y V2 representa la varianza dentro de los grupos. Para buscar los valores de F en la tabla se necesitan los grados de libertad; ahora veremos, con un ejemplo, cmo se obtienen. Consideremos el siguiente caso: En un estudio para medir los niveles de actividad de la fosfatasa alcalina del suero en nios con problemas de crecimiento, se tomaron 45 nios que fueron clasificados en 4 grupos, segn el medicamento que estaban recibiendo. Se entregan, en una tabla, los resultados de los niveles de actividad de la fosfatasa alcalina para los 45 nios, separados en cuatro grupos de acuerdo al medicamento. Se calcula el estadstico de prueba resultando: F = 3,57. Se puede afirmar que la actividad media de la fosfatasa alcalina es la misma para los cuatro grupos? Solucin:
H 0 : 1 = 2 = 3 = 4

H1: al menos 2 promedios son diferentes. Elegimos alfa = 0,05. Clculo de grados de libertad: Para F en la tabla de Ficher, necesitamos calcular 2 tipos de grados de libertad que llamaremos n1 y n2, tal como aparecen en la tabla, definidos como sigue: n1 = nmero de grupos 1 n2 = nmero de sujetos nmero de grupos

Del problema se desprende que son 45 sujetos y 4 grupos, por lo tanto los grados de libertad sern: n1 = 4-1 = 3 y n2 = 45-4 = 41 Ahora podemos buscar en la tabla de Fisher el valor correspondiente a n1 = 3 grados de libertad en la primera fila, y n2 = 41 grados de libertad en la primera columna. Como no

40

existe n2 = 41, tomamos 40, ubicado en la pgina 7. Podemos ver que donde se cruza la columna de n1 = 3 con la fila de n2 = 40. Encontramos dos valores: 2,84 para alfa de 0,05 y 4,31 (en negrita) para alfa de 0,01.

Ya que el alfa elegido por nosotros es 0,05, usamos 2,84 para compararlo con el valor calculado de F = 3,57 entregado como dato del problema. Como 3,57 se encuentra a la derecha del valor de tabla f = 2,84, la probabilidad de encontrar un valor mayor que l es inferior al nivel de significacin. Esto nos permite rechazar la hiptesis nula (ver grfico). Podemos concluir, entonces, que el promedio de actividad de la fosfatasa alcalina no es el mismo para todos los grupos.

LINK EPI Seguramente en la prctica usted dispondr de los resultados de su estudio en una planilla o base de datos y pedir al computador que haga un anlisis de varianza (ANOVA) a sus datos. El computador obedientemente le entregar, como resultado, el valor del estadstico de prueba (f) con una probabilidad asociada (p). Usted comparar ese valor de p con alfa: si p es menor que alfa, usted rechazar la hiptesis nula y concluir que los promedios de las muestras no son iguales. Es muy probable que, aunque usted no haya realizado los clculos, si logra interpretar adecuadamente los resultados entregados por el computador, sienta un mayor nivel de autonoma en el vuelo estadstico.

41

Regresin Lineal
A menudo, es necesario resolver en la prctica problemas que involucran a conjuntos de variables que estn relacionadas entre s. En estas situaciones es posible identificar una variable dependiente o respuesta y un conjunto de variables independientes o de regresin. La variable respuesta depende de las variables de regresin. Se concibe la regresin como el proceso de ajuste de un modelo o ecuacin matemtica a la relacin de un conjunto de variables. En este captulo haremos una revisin conceptual del modelo de regresin lineal simple, con slo una variable de regresin. Supongamos, como ejemplo, que se quiere obtener un modelo de regresin lineal para la relacin entre las variables cantidad de lluvia cada y partculas de contaminacin en el aire. Se dispone de un listado con los datos correspondientes a 9 das de observacin.

El modelo que se busca est representado por la ecuacin de la recta


y = a + bx

Donde y representa la estimacin del valor de la variable dependiente (partculas de contaminacin) para un valor cualquiera de la variable independiente x (lluvia). a representa el valor que tomar y cuando x sea cero, es decir, la cantidad de partculas de contaminacin que se estiman cuando no caiga lluvia. b es el incremento que experimentar la variable partculas de contaminacin por cada unidad de lluvia cada, corresponde a la pendiente de la recta. x representa, en el modelo, la cantidad de lluvia cada.

En el siguiente cuadro se muestran los datos del problema y los calculos preliminares para obtener los valores de a y b en el modelo de regresin que se ajuste mejor a los datos del problema. En las ltimas filas del cuadro siguiente estn los valores calculados de a y b.

42

x=lluvia
4,3 4,5 5,9 5,6 6,1 5,2 3,8 2,1 7,5 45

y=contaminaci n
126 121 116 118 114 118 132 141 108 1094

X2
18,49 20,25 34,81 31,36 37,21 27,04 14,44 4,41 56,25 244,26 b =-6,3 a=153

Y2
15876 14641 13456 13924 12996 13924 17424 19881 11664 133786

xy
541,8 544,5 684,4 660,8 695,4 613,6 501,6 296,1 810 5348,2

En el grfico se ha dibujado la nube de puntos que muestra los datos del problema y la recta representa al modelo de regresin, que es la recta que mejor se ajusta a la relacin entre las variables. A continuacin procederemos a la interpretacin de los valores calculados y al final entregaremos las frmulas utilizadas para su clculo. El modelo de regresin que mejor describe la relacin entre las variables estudiadas es:
y =153 6,3 x

Este modelo indica que cuando no llueve hay 153 partculas de contaminacin y por cada unidad de lluvia cada la contaminacin disminuye en 6,3 partculas. Usando el modelo obtenido es posible estimar el nmero de partculas de contaminacin que debiera haber en un da con 8,5 unidades de lluvia.

43

y =153 6,3 8,5 y = 99 ,45

Por lo tanto se estima que en un da con 8,5 unidades de lluvia habr 99,45 partculas de contaminacin. Suponemos que los engorrosos clculos que implica la obtencin de resultados en estas materias sern encargados a las computadoras pero de todos modos, por si alguien quisiera revisar los clculos de este ejemplo, entregaremos las frmulas para obtener a y b en el modelo de regresin.
nxy x y nx 2

b=

[ x ]

a = y b x

De la ltima fila de la tabla de clculos se pueden extraer los siguientes elementos

x = 45

y =1094

xy

= 5348 ,2

=2 4 , 2 4 6

La regresin es un tema muy amplio y lo que aqu hemos revisado es slo un barniz de iniciacin. Se pueden construir intervalos de confianza para los valores de a y b, tambin se pueden enunciar hiptesis respecto de ellos en la poblacin. Las estimaciones realizadas para valores de contaminacin en determinados niveles de lluvia podran llevar asociados niveles de confianza. Lo dejaremos hasta aqu, pero son temas que en el futuro podran ser revisados con mayor detencin.

44

Finalizacin del Mdulo 3

Resumen

En este mdulo se entregaron los elementos para realizar las pruebas de hiptesis ms corrientemente usadas. En primer lugar se present una definicin de hiptesis, sealando que estn referidas a parmetros o valores en el universo. Se present un esquema de trabajo comn para todas las pruebas y que es el siguiente: 1. Plantear las hiptesis en trminos estadsticos: Hiptesis Nula e Hiptesis Alternativa. 2. Elegir un nivel de significacin o alfa ( ): Se utilizan valores iguales o inferiores a 0,05. 3. Calcular el estadstico de prueba con los datos muestrales. 4. Buscar, en la tabla correspondiente, la probabilidad asociada a ese valor del estadstico. 5. Comparar la probabilidad obtenida en la tabla con el nivel de significacin elegido en el punto 2 y tomar una decisin respecto de las hiptesis. 6. Elaborar una conclusin derivada de la decisin. Apoyar el proceso de anlisis con un grfico del problema. Luego, ilustrando con un ejemplo y un ejercicio para cada caso, se desarrollaron las pruebas de hiptesis para cada una de las siguientes situaciones: 1. Prueba de hiptesis para comparar una muestra con el universo.
a) Comparacin promedio de muestra versus promedio del universo, conociendo la desviacin estndar del universo. b) Comparacin de promedio de muestral con el promedio del universo SIN conocer la desviacin estndar del universo. c) Comparacin de porcentaje muestral con porcentaje del universo. 2. Prueba de hiptesis para comparar dos muestras a) Comparacin de los promedios de dos muestras independientes (con varianzas desconocidas e iguales). b) Comparacin de dos muestras con observaciones pareadas. c) Comparacin de los porcentajes de dos muestras. 3. Prueba de Ji cuadrado

45

a) Prueba de asociacin b) Prueba de la bondad de un ajuste.

Por ltimo, se expone en trminos generales, el uso del anlisis de varianza y la regresin mltiple.

46