Sunteți pe pagina 1din 15

UNIDAD 5.

- PRUEBAS DE HIPTESIS CON DOS MUESTRAS CON


DATOS CATEGRICOS.

Tema 5.1 Prueba z para la diferencia en N proporciones.


Una distribucin poblacional representa la distribucin de valores de una poblacin
y una distribucin muestral representa la distribucin de los valores de una
muestra. En contraste con las distribuciones de mediciones individuales, una
distribucin muestral es una distribucin de probabilidad que se aplica a los
valores posibles de una estadstica muestral. As, la distribucin muestral de la
media es la distribucin de probabilidad de los valores posibles de la media
muestral con base en un determinado tamao de muestra.
Para cualquier tamao de muestra dado n, tomado de una poblacin con media,
los valores de la media muestra varan de una muestra a otra. Esta variabilidad
sirve de base para la distribucin muestral. La distribucin muestral de la media se
describe determinando el valor esperado E () o media, de la distribucin y la
desviacin estndar de la distribucin de las medias, Como esta desviacin
estndar indica la precisin de la media muestral como estimador puntual, por lo
general se le denomina error estndar de la media.
Ejemplo: Un fabricante de reproductores de discos compactos utiliza un
conjunto de pruebas amplias para evaluar la funcin elctrica de su
producto. Todos los reproductores de discos compactos deben pasar todas
las pruebas antes de venderse. Una muestra aleatoria de 500
reproductores tiene como resultado 15 que fallan en una o ms pruebas.
Encuentre un intervalo de confianza de 90% para la proporcin de los
reproductores de discos compactos de la poblacin que no pasan todas las
pruebas.
Solucin:
n=500
p = 15/500 = 0.03
z (0.90) = 1.645

0.0237<P<0.0376
Se sabe con un nivel de confianza del 90% que la proporcin de discos
defectuosos que no pasan la prueba en esa poblacin est entre 0.0237 y 0.0376.
Ejemplo: En una muestra de 400 pilas tipo B fabricadas por la
EverlastCompany, se encontraron 20 defectuosas. Si la proporcin p de
pilas defectuosas en esa muestra se usa para estimar P, que vendr a ser
la proporcin verdadera de todas las pilas defectuosas tipo B fabricadas por
la EverlastCompany, encuentre el mximo error de estimacin tal que se
pueda tener un 95% de confianza en que P dista menos de de p.
Solucin:
p=x/n = 20/400=0.05
z (0.95)=1.96

Si p=0.05 se usa para estimar P, podemos tener un 95% de confianza en que P


dista menos de 0.021 de p. En otras palabras, si p=0.05 se usa para estimar P, el
error mximo de estimacin ser aproximadamente 0.021 con un nivel de
confianza del 95%
Para calcular el intervalo de confianza se tendra:

Esto da por resultado dos valores, (0.029, 0.071). Con un nivel de confianza del
95% se sabe que la proporcin de pulas defectuosas de esta compaa est entre
0.029 y 0.071.
Si se requiere un menor error con un mismo nivel de confianza slo se necesita
aumentar el tamao de la muestra.

2
Tema 5.2 Prueba de independencia CH

En una prueba de independencia el nico nmero que el investigador controla


directamente es el tamao total de la muestra. Se extrae una muestra de tamao n
de la poblacin y cada objeto se clasifica segn las dos variables que se estudian.
Ni las frecuencias de cada celda, ni los totales de fila y columna se conocen de
antemano.
El investigador no fija previamente ningn conjunto, es decir, son aleatorios.
El planteamiento de las Hiptesis ser:
H 0: A y B son independientes
H 1: A y B no son independientes

Independencia significa que el conocimiento del nivel de clasificacin de un objeto


respecto a la caracterstica A no tiene nada que ver con su nivel respecto a la
caracterstica B. Para expresar esta idea matemticamente utilizamos las
probabilidades dadas en la siguiente tabla:
Tabla 2. Tabla de contingencia 2 x 2 con proporciones o probabilidades
Variable 1 (A)
Si
No Total
p 11 p 12 p 1.
p 21 p 22 p 2.

Variable 2 Si
No
(B)
Total p .1 p .2 1

Se sabe que, para que dos sucesos sean independientes, la probabilidad de que
ocurran ambos a la vez debe ser igual al producto de las probabilidades de que
cada suceso ocurra individualmente.
P [A y B] = P [A] P [B]
O

p 11 = p .1 p 1.
La relacin debe cumplirse para cada celda. Por tanto, la hiptesis nula de
independencia se expresa matemticamente como
i = 1, 2
H 0: p ij = p i. P .j
j = 1, 2
i = 1, 2
H 1: p ij ? p i. P .j
j = 1, 2
Comparamos el nmero de observaciones en cada celda con el nmero esperado,
si H0 es cierta. Si estos nmeros difieren poco, no hay razn para rechazar H 0; si
hay una gran discrepancia entre los valores observados y esperados, entendemos
esto como evidencia de que H0 no es cierta. Entonces se calcula el valor
esperado as:
Eij = np ij
n 1. n .1

total fila marginal x total columna marginal

11 = ________________________
N

_________________________
tamao de la muestra

La pregunta es la siguiente: son estas diferencias demasiado grandes como para


que se deban nicamente al azar?
Para responderla necesitamos un estadstico cuya distribucin de probabilidad sea
conocida bajo la hiptesis de que H0 es cierta. El estadstico en cuestin es:
X
2

1=

)
(nij Eij

E ij

Prefijamos un nivel de significancia en 0.05

Si el valor p es pequeo (es menor de 0.05); podemos rechazar H0

Para que las pruebas de Ji-cuadrado sean vlidas, es necesario que las muestras
sean grandes. Es decir que las frecuencias esperadas no sean menores de 5. Si
esto no se cumple, puede utilizarse una prueba para pequeas muestras llamada
prueba exacta de Fischer para contrastar independencia.
Ejemplo: Se realiza una investigacin para determinar si hay
alguna asociacin aparente entre la altura de los estudiantes de posgrado y
el xito en sus clases, a juicio de sus profesores. Se selecciona una
muestra aleatoria consistente en 500 estudiantes. Se clasifica a cada
estudiante de acuerdo a dos criterios, la altura y el xito. La tabla de
contingencia generada es la siguiente:
Mayor altura que el promedio poblacional

Si

No

Si

162

263 425

No

38

37

200

300 500

xito

75

Comparamos el nmero de observaciones en cada celda con el nmero esperado,


si H 0 es cierta:
Datos utilizados para contrastar asociacin entre altura y xito en las clases. Las
frecuencias esperadas aparecen entre parntesis:

Mayor altura que el promedio poblacional

Si

No

Si

162 (170)

263 (255)

425

No

38 (30)

37 (45)

75

200

300

500

xito

Para saber si las diferencias entre valores hallados y valores esperados es


significativa entonces aplicamos el estadstico ji-cuadrado:

X1 =
2

(nij E ij)

Eij

A partir de la tabla Ji-cuadrado vemos que: Escriba aqu la ecuacin.


Y
Como 4.18 est entre 3.84 y 5.02, el valor p est entre 0.025 (0.975) 0.05 (0.950).
El valor p es pequeo, es menor de 0.05. Podemos rechazar H 0 y concluir que la
sobre talla y el xito en las clases no son independientes.

Tema 5.3 Pruebas de contingencia F


El test exacto de Fisher permite analizar si dos variables dicotmicas estn
asociadas cuando la muestra a estudiar es demasiado pequea y no se cumplen
las condiciones necesarias para que la aplicacin del test
sea adecuada. Estas
condiciones exigen que los valores esperados de al menos el 80% de las celdas
en una tabla de contingencia sean mayores de 5. As, en una tabla 2x2 ser
necesario que todas las celdas verifiquen esta condicin, si bien en la prctica
suele permitirse que una de ellas muestre frecuencias esperadas ligeramente por
debajo de este valor.
En situaciones como esta, una forma de plantear los resultados es su disposicin
en una tabla de contingencia de dos vas. Si las dos variables que se estn
considerando son dicotmicas, nos encontraremos con el caso de una tabla 2 x 2
El test exacto de Fisher se basa en evaluar la probabilidad asociada a cada una
de las tablas 2 x 2 que se pueden formar manteniendo los mismos totales de filas
y columnas que los de la tabla observada. Cada una de estas probabilidades se
obtiene bajo la hiptesis nula de independencia de las dos variables que se estn
considerando.
Tabla de contingencia general para la comparacin de dos
variables dicotmicas en el caso de grupos independientes.

Caracterstic
aB
Presente
Ausente
Total

Caracterstica A
Presente
Ausente
a
c
a+c

b
d
b+d

Total
a+b
c+d
n

La probabilidad exacta de observar un conjunto concreto de frecuencias a, b, c y d


en una tabla 2 x 2 cuando se asume independencia y los totales de filas y
columnas se consideran fijos viene dada por la distribucin hipergeomtrica:

Esta frmula se obtiene calculando todas las posibles formas en las que podemos
disponer n sujetos en una tabla 2 x 2 de modo que los totales de filas y columnas
sean siempre los mismos, (a+b), (c+d), (a+c) y (b+d).
La probabilidad anterior deber calcularse para todas las tablas de contingencia
que puedan formarse con los mismos totales marginales que la tabla observada.
Posteriormente, estas probabilidades se usan para calcular valor de la p asociado
al test exacto de Fisher. Este valor de p indicar la probabilidad de obtener una
diferencia entre los grupos mayor o igual a la observada, bajo la hiptesis nula de
independencia. Si esta probabilidad es pequea (p<0.05) se deber rechazar la
hiptesis de partida y deberemos asumir que las dos variables no son
independientes, sino que estn asociadas. En caso contrario, se dir que no existe
evidencia estadstica de asociacin entre ambas variables.
En la literatura estadstica, suelen proponerse dos mtodos para el cmputo del
valor de la p asociado al test exacto de Fisher. En primer lugar, podremos
calcularlo sumando las probabilidades de aquellas tablas con una probabilidad
asociada menor o igual a la correspondiente a los datos observados. La otra
posibilidad consiste en sumar las probabilidades asociadas a resultados al menos
tan favorables a la hiptesis alternativa como los datos reales. Este clculo
proporcionara el valor de p correspondiente al test en el caso de un planteamiento
unilateral. Duplicando este valor se obtendra el p-valor correspondiente a un test
Ejemplo: Supongamos que en una determinada poblacin se desea
averiguar si existen diferencias en la prevalencia de obesidad entre
hombres y mujeres o si, por el contrario, el porcentaje de obesos no vara
entre sexos. Tras ser observada una muestra de 14 sujetos se obtuvieron
los resultados que se muestran en la Tabla
Tabla 1. Tabla de contingencia para estudiar las diferencias en
la prevalencia de obesidad entre sexos. Estudio de prevalencia
sobre 14 sujetos.
Obesidad
Sexo
S
No
Total
Mujeres
1 (a)
4 (b)
5 (a+b)
Hombres
7 (c)
2 (d)
9 (c+d)
Total
8 (a+c)
6 (b+d)
14 (n)

En esta tabla a=1, b=4, c=7 y d=2. Los totales marginales son as a+b=5, c+d= 9,
a+c=8 y b+d=6. La frecuencia esperada en tres de las cuatro celdas es menor de
5, por lo que no resulta adecuado aplicar el test
, aunque s el test exacto de
Fisher. Si las variables sexo y obesidad fuesen independientes, la probabilidad
asociada a los datos que han sido observados vendra dada por:

Tabla 2. Posibles combinaciones de frecuencias con los mismos totales marginales de


filas y columnas que en la Tabla 1.

(i)

(ii)

(iii)

Obesidad

Obesidad

Si

No

Si

No

Mujeres

Mujeres

Hombres

Hombres

14

14

Mujeres

Mujeres

Hombres

Hombres

14

14

Mujeres

Mujeres

Hombres

Hombres

14

14

(iv)

(v)

(vi)

La 2 muestra todas las posibles combinaciones de frecuencias que se podran


obtener con los mismos totales marginales que en la 1. Para cada una de estas
tablas, se ha calculado la probabilidad exacta de ocurrencia bajo la hiptesis nula,
segn la expresin. Los resultados obtenidos se muestran en la Tabla 3. El valor
de la p asociado al test exacto de Fisher puede entonces calcularse sumando las
probabilidades de las tablas que resultan ser menores o iguales a la probabilidad
de la tabla que ha sido observada:

Tabla 3. Probabilidad exacta asociada con


cada una de las disposiciones de frecuencias
de la Tabla 2.
a
b
c
d
p
(i)
0
5
8
1
0,0030
(ii)
1
4
7
2
0,0599
(iii)
2
3
6
3
0,2797
(iv)
3
2
5
4
0,4196

(v)
(vi)

4
5

1
0

4
3

5
6

0,2098
0,0280

Otro modo de calcular el valor de p correspondiente consistira en sumar las


probabilidades asociadas a aquellas tablas que fuesen ms favorables a la
hiptesis alternativa que los datos observados. Es decir, aquellas situaciones en
las que la diferencia en la prevalencia de obesidad entre hombres y mujeres fuese
mayor que la observada en la realidad. En el ejemplo, slo existe una tabla ms
extrema que la correspondiente a los datos observados (aquella en la que no se
observa ninguna mujer obesa), de forma que:

Este sera el valor de la p correspondiente a un planteamiento unilateral. En este


caso la hiptesis a contrastar sera que la prevalencia de obesidad es igual en
hombres y mujeres, frente a la alternativa de que fuese mayor en los varones.
Cuando el planteamiento se hace con una perspectiva bilateral, la hiptesis
alternativa consiste en asumir que existen diferencias en la prevalencia de
obesidad entre sexos, pero sin especificar de antemano en qu sentido se
producen dichas diferencias. Para obtener el valor de la p correspondiente a la
alternativa bilateral deberamos multiplicar el valor obtenido por dos:

Como se puede observar, las dos formas de clculo propuestas no tienen por qu
proporcionar necesariamente los mismos resultados. El primer mtodo siempre
resultar en un valor de p menor o igual al del segundo mtodo. Si recurrimos a un
programa estadstico como el SPSS para el cmputo del test, ste utilizar la
primera va para obtener el p-valor correspondiente a la alternativa bilateral y el
segundo mtodo de clculo para el valor de p asociado a un planteamiento
unilateral. En cualquier caso, y a la vista de los resultados, no existe evidencia
estadstica de asociacin entre el sexo y el hecho de ser obeso en la poblacin de
estudio.
Tema 5.4 Prueba de bondad de ajuste.
Las pruebas de bondad de ajuste tienen por objetivo determinar si los datos se
ajustan a una determinada distribucin, esta distribucin puede estar
completamente especificada (hiptesis simple) o perteneciente a una clase
paramtrica (hiptesis compuesta).
Una hiptesis estadstica se defini como una afirmacin o conjetura acerca de la
distribucin f(x,q) de una o ms variables aleatorias. Igualmente se plante que la
distribucin poda tener uno o ms parmetros desconocidos, que denotamos por
q y que la hiptesis se relaciona con este parmetro o conjunto de parmetros En
otros casos, se desconoce por completo la forma de la distribucin y la hiptesis
entonces se relaciona con una distribucin especfica f(x,q) que podamos

asignarle al conjunto de datos de la muestra. El primer problema, relacionado con


los parmetros de una distribucin conocida o supuesta es el problema que hemos
analizado en los prrafos anteriores. Ahora examinaremos el problema de verificar
si el conjunto de datos se puede ajustar o afirmar que proviene de una
determinada distribucin. Las pruebas estadsticas que tratan este problema
reciben el nombre general de Pruebas de Bondad de Ajuste.
Se analizarn dos pruebas bsicas que pueden aplicarse:
H0: f(x,q) = f0(x,q)
H1: f(x,q) f0(x,q)
Donde f0(x, q) es la distribucin que se supone sigue la muestra aleatoria. La
hiptesis alternativa siempre se enuncia como que los datos no siguen la
distribucin supuesta. Si se desea examinar otra distribucin especfica, deber
realizarse de nuevo la otra prueba suponiendo que la hiptesis nula es esta nueva
distribucin. Al especificar la hiptesis nula, el conjunto de parmetros definidos
porque puede ser conocido o desconocido. En caso de que los parmetros sean
desconocidos, es necesario estimarlos mediante alguno de los mtodos de
estimacin analizados con anterioridad.
Para formular la hiptesis nula debern tenerse en cuenta los siguientes aspectos
o criterios:
a) La naturaleza de los datos a analizar. Por ejemplo, si tratamos de investigar la
distribucin que siguen los tiempos de falla de unos componentes, podramos
pensar en una distribucin exponencial, o una distribucin gama o una distribucin
Weibull, pero en principio no consideraramos una distribucin normal. Si estamos
analizando los caudales de un ro en un determinado sitio, podramos pensar en
una distribucin logartmica normal, pero no en una distribucin normal.
b) Histograma. La forma que tome el histograma de frecuencia es quizs la mejor
indicacin del tipo de distribucin a considerar.
Estas pruebas permiten verificar que la poblacin de la cual proviene una muestra
tiene una distribucin especificada o supuesta.
Sea X: variable aleatoria poblacional f0(x) la distribucin (o densidad) de
probabilidad especificada o supuesta para X
Se desea probar la hiptesis: Ho: f(x) = f0(x)
En contraste con la hiptesis alterna: Ha: f(x) no= f0(x) (negacin de Ho)

PRUEBA JI-CUADRADO
Esta prueba es aplicable para variables aleatorias discretas o continuas.
Sea una muestra aleatoria de tamao n tomada de una poblacin con una
distribucin especificada f0(x) que es de inters verificar.
Suponer que las observaciones de la muestra estn agrupadas en k clases,
siendo oi la cantidad de observaciones en cada clase i = 1, 2,..., k
Con el modelo especificado f0(x) se puede calcular la probabilidad pi que un dato
cualquiera pertenezca a una clase i.
Con este valor de probabilidad se puede encontrar la frecuencia esperada ei para
la clase i, es decir, la cantidad de datos que segn el modelo especificado
deberan estar incluidos en la clase i:
ei = pi n

i = 1, 2, ..., k

Tenemos entonces dos valores de frecuencia para cada clase i


oi: frecuencia observada (corresponde a los datos de la muestra)
ei: frecuencia esperada (corresponde al modelo propuesto)
La teora estadstica demuestra que la siguiente variable es apropiada para
realizar una prueba de bondad de ajuste:
Definicin Estadstico para la prueba de bondad de ajuste Ji-cuadrado
ei
oi

, distribucin Ji-cuadrado con =kr1 grados de libertad

x =
2

i=1

Donde r es la cantidad de parmetros de la distribucin que deben estimarse a


partir de la muestra
Es una condicin necesaria para aplicar esta prueba que i, ei 5 .
Dado un nivel de significancia se define un valor crtico 2 para el rechazo de
la hiptesis propuesta Ho: f(x) = f0(x).

Si las frecuencias observadas no difieren significativamente de las frecuencias


esperadas calculadas con el modelo propuesto, entonces el valor de estadstico
de prueba 2 ser cercano a cero, pero si estas diferencias son significativas,
entonces el valor del estadstico 2 estar en la regin de rechazo de Ho.
2
Rechazo Ho X > X

Ejemplo: La siguiente tabla presenta informacin de cantidades sobre el


nmero de plantas Larrea divaricata halladas en cada uno de los 48
cuadrantes de nuestro, como se publica en el el artculo Some Sampling
Characteristics of Plants and Arthropods of the Arizona Desert
(Ecology,1962: 567-571)
i

Nro. De plantas

frecuencia observada (oi)

10

14

Podran estos datos ajustarse a una distribucin de Poissn? Utilice un nivel 0,05
de significancia.
Solucin
El valor de en este caso debe estimarse
=

xioi =2.10
n

1)Ho: X ~ Poisson(2,10) (distribucin de Poisson con = 2,10 )

2) Ha: no H0
3) = 0.05
Clculo de la probabilidad correspondiente a cada intervalo
0

e2.1(2.1)
=e2.1
0!

p1 = P(X=0) =
e

p2 = P(X=1)=

2.1

(2.1)
=0.25725
1!
2

e2.1 (2.1 )
=0.2700
2!

p3 = P(X=2)=

Clculo de las frecuencias esperadas


2.1

e1 = p1 n = e

( 48 )=5.88

e2 = p2 n = (0,25725)(48) = 12,34
e3 = p3 n = 12,96... (etc.)
Resumen de resultados
i

Nro. De plantas

frecuencia observada (oi)

frecuencia esperada (ei)

5.88

12.34

10

12.96

14

9.07

>= 4

7.75

Es necesario que se cumpla la condicin i, ei 5 por lo que se deben agrupar


clases adyacentes. Como resultado se tienen cinco clases k=5
Ahora se puede definir la regin de rechazo de Ho Observemos que en este
ejemplo se estim el parmetro de la distribucin, de donde r = 1
= 0.05, = 5 1 - 1 = 3,

x 0.05=7.815

(Tabla 2)

Rechazar Ho si 2 > 7.815


5) Clculo del estadstico de prueba
ei
oi

ei

5.88
9

7.75
6

x =
i=1

6) Decisin
Como 6,31 no es
dice que no hay
suficiente
para
propuesto para la
modo que al nivel
distribucin
de
ajuste razonable

mayor a 7.815, se
evidencia
rechazar el modelo
poblacin,
de
de
5%,
la
Poisson da un
a los datos.

Escuela: Instituto Tecnolgico Superior de Cosamaloapan

Nombre: Ivanna Monserrath Urbano Durn

Carrera: Ingeniera en Gestin Empresarial

Grupo: 406-A

Materia: Estadstica Inferencial I

Catedrtico: Ing. Pedro Garca Naranjo

Trabajo: Investigacin Unidad 5. Pruebas de hiptesis con dos muestras con


datos categricos
Lugar y Fecha: Cosamaloapan, Veracruz A 09 de junio de 2016

S-ar putea să vă placă și