Sunteți pe pagina 1din 19

PRUEBA χ2 PARA DOS MUESTRAS INDEPENDIENTES

El uso de la prueba χ2 puede extenderse a problemas en los que es


necesario relacionar la independencia o dependencia entre dos grupos con
respecto a característica o condición, inferencia que se realiza en base a
datos muéstrales.

Estos atributos pueden ser expresados en una escala nominal, en algunas


situaciones particulares una población de objetos puede clasificarse en dos
o más sentidos sobre la base de sus atributos o agrupamientos categóricos.

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

Por ejemplo:

-Si el ingreso familiar difiere en la frecuencia con que se escoge el tipo


de colegio para los hijos.

-Si existe alguna relación de dependencia entre la capitalización de una


tienda y su tipo de sociedad.

Entonces en resumen podemos afirmar:

La χ2 es una prueba de independencia se aplica cuando se quiere probar


si la independencia presentada en la muestra se extiende a la población .

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

1
Hipótesis a contrastar:

H0: - Las variables son independientes, no están asociadas.

H1: - Las variables no son independientes, se encuentran asociadas

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

Los datos con las frecuencias observadas suelen presentarse


arreglados en tablas de doble entrada llamadas tablas de contingencia

C.I.
Alto=A Bajo Total
R.A. C.I.: Coeficiente Intelectual
e11 e12 R.A.:Rango de Aptitud
Bueno=B
O11 O12
n1.
e21 e22
Regular
O21 O22
n2.
Total n.1 n.2 n

Cálculo de la probabilidades estimadas:

n.1 Bajo H0, existe independencia entre los 2 criterios,


P ( A) =
n tendríamos que la probabilidad de que todos los
n1. individuos con C.I. Alto se encuentren en el R.A.
P( B) = Bueno, es:
n
P ( A ∩ B ) = P ( A) P ( B )

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

2
Y si existe independencia, se espera que en esa casilla halla un e11,
siendo este:
 n  n   n n
e11 = P ( A ∩ B )( n ) = [ P ( A ) P ( B )] n =   . 1   1 .   n = . 1 1 .
 n  n   n
n n
⇒ e11 = . 1 1 .
n

C.I.: Coeficiente Intelectual C.I.


R.A.:Rango de Aptitud
Alto=A Bajo Total
R.A.
e11 e12
Bueno=B
O11 O12
n1.
e21 e22
Regular
O21 O22
n2.
Total n.1 n.2 n

Como se observa la distribución χ2 nos permite cuantificar la


discrepancia entre lo observado y lo que se espera.

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

Estadístico de Prueba para una tabla r x k=2, cuando r >2:

Si existe independencia entre las dos variables entonces el estadístico de


prueba se distribuirá a aproximadamente como una χ2 , siendo este:

r 2 ( O ij − e ij ) 2
χ c2 = ∑∑
i =1 j =1 e ij
≈ χ α2 , ( r −1 )× (1 )

Donde: - r es el número de clasificaciones (filas)


- k es el número de grupos muestrales (columnas)

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

3
Estadístico de Prueba para una tabla 2 x 2:
En este caso se deberá usar:

Total

O11=A O12=B n1.


O21=C O22=D n2.
Total n.1 n.2 n

2 n ( AD − BC − n 2 ) 2
χ =
c ≈ χ α2 , (1 )
n . 1 n . 2 n1 . n 2 .

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

Regla de Decisión:

Para un nivel de significancia α si,

χ c2 > χ α2 , ( r − 1 )*( 1 ) ⇒ Rechazamos H0

Limitaciones de la prueba: no se acepta frecuencias esperadas menores a


5 en más del 20% de celdillas
En este caso, como se trata de una tabla de contingencia de 2x2, debe cumplirse
que todos los valores esperados sean mayores o iguales a 5, en caso de no
cumplirse esta restricción se deberá utilizar la prueba de las probabilidades
exactas de Fisher.

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

4
Aplicación:
Se desea estudiar si la exposición de los empleados a cierto producto fabricado
por la empresa empleadora esta asociado con los síntomas de alteraciones
respiratorias que los están afectando. Para dicho fin se recoge una muestra de 394
empleados y se clasifican en forma cruzada en base a su nivel de exposición al
producto y si tenían o no los síntomas de tales alteraciones respiratorias.
Los resultados fueron:
Sin N.E : Nivel de exposición
N.E. Alto exposición Total P.S : Presencia de síntomas
P.S. conocida
Si 185 17 202
No 120 72 192
Total 305 89 394

¿Proporcionan estos datos la evidencia suficiente que indique al nivel de


significancia α=0.01, una relación entre el nivel de exposición y la presencia
de los síntomas de las alteraciones respiratorias?

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

Solución:
Planteamos la Hipótesis:
H0: La presencia de síntomas no tiene relación con el nivel de exposición
(independencia)
H1: La presencia de síntomas tienen relación con el nivel de exposición
(No existe la independencia)

Analizando los esperados:


N.E : Nivel de exposición
P.S : Presencia de síntomas Sin exposición
N.E. Alto
P.S. conocida

Si e11=156 e12=46

No e21=149 e22=43

305 x 202
e11 = = 156
394

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

5
Calculando el estadístico de Prueba, para un α=0.01:

N.E. Sin exposición


Alto Total
P.S. conocida

Si 185 17 202

No 120 72 192

Total 305 89 394

N.E : Nivel de exposición


P.S : Presencia de síntomas

Dado que es una tabla de 2 x 2 usaremos el estadístico de prueba:

n ( AD − BC − n 2 ) 2
χ c2 = ≈ χ α2,( 1 )
n. 1 n. 2 n1 . n 2 .

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

394 2
394 ( ( 185 )( 72 ) − ( 17 )( 120 ) − )
χ 2
= 2 = 45 . 97
c
( 305 )( 89 )( 202 )( 192 )

Si,

χ c2 > χ α2 , ( r −1)*( 1) = χ 02.01 , (1 g .l .) = 6 .63

Entonces se rechaza H0 con un nivel de confianza del 1%

Conclusión: con un nivel de significancia del 1% , podemos afirmar que


la presencia de síntomas tiene relación con el nivel de exposición

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

6
PRUEBA DE LA PROBABILIDAD EXACTA DE FISHER

El test exacto de Fisher permite analizar si dos variables están asociadas


cuando la muestra a estudiar es demasiado pequeña.

Se utiliza cuando los valores esperados son menores a 5 y n ≤ 100.

Esta prueba consiste en fijar las frecuencias marginales y calcular la


probabilidad de ocurrencia de las frecuencias de las celdas asumiendo
independencia entre las variables.

Se consideran las configuraciones más extremas que pueden ocurrir en


los datos y se calculan las probabilidades exactas pi para cada tabla
escogiendo la celda con el menor de los valores.

El test exacto de Fisher se basa en evaluar la probabilidad asociada a


cada una de las tablas 2 x 2 que se pueden formar manteniendo los
mismos totales de filas y columnas que los de la tabla observada.

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

Hipótesis a contrastar:

H0: Las variables son independientes, no están asociadas

H1:Las variables no son independientes, están asociadas

Nivel de significación :α

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

7
Cálculo del p-valor asociado al estadístico de prueba

Para calcular el estadístico de contraste, se construye en


primer lugar la tabla de contingencia de dimensiones 2 x 2 con
las frecuencias absolutas observadas, con la notación
siguiente:

Tabla de contingencia general para la comparación de dos


variables dicotómicas en el caso de grupos independientes.

Característica A

Característica B Presente Ausente Total

Presente a b a+b

Ausente c d c+d

Total a+c b+d n

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

Tabla de contingencia general para la Tabla de contingencia general para la


comparación de dos variables dicotómicas comparación de dos variables dicotómicas
en el caso de grupos independientes. en el caso de grupos independientes.

Característica A Característica A

Característica Característica
Presente Ausente Total Presente Ausente Total
B B

Presente a b a+b Presente a’ b’ a+b

Ausente c d c+d Ausente c’ d’ c+d

Total a+c b+d n Total a+c b+d n

Si asumimos que “a” es el menor de los valores de la celda entonces:


se construyen todas las tablas de contingencia 2 x 2 posibles con celdas a’, b’, c’,
d’, donde:
0 ≤ a’ ≤ mín[(a+c),(a+b)] :
b’ = (a+b) –a’,
c’ = (a+c) – a’ y
d’ = (c+d) – c’.

A partir de dichas tablas se calcula las probabilidades asociadas a cada una de


ellas de la siguiente forma:
INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

8
( a + b )! ( c + d )! ( a + c )! ( b + d )!
pa' =
n! a ' ! b ' ! c ' ! d ' !

El p-valor unilateral-izquierda es p= ∑p
a '≤a
a'

El p-valor unilateral-derecha es p= ∑p
a ' ≥a
a'

El p-valor bilateral resultante es p= ∑p


pa ' ≤ pa
a'

pa=probabilidad de la tabla con los datos observados (tabla original)


a= valor de la casilla “a” en la tabla original.

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

Ejemplo para la generación de las tablas a partir de la tabla (original) y


las probabilidades asociadas a cada tabla

F1 F2
C1 2 3 5
C2 16 21 37
18 24 42

Solución:
Construiremos tablas del ejemplo considerando: 0 ≤ a’ ≤ 5 (mín[(a+c),(a+b)])

1º Calculamos la tabla para a´=0


F1 F2
C1 0 5 5
C2 18 19 37
18 24 42

5!37 !18 !24 !


p a0 ' = = 0 , 049
42 !0!5!18 !19 !

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

9
2º Calculamos la tabla para a´=1

F1 F2
C1 1 4 5
C2 17 20 37
18 24 42
entonces
5!37 !18!24 !
p a1 ' = = 0 , 224
42 !1!4!17 !20 !

3º Calculamos la tabla para a´=2


F1 F2
C1 2 3 5
C2 16 21 37
18 24 42
entonces
5!37 !18!24!
p a2 ' = = 0 ,364
42!2!3!16!21!
INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

4º Calculamos la tabla para a´=3


F1 F2
C1 3 2 5
C2 15 22 37
18 24 42
Entonces

5!37 !18 !24 !


p a3 ' = = 0 , 264
42 !3!2!15 !22 !
5º Calculamos la tabla para a´=4
F1 F2
C1 4 1 5
C2 14 23 37
18 24 42
entonces

5 !37 !18 !24 !


p a4 ' = = 0,086
42 !4 !1!14 !23 !
INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

10
6º Calculamos la tabla para a´=5

F1 F2
C1 5 0 5
C2 13 24 37
18 24 42

Entonces

5 !37 !18 !24 !


p a5 ' = = 0,01
42 !5 !0 !13 !24 !

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

Los valores de “p” para cada a’


a’ pa’
0 0.049
1 0.224
2 0.364 pa
3 0.264
4 0.086
5 0.01

El valor p bilateral es p= ∑p
pa ' ≤ pa
a' = 0,049+ 0,224+ 0,364+ 0.264+ 0.086+ 0.01= 0.997

El valor p unil-izq.es p = ∑p
a '≤a
a' = 0.049 + 0.224 + 0.364 = 0.637

El valor p unil-der.es p= ∑p
a '≥a
a' = 0.364 + 0.264 + 0.086 + 0.01 = 0.724

p = probabilidad asociada con la ocurrencia de H0

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

11
Regla de Decisión:
- Prueba Unilateral:
Se rechaza H0, si :

p≤α
- Prueba Bilateral:
Se rechaza H0, si :

p ≤ α/2

p = probabilidad asociada con la ocurrencia de H0

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

Aplicativo:

En una determinada población se desea averiguar si existen


diferencias en la prevalecía de obesidad entre hombres y
mujeres o si, por el contrario, el porcentaje de obesos no varía
entre sexos. Tras ser observada una muestra de 14 sujetos se
obtuvieron los resultados que se muestran en la siguiente tabla:

Tabla de contingencia para estudiar las diferencias en la


prevalecía de obesidad entre sexos. Estudio de prevalecía
sobre 14 sujetos.
Obesidad
Sexo Sí No Total
Mujeres 1 (a) 4 (b) 5 (a+b)
Hombres 7 (c) 2 (d) 9 (c+d)
Total 8 (a+c) 6 (b+d) 14 (n)

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

12
Planteamos las hipótesis:
H0: La prevalecía de obesidad es igual en hombres y mujeres
(las variables sexo y obesidad son independientes).
H1: Existen diferencias en la prevalecía de obesidad entre sexos
(las variables sexo y obesidad no son independientes).
Establecemos un α=0.05
Calculamos el estadístico de prueba

pa

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

calculado la probabilidad exacta de ocurrencia bajo la hipótesis nula,


según:
( a + b )! ( c + d )! ( a + c )! ( b + d )!
pa' =
n! a ' ! b ' ! c ' ! d ' !

Entonces calculando tenemos:

pa

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

13
Cálculo del p-valor asociado al estadístico de prueba

Calculamos el p-valor para una prueba bilateral:

El valor p bilateral es p= ∑p
pa ' ≤ pa
a' = 0,003 + 0,028 + 0,0599 = 0,0909

Regla de Decisión:
Prueba Bilateral:
Se rechaza H0, si p ≤ α/2=0.025, de los datos p=0.0909>0.025, por lo
tanto con un nivel de significancía del 5% no rechazamos H0.

Conclusión:
Con un nivel de significancia del 5% podemos concluir que la
prevalecía de obesidad es igual en hombres y mujeres en la población
de estudio.

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

PRUEBA DE DOS MUESTRAS DE KOLMOGOROV-SMIRNOV

La Prueba de dos muestras de Kolmogorov-Smirnov puede confirmar que


dos muestras independientes han sido extraídas de la misma población (o
de poblaciones con la misma distribución).

Esta prueba está construida, teniendo como base detectar las diferencias
existentes entre las frecuencias relativas acumuladas de las dos muestras
objeto de estudio.

La prueba admite que los tamaños de las muestras no sean iguales.

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

14
La prueba de una muestra de kolmogorov-Smirnov examinaba los
puntos de coincidencia de la distribución de un conjunto de valores
muestrales y una distribución teórica. La prueba de dos muestras
examina los puntos de coincidencia de dos conjuntos de valores
muestrales.

Si las muestras han sido extraídas de la misma distribución de


población, puede esperarse que las distribuciones acumulativas de
ambas muestras sean próxima entre sí, ya que debería mostrar
solamente desviaciones debido a la aleatoriedad de la muestra.

METODO DE APLICACION DE LA PRUEBA

1) Planteamiento de Hipótesis y determinación del nivel de significancia.


Entre las hipótesis tenemos:

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

Hipótesis

a) Bilateral

H0:- Las distribuciones poblacionales son iguales


- Las muestras proceden de la misma población

H1:- Las distribuciones poblacionales son distintas


- Las muestras proceden de poblaciones diferentes

b) Unilateral (podría ser derecha o izquierda)

H0: Los valores de la población de la que se extrajo una de las muestras es


estocásticamente menor o igual que de los de la población de la que se
sacó la otra. (puede cambiar la dirección de acuerdo al análisis).

H1: Los valores de la población de la que se extrajo una de las muestras es


estocásticamente más grande que de los de la población de la que se
sacó la otra. (puede cambiar la dirección de acuerdo al análisis).

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

15
2) Hacemos una tabla de distribución de frecuencia acumulativa
particionada en “k” categorías o intervalos, para cada muestra de
observaciones (se usan tantos intervalos como sea factible), usaremos los
mismos intervalos para ambas distribuciones.

3) Se determinan las diferencias entre las frecuencias acumuladas de las dos


muestras en cada punto registrado. Se analiza entonces en la columna de
las diferencias de las frecuencias, en qué clases se obtiene la más grande de
las diferencias (valor máximo) denotado por “D”.

Para una prueba de una cola (debe considerarse la dirección establecida en el estudio):

Dc = máxima ( S n1 − S n2 )

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

Para una prueba de dos colas será la diferencia máxima en valor absoluto.

D c = máxima S n1 − S n 2

4) Determinación de los valores críticos para la toma de decisión

a) Cuando n1=n2=n, n >40 , se usa la tabla de Kolmogrov-Smirnov, si son


diferentes usaremos la tabla para Muestras de distinto tamaño, según
sean de una o dos colas.

Entonces: rechazamos H0, si: Dc≥ Dtabla.

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

16
b) Cuando n1 y n2 son mayores a 40 haciendo caso omiso de que
sean iguales o no, el estadístico de prueba a utilizarse es:

n1 n 2
χ c2 = 4 D c2 ≈ χ (22 g .l .)
n1 + n 2
Este estadístico de prueba es también útil para muestras pequeñas
con n1≠n2, no tabulados.

Entonces para una prueba de una cola, rechazamos H0,


si: χc2 ≥ χ2tabla, (2) α

5)Conclusión

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

Aplicativo:
Se muestran las pérdidas en peso (medidas en kilogramos), de dos grupos de
personas que han sido sometidas a dos tipos diferentes de medicamentos,
designado por Grupo1 y Grupo2. Los resultados obtenidos se muestran en la
siguiente tabla:

GRUPO1 GRUPO2
5.49 3.76 Con un nivel de significancia del
3.08 4.22
5%, ¿podemos afirmar que existe
diferencia significativa entre las
4.13 4.17
poblaciones de las cuales se
5.03 5.03 extrajeron las muestras?.
7 4.85
6.03 2.09
4.45 4.45
5.13 3.58
4.26 3.86
4.62 4.13
4.4
2.81

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

17
Solución:

En cuanto a la prueba a aplicar, observamos que los grupos 1 y 2 son


independientes.

Entonces bajo estas condiciones una prueba de Kolmogorov-Smirnov


será la adecuada y como nos interesa decidir si existe diferencias o no
entre las poblaciones, entonces la aplicación será de una prueba de 2
colas.

Planteamos las hipótesis:

H0: No existe diferencia significativa entre las poblaciones de donde


fueron extraídas las muestras.

H1: Existe diferencia significativa entre los grupos poblacionales en


estudio.

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

Luego del enunciado tenemos α=0.05, calculamos la tabla de distribución


correspondiente:
n=n1+n2 22
Máximo 7
Mínimo 2.09
Rango 4.91
N° de clases o intervalos 5.46
(1+3.32log10(n)) 5
Ancho de clase 1.0

Intervalos -
frecuencia frecuencia
medidas de perdida F-acuma1 F-acuma2
grupo 1 grupo 2
de pesos
2.09 a 3.09 1 2 1 2
3.10 a 4.10 0 3 1 5
4.11 a 5.11 5 7 6 12
5.12 a 6.12 3 0 9 12
6.13 a 7.13 1 0 10 12
10 12

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

18
Para aplicar la prueba de Kolmogorov-Smirnov, reorganizamos estos datos en
dos distribuciones de frecuencias acumulativas, que se muestra a continuación
y por simple sustracción encontramos las diferencias entre las distribuciones en
los diferentes intervalos de las 2 muestras:

Distribución de Distribución de
Diferencia
frecuencia frecuencia acumulativa
|S10-S12|
acumulativa 1 2
0.1 0.17 0.07
0.1 0.42 0.32
0.6 1 0.40
0.9 1 0.10
1 1 0.00

Luego calculamos el estadístico: D c = máxima S n1 − S n 2


Dc=0.4, como no se tiene el dato tabulados calculamos el siguiente estadístico de prueba:

n1 n 2
χ c2 = 4 D c2 ≈ χ (22 g .l .)
n1 + n 2

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

Reemplazando:
(10 )(12 )
χ c2 = 4 ( 0 .4 ) 2 = 3 . 49 ≈ χ (22 g .l .)
10 + 12

2
χ tabla ( 0 . 05 , 2 gl ) = 5 . 99

Entonces: χ c2 < χ tabla


2
, por lo tanto, No rechazamos H0.

Concluimos, bajo un nivel de significancia del 5%, no existen diferencias


significativas entre las perdidas de peso de las personas sometidas a los
medicamentos en estudio.

INFERENCIA ESTADISTICA NO PARAMETRICA LIC. RITA GUZMAN LOPEZ

19

S-ar putea să vă placă și