Sunteți pe pagina 1din 40

APLICACIONES DE JI-

CUADRADO
2

Relacin entre z y
2
Recordamos que:
z = y
i
/ ; donde y
i
es cada valor de la variable Y
Y la relacin es:
_
2

(1)
= (y /)
2 =
z
2
Cuando son dos muestras entonces:
_
2

(2)
= (y
1
/)
2 +
(y
2
/)
2 =
z
1
2
+ z
2
2
Para cualquier tamao de muestra n, la suma de
los valores de z
2
tendr una distribucin _
2
con n
grados de libertad
_
2

(2)
=

z
1
2
+ z
2
2
+ z
3
2
+ .+ z
n
2
CARACTERSTICAS
DE LA DISTRIBUCIN DE
2
_
2
es siempre positivo porque es una suma
de cuadrados.
Varia desde 0 a (no tiene valores
negativos)
Depende del parmetro grados de libertad.
Media de la Distribucin = gl = k
Varianza de la Distribucin = 2gl = 2k
Moda = gl-2 para gl>2 y 0 para gl=1
La distribucin tiene sesgo positivo y cuando
los gl aumentan se aproxima a la distribucin
normal
gl=2
gl=3
gl=4
gl=5
0 2 Chi2 6 8
TIPOS DE PRUEBA
DISTRIBUCIN JI
CUADRADA
UNA VARIABLE DOS VARIABLES
PRUEBA
DE HOMOGENEIDAD
PRUEBA DE
INDEPENCENCIA
PRUEBA
DE BONDAD DE AJUSTE
DISTRIBUCION 2
BONDAD DE AJUSTE
Se utiliza para la comparacin de la distribucin de una
muestra con alguna distribucin terica que se supone
describe a la poblacin de la cual se extrajo.
INDEPENDENCIA
La Ho indica que dos variables o criterios de clasificacin
son independientes cuando se aplican a un conjunto de
individuos (unidades de observacin)
HOMOGENEIDAD
Se extraen Muestras Independientes de varias
poblaciones y se prueban para ver si son homogneas
con respecto a algn criterio de clasificacin.

PRUEBA DE BONDAD DE
AJUSTE
Se trata de probar si los datos de una muestra tomada
difieren de cierta distribucin predeterminada.
Los n datos (valores) tomados deben estar divididos en
categoras o intervalos mutuamente excluyentes y
observar la frecuencia de ocurrencia de los valores de
cada categora.
Se comparan las frecuencias observadas con
frecuencias esperadas.
Se basa en la Distribucin de Probabilidad multinomial
PROPIEDADES DE LA DISTRIBUCIN DE
PROBABILIDAD MULTINOMIAL
1. La situacin consiste en n oportunidades
idnticas.
2. Para cada oportunidad hay k posibles
resultados.
3. La probabilidad de k resultados son p
1
, p
2
, ......
p
k
y se mantienen constantes de ensayo en
ensayo donde p
1
+ p
2
+ ...... + p
k
= 1
4. Los ensayos son independientes.
5. La variable aleatoria de inters son los
conteos n
1
, n
2
, ...... n
k
en cada una de la k
categoras.
TRADUCIENDO
1. La tasa de ocupacin de pacientes internos en un
hospital va a ser evaluada en 250 hospitales (n).
2. Para cada hospital la posible tasa de ocupacin va
desde 0 hasta 110.0. Esta tasa se resumen en 8 (k)
categoras: 0-39.9; 40-49.9; 50 -59.9; 60-69.9; 70-79.9;
80.0 a 89.9; 90.0-99.9; 100.0-110.0
3. La probabilidad de estar en categora en particular est
dado por p. La suma las probabilidades de todas las
categoras es 1.
4. La tasa de ocupacin de un hospital es independiente
de la tasa de ocupacin de otro hospital.
5. La variable aleatoria de inters son los el nmero de
hospitales en cada categora n
1
, n
2
, ...... n
8
.

Prueba de Bondad de Ajuste
Categora Frecuencia observada

K
1
n
1
K
2
n
2
K
3
n
3
K
4
n
4
K
5
n
5
K
6
n
6
K
7
n
7
K
8
n
8
Total 250
Prueba de Bondad de Ajuste
Las probabilidades p
i
, de caer en la categora i
estn dadas por la H
0
, son constantes entre
ensayos y suman 1.

La hiptesis nula es H
0
: p
i
= valores dados, es
decir los datos siguen una distribucin
determinada con la cual se calcularn las
frecuencias esperadas.

La hiptesis alternativa H
1
: al menos una de las
p
i
es distinta de la probabilidad dada en la H0.

PRUEBA DE BONDAD DE AJUSTE
Las pruebas de bondad de ajuste son
herramientas tiles para evaluar lo bien que se
aproxima un modelo de una situacin real a un
diseo descrito previamente (modelo terico).
Por ejemplo, asumamos que tenemos un
conjunto de datos que se distribuyen
normalmente, as es que una prueba estadstica
particular puede ser usada.
Cmo podemos decidir si la suposicin o
hiptesis es vlida?
El test X
2
para bondad de ajuste, compara
valores observados y esperados.
H
0
: ha sido seleccionado de una poblacin que
tiene una distribucin especfica.
H
1
: la muestra no ha sido seleccionada de una
poblacin que tiene la distribucin especfica.
Nota:

La hiptesis alterna no indica como la verdadera
distribucin difiere de la hipottica.
PRUEBA DE BONDAD DE AJUSTE : DATOS
Categora Frecuencia observada

00.0-39.9 16/250
40.0-49.9 18
50.0-59.9 22
60.0-69.9 51
70.0-79.9 62
80.0-89.9 55
90.0-99.9 22
100.0-109.9 4
Total 250
PRUEBA DE BONDAD DE AJUSTE
SUPUESTOS PARA LA PRUEBA DE _2
Experimento multinomial. Lo que se satisface
tomando una muestra aleatoria de la
poblacin de inters.
El tamao de muestra es lo suficientemente
grande para que el nmero esperado en las
categoras sea > 5, para asegurar que _2 se
aproxime a la distribucin real (multinomial).
Se puede recurrir a colapsar categoras
contiguas (celdas) con valores esperados
menores de 5.

PRUEBA DE BONDAD DE AJUSTE:
HIPTESIS
Ho: La poblacin de la que se extrajo la
muestra, las tasas de ocupacin siguen
una distribucin normal.
Ha: La poblacin de la que se extrajo la
muestra, las tasas de ocupacin no
siguen una distribucin normal.

=
>
|
.
|

\
|

=
r
1 i
1) - (r
2
- 1
X
2
X si
0
H rechazar y
ij
E
2
ij
E
ij
O
2
X

r = k = nmero de categoras.
PRUEBA DE BONDAD DE AJUSTE:
ESTADISTICA DE PRUEBA
PRUEBA DE BONDAD DE AJUSTE:
REGLA DE DECISION


Si el valor de la prueba estadstica (_
2
calculado) es mayor que el valor crtico (_
2

de la tabla) se rechaza la hiptesis nula.

_
2
= 18.5



PRUEBA DE BONDAD DE AJUSTE : CALCULO DE LA
ESTADISTICA DE PRUEBA
Categora
Frecuencia
observada

Frecuencia
Esperada
(O
i
-E
i
)
2
/E
i
00.0-39.9
16 14.55 .145
40.0-49.9
18 22.18 .788
50.0-59.9
22 38.65 7.173
60.0-69.9
51 49.62 .038
70.0-79.9
62 50.48 2.629
80.0-89.9
55 38.38 7.19
90.0-99.9
22 21.88 .001
100.0-109.9
4 9.92 3.533
110.0 y mas
0 4.35 4.35
Total
250 250.0 25.854
PRUEBA DE BONDAD DE AJUSTE
DECISION ESTADISTICA: RECHAZO
CONCLUSION: LAS TASAS DE
OCUPACION HOSPITALARIA NO
SIGUEN UNA DISTRIBUCION NORMAL
VALOR P < 0.01
PRUEBAS BASADAS EN LA DISTRIBUCION
CHI-CUADRADA


Las pruebas de independencia y de
homogeneidad estn entre las ms
comnmente usadas en los
procedimientos estadsticos.
Estos test estn basados en una tcnica
introducida por Karl Pearson en 1900,
quin ha sido llamado el "fundador de la
ciencia estadstica".
Tablas de Contingencia
INDEPENDENCIA
Experimento multinomial con clasificacin con
2 factores.
Los datos se pueden resumir en una tabla de
2 dimensiones.
La Ho indica que 2 variables o criterios de
clasificacin son independientes cuando se
aplican a un conjunto de individuos. La
prueba de Independencia se efecta para
probar si hay asociacin entre las variables
categricas A y B
Totales Marginales Aleatorios
Tablas de Contingencia
HOMOGENEIDAD
Se extraen Muestras Independientes de
varias poblaciones.
Se prueban para ver si son homogneas con
respecto a algn criterio de clasificacin.
La prueba de Homogeneidad es una
generalizacin de la prueba de igualdad
de dos proporciones. Se trata de probar
si para cada nivel de la variable B, la
proporcin con respecto a cada nivel de
la variable A es la misma
HIPTESIS

LAS HIPTESIS DE INDEPENDENCIA:

H
O
: LAS VARIABLES A Y B SON
INDEPENDIENTES
P(AB)=P(A) P(B)

H
1
: LAS VARIABLES A Y B ESTN
ASOCIADAS

HIPTESIS
LAS HIPTESIS DE HOMOGENEIDAD:

H
O
: LAS PROPORCIONES DE CADA
VALOR DE LA VARIABLE A SON
IGUALES EN CADA CATEGORA DE
LA VARIABLE B.

H
A
: AL MENOS UNA DE LAS
PROPORCIONES ES DIFERENTE.


PRUEBAS DE INDEPENDENCIA Y
HOMOGENEIDAD
Ambas hiptesis se prueban usando una prueba de Ji-
Cuadrado:



donde O
ij
es la frecuencia observada de la celda que est
en la fila i, columna j
es la frecuencia esperada de la celda (i, j).


La frecuencia esperada es aquella que sera esperable
encontrar si la hiptesis nula es verdadera.

.
2
2
1 1
( )
r c
ij ij
i j
ij
O E
E
_
= =

j i
ij
c r
E
n

=
PRUEBAS DE INDEPENDENCIA Y
HOMOGENEIDAD

El estadstico de la prueba se distribuye como una
chi-cuadrada



La hiptesis nula se rechaza si,

donde es el nivel de significancia.
_ _
o
2
1
2

>
cal
( 1) ( 1) gl r c =
Se piensa que cierto medicamento es
un factor que est asociado a la
incontinencia urinaria. A los efectos de
probar sus dichos realiz un estudio en
un hospital donde los que usaban el
medicamento los clasific como
usuarios del medicamento (M) y no
usuarions del medicamentos (NM) y
con incontinencia (IU) y sin
incontinencias (NIU) urinarias
obteniendo los siguientes resultados.






?

PRUEBA DE INDEPENDENCIA











IU NIU Total
M 34 757 791
NM 7 2427 2434
Total 41 3184 3225
PRUEBA DE INDEPENDENCIA
C x F/ n = 41 X791/3225 =10.06 3184 x 791/ 3225 = 780.9
41 x 2434/3225 = 30.9 3184 X 2434 /3225 = 2403.
X = (34 -10.06)
2
/10.06 + ( 757-780.9)
2
/780.9 + (7-30.9)
2
/30.9 +
(2427-2403)
2
/2403 = 76.43
Cuando se usa chi-cuadrada
Para tablas 2 x 2
Si el total del tamao de muestra es > 40,
entonces X
2
puede ser usada.
Si n est entre 20 y 40, y el valor esperado
ms pequeo es 5, X
2
puede ser usada.
De otra forma, se usa el valor exacto de
Fisher.
Para tablas 2 x c
La prueba X
2
es vlida si no ms del 20%
de los valores esperados es menos de 5, y
ninguno es menos de 1.
La Prueba Chi-cuadrado de independencia.
2.764 fueron clasificados de acuerdo a sus ingresos y el
tiempo transcurrido desde que ellos consultaron por
ltima vez a un mdico.
Ingresos
(en miles)
Tiempo
< 6 meses 7 -12 meses > 12 meses
TOTAL
<200
200 - 300
301 - 300
501 - 800
>801
186 38 35
227 54 45
219 78 78
355 112 140
653 285 259
259
326
375
607
1.197
TOTAL 1.604 567 557 2.764
Proporcionan estos datos evidencia suficiente para
indicar que existe una asociacin entre el ingreso y el
tiempo transcurrido desde la ltima consulta al
mdico?.
Dos variables son independientes cuando la
distribucin de una de ellas no depende de la
distribucin de la otra.
Si no existe asociacin entre las dos
variables se dice que son independientes.
Dos variables son independientes si al conocer el
valor de una de ellas para un sujeto no ayuda para
determinar el valor de la otra variable para el mismo
sujeto.
H
0
: los dos criterios de clasificacin son
independientes.
H
1
: los dos criterios de clasificacin no son
independientes.
Se comparan las celdas de frecuencias observadas con
las celdas de frecuencias esperadas y se usa la
estadstica :

=

=
(
(
(
(

|
.
|

\
|

=
f
l i
c
1 j
ij
E
2
ij
E
ij
O
2
x
donde
( )( ) 1 c 1 f
2
x
2
x ~
y la decisin es rechazar H
0
a un nivel de significacin
si el valor calculado de la estadstica X
2
excede el valor
de tabla :
o
( )( ) 1 c 1 f
2
1
x
o
H
0
: el ingreso y el tiempo transcurrido desde la ltima visita
al mdico son independientes.

H
1
: las dos variables no son independientes.
La estadstica de prueba calculada es de
47.9 para 8 grados de libertad al 95%. El
valor crtico es 15.507. Por lo tanto se
rechaza la hiptesis nula
PRUEBA DE HOMOGENEIDAD.
Esta prueba se usa para comparar proporciones
en dos o ms muestras.
H
0
: las k poblaciones son "homogneas" con
respecto a la proporcin de sujetos que
poseen la caracterstica de inters.
En general se selecciona una muestra de
cada poblacin en estudio y los sujetos se
clasifican de acuerdo a una caracterstica de
inters.
La estadstica que se usa en esta prueba es
la misma que se usa para la prueba de
independencia :
rechaza se y
) 1 1)(c (r
2
1
x
2
x si
O
H

>
o

=

=
(
(
(
(

|
.
|

\
|

=
f
l i
c
1 j
ij
E
2
ij
E
ij
O
2
x
Para determinar la conciencia pblica y preocupacin por
la contaminacin atmosfrica, se entrevist a una
muestra de 40 residentes en cada una de tres reas del
gran Santiago. La pregunta fue :
AREA NO SI DUDA NO SABE TOTAL
NORTE 5 31 2 2 40
SUR 10 21 4 5 40
ORIENTE 11 20 7 2 40
TOTAL 26 72 13 9 120
es la contaminacin atmosfrica un problema en su
vecindario?.
H
0
: las tres poblaciones de residentes son
homogneas con respecto al conocimiento de los
problemas de la polucin.
H
1
: las tres poblaciones no son homogneas..
La estadstica calculada es de 10.97. El
valro crtico es 12.59. Por lo tanto no hay
evidencia para rechazar la hiptesis nula.