Documente Academic
Documente Profesional
Documente Cultură
Centro de Matem
atica
BIOESTADISTICA
Curso 2006
n
X
i=1
F . Dicha convergencia esta garantizada en condiciones muy generales por el Teorema de GlivenkoCantelli, tambien llamado Teorema Fundamental de la Estadstica.
En esta seccion se incluyen algunas pruebas muy generales y conocidas (2 , Kolmogorov-Smirnov, y
otras pruebas mas especficas (Lilliefors, DAgostino, Filliben).
La Prueba 2 de Pearson
asintoticas de los estadsticos del tipo 2 dependen del metodo de estimacion utilizado.
Fundamentaci
on de la prueba
Dada una muestra X1 , X2 , , Xn de variables i.i.d., con funcion de distribucion F , y una distribuci
on
F0 , Pearson considera la particion en k clases A1 , A2 , , Ak del soporte de F0 y a partir de ella
propone el estadstico
k
X
(Xni npi )2
S=
npi
i=1
donde Xni =
n
X
j=1
n
X
Zm , el estadstico
m=1
S=
k
X
(Xni npi )2
i=1
npi
tiene distribuci
on asint
otica 2 con k 1 grados de libertad
Esta prueba de ajuste se basa en el llamado Teorema Fundamental de la Estadstica, que enunciamos
a continuacion
Teorema Fundamental de la Estadstica (Glivenko-Cantelli)
Sea X1 , X2 , , Xn , una sucesion de variables aleatorias i.i.d. con distribucion F , y sea Fn la
funcion de distribucion emprica para la muestra de tama
no n, es decir
Fn (x) =
n
X
i=1
n
X
1[,x) (Xi )
i=1
entonces
supxIR |Fn (x) F (x)| 0
con probabilidad 1.
Supongamos entonces que tenemos una muestra X1 , X2 , , Xn proveniente de una distribuci
on F
y queremos realizar la prueba de hipotesis H0 : F = F0 y H1 : F 6= F0 para una cierta distribuci
on
F0 . El teorema anterior sugiere el uso del siguiente estadstico
KS = supxIR |Fn (x) F0 (x)|
Bajo la hipotesis nula KS (que depende de n) tendera a cero, mientras que, bajo la hipotesis alternativa, la descomposicion
KS = supxIR |Fn (x) F0 (x)| = supxIR |Fn (x) F (x) + F (x) F0 (x)|
nos muestra que KS tiende a
supxIR |F (x) F0 (x)| =
6 0
de modo que la prueba es consistente frente a cualquier alternativa.
Observaciones
1. Notese en primer lugar que, por la forma de la funcion de distribucion emprica, si el supremo
involucrado en el calculo del estadstico KS no se alcanza en alguno de los puntos de la muestra,
entonces tomara en valor
n
X
1{Xi x} F0 (x)| =
i=1
supxIR |
n
X
i=1
n
X
1{Ui u} u|
i=1
3. En el caso asintotico, los percentiles para la aplicacion de la prueba vienen dados por un famoso
resultado debido a Donsker (1952).
4. En caso en que la distribucion dependa de algunos parametros desconocidos, si la muestra
es suficientemente grande, podemos dividirla en dos, usando una primera parte para estimar
los parametros y la segunda para aplicar la prueba de ajuste a la distribucion en la que se
sustituyen los parametros por sus respectivos estimadores. Esta forma de proceder involucra
varias decisiones sobre la division de la muestra. En particular, decidir que parte de la muestra
se usara para estimar los parametros y que parte para aplicar la prueba, es una arbitrariedad;
para evitarla, se puede volver a aplicar el procedimiento estimando los parametros con la segunda
parte de la muestra y aplicando la prueba de ajuste con la primera (en este caso es razonable
rechazar si alguna de las dos pruebas arrojara un resultado significativo).
Esta prueba de normalidad utiliza el estadstico de Kolmogorov y Smirnov, en el caso en que la media
y el desvo de la distribucion (desconocidos) se estiman utilizando toda la muestra. Es decir que el
estadstico vale
n
xX
)|
KSL = supxIR |Fn (x) (
sn
donde es la funcion de distribucion normal tpica, Si determinamos la region crtica usando la tabla
de Kolmogorov y Smirnov, el resultado es una prueba muy conservadora. Lilliefors ha tabulado por
el metodo de Montecarlo los percentiles de este estadstico.
Este estadstico compara (a menos de una constante) un estimador lineal del desvo tpico en el caso
de una distribucion normal, con el desvo muestral.
Para la muestra aleatoria simple X1 , X2 , , Xn y la prueba cuya hipotesis nula es H0 : la muestra tiene distribucion normal y cuya hipotesis alternativa es la complementaria, el estadstico de
DAgostino vale:
n
i n+1
Xi
X
2
D=
n2 sn
i=1
P
2.
donde s2n = n1 ni=1 (Xi X)
El valor esperado de este estadstico es aproximadamente 21 . Para tama
nos muestrales peque
nos se
dispone de una tabla de simulacion que da un criterio de decision. Para muestras de tama
no grande,
la variable
D 21
n
1
12 327+2
24