Sunteți pe pagina 1din 4

1

Centro de Matem
atica
BIOESTADISTICA
Curso 2006

Pruebas de Bondad de Ajuste


En esta seccion estudiaremos el problema de ajuste a una distribucion. Dada una muestra X1 , X2 , , Xn
de variables i.i.d. con distribucion F , un problema basico en estadstica es encontrar un modelo para
los datos. Por ejemplo, supongamos que nos interesa ver hasta que punto es razonable suponer que
los datos provienen de una cierta distribucion F0 .
Las pruebas estadsticas destinadas a la resolucion de este tipo de problemas son las llamadas Pruebas
de Bondad de Ajuste. La mayora de ellas se basa en la convergencia de la funci
on de distribuci
on
emprica de la muestra: Fn (x) =

n
X

1{Xi x} , a la funcion de distribucion subyacente a la muestra

i=1

F . Dicha convergencia esta garantizada en condiciones muy generales por el Teorema de GlivenkoCantelli, tambien llamado Teorema Fundamental de la Estadstica.
En esta seccion se incluyen algunas pruebas muy generales y conocidas (2 , Kolmogorov-Smirnov, y
otras pruebas mas especficas (Lilliefors, DAgostino, Filliben).

La Prueba 2 de Pearson

La primera prueba de bondad de ajuste fue propuesta por Karl Pearson en el a


no 1900.
Pearson propuso evaluar el ajuste de una funcion de distribucion F0 a una muestra de variables i.i.d.,
mediante el uso de un estadstico de tipo cuadratico. Este planteamiento constituye la primera evaluacion rigurosa de la calidad del ajuste a una distribucion. Anteriormente a Pearson solo se intentaron
comparaciones subjetivas.
Baste como ejemplo el de la utilizacion de la distribucion normal en la teora de errores. Dicha distribucion fue introducida por Gauss en 1801 para modelar los errores en la determinacion de la posici
on
del asteroide Ceres. A
nos despues Laplace y Poisson llegaron a ella en versiones primigenias del Teorema Central del Lmite. Poisson agregara contraejemplos con lmites no gaussianos. La primera
justificacion de la aplicabilidad del modelo fue dada por un ingeniero aleman: G. Hagen, en 1837.
Pero hubo que esperar casi un siglo hasta que alguien (Pearson) propusiera verificar la adecuaci
on del
modelo.
En el caso de hipotesis nula compuesta, en que es necesario estimar parametros, las distribuciones

LA PRUEBA DE KOLMOGOROV Y SMIRNOV

asintoticas de los estadsticos del tipo 2 dependen del metodo de estimacion utilizado.
Fundamentaci
on de la prueba
Dada una muestra X1 , X2 , , Xn de variables i.i.d., con funcion de distribucion F , y una distribuci
on
F0 , Pearson considera la particion en k clases A1 , A2 , , Ak del soporte de F0 y a partir de ella
propone el estadstico
k
X
(Xni npi )2
S=
npi
i=1
donde Xni =

n
X

1Ai (Xj ) y pi = F (Ai ). La distribucion de S depende en general del n


umero de clases

j=1

k, del vector de probabilidades (p1 , , pk ) y del tama


no de muestra n. En un artculo de 1973,
Katti da tables exactas para el caso uniforme. De acuerdo al siguiente teorema, que enunciamos sin
demostracion, S tiene, bajo la hipotesis nula distribucion 2 con k 1 grados de libertad, mientras
que bajo la alternativa F 6= F0 , S tiende casi seguramente a infinito.
Teorema
Sea p1 , p2 , , pk una k-upla de n
umeros no negativos que suman 1, y sean Z1 , Z2 , vectores multinomiales e independientes con par
ametros {(p1 , p2 , , pk ), 1}. Si definimos Xn =

n
X

Zm , el estadstico

m=1

S=

k
X
(Xni npi )2
i=1

npi

tiene distribuci
on asint
otica 2 con k 1 grados de libertad

La Prueba de Kolmogorov y Smirnov

Esta prueba de ajuste se basa en el llamado Teorema Fundamental de la Estadstica, que enunciamos
a continuacion
Teorema Fundamental de la Estadstica (Glivenko-Cantelli)
Sea X1 , X2 , , Xn , una sucesion de variables aleatorias i.i.d. con distribucion F , y sea Fn la
funcion de distribucion emprica para la muestra de tama
no n, es decir
Fn (x) =

n
X
i=1

1(Xi ,+) (x) =

n
X

1[,x) (Xi )

i=1

entonces
supxIR |Fn (x) F (x)| 0

LA PRUEBA DE KOLMOGOROV Y SMIRNOV

con probabilidad 1.
Supongamos entonces que tenemos una muestra X1 , X2 , , Xn proveniente de una distribuci
on F
y queremos realizar la prueba de hipotesis H0 : F = F0 y H1 : F 6= F0 para una cierta distribuci
on
F0 . El teorema anterior sugiere el uso del siguiente estadstico
KS = supxIR |Fn (x) F0 (x)|
Bajo la hipotesis nula KS (que depende de n) tendera a cero, mientras que, bajo la hipotesis alternativa, la descomposicion
KS = supxIR |Fn (x) F0 (x)| = supxIR |Fn (x) F (x) + F (x) F0 (x)|
nos muestra que KS tiende a
supxIR |F (x) F0 (x)| =
6 0
de modo que la prueba es consistente frente a cualquier alternativa.
Observaciones
1. Notese en primer lugar que, por la forma de la funcion de distribucion emprica, si el supremo
involucrado en el calculo del estadstico KS no se alcanza en alguno de los puntos de la muestra,
entonces tomara en valor

i = limxX |Fn (x) F0 (Xi )|


i

para alguno de los puntos de la muestra.


Calcular KS se reduce entonces a calcular:
o

KS = max max1in {|Fn (Xi ) F0 (Xi )|}, max1in {


i } =
max {max1in {|i/n F0 (Xi )|}, max1in {|(i 1)/n F0 (Xi )|}}}
2. La distribucion bajo H0 del estadstico KS no depende de la distribucion subyacente a la muestra.
Sea la muestra X1 , X2 , , Xn de variables i.i.d. con distribucion F = F0 . Si hacemos el cambio
de variables Ui = F0 (Xi ) y u = F0 (x) tendremos
KS = supxIR |Fn (x) F0 (x)| = supxIR |

n
X

1{Xi x} F0 (x)| =

i=1

supxIR |

n
X
i=1

1{F0 (Xi )F0 (x)} F0 (x)| = supu[0,1] |

n
X

1{Ui u} u|

i=1

Es decir que la distribucion del estadstico de Kolmogorov y Smirnov para la muestra X1 , X2 , , Xn


es igual a la del estadstico para la muestra uniforme U1 , U2 , , Un (recuerdese que las variables
Ui tienen distribucion uniforme en [0,1]).
Para tama
nos muestrales peque
nos una tabla de Montecarlo basada en la distribucion uniforme,
da los percentiles para poder aplicar la prueba de Kolmogorov-Smirnov.

LA PRUEBA DE NORMALIDAD DE LILLIEFORS

3. En el caso asintotico, los percentiles para la aplicacion de la prueba vienen dados por un famoso
resultado debido a Donsker (1952).
4. En caso en que la distribucion dependa de algunos parametros desconocidos, si la muestra
es suficientemente grande, podemos dividirla en dos, usando una primera parte para estimar
los parametros y la segunda para aplicar la prueba de ajuste a la distribucion en la que se
sustituyen los parametros por sus respectivos estimadores. Esta forma de proceder involucra
varias decisiones sobre la division de la muestra. En particular, decidir que parte de la muestra
se usara para estimar los parametros y que parte para aplicar la prueba, es una arbitrariedad;
para evitarla, se puede volver a aplicar el procedimiento estimando los parametros con la segunda
parte de la muestra y aplicando la prueba de ajuste con la primera (en este caso es razonable
rechazar si alguna de las dos pruebas arrojara un resultado significativo).

La Prueba de Normalidad de Lilliefors

Esta prueba de normalidad utiliza el estadstico de Kolmogorov y Smirnov, en el caso en que la media
y el desvo de la distribucion (desconocidos) se estiman utilizando toda la muestra. Es decir que el
estadstico vale
n
xX
)|
KSL = supxIR |Fn (x) (
sn
donde es la funcion de distribucion normal tpica, Si determinamos la region crtica usando la tabla
de Kolmogorov y Smirnov, el resultado es una prueba muy conservadora. Lilliefors ha tabulado por
el metodo de Montecarlo los percentiles de este estadstico.

La Prueba de Normalidad de DAgostino

Este estadstico compara (a menos de una constante) un estimador lineal del desvo tpico en el caso
de una distribucion normal, con el desvo muestral.
Para la muestra aleatoria simple X1 , X2 , , Xn y la prueba cuya hipotesis nula es H0 : la muestra tiene distribucion normal y cuya hipotesis alternativa es la complementaria, el estadstico de
DAgostino vale:


n
i n+1
Xi
X
2
D=
n2 sn
i=1
P
2.
donde s2n = n1 ni=1 (Xi X)
El valor esperado de este estadstico es aproximadamente 21 . Para tama
nos muestrales peque
nos se
dispone de una tabla de simulacion que da un criterio de decision. Para muestras de tama
no grande,
la variable
D 21

n
1
12 327+2
24

se puede aproximar por una variable normal tpica.

S-ar putea să vă placă și