Sunteți pe pagina 1din 45

Contenido

Tema 1.
CONTRASTES DE BONDAD DE AJUSTE A UNA
DISTRIBUCIÓN
Bloque I:
INFERENCIA NO PARAMÉTRICA

Análisis Bioestadístico
3er curso de Biología

2010-2011

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Contenido

Contenido

1 Inferencia no paramétrica

2 Contrastes de bondad de ajuste

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Inferencia no paramétrica
Introducción
Contrastes de bondad de ajuste

Motivación
En la inferencia paramétrica es habitual comenzar con el
postulado:

Sea X1 , X2 , . . . Xn una muestra aleatoria simple de una variable


X con distribución F (θ), θ desconocido.

Se realizan por tanto tres hipótesis estructurales sobre los


datos que deben ser tenidas muy en cuenta:

Su independencia.
Su homogeneidad (mismo patrón generador para todos
los datos).
Su adecuado ajuste a la distribución especificada.
Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Inferencia no paramétrica
Introducción
Contrastes de bondad de ajuste

Objetivos

Construir procedimientos estadísticos que permitan


concluir sobre el grado de cumplimiento de las tres
hipótesis estructurales citadas.

Elaborar procedimientos alternativos (métodos de


distribución libre) que puedan realizarse cuando estas
hipótesis no se verifican.

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

Contrastes de bondad de ajuste a una distribución


Dada una m.a.s. X1 , . . . , Xn procedente de una población X
con distribución F , interesa contrastar:

H0 : F = F0
H1 : F 6= F0

Ejemplos:
 
H0 : F = N(3, 1) H0 : F es normal
H1 : F 6= N(3, 1) H1 : F no es normal

H0 simple H0 compuesta

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

Efectos de un modelo distinto del supuesto


Las inferencias sobre las medias siguen siendo válidas,
pero dejan de ser óptimas.

De hecho, una pequeña contaminación de la distribución, que


suponga una baja probabilidad de generar datos muy heterogéneos,
puede afectar drásticamente a la eficiencia del estimador.
Si se supone X ∼ N(µ, σ) cuando su distribución real es:
(1 − α)N(µ, σ) + αN(µ, kσ), con k > 0,
entonces E(X ) = µ, pero

Var (X ) = (1 − α)σ 2 + αk 2 σ 2 = σ 2 1 + α(k 2 − 1) .

Si α = 0′ 01 y k = 5, entonces la media muestral es tal que



Var X n = 1′ 24σ 2 /n
Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

Efectos de un modelo distinto del supuesto

n=30
2.0

estándar
contaminada
1.5
1.0
0.5
0.0

−1.0 −0.5 0.0 0.5 1.0

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

Efectos de un modelo distinto del supuesto

Las inferencias respecto a varianzas son muy sensibles a


la hipótesis de normalidad.

b 2 es siempre un estimador centrado de σ 2 , pero su distribución


S
depende mucho de la distribución de los datos, de modo que no
conviene construir intervalos o contrastes si no tenemos cierta
seguridad de que la población es aproximadamente normal.

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

Métodos Gráficos

Histograma

Densidad suavizada

Función de distribución empírica

Gráfico P-P

Gráfico Q-Q

Diagrama de caja

Gráfico de tallo y hojas

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

Métodos Analíticos

De carácter general: Específicos de Normalidad:

χ2 de Pearson Kolmogorov-Smirnov-Lilliefors

Kolmogorov-Smirnov Shapiro-Wilks

D’Agostino

Crámer-von Mises

Asimetría y apuntamiento

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

Ejemplo
Considérese la siguiente muestra aleatoria simple:

35 45 47 50 31

30 25 33 35 40

45 47 49 42 40

50 46 55 42 46

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

Histograma
Histograma con origen en a y clases de igual amplitud h
1 Dividir la recta real en intervalos
Ik = [a + kh, a + (k + 1)h), con k entero.
2 A todo x ∈ Ik se le asigna un valor igual al cociente entre
la frecuencia relativa de observaciones en ese intervalo y
la longitud de dicho intervalo
Pn
1I (Xi )
f̂H (x) = i=1 k , si x ∈ Ik .
nh

Necesario determinar previamente:


1 El origen, a.
2 La amplitud de los intervalos, h.
Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

Histogramas para los datos del ejemplo


7

6
6

5
5

4
4

3
3

2
2

1
1
0

0
20 25 30 35 40 45 50 55 25 30 35 40 45 50 55

7
10

6
8

5
4
6

3
4

2
2

1
0

20 30 40 50 60 25 30 35 40 45 50 55

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

El histograma y la función de densidad


n=1000,clases=30 n=5000,clases=70

0.4
0.4

0.3
0.3

0.2
0.2

0.1
0.1
0.0

−3 −2 −1 0 1 2 3 4 0.0 −2 0 2

Figure: El histograma tiende a la densidad al crecer el número de datos y


disminuir el ancho de clase h.
Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

Densidad Suavizada

Estimador tipo núcleo, con núcleo K y ventana h


n  
1 X x − Xi
f̂N (x) = K
nh h
i=1

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

Densidades suavizada para los datos del ejemplo


h=1 h=3
0.08

0.05
0.04
0.06

0.03
0.04

0.02
0.02

0.01
0.00
0.00

25 30 35 40 45 50 55 20 30 40 50 60

Figure: Densidades suavizadas para los datos del ejemplo con


distintas ventanas h.

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

Función de distribución empírica

Dada una muestra, X1 , X2 , . . . , Xn , su función de distribución


empírica, Fn , es aquella que asigna a cada número real, x, la
frecuencia relativa de observaciones menores o iguales que x.

“Número de observaciones Xi ≤ x”
Fn (x) =
n
n
1X
= 1(−∞,x] (Xi )
n
i=1

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

Función de distribución empírica


ecdf(dat)

Intervalo (Ij ) Fn (x), x ∈ Ij

1.0
(−∞, 25) 0
[25, 30) 0.05

0.8
[30, 31) 0.10
[31, 33) 0.15
[33, 35) 0.20

0.6
[35, 40) 0.30
[40, 42) 0.40 Fn(x)

[42, 45) 0.50 0.4


[45, 46) 0.60
[46, 47) 0.70
0.2

[47, 49) 0.80


[49, 50) 0.85
[50, 55) 0.95
0.0

[55, ∞) 1.00
25 30 35 40 45 50 55

x
Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

Función de distribución empírica


Calcular la función de distribución empírica asociada a la siguiente
muestra de 20 observaciones.

-16.0 7.0 12.0 -1.6 -11.0 3.2 12.0 -3.9 12.0 3.8
-4.5 -9.1 7.2 15.7 -3.3 -16.6 5.8 -15.4 16.6 -7.6

1. Ordenar la muestra en sentido creciente:

-16.6 -16.0 -15.4 -11.0 -9.1 -7.6 -4.5 -3.9 -3.3 -1.6
3.2 3.8 5.8 7.0 7.2 12.0 12.0 12.0 15.7 16.6
2. Asignar frecuencias relativas acumuladas
1 2 3 4 5 6 7 8 9 10
20 20 20 20 20 20 20 20 20 20
11 12 13 14 15 18 18 18 19
20 20 20 20 20 20 20 20 20
1
Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

Función de distribución empírica

ecdf(new.dat)

1.0
0.8
0.6
Fn(x)

0.4
0.2
0.0

−20 −10 0 10 20

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

Gráfico P − P

Se denomina así a la nube de puntos:

{(Fn (xi ), F (xi )) , i = 1, . . . , n}


donde
Fn (xi ) es la distribución empírica de la muestra
F (xi ) es la distribución bajo H0

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

Gráfico P − P

1,0

,8
Prob acum esperada

,5

,3

0,0
0,0 ,3 ,5 ,8 1,0

Prob acum observada

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

Gráfico Q − Q

Se denomina así a la nube de puntos:

{(qn (xi ), q(xi )) , i = 1, . . . , n}


donde
qn (xi ) es el i-ésimo cuantil muestral
q(xi ) es el i-ésimo cuantil bajo H0

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

Gráfico Q − Q

Gráfico Q−Q Normal Gráfico Q−Q Normal


3

3.0
2

2.5
Cuantiles muestrales

Cuantiles muestrales
1

2.0
0

1.5
−1

1.0
−2

0.5
−3

−2 −1 0 1 2 0.0 −2 −1 0 1 2

Cuantiles teóricos Cuantiles teóricos

Figure: Dos ejemplos de gráficos Q − Q.

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

Diagrama de Caja (Boxplot)

1 Tiene forma de una caja que, en posición vertical, está delimitada por
el primer (Q̂1 ) y tercer (Q̂3 ) cuartiles muestrales y está atravesada por
una línea representando la mediana o segundo cuartil (Q̂2 ).
Por tanto, la altura de la caja es el rango intercuartílico muestral dado
por IQR = Q̂3 − Q̂1 .
2 Las líneas verticales que salen de la caja se denominan bigotes y van:
desde Q̂1 (base de la caja) hasta un límite inferior (LI), dado por
el menor dato mayor o igual que Q̂1 − 1.5 × IQR,
desde Q̂3 (altura de la caja) hasta un límite superior (LS), dado
por el mayor dato menor o igual que Q̂3 + 1.5 × IQR.
3 Los puntos por encima de LS y por debajo de LI se representan
aislados. Son valores extremos respecto al resto, se denominan
atípicos o anómalos y son candidatos a ser erróneamente registrados.

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

Ejemplos de diagramas de caja

4
2
0
−2
−4

1 2 3 4 5

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

Diagrama de Tallo y Hojas

1 2|5
4 3|013
6 3|55
10 4|0022
10 4|5566779
3 5|00
1 5|5

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

Métodos Analíticos

De carácter general: Específicos de Normalidad:

χ2 de Pearson Kolmogorov-Smirnov-Lilliefors

Kolmogorov-Smirnov Shapiro-Wilks

D’Agostino

Crámer-von Mises

Asimetría y apuntamiento

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

La prueba χ2 de Pearson de bondad de ajuste: Idea


Se basa en comparar las frecuencias observadas en un
histograma o diagrama de barras con aquellas esperadas
bajo la distribución postulada en la nula.

La prueba examina las frecuencias observadas en k


clases (A1 , . . . , Ak ), que se corresponden con:
los k valores de la variable de interés, si ésta es discreta.
k intervalos de una partición del rango de los datos
muestrales, si la variable es continua.

Como la prueba no discrimina entre distribuciones


asignando las mismas probabilidades a las clases Ai , es
aconsejable tomar k ≥ 5.

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

La prueba χ2 de Pearson: Algoritmo


1 Calcular las frecuencias observadas en cada clase, Oi .
2 Calcular las probabilidades de cada clase bajo H0 , pi .
3 Calcular las frecuencias esperadas de cada clase bajo H0 ,
Ei = npi .
4 Evaluar:
k
X 2
(Oi − Ei )
Q= ,
Ei
i=1

que, bajo H0 , se distribuye aproximadamente según una χ2g , con


g = k − 1, si H0 es simple, y g = k − r − 1 si H0 es compuesta y
se han estimado r parámetros.
La aproximación χ2g es razonable, si npi ≥ 5 y n ≥ 25.
5 b > χ2 .
Rechazar H0 si Q g,α

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

La prueba χ2 de Pearson: Ejemplo



H0 : F es U(a, b)
H1 : F no es U(a, b)

1 Estimadores por máxima verosimilitud: â = 25 y b̂ = 55 (r = 2)


2 Se divide el intervalo [25, 55] en k = 4 clases de igual longitud.
3 Se obtiene la siguiente tabla:
2
Clases Oi Ei (Oi − Ei ) /Ei
[25, 32.5) 3 5 0.8
[32.5, 40) 5 5 0.0
[40, 47.5) 8 5 1.8
[47.5, 55] 4 5 0.2
Total 20 20 2.8

4 Entonces Q̂ =2.8 y p = P χ24−2−1 > 2.8 = 0.09426.

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

La prueba de Kolmogorov-Smirnov

La prueba de Kolmogorov-Smirnov está diseñada para el


contraste de ajuste a distribuciones continuas.

Se basa en la distribución del estadístico:

Dn = sup |Fn (x) − F (x)|


x∈R

que representa el valor de mayor distancia en ordenadas


entre la función de distribución empírica y la función de
distribución bajo la hipótesis nula.

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

La prueba de Kolmogorov-Smirnov

Nótese que el cómputo del supremo

Dn = sup |Fn (x) − F (x)|


x∈R

se reduce al cómputo del máximo:



Dn = max Dn,i , i = 1, 2, . . . , n
con

Dn,i = max{|Fn (x(i) ) − F (x(i) )|, |Fn− (x(i) ) − F (x(i) )|}

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

La prueba de Kolmogorov-Smirnov

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

La prueba de Kolmogorov-Smirnov: Ejemplo


H0 : F ∼ N(40, 3)
H1 : F 6∼ N(40, 3)

Se construye la tabla con las discrepancias, Dn,i , entre la


distribución empírica y la teórica

Se obtiene Dn =0.45221 y un p-valor p < 0.01, que indica


un claro rechazo de la hipótesis nula.

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

La prueba de Kolmogorov-Smirnov: Ejemplo

x(i) F (x(i) ) Fn (x(i) ) Fn− (x(i) ) Dn,i


25 0 0.05 0 0.05
30 0.00043 0.10 0.05 0.09957
31 0.00135 0.15 0.10 0.14865
33 0.00982 0.20 0.15 0.19018
35 0.04779 0.30 0.20 0.25221
40 0.5 0.40 0.30 0.2
42 0.74751 0.50 0.40 0.34751
45 0.95221 0.60 0.50 0.45221
46 0.97725 0.70 0.60 0.37725
47 0.99019 0.80 0.70 0.29019
49 0.99865 0.85 0.80 0.19865
50 0.99957 0.95 0.85 0.14957
55 1 1 0.95 0.05

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

Pruebas específicas de normalidad:


Kolmogorov-Smirnov-Lilliefors
Cuando es preciso estimar previamente algún parámetro,
la distribución del estadístico Dn de la prueba de
Kolmogorov-Smirnov cambia.

En el caso de normalidad, Lilliefors tabuló la distribución


exacta del estadístico:

Dn = sup |Fn (x) − Φ((x − X )/Ŝ)|,


x∈R

o sea, de la distancia máxima en ordenadas entre la


función de distribución empírica y la función de distribución
de la normal ajustada.

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

Pruebas específicas de normalidad:


Kolmogorov-Smirnov-Lilliefors. Ejemplo

H0 : F es normal
H1 : F no es normal

Como la nula no precisa de que normal se trata, es


necesario estimar previamente sus parámetros,
resultando: x = 41.65 y ŝ = 7.896.
Se considera ahora la normal con estos parámetros
estimados y se construye la tabla de discrepancias.
El valor obtenido, Dn = 0.1700, presenta un p-valor
comprendido entre 0.1 y 0.15, con lo cual resulta una
prueba no significativa para niveles de significación
habituales y no se rechaza la hipótesis de normalidad.

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

Kolmogorov-Smirnov-Lilliefors: Ejemplo

x(i) Φ[(x(i) − x)/s] Fn (x(i) ) Fn− (x(i) ) Dn,i


25 0.0150 0.05 0 0.0350
30 0.0655 0.10 0.05 0.0345
31 0.0838 0.15 0.10 0.0662
33 0.1314 0.20 0.15 0.0686
35 0.1949 0.30 0.20 0.1051
40 0.4168 0.40 0.30 0.1168
42 0.5199 0.50 0.40 0.1199
45 0.6700 0.60 0.50 0.1700
46 0.7157 0.70 0.60 0.1157
47 0.7580 0.80 0.70 0.0580
49 0.8315 0.85 0.80 0.0315
50 0.8621 0.95 0.85 0.0879
55 0.9582 1 0.95 0.0418

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

Pruebas específicas de normalidad: Shapiro-Wilks

Prueba alternativa a la de Kolmogorov-Smirnov-Lilliefors


para contrastar normalidad. Especialmente recomendable
con muestras pequeñas (n < 30).

En esencia, la prueba evalúa la bondad del ajuste de los


puntos a la línea bajo normalidad en un gráfico Q − Q.
Con los datos del ejemplo, para contrastar

H0 : F es normal
H1 : F no es normal

el estadístico de Shapiro-Wilks toma el valor 0.956, con p-valor


igual a 0.475 y de ahí no se rechaza la hipótesis de normalidad.

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

Pruebas específicas de normalidad: Contraste de


asimetría
Si la hipótesis de normalidad es cierta, el coeficiente de
asimetría muestral es aproximadamente (n > 50) normal.

1 X
n
3  p 
G1 = Xi − X ≈ N 0, 6/n
nS 3
i=1

Rechazar la hipótesis de normalidad, a nivel α, siempre que:


r
n
|G1 | > zα/2
6

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

Pruebas específicas de normalidad: Contraste de


apuntamiento
Si la hipótesis de normalidad es cierta, el coeficiente de
apuntamiento muestral es aproximadamente (n > 200) normal.

1 X
n
4  p 
G2 = Xi − X ≈ N 3, 24/n
nS 4
i=1

Rechazar la hipótesis de normalidad, a nivel α, siempre que:


r
n
(G2 − 3) > zα/2
24
Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

Pruebas específicas de normalidad: Contraste de


asimetría y de apuntamiento conjuntamente

Si la hipótesis de normalidad es cierta:


n 2 n
χ= G1 + (G2 − 3)2 ≈ χ22
6 24

Rechazar la hipótesis de normalidad, a nivel α, siempre que:

χ > χ22,α

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

Soluciones en ausencia de normalidad


Si la distribución es unimodal y asimétrica, la solución más
simple es transformar los datos buscando normalidad.

X X log(X)

30

30
40

25

25
30

20

20
15

15
20

10

10
10

5
0

0
0 2 4 6 8 10 0.5 1.0 1.5 2.0 2.5 3.0 −3 −2 −1 0 1 2

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución
Problemática
Inferencia no paramétrica Procedimientos de contraste
Contrastes de bondad de ajuste Métodos gráficos
Métodos analíticos

Soluciones en ausencia de normalidad

Si la distribución es más apuntada que la normal, o


muestra valores atípicos, investigar la presencia de la
heterogeneidad en los datos.

Si la distribución es bimodal, investigar la presencia de


heterogeneidad para poder segmentar la población en
subpoblaciones homogéneas.

Cuando el objetivo no sea estimar los parámetros sino


conocer la distribución, utilizar estimación no paramétrica
de curvas.

Análisis Bioestadístico, 3er curso de Biología, 2010-2011 Contrastes de bondad de ajuste a una distribución

S-ar putea să vă placă și