Documente Academic
Documente Profesional
Documente Cultură
Introduccin.
Estamos interesados en determinar si los datos disponibles de una muestra
aleatoria simple de tamao n corresponden a cierta distribucin terica. El
primer paso a realizar consiste en descomponer el recorrido de la distribucin
terica en un nmero finito de subconjuntos: A1, A2, ..., Ak. Despus, clasificar
las observaciones mustrales, segn el subconjunto a que pertenezcan. Y, por
ltimo, comparar las frecuencias observadas de cada Ai con las probabilidades
que les corresponderan con la distribucin terica a contrastar.
Anlisis
Supongamos que tenemos un nmero k de clases en las cuales se han ido
registrado un total de n observaciones (n ser pues el tamao muestral).
Denotaremos las frecuencias observadas en cada clase por O1, O2, ..., O k (Oi
es el nmero de valores en la clase Ai ). Se cumplir:
O1 + O2 + ... + O k = n
Lo que queremos es comparar las frecuencias observadas con las frecuencias
esperadas (tericas), a las que denotaremos por E1, E2, ..., E k . Se cumplir:
E1 + E2 + ... + E k = n
CLASE 1
CLASE 2
...
CLASE K
Total
FRECUENCIA
OBSERVADA
O1
O2
...
Ok
n
FRECUENCIA ESPERADA
E1
E2
...
Ek
N
tamao del numerador. Las ideas anteriores sugieren que, cuanto menor sean
el valor del estadstico 2, ms coherentes sern las observaciones
obtenidas con los valores esperados. Por el contrario, valores grandes de este
estadstico indicarn falta de concordancia entre las observaciones y lo
esperado. En este tipo de contraste se suele rechazar la hiptesis nula (los
valores observados son coherentes con los esperados) cuando el estadstico es
mayor que un determinado valor crtico.
Notas:
(1) El valor del estadstico 2 se podr aproximar por una distribucin Chicuadrado cuando el tamao muestral n sea grande (n > 30), y todas las
frecuencias esperadas sean iguales o mayores a 5 (en ocasiones deberemos
agrupar varias categoras a fin de que se cumpla este requisito).
(2) Las observaciones son obtenidas mediante muestreo aleatorio a partir de
una poblacin particionada en categoras.
Un experimento multinomial es la generalizacin de un experimento binomial:
1. Consiste en n pruebas idnticas e independientes.
2. Para cada prueba, hay un nmero k de resultados posibles.
3. Cada uno de los k posibles resultados tiene una probabilidad de ocurrencia pi
asociada (p1 + p2 + ... + pk = 1), la cual permanece constante durante el
desarrollo del experimento.
4. El experimento dar lugar a un conjunto de frecuencias observadas (O1,
O2, ..., Ok) para cada resultado. Obviamente, O1 + O2 + ... + Ok = n.
En ocasiones estaremos interesados en comparar los resultados obtenidos al
realizar un experimento multinomial con los resultados esperados (tericos).
Ello nos permitir saber si nuestro modelo terico se ajusta bien o no a las
observaciones. Para ello, recurriremos a la distribucin Chi-cuadrado, la cual
nos permitir realizar un contraste sobre la bondad del ajuste.
Concretamente, usaremos el estadstico
con k 1 grados de
libertad.
Podemos calcular cada frecuencia esperada (terica) multiplicando el nmero
total de pruebas n por la probabilidad de ocurrencia asociada, es decir:
Ejemplo:
En cierta mquina Expendedora de Refrescos existen 4 canales que expiden el
mismo tipo de bebida. Estamos interesados en averiguar si la eleccin de
cualquiera de estos canales se hace de forma aleatoria o por el contrario existe
Canal
1
2
3
4
Solucin:
Para realizar el contraste de Bondad de Ajuste debemos calcular las
frecuencias esperadas de cada suceso bajo la hiptesis de uniformidad entre
los valores. Si la seleccin del canal fuera aleatoria, todos los canales tendran
la misma probabilidad de seleccin y por lo tanto la frecuencia esperada de
bebidas vendidas en cada uno de ellos debera ser aproximadamente la misma.
Como se han vendido en total 70 refrescos, la frecuencia esperada en cada
canal es
con (4-
(3)=7.81
Puesto que el valor del estadstico (2.34) es menor que el valor crtico, no
podemos rechazar la hiptesis de que los datos se ajustan a una distribucin
uniforme. Es decir, que los canales son seleccionados aleatoriamente entre los
consumidores.
cuando
es cierta.
Por tanto, el criterio para la toma de la decisin entre las dos hiptesis ser de
la forma:
Donde el valor
Siendo
A su vez, el valor de
Donde
Ejemplo 1:
Determinar si los valores de la primera columna se conforman a una
distribucin normal:
Como el valor D = 0.216 < 0.262, no se rechaza H0 y se acepta que los datos
se distribuyen normalmente.
Prueba de Anderson-Darling
La prueba de Anderson-Darling es utilizada para probar si un conjunto de datos
mustrales provienen de una poblacin con una distribucin de probabilidad
continua especfica (por lo general la distribucin normal). La prueba de
Anderson-Darling se basa en la comparacin de la distribucin de
probabilidades acumulada emprica (resultado de los datos) con la distribucin
de probabilidades acumulada terica (definida en H0).
HIPTESIS:
H0: Las variables aleatorias en un estudio siguen una distribucin normal
(, ).
Ha: Las variables aleatorias en un estudio no siguen una distribucin
normal (, ).
ESTADSTICO DE PRUEBA:
El estadstico de A2 est dado por la siguiente formula:
66
30
91
88
58
29
86
Sacar media y desviacin estndar:
= 58.75
= 0.05
= 26.83
Valor critico = 0.752
2
(2i-1)
1
3
5
7
9
11
13
15
17
19
21
23
25
27
29
16
17
18
19
20
31
33
35
37
39
Yi
Yn+1-i
16
97
19
91
22
90
29
88
30
86
30
79
45
77
55
75
57
66
58
65
65
58
66
57
75
55
77
45
79
30
86
30
88
29
90
22
91
19
97
16
: dato muestral.
Nota: los valores de la columna 6 son los mismos que la columna 5, solo estn
ordenados inversamente.
5
Zi
Zn+1-i
-1.5117
-1.4041
-1.2965
-1.0455
-1.0096
-1.0096
-0.4716
-0.1130
-0.0412
-0.0054
0.2457
0.2815
0.6043
0.6761
0.7478
0.9989
1.0706
1.3934
1.1782
1.1423
1.0706
0.9989
0.7478
0.6761
0.6043
0.2815
0.2457
-0.0054
-0.0412
-0.1130
-0.4716
-1.0096
-1.0096
-1.0455
1.1423 -1.2965
1.1782 -1.4041
1.3934 -1.5117
8
F(Yn+1i)
0.9182
0.8806
0.8733
0.8578
0.8411
0.7727
0.7505
0.7272
0.6109
0.5970
0.4979
0.4836
0.4550
0.3186
0.1563
0.1563
0.1479
0.0974
0.8806
0.9182
0.0801
0.0653
10
LN(1LN(F(Yi))
F(Yn+1-i))
-2.7288
-2.5240
-2.3290
-1.9112
-1.8557
-1.8557
-1.1438
-0.7874
-0.7266
-0.6974
-0.5158
-0.4929
-0.3186
-0.2870
-0.2579
-0.1731
-0.1534
-0.1354
-0.1271
-0.0853
-2.5041
-2.1256
-2.0662
-1.9507
-1.8393
-1.4815
-1.3883
-1.2990
-0.9438
-0.9089
-0.6889
-0.6608
-0.6070
-0.3836
-0.1700
-0.1700
-0.1601
-0.1025
-0.0835
-0.0675
11
Si
-0.2616
-0.6974
-1.0988
-1.3517
-1.6628
-1.8355
-1.6459
-1.5648
-1.4198
-1.5260
-1.2649
-1.3267
-1.1570
-0.9053
-0.6204
-0.5318
-0.5171
-0.4163
-0.3897
-0.2980
CONCLUSIONES:
El valor estadstico (A2 = 0.4916) es menor al valor critico (A2critico = 0.752), por
lo tanto no se rechaza la hiptesis nula.
Por lo tanto los datos observados tienen una naturaleza de distribucin normal.
Prueba de Shapiro-Wilk
En estadstica, el Test de ShapiroWilk se usa para contrastar la normalidad de
un conjunto de datos. Se plantea como hiptesis nula que una muestra x1,...,
xn proviene de una poblacin normalmente distribuida. Fue publicado en 1965
por Samuel Shapiro y Martin Wilk.1 Se considera uno de los test ms potentes
para el contraste de normalidad, sobre todo para muestras pequeas (n<30).
El estadstico del test es:
Donde:
Donde:
Siendo m1,..., mn son los valores medios del estadstico ordenado, de variables
aleatorias independientes e idnticamente distribuidas, muestreadas de
distribuciones normales. V es la matriz de covarianzas de ese estadstico de
orden.
La hiptesis nula se rechazar si W es demasiado pequeo.
Interpretacin: Siendo la hiptesis nula que la poblacin est distribuida
normalmente, si el p-valor es menor a alfa (nivel de confianza) entonces la
hiptesis nula es rechazada (se concluye que los datos no vienen de una
distribucin normal). Si el p-valor es mayor a alfa, no se rechaza la hiptesis y
se concluye que los datos siguen una distribucin normal.