Documente Academic
Documente Profesional
Documente Cultură
2
Shapiro-Wilks. Este test fue propuesto por Samuel Sanford Shapiro
y Martin Wilk y publicado en 1965. Sea X(1) , . . . , X(n) , la muestra
ordenada de menor a mayor. Estas nuevas variables se conocen como
Estadsticos de Orden.
El estadstico de prueba es:
n
2
P
ai X(i)
i=1
,
W = P
n
2
(Xi x )
i=1
mT V 1
1
(mT V 1 V 1 m) 2
I[, x] =
0 ; Xi > x
1 ; Xi x
3
Bajo la hipotesis nula de que la distribucion acumulada de la muestra
es F0 (x), el estadstico de prueba es:
Dn = Supx | Fn (x) F0 (x) | .
Para determinar la region de rechazo del test, se usan los valores crticos
de la distribucion asintotica de Dn . Para un dado la hipotesis nula
se rechaza si Dn > kn , donde k se encuentra de la ecuacion
P (K k ) = 1 .
La siguiente tabla muestra algunos valores crticos para el estadstico
de Kolmogorov-Smirnov:
En el caso de una prueba de normalidad, Lilliefors propuso una modificacion a la Prueba KS cuando los parametros de la distribucion normal
son desconocidos y deben ser estimados previamente. La tabla con los
cuantiles corregidos se muestra en la figura 2.
5
Ejemplo 1
Se tiene informacion sobre un grupo de 200 estudiantes de cierta universidad. A cada sujeto se le indago por 10 varibles de interes: GENERO(Hombre o Mujer), ESTATURA(en cms), MASA(en Kgr), HORAS(dedicadas semanalmente a estudiar fuera de clases), EDAD(en
a
nos), TIEMPO(requerido para llegar de su residencia a la Universidad
en min), PAPA(del semestre anterior), VMATRI(valor de matrcula en
miles de pesos), ESTRATO(de la residencia donde habita) y TRAB(SI
o NO). UN analisis descriptivo de las variables continuas se muestra a
contiacion.
> summary(datos[,c(2,3,5,6,7,8)])
ESTATURA
Min.
:143.4
1st Qu.:161.7
Median :167.8
Mean
:168.3
3rd Qu.:174.4
Max.
:196.9
TIEMPO
Min.
: 2.200
1st Qu.: 9.825
Median :20.600
Mean
:27.537
3rd Qu.:38.600
Max.
:97.400
MASA
Min.
:41.10
1st Qu.:60.27
Median :67.35
Mean
:65.62
3rd Qu.:71.90
Max.
:87.40
PAPA
Min.
:3.000
1st Qu.:3.600
Median :3.700
Mean
:3.763
3rd Qu.:4.000
Max.
:4.500
EDAD
Min.
:16.00
1st Qu.:19.20
Median :21.25
Mean
:21.34
3rd Qu.:23.02
Max.
:30.60
VMATRI
Min.
: 54.3
1st Qu.: 461.3
Median :1074.5
Mean
:1144.0
3rd Qu.:1638.2
Max.
:3644.7
De la figura 4 se puede levemente evidenciar que las variables Estatura, Masa y Papa tienen formas aproximadamente simetricas y podran
provenir de distribuciones normales. Mientras de las demas tienen formas poco simetricas.
Suponga que se desea probar si las estaturas de los estudiantes se comportan aproximadamente normales. Las hipotesis a probar son:
H0 : Las Estaturas se distribuyen Normalmente vs
Ha : Las Estaturas no se distribuyen Normalmente.
Usando el Test de Shapiro-Wilks se tiene:
7
Shapiro-Wilk normality test
data: ESTATURA
W = 0.9922,
p-value = 0.36
8
Usando KS-Lilliefors:
> lillie.test(TIEMPO)
Lilliefors (Kolmogorov-Smirnov) normality test
data: TIEMPO
D = 0.1446, p-value = 5.753e-11
En este caso se rechaza la hipotesis nula de que las Edades se distribuyen Normalmente y se concluye que las Edades NO se distribuyen
Normalmente.
Debido a que existen muchos Test para probar Normalidad, una alternativa es construyendo un grafico especial conocido como QQplot. Este
grafica los cuantiles muestrales de los datos versus los cuantiles teoricos
de una distribucion Normal. Si en efecto los datos prvienen de una distribucion Normal, se debe evidenciun grafico muy lineal, posiblemente
no en los extremos. Si el grafico se aleja mucho de dicha lnea, es evidencia de No normalidad. Para la variable Edad, en R-Commaner los
pasos se muestran en la figura 7. El QQplot se muestra en la figura 8.
10
Para efectos de mantener una notacion estandar en todo el documento,
se supone que se tienen una muestra aleatoria X1 , X2 , . . . , Xn de una
2
poblacion con media X y varianza X
.
Pruebas de Hip
otesis para la media de una
Poblaci
on Normal
Para un valor praticular de X , 0 , se plantean tres tipos de hipotesis:
X < 0
X > 0 .
H0 : X = 0 vs Ha :
X 6= 0
El estadstico de prueba dependera de si se conoce la varianza poblacional o no.
2
a) X
es conocida. En este caso el estadstico de prueba es:
ZC =
0
X
X
N (0, 1) .
P (Z < ZC )
ZC | ZC < z
Z
|
Z
>
z
P (Z > ZC )
; Vp=
R.C. =
C
C
ZC | |ZC | > z 2
2 P (Z > |ZC |)
2
b) X
es desconocida. En este caso el estadstico de prueba es:
TC =
0
X
SX
t(n 1) .
TC | TC < t (n 1)
P (t(n 1) < TC )
TC | TC > t ((n 1)
P (t(n 1) > TC ) .
R.C. =
; Vp=
TC | |TC | > t 2 (n 1)
2 P (t(n 1) > |TC |)
11
Ejemplo 2
Considere los datos del ejemplo 1. Se desea establecer si la estatura
promedio de los estudiantes es superior a 168 cms. Si X representa
la estatura de un estudiante de dicha Universidad, sedesea probar si
X > 168. Previamente se probo que las Estaturas se distribuyen Normalmente. Con esto en mente las hipotesis a probar son:
H0 : X = 168 vs Ha : X > 168 .
El estadstico de prueba es:
TC =
168
X
SX
t(n 1) .
= 168.3 ,
X
SX = 10.212 .
12
El resultado mostrado en la figura 11 indica que no hay suficiente evidencia para afirmar que la estatura media es superior a 168 cms, por
lo tanto se asume que la estatura media de los estudiantes es inferior o
igual a 168 (Esto se concluye porque el valor p es 0.342, es decir, el error
que se comete al rechazar H0 con la informacion recopilada asumiendo
que fuera cierta es muy grande y no debe rechazarse.
Pruebas de Hip
otesis para la media de una
Poblaci
on No-Normal
Para un valor praticular de X , 0 , se plantean tres tipos de hipotesis:
X < 0
X > 0 .
H0 : X = 0 vs Ha :
X 6= 0
El estadstico de prueba es:
2
a) Si X
es conocida
ZC =
0
X
X
aprox N (0, 1) .
2
b) Si X
es desconocida
ZC =
0
X
SX
aprox N (0, 1) .
13
region de rechazo y Valor p:
ZC | ZC < z
ZC | ZC > z
R.C. =
ZC | |ZC | > z 2
P (Z < ZC )
P (Z > ZC )
Vp=
2 P (Z > |ZC |)
Ejemplo 3
Con los datos de los estudiantes, se tiene la creencia de que el tiempo
medio requerido para llegar a la universidad es menor a 20 min. Primero
es necesario determinar si la muestra proviene de una poblacion normal.
H0 : Los tiempos de desplazamiento son normales
vs
Ha : Los tiempos de desplazamiento NO son normales
Usando el test de Shapiro-Wilks se tiene:
14
Estadstico de prueba:
ZC =
20
X
SX
aprox N (0, 1) .
15
El Valor P de esta prueba es peque
no, por lo cual se puede rechazar
H0 y concluir que las Masas NO se distribuyen normalmente. Asi las
cosas, el estadstico de prueba es:
ZC =
63
X
SX
200
aprox N (0, 1) .
= 65.619 ,
X
SX = 8.897 .
Pruebas de Hip
otesis para la diferencias
de medias de poblaciones normales
2
) y sea
Sea X1 , X2 , . . . , Xn una muestra aleatoria tal que Xi N (X , X
2
Y1 , Y2 , . . . , Ym otra muestra aleatoria tal que Yj N (Y , Y ), ambas
muestras aleatorias independientes entre si. El interes en este caso es
comparar las medias de ambas distribuciones. Una manera practica de
hacerlo es considerando la diferencia X Y . Sea 0 un valor conocido.
Las hipotesis a probar respecto a la diferencia X Y son:
X Y < 0
X Y > 0 .
H0 : X Y = 0 vs Ha :
X Y 6= 0
Y 0
X
N (0, 1) .
ZC = q 2
2
X
X
+ m
n
16
Region de rechazo y Valor p:
ZC | ZC < z
ZC | ZC > z
R.C. =
ZC | |ZC | > z 2
P (Z < ZC )
P (Z > ZC )
Vp=
2 P (Z > |ZC |)
2
2. X
y Y2 son desconocidas. En este caso la obtencion del estadstico
de prueba dependera de la relacion entre las varianzas poblacionales de ambas muestras. Una manera de establecer la relacion entre
las varianzas de dos poblaciones es a traves de un procedimiento
de Prueba de Hipotesis.
Pruebas de Hip
otesis para Cociente de Varianzas
Bajo los supuestos antes descritos, se desean probar las hipotesis:
2
X < 0
Y2
2
2
X
=
vs
H
:
H0 : X
> 0 ,
0
a
Y2
Y2
6= 0
X
Y2
donde 0 es un valor conocido. El estadstico de prueba es:
FC =
2
1 SX
f (n 1, m 1) .
2
0 SX
Region Crtica
1
FC | FC < f (m1,n1)
FC | FC > f (n 1, m 1)
.
1
FC | FC < f (m1,n1)
o FC > f 2 (n 1, m 1)
2
17
2
a) X
= Y2 . En este caso el estadstico de prueba es:
TC =
Y 0
X
q
t(n+m2) ;
Sp n1 + m1
TC | TC < t (n + m 2)
TC | TC > t (n + m 2)
TC | |TC | > t 2 (n + m 2)
Sp2 =
2
(n 1)SX
+ (m 1)SY2
.
n+m2
P (t(n + m 2) < TC )
P (t(n + m 2) > TC )
.
2
b) X
6= Y2 . En este caso el estadstico de prueba es:
2
2
SX
SY2
+
n
m
X Y 0
t()
;
=
TC = q 2
2 2
2 2 2 .
2
S
S
SX
SX
X
Y
n
m
+ m
n
+ m+1
n+1
TC | TC < t ()
P (t() < TC )
TC | TC > t ()
P (t() > TC )
;
.
TC | |TC | > t 2 ()
2 P (t() > |TC |)
Ejemplo 5
Retomando la base de datos de los estudiantes de la universidad, se
tiene la creencia de que la estatura media en los hombres es superior
a la estatura media en la mujeres. Primero se verifica si las Estaturas
se distribuyen Normalmente discriminando por genero. Para lograrlo
se deben separar las muestras por Genero. Usando R se utilizan los
comandos:
> est_muj <- Datos[Datos[,1]=="MUJER",]
> est_hom <- Datos[Datos[,1]=="HOMBRE",]
Luego se prueba si ambas muestras provienen de poblaciones normales. En la figura 13 se ilustra el uso de la Prueba Shapiro-Wilks en
R-Commander.
Con un procedimiento similar se realiza la prueba para las estaturas de
las mujeres. Los resultados se muestran a continuacion:
18
> with(est_hom, shapiro.test(ESTATURA))
Prueba de Normalidad para Estaturas de los Hombres
Shapiro-Wilk normality test
data: ESTATURA
W = 0.9918, p-value = 0.9926
> with(est_muj, shapiro.test(ESTATURA))
Prueba de Normalidad para Estaturas de las Mujeress
Shapiro-Wilk normality test
data: ESTATURA
W = 0.9789, p-value = 0.7679
19
Usando la prueba KS-Lilliefor
> lillie.test(est_muj[,2])
Lilliefors (Kolmogorov-Smirnov) normality test
data: est_muj[, 2]
D = 0.056658, p-value = 0.6699
> lillie.test(est_hom[,2])
Lilliefors (Kolmogorov-Smirnov) normality test
data: est_hom[, 2]
D = 0.056208, p-value = 0.5422
20
mean
sd data:n
HOMBRE 171.3184 10.036470
38
MUJER 163.2344 8.754634
32
Las hipotesis a probar son:
H0 : X Y = 0 vs Ha : X Y > 0 .
Para determinar el estadstico de prueba, es necesario establecer como
son las varianzas poblacionales. Las hipotesis a probar son:
H0 :
2
2
X
X
=
1
vs
H
:
6= 1 .
a
Y2
Y2
El estadstico de prueba es
FC =
2
SX
f (n 1, m 1) .
SY2
Usando R-Commander:
21
F test to compare two variances
data: ESTATURA by GENERO
F = 1.3143, num df = 37, denom df = 31, p-value = 0.4393
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.6546239 2.5838951
sample estimates:
ratio of variances
1.314274
Usando R-Commander:
22
Two Sample t-test
data: ESTATURA by GENERO
t = 3.5566, df = 68, p-value = 0.0003448
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
4.293657
Inf
sample estimates:
mean in group HOMBRE mean in group MUJER
171.3184
163.2344
23
Pruebas de Hip
otesis para la diferencias
de medias de poblaciones NO normales
Sea X1 , X2 , . . . , Xn una muestra aleatoria tal que E[Xi ] = X y
2
V ar[Xi ] = X
; sea Y1 , Y2 , . . . , Ym otra muestra aleatoria tal que E[Yj ] =
Y y V ar[Yj ] = Y2 , ambas muestras aleatorias independientes entre si.
El interes en este caso es comparar las medias de ambas distribuciones.
Una manera practica de hacerlo es considerando la diferencia X Y .
Sea 0 un valor conocido. Las hipotesis a probar respecto a la diferencia
X Y son:
X Y < 0
X Y > 0 .
H0 : X Y = 0 vs Ha :
X Y 6= 0
El estadstico de prueba tiene una distribucion aproximadamente Normal, cuando n y m son grandes(TLC):
a) Si las varianzas poblacionales son conocidas, entonces:
Y 0
X
aprox N (0, 1) .
ZC = q 2
2
X
Y
+ m
n
b) Si las varianzas poblacionales no son conocidas, entonces:
Y 0
X
ZC = q 2
aprox N (0, 1) .
SX
SY2
+ m
n
La region de rechazo y Valor p de la prueba se calculan de manera
similar:
ZC | ZC < z
P (Z < ZC )
ZC | ZC > z
P (Z > ZC )
R.C. =
; Vp=
ZC | |ZC | > z 2
2 P (Z > |ZC |)
Ejemplo 6
Usando la misma base de datos de los estudiantes, se desea establecer
24
si las personas que no trabajan emplean en promedio mas tiempo en
desplazamiento a la universidad que los que trabajan. Sea X el tiempo medio requerido por un estudiante que no trabaja para llegar a la
2
universidad y sea X
la varianza poblacional de dichos tiempos. Adiccionalmente sea Y el tiempo medio requerido por un estudiante que
trabaja para llegar a la universidad y sea Y2 la varianza poblacional de
dichos tiempos. Ambas muestras aleatorias son independientes entre si.
Un resumen descriptivo de ambas muestras se muestra a continuacion.
mean
sd
NO 27.07826 20.4698
SI 25.26667 21.9693
data:n
46
24
25
El Valor P encontrado en ambas pruebas permite concluir que los tiempos de desplazamiento, tanto para los que no trabajan como para los
que trabajan, NO son normales. Retomando las hipotesis iniciales, el
estadstico de prueba sera:as hipotesis a probar son:
Y 0
X
aprox N (0, 1) .
ZC = q 2
SX
SY2
+ m
n
De los resultados muestrales se tiene que:
= 27.078 SX = 20.4698 n = 46 ;
X
= 25.267 SX = 21.9693 m = 24 .
X
Este Valor P no permite rechazar H0 y por lo tanto la evidencia muestral no es suficiente para afirmar que el tiempo medio empleado por los
que No trabajan es superior al tiempo medio empleado por los que trabajan; por lo tanto el tiempo medio empleado por los que no trabajan
es inferior o igual al tiempo medio de los que trabajan. Un diagrama
de Box-Plot permite evidenciar graficamente esta afirmacion.
26
Pruebas de Hip
otesis para una proporci
on
Sea X una variable aleatoria que representa el n
umero de exitos en n
ensayos. Sea sabe que X Bin(n, p). Sea p0 un valor particular para
p. Las hipotesss a probar son:
p < p0
p > p0 .
H0 : p = p0 vs Ha :
p 6= p0
Si n es grande, el estadstico de prueba se basa en el TLC. En este caso
el estadstico de prueba es:
p p0
ZC = q
aprox N (0, 1) .
p0 (1p0 )
n
Ejemplo 7
Se tiene la creencia de que el porcentaje de estudiantes que no trabajan
es superioral 60 %. Es esta afirmacion coherente con los datos recopilados? Sea X la variable aleatoria nque representa el n
umero de estudiantes que no trabajan en la muestra de 70. Se tiene que X Bin(70, p).
27
Las hipotesis a probar son:
H0 : p = 0.6 vs Ha : p > 0.6
Aca, p0 = 0.6. Como n = 70 es grande, el estadstico de pruebe es:
p 0.6
ZC = q
aprox N (0, 1) .
0.6 (10.6)
70
28
La justificacion por la cual en el R-Commander aparece un estadstico
diferente ((X-square)), es debido al hecho de que:
p p0
aprox 2 (1) .
ZC2 = q
p0 (1p0 )
n
29
clase
Frec observada
Probabilidad
Frec esperada
1
n1
p1
n p1
2
n2
p2
n p2
...
...
k
nk
pk
n pk
total
n
1
n
Si n pi 5 ; i = 1, 2 . . . , k , la v.a.
X=
k
X
(Ni n pi ) 2
n pi
i=1
2 (k 1) .
Observe que
X=
k
X
(Ni n pi ) 2
i=1
n pi
(f.obs f.esp) 2
2 (k 1) .
f.esp
todas las celdas
X
Suponga que se desea establecer valores particulares para los p i , es decir, se quieren probar las hipotesis:
H0 : p i = pi 0 ; i = 1, 2 . . . , k
vs Ha : j tal que pj 6= pj 0 .
Estadstico de Prueba:
XC =
k
X
(ni n pi ) 2
i=1
n pi
2 (k 1) .
30
Estrato
1
2
3
4
5
6
P roporci
on 0.08 0.15 0.37 0.30 0.06 0.04
Se desea establecer si la informacion recopilada en el siguiente semestre permite corroborar si estas proporciones se mantienen igual o han
cambiado. Se desea probrar las hipotesis:
H0 : p1 = 0.08, p2 = 0.15, p3 = 0.37, p4 = 0.30, p5 = 0.06, p6 = 0.04
vs
Ha : Alguna de las proporciones ha cambiado
Usando el R-Commander se obtiene una tabla de frecuencias:
counts:
ESTRATO
1 2 3 4
10 5 25 21
5
5
6
4
Usando R-Commander:
31
32
counts:
ESTRATO
1 2 3 4
10 5 25 21
5
9
5
X
(Ni ei )2
2 (4) .
e
i
i=1
Usando R-Commander: