Sunteți pe pagina 1din 32

1

Pruebas de Hipotesis con R


Commander
P rof esor : Rene Iral Palomino
Of icina : 43 320
Correo : riral@unal.edu.co

Pruebas de Normalidad para muestras


aleatorias
En el analisis de un conjunto de datos, es crucial conocer la distribucion
de probabilidad de la cual provienen. Esta caracterstica es importante en
el desarrollo, no solo de las pruebas de hipotesis, sino del calculo de otras
medidas de interes.
En particular, el supuesto mas usado en el planteamiento de pruebas de
hipotesis se refiere a determinar si dicho conjunto de datos continuos provienen de una distribucion normal. Existe un n
umero importante de pruebas
reportadas en la literatura propuestas para probar si unos datos se comportan normalmente o no.
Entre las pruebas mas usadas estan: Shapiro-Wilks, Kolmogorov-Smirnov,
KS-Lilliefors, Cramer Von Misses, Jarque-Bera, DAgostinos K-squared test,
AndersonDarling, Pearsons chi-squared, ShapiroFrancia, entre otros.
Se emplearan para efectos de este documento el test de Shapiro-Wilks y el
Test KS-Lilliefor. El primero funciona bien en tama
nos de muestra no muy
grandes. El segundo requiere de muestras grandes para funcionar mejor.
Sea X 1 , . . . , X n una m.a. de una poblacion con media y varianza 2 . Se
desea probar el juego de hipotesis:
H0 : La muestra proviene de una N (, 2 )
vs
Ha : La muestra no proviene de una Normal .

2
Shapiro-Wilks. Este test fue propuesto por Samuel Sanford Shapiro
y Martin Wilk y publicado en 1965. Sea X(1) , . . . , X(n) , la muestra
ordenada de menor a mayor. Estas nuevas variables se conocen como
Estadsticos de Orden.
El estadstico de prueba es:
n
2
P
ai X(i)
i=1
,
W = P
n
2
(Xi x )
i=1

donde a1 , a2 , . . . , an son tales que


(a1 , a2 , . . . , an ) =

mT V 1
1

(mT V 1 V 1 m) 2

m = (m1 , . . . , mn )T es el vector de valores esperados de los estadsticos


de orden de una muestra aleatoria que proviene de una distribucion
normal estandar y V es la respectiva matriz de covarianzas de dichos
estadsticos de orden. Se rechaza la hipotesis nula de Normalidad si W
es inferior a un valor crtico de la distribucion emprica de W o si el
Valor p es peque
no.
Kolmogorov-Smirnov o prueba KS. Este test fue sugerido por Andrei
Nikolayevich Kolmogorov en 1933 y por Stanislav Konstantnovich Smirnov 1939. Es un test no-parametrico para probar la igualdad de dos
distribuciones continuas unidimensionales, el cual puede ser usado para
comparar una muestra aleatoria con una distribucion de probabilidad
de referencia. Este estadstico calcula la distancia entre la distribucion
emprrica de una muestra y la distribucion acumulada de una distribucion de referencia.
Dada una muestra aleatoria X 1 , . . . , X n , la Distribucion Emprica de
la muestra se define como:
n
1 X
I[, x] (Xi ) ,
Fn (x) =
n i=1
donde


I[, x] =

0 ; Xi > x
1 ; Xi x

3
Bajo la hipotesis nula de que la distribucion acumulada de la muestra
es F0 (x), el estadstico de prueba es:
Dn = Supx | Fn (x) F0 (x) | .
Para determinar la region de rechazo del test, se usan los valores crticos
de la distribucion asintotica de Dn . Para un dado la hipotesis nula
se rechaza si Dn > kn , donde k se encuentra de la ecuacion
P (K k ) = 1 .
La siguiente tabla muestra algunos valores crticos para el estadstico
de Kolmogorov-Smirnov:

Fig. 1: Valores Crticos prueba KS

En el caso de una prueba de normalidad, Lilliefors propuso una modificacion a la Prueba KS cuando los parametros de la distribucion normal
son desconocidos y deben ser estimados previamente. La tabla con los
cuantiles corregidos se muestra en la figura 2.

Fig. 2: Valores Crticos prueba KS-Lilliefors

Usando el paquete R se tiene acceso a estas dos pruebas. Los comandos


a ser usados son:
Para la prueba de Shapiro-Wilks: ((shapiro.test(datos)))
Para la prueba KS-Lilliefors: ((lillie.test(datos)))
Usando R-Commander se tiene acceso a la Prueba Shapiro-Wilks a
traves del men
u:
((Estadsticos - Res
umenes - Test de normalidad de Shapiro-Wilk)):

Fig. 3: Test Shapiro-Wilk en R Commander

5
Ejemplo 1
Se tiene informacion sobre un grupo de 200 estudiantes de cierta universidad. A cada sujeto se le indago por 10 varibles de interes: GENERO(Hombre o Mujer), ESTATURA(en cms), MASA(en Kgr), HORAS(dedicadas semanalmente a estudiar fuera de clases), EDAD(en
a
nos), TIEMPO(requerido para llegar de su residencia a la Universidad
en min), PAPA(del semestre anterior), VMATRI(valor de matrcula en
miles de pesos), ESTRATO(de la residencia donde habita) y TRAB(SI
o NO). UN analisis descriptivo de las variables continuas se muestra a
contiacion.

> summary(datos[,c(2,3,5,6,7,8)])
ESTATURA
Min.
:143.4
1st Qu.:161.7
Median :167.8
Mean
:168.3
3rd Qu.:174.4
Max.
:196.9
TIEMPO
Min.
: 2.200
1st Qu.: 9.825
Median :20.600
Mean
:27.537
3rd Qu.:38.600
Max.
:97.400

MASA
Min.
:41.10
1st Qu.:60.27
Median :67.35
Mean
:65.62
3rd Qu.:71.90
Max.
:87.40
PAPA
Min.
:3.000
1st Qu.:3.600
Median :3.700
Mean
:3.763
3rd Qu.:4.000
Max.
:4.500

EDAD
Min.
:16.00
1st Qu.:19.20
Median :21.25
Mean
:21.34
3rd Qu.:23.02
Max.
:30.60
VMATRI
Min.
: 54.3
1st Qu.: 461.3
Median :1074.5
Mean
:1144.0
3rd Qu.:1638.2
Max.
:3644.7

Los Graficos de estas mismas variables se muestran en la figura 4.

De la figura 4 se puede levemente evidenciar que las variables Estatura, Masa y Papa tienen formas aproximadamente simetricas y podran
provenir de distribuciones normales. Mientras de las demas tienen formas poco simetricas.

Fig. 4: Histogramas de variables Continuas

Suponga que se desea probar si las estaturas de los estudiantes se comportan aproximadamente normales. Las hipotesis a probar son:
H0 : Las Estaturas se distribuyen Normalmente vs
Ha : Las Estaturas no se distribuyen Normalmente.
Usando el Test de Shapiro-Wilks se tiene:

Fig. 5: Resultado prueba Shapiro-Wilk para Estatura

7
Shapiro-Wilk normality test
data: ESTATURA
W = 0.9922,
p-value = 0.36

El Valor p indica que no se puede rechazar H0 y por lo tanto la evidencia


muestral es acorde con que las estaturas se distribuyen normalmente.
Usando el Test de KS-Lilliefors:
> lillie.test(ESTATURA)
Lilliefors (Kolmogorov-Smirnov) normality test
data: ESTATURA
D = 0.042, p-value = 0.5266

La conclusion es la misma. Ambas pruebas permiten concluir que las


estaturas provienen de una distribucion normal.
Para la variable tiempo:
H0 : Los Tiempos se distribuyen Normalmente vs
Ha : Los Tiempos no se distribuyen Normalmente.
Usando Shapiro-Wilks:

Fig. 6: Resultado prueba Shapiro-Wilk para Tiempo

> with(datos, shapiro.test(TIEMPO))


Shapiro-Wilk normality test
data: TIEMPO
W = 0.8736, p-value = 7.053e-12

8
Usando KS-Lilliefors:
> lillie.test(TIEMPO)
Lilliefors (Kolmogorov-Smirnov) normality test
data: TIEMPO
D = 0.1446, p-value = 5.753e-11

Ambos valores p son extremadamente peque


nos, lo que indica que la
hipotesis nula se rechazara con mucha seguridad (el error es casi nulo).
Esto permite concluir que los tiempos de desplazamiento NO se distribuyen normalmente.
Para la variable EDAD:
> with(datos, shapiro.test(EDAD))
Shapiro-Wilk normality test
data: EDAD
W = 0.9688, p-value = 0.0002023

En este caso se rechaza la hipotesis nula de que las Edades se distribuyen Normalmente y se concluye que las Edades NO se distribuyen
Normalmente.
Debido a que existen muchos Test para probar Normalidad, una alternativa es construyendo un grafico especial conocido como QQplot. Este
grafica los cuantiles muestrales de los datos versus los cuantiles teoricos
de una distribucion Normal. Si en efecto los datos prvienen de una distribucion Normal, se debe evidenciun grafico muy lineal, posiblemente
no en los extremos. Si el grafico se aleja mucho de dicha lnea, es evidencia de No normalidad. Para la variable Edad, en R-Commaner los
pasos se muestran en la figura 7. El QQplot se muestra en la figura 8.

Fig. 7: Pasos para obtener el QQplot de la Edad

Fig. 8: QQplot para la variable Edad

10
Para efectos de mantener una notacion estandar en todo el documento,
se supone que se tienen una muestra aleatoria X1 , X2 , . . . , Xn de una
2
poblacion con media X y varianza X
.

Pruebas de Hip
otesis para la media de una
Poblaci
on Normal
Para un valor praticular de X , 0 , se plantean tres tipos de hipotesis:

X < 0
X > 0 .
H0 : X = 0 vs Ha :

X 6= 0
El estadstico de prueba dependera de si se conoce la varianza poblacional o no.
2
a) X
es conocida. En este caso el estadstico de prueba es:

ZC =

0
X
X

N (0, 1) .

La region de rechazo y los respectivos valores p se muestran a


continuacion:

P (Z < ZC )
ZC | ZC < z
Z
|
Z
>
z
P (Z > ZC )
; Vp=
R.C. =
C
C

ZC | |ZC | > z 2
2 P (Z > |ZC |)
2
b) X
es desconocida. En este caso el estadstico de prueba es:

TC =

0
X
SX

t(n 1) .

La region de rechazo y los respectivos valores p se muestran a


continuacion:

TC | TC < t (n 1)
P (t(n 1) < TC )
TC | TC > t ((n 1)
P (t(n 1) > TC ) .
R.C. =
; Vp=

TC | |TC | > t 2 (n 1)
2 P (t(n 1) > |TC |)

11
Ejemplo 2
Considere los datos del ejemplo 1. Se desea establecer si la estatura
promedio de los estudiantes es superior a 168 cms. Si X representa
la estatura de un estudiante de dicha Universidad, sedesea probar si
X > 168. Previamente se probo que las Estaturas se distribuyen Normalmente. Con esto en mente las hipotesis a probar son:
H0 : X = 168 vs Ha : X > 168 .
El estadstico de prueba es:
TC =

168
X
SX

t(n 1) .

De la muestra se obtienen los siguientes resultados:


n = 200 ,

= 168.3 ,
X

SX = 10.212 .

TC = 0.407 y V p = P (t(199) > 0.407) = 0.342 . Usando R-Commander:

Fig. 9: Prueba T con RC ommander

Fig. 10: Especificaci


on de H0 y Ha

12

Fig. 11: Valor p de la prueba

El resultado mostrado en la figura 11 indica que no hay suficiente evidencia para afirmar que la estatura media es superior a 168 cms, por
lo tanto se asume que la estatura media de los estudiantes es inferior o
igual a 168 (Esto se concluye porque el valor p es 0.342, es decir, el error
que se comete al rechazar H0 con la informacion recopilada asumiendo
que fuera cierta es muy grande y no debe rechazarse.

Pruebas de Hip
otesis para la media de una
Poblaci
on No-Normal
Para un valor praticular de X , 0 , se plantean tres tipos de hipotesis:

X < 0
X > 0 .
H0 : X = 0 vs Ha :

X 6= 0
El estadstico de prueba es:
2
a) Si X
es conocida

ZC =

0
X
X

aprox N (0, 1) .

2
b) Si X
es desconocida

ZC =

0
X
SX

aprox N (0, 1) .

13
region de rechazo y Valor p:

ZC | ZC < z
ZC | ZC > z
R.C. =

ZC | |ZC | > z 2

P (Z < ZC )
P (Z > ZC )
Vp=

2 P (Z > |ZC |)

Ejemplo 3
Con los datos de los estudiantes, se tiene la creencia de que el tiempo
medio requerido para llegar a la universidad es menor a 20 min. Primero
es necesario determinar si la muestra proviene de una poblacion normal.
H0 : Los tiempos de desplazamiento son normales
vs
Ha : Los tiempos de desplazamiento NO son normales
Usando el test de Shapiro-Wilks se tiene:

Fig. 12: Prueba de Normalidad para Tiempos

El Valor p registrado en esta prueba indica que se debe rechazar H0 y


concluir que los tiempos de desplazamientos no son normales. Sea X
el tiempo medio requerido para ir de casa o del trabajo a la universidad
2
y sea X
la varianza de dichos tiempos. Se desea probar las hipotesis:
H0 : X = 20 Ha : X < 20 .

14
Estadstico de prueba:
ZC =

20
X
SX

aprox N (0, 1) .

Las estadsticas descriptivas basicas para esta variable:


Var Tiempo
mean
sd
n
26.45714 20.85432 70

Con estos datos se tiene que:


ZC = 2.591 V p = P (Z < 2.591) = 0.9952 .
Como el Valor P es tan grande, no se puede rechazar H0 , es decir, seg
un
los datos registrados, el tiempo medio de desplazamiento es mayor o
igual a 20 min.
Ejemplo 4
Se desea establecer si la Masa propedio de los estudiantes de la universidad es superior a 63 kgr. Las hipotesis a probar son:
H0 : X = 63 vs Ha : X > 63 .
Para determinar el estadstico de prueba, es necesario establecer si las
masas se comportan normalmente o no. En este caso se desean probar
las hipotesis:
H0 : Las masas tienen una distribucion normal
vs
H0 : Las masas NO tienen una distribucion normal
Usando el Test Shapiro-Wilks
> with(datos, shapiro.test(MASA))
Shapiro-Wilk normality test
data: MASA
W = 0.982, p-value = 0.01159

15
El Valor P de esta prueba es peque
no, por lo cual se puede rechazar
H0 y concluir que las Masas NO se distribuyen normalmente. Asi las
cosas, el estadstico de prueba es:
ZC =

63
X
SX
200

aprox N (0, 1) .

Los resultados muestrales son:


n = 200 ,
ZC = 4.163 y

= 65.619 ,
X

SX = 8.897 .

V p = P (Z > 4.163) = 0.0000157

Dado que el Valor P es extremadamente peque


no, puede rechazarse H0
con mucha seguridad y concluir que, seg
un la informacion recolectada,
la masa media de los estudiantes supera los 63 Kgr.

Pruebas de Hip
otesis para la diferencias
de medias de poblaciones normales
2
) y sea
Sea X1 , X2 , . . . , Xn una muestra aleatoria tal que Xi N (X , X
2
Y1 , Y2 , . . . , Ym otra muestra aleatoria tal que Yj N (Y , Y ), ambas
muestras aleatorias independientes entre si. El interes en este caso es
comparar las medias de ambas distribuciones. Una manera practica de
hacerlo es considerando la diferencia X Y . Sea 0 un valor conocido.
Las hipotesis a probar respecto a la diferencia X Y son:

X Y < 0
X Y > 0 .
H0 : X Y = 0 vs Ha :

X Y 6= 0

El estadstico de prueba dependera de como son las varianzas poblacionales.


2
1. X
y Y2 son conocidas. En este caso el estadstico de prueba es:

Y 0
X
N (0, 1) .
ZC = q 2
2
X
X
+ m
n

16
Region de rechazo y Valor p:

ZC | ZC < z
ZC | ZC > z
R.C. =

ZC | |ZC | > z 2

P (Z < ZC )
P (Z > ZC )
Vp=

2 P (Z > |ZC |)

2
2. X
y Y2 son desconocidas. En este caso la obtencion del estadstico
de prueba dependera de la relacion entre las varianzas poblacionales de ambas muestras. Una manera de establecer la relacion entre
las varianzas de dos poblaciones es a traves de un procedimiento
de Prueba de Hipotesis.

Pruebas de Hip
otesis para Cociente de Varianzas
Bajo los supuestos antes descritos, se desean probar las hipotesis:
2

X < 0

Y2

2
2

X
=

vs
H
:
H0 : X
> 0 ,
0
a

Y2
Y2

6= 0
X
Y2
donde 0 es un valor conocido. El estadstico de prueba es:
FC =

2
1 SX
f (n 1, m 1) .
2
0 SX

Region Crtica

1
FC | FC < f (m1,n1)
FC | FC > f (n 1, m 1)
.

1
FC | FC < f (m1,n1)

o FC > f 2 (n 1, m 1)
2

El caso mas usado se tiene cuando 0 = 1, que corresponde a pro2


2
bar si X2 = 1. Si se rechaza H0 se concluye que X
6= Y2 , en caso
Y
2
contrario que X
= Y2 .
Superado este paso, se consideran dos casos para el estadstico de
prueba para la hipotesis de diferencia de medias.

17
2
a) X
= Y2 . En este caso el estadstico de prueba es:

TC =

Y 0
X
q
t(n+m2) ;
Sp n1 + m1

Region Crtica y Valor p:

TC | TC < t (n + m 2)
TC | TC > t (n + m 2)

TC | |TC | > t 2 (n + m 2)

Sp2 =

2
(n 1)SX
+ (m 1)SY2
.
n+m2

P (t(n + m 2) < TC )
P (t(n + m 2) > TC )
.

2 P (t(n + m 2) > |TC |)

2
b) X
6= Y2 . En este caso el estadstico de prueba es:
 2
2
SX
SY2
+

n
m
X Y 0

t()
;

=
TC = q 2
 2 2
 2 2 2 .
2
S
S
SX
SX
X
Y
n
m
+ m
n
+ m+1
n+1

La region de rechazo y el calculo del Valor p estan dados por:

TC | TC < t ()
P (t() < TC )
TC | TC > t ()
P (t() > TC )
;
.

TC | |TC | > t 2 ()
2 P (t() > |TC |)
Ejemplo 5
Retomando la base de datos de los estudiantes de la universidad, se
tiene la creencia de que la estatura media en los hombres es superior
a la estatura media en la mujeres. Primero se verifica si las Estaturas
se distribuyen Normalmente discriminando por genero. Para lograrlo
se deben separar las muestras por Genero. Usando R se utilizan los
comandos:
> est_muj <- Datos[Datos[,1]=="MUJER",]
> est_hom <- Datos[Datos[,1]=="HOMBRE",]
Luego se prueba si ambas muestras provienen de poblaciones normales. En la figura 13 se ilustra el uso de la Prueba Shapiro-Wilks en
R-Commander.
Con un procedimiento similar se realiza la prueba para las estaturas de
las mujeres. Los resultados se muestran a continuacion:

18
> with(est_hom, shapiro.test(ESTATURA))
Prueba de Normalidad para Estaturas de los Hombres
Shapiro-Wilk normality test
data: ESTATURA
W = 0.9918, p-value = 0.9926
> with(est_muj, shapiro.test(ESTATURA))
Prueba de Normalidad para Estaturas de las Mujeress
Shapiro-Wilk normality test
data: ESTATURA
W = 0.9789, p-value = 0.7679

Fig. 13: Prueba de Normalidad para Estaturas en Hombres

19
Usando la prueba KS-Lilliefor
> lillie.test(est_muj[,2])
Lilliefors (Kolmogorov-Smirnov) normality test
data: est_muj[, 2]
D = 0.056658, p-value = 0.6699
> lillie.test(est_hom[,2])
Lilliefors (Kolmogorov-Smirnov) normality test
data: est_hom[, 2]
D = 0.056208, p-value = 0.5422

Ambas pruebas indican que la distribucion de las estaturas es Normal,


sin importar el Genero. Con esto en mente lo que se tienen es un par
de muestras aleatorias independientes que provienen de poblaciones
normales. Estas muestras representan las Estaturas de los estudiantes
(Hombres y Mujeres).
2
Sean X y X
la media y varianza poblacionales de las Estaturas para los hombres y sea Y y Y2 la media y varianza poblacionales de
las Estaturas para las Mujeres. Los resultados muestrales para ambas
muestras son:

Fig. 14: Res


umenes Descriptivos

20
mean
sd data:n
HOMBRE 171.3184 10.036470
38
MUJER 163.2344 8.754634
32
Las hipotesis a probar son:
H0 : X Y = 0 vs Ha : X Y > 0 .
Para determinar el estadstico de prueba, es necesario establecer como
son las varianzas poblacionales. Las hipotesis a probar son:
H0 :

2
2
X
X
=
1
vs
H
:
6= 1 .
a
Y2
Y2

El estadstico de prueba es
FC =

2
SX
f (n 1, m 1) .
SY2

Usando R-Commander:

Fig. 15: Prueba de Hip


otesis para Cociente de Varianzas

Los resultados de esta prueba son:

21
F test to compare two variances
data: ESTATURA by GENERO
F = 1.3143, num df = 37, denom df = 31, p-value = 0.4393
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.6546239 2.5838951
sample estimates:
ratio of variances
1.314274

Debido a que se tiene un Valor P grande, no se puede rechazar H0 y


se cuncluye que la informacion esta mas acorde con asumir que las va2
rianzas poblacionales de ambas muestras son iguales, es decir, X
= Y2 .
Con esto presente, el estadstico de prueba para la hpotesis acerca de
la diferencia de medias es:
Y 0
X
q
TC =
t (n + m 2) ,
Sp n1 + m1
donde
n = 38, x = 171.318, sX = 10.036 ;

m = 32, y = 163.234, sY = 8.755 .

Usando R-Commander:

Fig. 16: Prueba de Hip


otesis para Diferencia entre las estaturas Medias

22
Two Sample t-test
data: ESTATURA by GENERO
t = 3.5566, df = 68, p-value = 0.0003448
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
4.293657
Inf
sample estimates:
mean in group HOMBRE mean in group MUJER
171.3184
163.2344

Debido a que se tiene un Valor P muy peque


no, se rechaza H0 y se
concluye que la informacion muestral apoya la afirmacion de que la
Estatura media de los hombres es superior a la de las mujeres. En el
siguiente grafico se evidencia esta conclusion.

Fig. 17: BoxPlot para estaturas discriminado por G


enero

23

Pruebas de Hip
otesis para la diferencias
de medias de poblaciones NO normales
Sea X1 , X2 , . . . , Xn una muestra aleatoria tal que E[Xi ] = X y
2
V ar[Xi ] = X
; sea Y1 , Y2 , . . . , Ym otra muestra aleatoria tal que E[Yj ] =
Y y V ar[Yj ] = Y2 , ambas muestras aleatorias independientes entre si.
El interes en este caso es comparar las medias de ambas distribuciones.
Una manera practica de hacerlo es considerando la diferencia X Y .
Sea 0 un valor conocido. Las hipotesis a probar respecto a la diferencia
X Y son:

X Y < 0
X Y > 0 .
H0 : X Y = 0 vs Ha :

X Y 6= 0
El estadstico de prueba tiene una distribucion aproximadamente Normal, cuando n y m son grandes(TLC):
a) Si las varianzas poblacionales son conocidas, entonces:
Y 0
X
aprox N (0, 1) .
ZC = q 2
2
X
Y
+ m
n
b) Si las varianzas poblacionales no son conocidas, entonces:
Y 0
X
ZC = q 2
aprox N (0, 1) .
SX
SY2
+ m
n
La region de rechazo y Valor p de la prueba se calculan de manera
similar:

ZC | ZC < z
P (Z < ZC )
ZC | ZC > z
P (Z > ZC )
R.C. =
; Vp=

ZC | |ZC | > z 2
2 P (Z > |ZC |)

Ejemplo 6
Usando la misma base de datos de los estudiantes, se desea establecer

24
si las personas que no trabajan emplean en promedio mas tiempo en
desplazamiento a la universidad que los que trabajan. Sea X el tiempo medio requerido por un estudiante que no trabaja para llegar a la
2
universidad y sea X
la varianza poblacional de dichos tiempos. Adiccionalmente sea Y el tiempo medio requerido por un estudiante que
trabaja para llegar a la universidad y sea Y2 la varianza poblacional de
dichos tiempos. Ambas muestras aleatorias son independientes entre si.
Un resumen descriptivo de ambas muestras se muestra a continuacion.

mean
sd
NO 27.07826 20.4698
SI 25.26667 21.9693

data:n
46
24

Observe que en este caso se desconocen las varianzas poblacionales para


ambas muestras. Las hipotesis a probar son:
H0 : X Y = 0 vs Ha : X Y > 0 .
Para probar este par de hipotesis se requiere saber si los tiempos para
los que trabajan y para los que no trabajan se distribuyen normalmente. Primero se separan los datos para los que trabajan y los que
no-trabajan:

> tiem_trab <- data[data[,10]=="SI", ]


> tiem_ntrab <- data[data[,10]=="NO", ]

H0 : Los tiempos de desplazamiento para los que no trabajan son normales


vs
Ha : Los tiempos de desplazamiento para los que no trabajan NO son normales
Usando R-Commander:

25

Fig. 18: Prueba de Normalidad para Tiempos discriminado por TRAB

El Valor P encontrado en ambas pruebas permite concluir que los tiempos de desplazamiento, tanto para los que no trabajan como para los
que trabajan, NO son normales. Retomando las hipotesis iniciales, el
estadstico de prueba sera:as hipotesis a probar son:
Y 0
X
aprox N (0, 1) .
ZC = q 2
SX
SY2
+ m
n
De los resultados muestrales se tiene que:
= 27.078 SX = 20.4698 n = 46 ;
X

= 25.267 SX = 21.9693 m = 24 .
X

Con esto se tiene que:


ZC = 0.335 y

V p = P (Z > 0.335) = 0.3688125 .

Este Valor P no permite rechazar H0 y por lo tanto la evidencia muestral no es suficiente para afirmar que el tiempo medio empleado por los
que No trabajan es superior al tiempo medio empleado por los que trabajan; por lo tanto el tiempo medio empleado por los que no trabajan
es inferior o igual al tiempo medio de los que trabajan. Un diagrama
de Box-Plot permite evidenciar graficamente esta afirmacion.

26

Fig. 19: BoxPlot para Tiempos discriminados por TRAB

Pruebas de Hip
otesis para una proporci
on
Sea X una variable aleatoria que representa el n
umero de exitos en n
ensayos. Sea sabe que X Bin(n, p). Sea p0 un valor particular para
p. Las hipotesss a probar son:

p < p0
p > p0 .
H0 : p = p0 vs Ha :

p 6= p0
Si n es grande, el estadstico de prueba se basa en el TLC. En este caso
el estadstico de prueba es:
p p0
ZC = q

aprox N (0, 1) .

p0 (1p0 )
n

Ejemplo 7
Se tiene la creencia de que el porcentaje de estudiantes que no trabajan
es superioral 60 %. Es esta afirmacion coherente con los datos recopilados? Sea X la variable aleatoria nque representa el n
umero de estudiantes que no trabajan en la muestra de 70. Se tiene que X Bin(70, p).

27
Las hipotesis a probar son:
H0 : p = 0.6 vs Ha : p > 0.6
Aca, p0 = 0.6. Como n = 70 es grande, el estadstico de pruebe es:
p 0.6
ZC = q

aprox N (0, 1) .

0.6 (10.6)
70

Usando R-Commander, se obtienen los siguiente resultados:

Fig. 20: Prueba de Hip


otesis para proporci
on de estudiantes que no trabajan.

De la figura anterior se tiene que

ZC = 0.95238 = 0.9759 y V p = P (Z > 0.9759) = 0.1646 .


Este Valor P indica que la Hipotesis nula No puede ser rechazada y
concluir que el procentaje de estudiantes que No trabajan es inferior o
igual al 60 %.

28
La justificacion por la cual en el R-Commander aparece un estadstico
diferente ((X-square)), es debido al hecho de que:

p p0
aprox 2 (1) .
ZC2 = q
p0 (1p0 )
n

El Valor P que aparece alli registrado se calcula como:


V p = P (2 (1) > 0.95238) = 0.1646 .
Las pruebas son equivalentes.

Pruebas de Bondad de Ajuste


Suponga que se tiene una experimento multinomial, es decir una serie
de ensayos (n ensayos) identicos e independientes y k posibles categoras o clases. Sea p i la probabilidad de clasificar en la categora i y
sea Ni el n
umero de ensayos que caen en la categora i de los n ensayos.
Se tiene que N1 + + Nk = n. Cada Ni sera una v.a. binomial con
parametros n y pi , i = 1, 2 , k. El n
umero esperado de ensayos en
la categora i es E [Ni ] = n pi ; i = 1, 2 , k
Se desea establecer si los datos observados provienen de cierta distribucion especial con c.d.f. F 0 (x). Las hipotesis a probar son:
H0 : F (x) = F0 (x) vs Ha : F0 (x) no es la c.d.f. asociada a la muestra.
Si F0 esta claramente especificada, es posible conocer valores particulares para los pi ; i = 1, 2, . . . , k y asi obtener E [Ni ]. En otro caso, los
pi deberan ser estimados y en vez de tener E [Ni ], se estima con n pi ,
i = 1, 2, . . . , k.
En resumen se tiene:

29
clase
Frec observada
Probabilidad
Frec esperada

1
n1
p1
n p1

2
n2
p2
n p2

...
...

k
nk
pk
n pk

total
n
1
n

Si n pi 5 ; i = 1, 2 . . . , k , la v.a.
X=

k
X
(Ni n pi ) 2

n pi

i=1

2 (k 1) .

Observe que
X=

k
X
(Ni n pi ) 2
i=1

n pi

(f.obs f.esp) 2
2 (k 1) .
f.esp
todas las celdas
X

Suponga que se desea establecer valores particulares para los p i , es decir, se quieren probar las hipotesis:
H0 : p i = pi 0 ; i = 1, 2 . . . , k

vs Ha : j tal que pj 6= pj 0 .

Estadstico de Prueba:
XC =

k
X
(ni n pi ) 2
i=1

n pi

2 (k 1) .

El Valor P de esta prueba se calcula como:


P (2 (k 1) > XC ) .
Si alguna de las categoras no cumple con el supuesto de que n pi 5
debe unirse a otra adyacente y formar una nueva categora. Esto claramente reduce los grados de libertad de la 2 .
Ejemplo 8
Con base en un estudio realizado el semestre pasado, se encontro que
los estudiantes estaban distribudos en los seis estratos en los siguientes
porcentajes:

30

Estrato
1
2
3
4
5
6
P roporci
on 0.08 0.15 0.37 0.30 0.06 0.04
Se desea establecer si la informacion recopilada en el siguiente semestre permite corroborar si estas proporciones se mantienen igual o han
cambiado. Se desea probrar las hipotesis:
H0 : p1 = 0.08, p2 = 0.15, p3 = 0.37, p4 = 0.30, p5 = 0.06, p6 = 0.04
vs
Ha : Alguna de las proporciones ha cambiado
Usando el R-Commander se obtiene una tabla de frecuencias:
counts:
ESTRATO
1 2 3 4
10 5 25 21

5
5

6
4

Bajo H0 se obtienen las frecuencias esperadas como n pi0 . Con base en


la muestra se registra la siguiente informacion:
1
2
3
4 5
6
Clase
F rec Obs 10
5
25 21 5
4
F rec Esp 5.6 10.5 25.9 21 4.2 2.8
Si no se tiene en cuenta la condicion sobre las frecuencias esperadas, el
estadstico de prueba es:
6
X
(Ni ei )2
XC =
2 (5) .
e
i
i=1

Usando R-Commander:

31

Fig. 21: Prueba de Bondad de Ajuste para Estrato.

Se obtiene los siguientes resultados:


XC = 7.036 ;

V p = P (2 (5) > 7.036) = 0.218 .

El Valor P indica que no se puede rechazar H0 , por lo que se asume


que las proporciones por estratos NO han cambiado.
Sinembargo, esta prueba tiene un error, y es que el supuesto de que
npi 5 no se cumple para las u
ltimas dos categoras. Para hacer bien
esta prueba se requiere agrupar las categoras Estratos 5 y 6 en una
sola, digamos 5+ . El codigo en R para hacerlo es el siguiente:
> ndata <- data
> ndata[,9] <- Recode(data[,9],1=1; 2=2; 3=3; 4=4; 5:6=5,as.factor.result=T)

Usamos el nuevo conjunto de datos llamado ndata. Las hipotesis nula


han cambiado a la siguiente:
H0 : p1 = 0.08, p2 = 0.15, p3 = 0.37, p4 = 0.30, p5 = 0.10
Usando el R-Commander se obtiene una nueva tabla de frecuencias:

32
counts:
ESTRATO
1 2 3 4
10 5 25 21

5
9

Bajo H0 se obtienen las frecuencias esperadas como n pi0 . Con base en


la muestra se registra la siguiente informacion:
Clase
1
2
3
4 5
F rec Obs 10
5
25 21 9
F rec Esp 5.6 10.5 25.9 21 7
Estadstico de prueba:
XC =

5
X
(Ni ei )2
2 (4) .
e
i
i=1

Usando R-Commander:

Fig. 22: Prueba de Bondad de Ajuste para Estrato Recodificado.

El Valor Pindica que no se debe rechazar H0 y por lo tanto la conclusion


es que las proporciones por estratos no han cambiado en comparacion
con las del semestre pasado.

S-ar putea să vă placă și