Documente Academic
Documente Profesional
Documente Cultură
Por:
Jimmy A. Corzo S.
Profesor Asociado Departamento de Estadstica
Universidad Nacional de Colombia
18 de septiembre de 2000
Indice general
1. Introducci
on
. . . . . . . . . . . . . . . . . . . . . .
10
10
11
1.2.3. Independencia . . . . . . . . . . . . . . . . . . . . .
12
12
Escalas de medida . . . . . . . . . . . . . . . . . . . . . . .
16
1.3.1. Nominal . . . . . . . . . . . . . . . . . . . . . . . . .
16
17
1.3.3. Intervalo
. . . . . . . . . . . . . . . . . . . . . . . .
17
1.3.4. Razon . . . . . . . . . . . . . . . . . . . . . . . . . .
18
1.3.
20
2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
20
21
23
INDICE GENERAL
24
26
28
. . . . . . . . . . . . .
29
30
32
34
35
36
36
37
39
42
43
44
44
46
2.7.1. Introduccion . . . . . . . . . . . . . . . . . . . . . .
46
49
51
53
INDICE GENERAL
56
3.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
57
57
59
60
62
63
64
65
66
67
69
70
71
71
4. Problemas de K muestras
72
4.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
72
74
75
INDICE GENERAL
76
78
78
80
80
82
83
5. Asociaci
on y correlaci
on
84
85
86
87
. . . . . . . . . . . . .
88
88
88
90
Captulo 1
Introducci
on
En terminos muy generales un procedimiento de inferencia estadstica tiene que ver con la extraccion de una muestra aleatoria X de alguna
poblacion con distribucion F (a esta distribucion se le llamara aqu distribuci
on muestreada), que depende de uno o varios parametros desconocidos
acerca de los cuales se quiere hacer alguno de los dos siguientes tipos de
inferencia:
Verificacion (o rechazo) de una hipotesis acerca del valor de un parametro desconocido. Problema de prueba de hip
otesis.
Estimacion puntual o por intervalo del valor de un (os) parametro(s)
desconocido(s). Problema de estimaci
on.
Los metodos utilizados para resolver cualquiera de los problemas planteados dependen principalmente de los supuestos que se hagan acerca de F , la
distribucion de X. En el problema de prueba de hipotesis en los metodos
parametricos son necesarios supuestos sobre la forma funcional de F para
poder obtener regiones crticas o de rechazo de la hipotesis que sean optimas en alg
un sentido (por ejemplo las pruebas uniformemente mas potentes
obtenidas para distribuciones que son miembros de la familia exponencial).
En el problema de estimacion cuando se conoce la forma funcional de F
se pueden obtener estimadores maximo verosmiles. En ambos casos, la obtencion de los resultados optimos requiere el conocimiento de la forma
de la distribucion muestreada.
6
7
A los procedimientos que requieren muy pocos o muy debiles supuestos
acerca de las distribuciones muestreadas, como por ejemplo continuidad o
simetra de F , suele llamarseles metodos no parametricos. Una distincion
adicional puede hacerse para aquellos metodos que, con o sin el supuesto
sobre la forma funcional de la distribucion muestreada, utilizan para estimacion de parametros o para las pruebas de hipotesis estadsticas cuyas
distribuciones no dependen de la distribucion muestreada. A estos metodos se les conoce como metodos de distribuci
on libre. Dado que para muchos de los metodos de distribucion libre se requieren muy pocos o muy
debiles supuestos acerca de la distribucion muestreada, estos se encuentran frecuentemente en la literatura como parte de los procedimientos no
parametricos. Debido a que no hay acuerdo total entre los especialistas respecto a esta clasificacion, en estas notas se hara referencia a los metodos
no parametricos en general sin hacer esta u
ltima distincion.
Los metodos no parametricos son de especial utilidad y tienen ventajas
sobre los metodos parametricos clasicos en las siguientes situaciones:
Cuando los datos disponibles se encuentran en escala ordinal o en
escala nominal (en este u
ltimo caso no existen metodos parametricos).
Cuando la distribucion muestreada no es exactamente la requerida
por un metodo parametrico optimo para el mismo problema.
Cuando los datos tienen problemas con observaciones extremas porque
el efecto de estas sobre los rangos es menor, es decir, los metodos no
parametricos son un poco mas robustos en este sentido que los metodos parametricos.
Para muestras peque
nas, cuando no se dispone de las tablas de la
distribucion de la estadstica de prueba, la construccion de las regiones
crticas es relativamente simple.
Para muestras grandes, ya que la mayora de las distribuciones asintoticas de las estadsticas utilizadas son normales.
Sin embargo, los metodos no parametricos presentan desventajas en las
siguientes situaciones:
Se satisfacen todos los supuestos requeridos para utilizar metodos
parametricos optimos.
CAPITULO 1. INTRODUCCION
1.1.
Un poco de historia
Uno de los trabajos mas antiguos conocidos en estadstica no parametrica data de del a
no de 1710 y fue realizado por Arbuthnot. En el se utiliza
la prueba del signo para examinar las proporciones de nacimientos de hombres y mujeres como prueba de la sabidura de la providencia divina.
Sin embargo, los primeros desarrollos de los metodos no parametricos se
produjeron a partir de los a
nos treinta con los trabajos de Hottelling &
Papst (1936), Friedman (1937), Kendall (1938), Smirnov (1939), Wald &
Wolfowitz (1940). Un desarrollo sistematico de la teora se inicio con los
trabajos de Wilcoxon (1945) y Mann & Whitney (1947) seguidos por los trabajos de Hodges y Lehmann (1956, 1960, 1962, 1963, 1967)1 en los que descubrieron el sorprendente resultado de que las pruebas de rangos pierden
1
Toda la bibliografa de este par
agrafo se encuentra citada en B
unning y Trenkler
(1999) y en Hettmansperger (1984)
CAPITULO 1. INTRODUCCION
10
1.2.
1.2.1.
Hettmansperger (1984) P
ag. vii
1.2. ALGUNOS PROBLEMAS TIPICOS EN ESTADISTICA NO PARAMETRICA
11
0
0
1/ 2 exp(x2 /2 2 ).
Estimacion de la distribucion muestreada F (x) (este tema no se trata
explcitamente en este curso).
1.2.2.
Dos muestras
CAPITULO 1. INTRODUCCION
12
1.2.3.
Independencia
Ahora la informacion disponible consta de una muestra aleatoria bivariada (X1 , Y1 ), . . . , (Xn , Yn ) de una distribucion F (x, y) y el interes esta en la
hipotesis sobre la independencia entre ellas. Por ejemplo, si se denota por
alg
un parametro de asociacion entre X y Y , entonces puede ser de interes
el contraste de la hipotesis H0 : = 0 frente a la alternativa K1 : 6= 0.
1.2.4.
1.2.4.1.
Modelos lineales
Regresi
on lineal
1.2. ALGUNOS PROBLEMAS TIPICOS EN ESTADISTICA NO PARAMETRICA
1.2.4.2.
13
K
P
nj
j=1
de alguna distribucion desconocida para luego clasificarla en grupos mutuamente excluyentes con respecto a alguna caracterstica de interes (por ejemplo genero: masculino, femenino; categoras socio-profesionales: obreros,
mandos medios, directivos; estado civil: solteros, casados, divorciados, viudos; nivel educativo: universitario, bachillerato, primaria, sin educacion); en
este caso las columnas de X contienen la informacion de los grupos generados por el criterio o variable de clasificacion. La validez estadstica de
las inferencias que se hacen en este caso dependen generalmente del dise
no
muestral utilizado.
Situaci
on 3: Extraccion de K muestras aleatorias independientes e independientes entre s de K poblaciones de tama
nos n1 , n2 , . . . , nK respectivamente. En este caso la validez estadstica de las inferencias tambien
dependen del dise
no muestral.
CAPITULO 1. INTRODUCCION
14
En cualquiera de las situaciones anteriores y con las restricciones mencionadas sobre la validez de las inferencias hechas, se supone que la informacion se ajusta al siguiente modelo lineal:
Xij = j + eij ,
donde los eij son variables aleatorias independientes con distribucion continua de media cero y varianza constante 2 para todo i, j.
Se quiere probar la hipotesis sobre la igualdad de las medianas de las
K muestras:
H0 : 1 = = K ,
contra alguna de las siguientes alternativas:
Alternativa de localizaci
on
H1 : i1 6= i2 , para al menos un par i1 6= i2 .
Alternativa de tendencia
H1 : 1 K , con al menos una desigualdad estricta.
En particular cuando K = 2, H1 : 1 < 2 es una alternativa de
tendencia en un problema de dos muestras.
1.2.4.3.
i = 1, . . . , n, j = 1, . . . , K ,
1.2. ALGUNOS PROBLEMAS TIPICOS EN ESTADISTICA NO PARAMETRICA
15
CAPITULO 1. INTRODUCCION
16
Modelo 3: Comparaci
on de dos atributos o subpoblaciones a partir de
una muestra para cada una
En el caso de dos atributos se extrae una muestra de tama
no m de
la primera subpoblacion o individuos con el atributo 1 y una muestra de
tama
no n de la segunda subpoblacion o individuos con el atributo 2 y se
comparan las dos muestras por medio de la caracterstica de interes. Los
resultados son validos para cada poblacion de atributos.
Ejemplo 1.2.1. Nivel de recordacion de marcas de gaseosas entre hombres
y mujeres.
Modelo 4: Comparaci
on de dos atributos o subpoblaciones a partir de
una muestra de la poblaci
on total
Una muestra de tama
no N es seleccionada de la poblacion de interes
y se clasifica por atributo. Se compara la caracterstica estudiada en las
submuestras generadas por los atributos. Los resultados son validos para
la poblacion total.
Ejemplo 1.2.2. En la banca la cartera en general se puede clasificar en: al
da, morosa e inrrecuperable.
Modelo 5: Modelo para la comparaci
on de dos conjuntos de medidas
Conjuntos independientes de m y n medidas son obtenidas de dos
fuentes o por dos metodos diferentes.
1.3.
Escalas de medida
1.3.1.
Nominal
Tambien llamada escala de clasificacion, por ejemplo: barrios de la ciudad, las localidades en Bogota, la division poltica de nuestro pas en departamentos.
Clasifica los objetos de acuerdo con reglas previamente definidas. La
caracterizacion de las clases se hace asignando smbolos o n
umeros que
no implican ordenamiento o valores sino que solo sirven para clasificar.
Esta escala es invariante ante transformaciones biunvocas o biyectivas; por
ejemplo la asignacion de nombres a los 32 departamentos en que se divide
1.3.
ESCALAS DE MEDIDA
17
1.3.2.
Ordinal o de rango
B2
C3
D4
Los cuantiles o las estadsticas de rangos son invariantes ante transformaciones monotonas crecientes.
1.3.3.
Intervalo
CAPITULO 1. INTRODUCCION
18
1.3.4.
Raz
on
1.3.
ESCALAS DE MEDIDA
19
en que esta si posee un cero fijo que se mantiene estable para transformaciones de la forma Y = Ax.
Para tal transformacion, el cociente entre dos medidas tambien se mantiene
estable:
y1
x1
= .
y2
x2
El coeficiente de variacion y los n
umeros ndices son ejemplos de indicadores estadsticos medidos en escala de razon.
Captulo 2
Introducci
on
2.2.
2.2.1.
21
Prueba de KolmogorovSmirnov
Hip
otesis de
igualdad con
alternativa
de dos colas
Hip
otesis
>
con
alternativa
de una cola
(I)
Hip
otesis
<
con
alternativa
de una cola
(II)
Hip
otesis nula
H0
Hip
otesis
alternativa
K1
Interpretaci
on de la
alternativa
F (x) = F0 (x),
x R, F0
conocida y fija
F (x) 6= F0 (x),
para al menos
un x R
F (x) F0 (x),
x R, F0
conocida y fija
F (x) F0 (x),
x R, F0
conocida y fija
La
distribuci
on
hipotetica esta por
encima de la distribuci
on muestreada en al
menos un punto
La
distribuci
on
hipotetica esta por
debajo de la distribuci
on muestreada en al
menos un punto
La estadstica de Kolmogorov-Smirnov utiliza la estimacion muestral natural de la funcion de distribucion, la cual cuenta la proporcion de
observaciones menores o iguales que x y se define como sigue:
k
Fn (x) =
x X(1) ,
X(k) x < X(k+1) para k = 1, 2, . . . , n,
x X(n) ,
donde X(1) < X(2) < < X(n) son las estadsticas de orden de la muestra.
Las estadsticas utilizadas para las pruebas varan dependiendo de las
alternativas as:
22
Hip
otesis
Hipotesis de igualdad
con alternativa de dos
colas
Hipotesis > con
alternativa de una cola
(I) <
Hipotesis 6 con
alternativa de una cola
(II)>
Estadstica de prueba
Dn = sup|F0 (x) Fn (x)|
Regi
on crtica
Dn k1
xR
+
Dn+ k1
Dn k1
xR
xR
x(1)
x(2)
x(3)
x(4)
x(5)
x(6)
x(7)
x(8)
x(9)
x(10)
Consumo
11.5
11.8
12.0
12.4
12.5
12.6
12.8
12.9
13.0
13.2
Normal
0.3085
0.4207
0.5000
0.6554
0.6915
0.7257
0.7881
0.8159
0.8413
0.8849
Fn (x(i) )
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Fn (x(i1) )
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
Dn+
0.2085
0.2207
0.2000
0.2554
0.1915
0.1257
0.0881
0.0159
0.0587
0.1151
Dn
0.3085
0.3207
0.3000
0.3554
0.2915
0.2257
0.1881
0.1159
0.0413
0.0151
23
x 12
Dn = Fn (x(i1) )
1
Distribuci
on asint
otica de Dn y D+
n
2.2.2.
Cuando F0 es una distribucion continua se puede aproximar la distribucion de las estadsticas de prueba de la siguiente manera:
lm P
Dn
n
= Q1 (),
donde
Q1 () = 1 2
(1)k1 e2k
2 2
> 0.
k=1
1
n
Dn+
= Q2 (),
donde Q2 () = 1 e2
> 0.
24
1
n
2.2.3.
Nuevamente la informacion disponible consiste en una muestra aleatoria X1 , . . . Xn , con funcion de distribucion arbitraria F no necesariamente
continua. Las observaciones deben distribuirse en k clases mutuamente excluyentes como sigue:
Clases
N
umero de observaciones
donde
k
P
1
n1
2
n2
...
...
k
nk
nj = n.
j=1
para todo
x R,
F0 conocida y fija,
frente a la alternativa
K1 : F (x) 6= F0 (x),
La estadstica de prueba que se utiliza se construye de la siguiente manera: Sea pi la probabilidad de que la variable aleatoria X tome un valor
en la clase i bajo H0 , es decir pi es la probabilidad de que la variable X
tome un valor en la clase i cuando su distribucion es F0 (x). Entonces el
n
umero esperado de observaciones en la clase i es npi . La decision sobre
la bondad del ajuste se toma sobre la base de la estadstica propuesta por
Pearson(1900):
k
X
(ni npi )2
2 =
.
npi
i=1
25
k1 ,
donde 21,
k1
Al valor 21,k1 , se le llama (1 a)-esima cuantil superior de la distribucion -cuadrado con k 1 grados de libertad. Demostraciones sobre
la convergencia de la distribucion de la estadstica 2 a la distribucion cuadrado se encuentran por ejemplo en B
unning & Trenkler (1994) basada
en la distribucion de Poisson, en Manoukian (1986) basada en el teorema
del limite central para vectores aleatorios, y en Gibbons & Chakraborti
(1992) basada en la estadstica de la razon de verosimilitud.
La distribucion exacta de la estadstica 2 bajo la hipotesis nula se
obtiene como sigue: sean N1 , N2 , . . . , Nk , variables aleatorias tales que Nj es
el n
umero de Xs de la muestra que caen en la j-esima categora. Entonces
como bajo H0 la distribucion F0 (x) es totalmente conocida y por esto es
posible calcular la probabilidad p1 de que n1 observaciones caigan en la categora 1, la probabilidad p2 de que n2 observaciones caigan en la categora
2, y as sucecivamente hasta la probabilidad pk de que nk observaciones
k
P
caigan en la categora k, donde
nj = n. Entonces el vector aleatorio
j=1
n!
pn1 pn2 pnk k ,
n1 !n2 ! nk ! 1 2
y por tanto,
P (2 x) =
X
((n1 , ,nk ):x)
n!
pn1 pn2 pnk k ,
n1 !n2 ! nk ! 1 2
donde (n1 , , nk ) : 2 x significa que la suma se hace sobre todas
aquellas k-tuplas (n1 , . . . , nk ) tales que 2 x. Como se puede ver los
calculos de la distribucion exacta pueden resultar bastante engorrosos en
la medida en que aumente el valor de n. Por esta razon la prueba se utiliza
preferiblemente para valores grandes de n de manera que la aproximacion
por la distribucion -cuadrado sea buena.
Observaciones respecto a las dos pruebas de bondad de ajuste
La distribucion exacta de Dn y Dn+ se puede construir para valores
peque
nos de N , (N 40), mientras que la prueba -cuadrado solo
26
2.3.
27
1 ocurre el evento A,
j (x) =
j = 1, . . . , n.
0 no ocurre el evento A,
A esta sucesion se le llama sucesion dicotomizada o muestra docotomica.
Cada grupo de smbolos iguales en la sucesion 1 , . . . , n se llama una racha.
Una estadstica utilizada para la prueba de hipotesis de aleariedad es el
n
umero total de rachas R en la sucecion 1 , . . . , n .
Si la sucesion observada presenta muchas rachas entonces habra evidencia de que el evento A tiende a ocurrir y no ocurrir sistematicamente,
mientras que si hay muy pocas rachas esto sera un indicador de que hay
agrupamientos en alguno de los extremos de la sucesion. En los dos casos se
estara apoyando la hipotesis de que existe alg
un patron de comportamiento
en la sucesion observada. Las hipotesis de interes y sus regiones de rechazo
son:
28
Hip
otesis nula H0 :
Aleatoriedad: La sucesi
on 1 , . . . n es aleatoria
Aleatoriedad: La sucesi
on 1 , . . . n es aleatoria
Aleatoriedad: La sucesi
on 1 , . . . n es aleatoria
Hip
otesis Alternativa
K1 : no aleatoriedad: en
la sucesi
on 1 , . . . n existe alg
un patr
on de comportamiento no especificado
K2 : Agrupamientos: en
la sucesi
on 1 , . . . n existe tendencia una tendencia a los agrupamientos
K3 : Mezclas: en la sucesi
on 1 , . . . n existe tendencia a que los elementos esten sistem
aticamente mezclados
Regi
on de rechazo
0
o R r/2
R r/2
R r
R r
2.3.1.
Distribuci
on exacta del n
umero total de rachas R
cuando r es par
m+n
m
P (R = r) =
n1
n1
m1
m1
(r1)/2
cuando r es impar
m+n
m
29
2.3.2.
Distribuci
on asint
otica de R
R
lm E
N
N
= 2(1 )
R
lm V ar = 42 (1 )2 ,
N
N
Z=
R 2N (1 )
2 N (1 )
converge a la distribucion normal estandar cuando N tiende a infinito. Entonces la region crtica para valores grandes de m + n rechaza la hipotesis
nula cuando |z| z1/2 .
Datos de naturaleza continua
Cuando los datos disponibles para el analisis de la aleatoriedad son de
naturaleza continua es decir de tipo cuantitativo, es necesario transformarlos o dicotomizarlos para obtener la sucesion de unos y ceros que permite
utilizar la estadstica de rachas. Una de las maneras de dicotomizar la muestra es la siguiente: Sean X1 , . . ., Xr observaciones ordenadas en el tiempo
provenientes de alguna distribucion continua F . Entonces la sucesion dicotomizada se construye as
j (x) =
1 si Xt < Xt1 ,
j = 2, . . . , T
otro caso,
30
2.4.
Modelo de localizaci
on con distribuci
on
arbitraria continua (alternativa de localizacion)
Si X es una variable aleatoria (v.a.) con funcion de distribucion arbitraria F (x) = P (X x). Se define la mediana de X (o de F ) como aquel
punto tal que
1
P (X ) = P (X ) .
2
La igualdad solo se cumple cuando F es una funcion de distribucion con
densidad continua y en este caso la mediana es u
nica.
En la siguiente grafica se muestra una funcion de distribucion discreta
para la cual todos los dentro del intervalo [a, b) satisfacen la anterior
condicion.
1
2
Figura 1.
F (x) =
x
6
x < 1,
x = 1, 2, 3, 4, 5, 6,
x > 6.
1
2
>
3
2
CON DISTRIBUCION
ARBITRARIA. . .
2.4. MODELO DE LOCALIZACION
31
pero
1
1
< ,
3
2
luego tambien se descartan valores mayores que 4 para .
P (X ) = 1 F ()
32
2.4.1.
N
X
s(Xi ),
i=1
donde:
s(Xi ) =
1 si Xi > 0,
0 si Xi 0.
Distribuci
on y momentos de S
Bajo la hipotesis nula H0 : = 0, la estadstica S tiene distribucion
binomial con parametros N y p, donde p = 1/2. Para mostrarlo notese
que los Xi son v.a.s independientes y por eso los s(Xi ) tambien lo son de
manera que S es una suma de variables aleatorias independientes. Ademas,
p = P s(Xi = 1) = P (Xi > 0) y como bajo la hipotesis nula P (Xi > 0) =
1/2 entonces p = 1/2.
Para un nivel de significancia (0, 1) la prueba del signo rechaza
0
0
H0 : = 0 en favor de K1 : > 0 cuando S k , k es tal que
N N
X
1
N
PH0 (S k ) =
j
2
0
0
j=k
k N
X
1
N
j=0
k/2
PH0 (S k/2 ) =
j=0
CON DISTRIBUCION
ARBITRARIA. . .
2.4. MODELO DE LOCALIZACION
33
Notese que el valor de k se puede determinar desde la distribucion Binomial sin importar cual es la distribucion F 0 muestreada. En este
sentido se dice que S es de distribuci
on libre bajo H0 .
Por otra parte, bajo la hipotesis alternativa K1 : = 0 > 0, la distribucion de S sigue siendo Binomial pero con parametros N y p, donde
p = P (X > 0) = 1 P (X 0 0 ) = 1 F ( 0 ),
la cual depende de F y por esto S no es de distribucion libre bajo la
alternativa K1 2 .
Ejemplo 2.4.2. (Tomado de Hettmansperger, 1984, Pag. 2). En los a
nos
50, Matthews y otros investigadores realizaron un experimento acerca de la
forma como navegan los pajaros. En los entrenamientos de palomas mensajeras, las aves se entrenan para llegar a casa desde varias distancias a lo
largo de una lnea especfica de entrenamiento. Para determinar si las aves
encuentran el camino a casa de manera sistematica desde puntos con los que
no estan familiarizadas, se realizaron experimentos en los cuales se toman
las aves en das soleados y se dejan en libertad desde puntos ubicados a 90
y 180 grados de la lnea de entrenamiento. Una medida de interes era el
angulo entre la lnea de vuelo del pajaro cuando desaparece en el horizonte
y la lnea de entrenamiento. Los angulos se midieron entre 0 y 180 grados
de manera que no se distingue entre angulos por encima o por debajo de
la lnea de entrenamiento. Sea la mediana poblacional del angulo de error, cuando los pajaros no regresan a la casa este angulo es = 90o . Una
hipotesis de interes consiste en suponer que los pajaros navegan usando el
sol y que esto implica que < 90o . Entonces se construye una prueba para
la hipotesis H : = 90o contra la alternativa K1 : < 90o . Si se rechaza la
hipotesis nula solo se puede concluir que los pajaros regresaran a la casa.
Los datos son los siguientes:
Angulos
de error de palomas mensajeras liberadas en das soleados
6
7
9 17 18 18 22 28 32 35 36 42
42
42
48
48
51
52
53
55
56
57
58
63
72
83
91
97
N
otese que si la distribuci
on de una v.a. X tiene mediana 0 > 0, entonces Y = X
tiene distribuc`
on F con mediana igual a cero y por lo tanto P (X > 0) = 1 P (X
0) = 1 P (X ) = 1 F ().
34
2.4.2.
Distribuci
on asint
otica de S y aproximaci
on de la
regi
on crtica
SN E(SN )
V arSN
P (SN k) = P
,
=
V arSN
V arSN
V arSN
donde es la f. d. a. de la distribucion normal estandar.
Este hecho tambien suele llamarse convergencia en distribuci
on y se
escribe de la siguiente manera:
SN E(SN ) D
Z N (0, 1)
V arSN
Como SN B(N, p) entonces
E(SN ) = N p = N 1 F () ,
V arSN = N p(1 p) = N 1 F () F ().
Bajo la hipotesis nula H0 : = 0 y por tanto E(S) = N/2 y V ar(S) =
N/4. El valor crtico k se puede aproximar para un dado a partir de:
!
k
N/2
,
=1 p
N/4
CON DISTRIBUCION
ARBITRARIA. . .
2.4. MODELO DE LOCALIZACION
35
y por lo tanto
k N/2
p
= Z
N/4
es decir
k
= N/2 + Z N /2,
k
= N/2 + 1/2 + Z N /2.
2.4.3.
36
2.4.4.
N
X
N
j=k
pj (1 p)N j
N
X
N
j=k
j
1 F ()
N j
F ()
N
k
N
p
k
N
p
N
p
(p)
p
.
=P p
=1 p
N p(1 p)
N p(1 p)
N p(1 p)
Un estudio comparativo de la potencia de la prueba del signo con respecto a la potencia de la prueba t-Student o respecto a alguna otra prueba
para el problema de localizacion en una muestra, suponiendo que la distribucion muestreada es diferente de la Normal, mostrara las ventajas o
desventajas de esta prueba frente a sus competidoras en condiciones no
normales (Vease por ejemplo Randless & Wolfe, 1979 cap. 4).
2.5.
CONTINUA SIMETRICA
Modelo de muestreo
muestra aleatoria: X1 , . . . , XN v.a.s independientes identicamente distribuidas con funcion de distribucion F (x ), donde F S . Entonces
es la u
nica mediana (y la media cuando existe) y se encuentra en el centro
de la distribucion. Nuevamente el problema de inferencia es la prueba de
la hipotesis:
H0 : = 0, versus K1 : > 0, o versus K2 : < 0, o versus K3 : 6= 0;
con F S .
Para desarrollar una prueba que utilice la informacion sobre la simetra
de la distribucion muestreada es necesario introducir el concepto de rango
de una observacion.
2.5.1.
38
1 Xi > 0,
0 Xi 0.
Es decir, el rango signado de una observacion positiva es su rango absoluto, pero el rango signado de una observacion no positiva es cero.
CONTINUA SIMETRICA
2.5.2.
T =
N
X
Ri+ s(Xi )
i=1
N
X
iWi ,
Wi = s(XDi ),
i=1
E(T ) =
N
X
i=1
(Ejercicio).
40
+
+
+
+
10
+
+
+
9
+
+
8
+
+
+
7
+
+
7
+
+
+
+
6
+
+
+
5
+
4
+
+
0
1
16
1
2
16
2
3
16
3
5
16
4
7
16
5
9
16
6
11
16
7
13
16
8
14
16
9
15
16
10
1
CONTINUA SIMETRICA
Enriquecido (Y )
689
663
653
740
699
690
685
718
742
651
Empobrecido (X)
657
646
642
650
698
621
647
689
652
661
11
12
687
679
612
678
Diferencia
32
17
11
90
1
69
38
29
90
10
|{z}
75
1
42
Diferencias ordenadas
1
1
10
|{z}
Rangos
1.5
1.5
3
11
17
29
32
38
69
75
90
90
4
5
6
7
8
9
10
11.5
11.5
2.5.3.
Distribuci
on asint
otica de T y aproximaci
on de la
regi
on crtica
Consecuencia de este teorema es que la region crtica k se puede aproximar de la siguiente manera:
P (T k)
=P
T N (N + 1)/4
N (N + 1)(2N + 1)/24
=1 p
4
k N (N + 1)/4
N (N + 1)(2N + 1)/24
demostraci
on en Hettmansperger (1984)
k N (N + 1)/4
N (N + 1)(2N + 1)/24
!
= ,
43
kN (N +1)/4
N (N +1)(2N +1)/24
k
= N (N + 1)/4 + Z1
se obtiene:
N (N + 1)(2N + 1)/24,
2.6.
Manejo de empates
4
3.2
5
3.2
6
3.2
7
3.2
9
4.1
10
4.1
44
2.6.1.
2.6.2.
45
1
0,5
1
2
1,2
2,5
3
1,2
2,5
4
2,1
4
5
2,2
5
T =7.5
T
9
7.5
7.5
6
6.5
6.5
5
5
3.5
3.5
3.5
2/10
2/10
5
2/10
4/10
6
1/10
5/10
6.5
2/10
7/10
7.5
2/10
9/10
9
1/10
1
46
donde b0 es el n
umero de observaciones iguales a cero (o el n
umero de
diferencias iguales a cero en el caso de muestras pareadas)
V arT =
1
1 X
bi (bi 1)(bi + 1)
[N (N + 1)(2n + 1) b0 (b0 + 1)(2b0 + 1)]
24
48
i
entonces
T E(T )
,
V arT
se distribuye normal estandar, con T condicionada a los empates ocurridos
en la muestra.
2.7.
2.7.1.
Estimaci
on (m
etodo de Hodges Lehmann)
Introducci
on5
(METODO
2.7. ESTIMACION
DE HODGES LEHMANN)
47
funcion lineal de :
x
n
n
t() = n
=
+
x
,
s
s
s
donde s2 es la estimacion insesgada usual de la varianza 2 . En el siguiente
grafico se muestra t(), su distribucion bajo la hipotesis nula, es decir, la
distribucion de t(0) bajo el supuesto de normalidad de los Xi0 s y los puntos
crticos de la prueba de nivel para la hipotesis H0 .
t()
t(0)
t 2
n
n
t() =
X
S
S
=x
t 2
P t t 2 =
2
El estimador de es X
Figura 2.
Puesto que t(0) > t/2 , se rechaza la hipotesis nula al nivel de significancia . El intervalo del (1 )100 % de confianza se obtiene al invertir
la region de aceptacion de la hipotesis y aparece marcado en el eje por
48
s x
n
n
L +
x
s
s
y por lo tanto L = x
+ t/2 sn .
s
L = x
t1/2 .
n
similarmente como
n
n
t(U ) = t/2 =
U +
x
s
s
se concluye que
s
U = x
+ t1/2
n
(METODO
2.7. ESTIMACION
DE HODGES LEHMANN)
2.7.2.
49
N
N1
NK1
N/2
K+1
0
2
1
X(1) X(2)
X(K+1)
X(N/2)
X(N/2+1) X(NK)
X(N1)
X(N)
Figura 3.6
Estimaci
on puntual de la mediana:
Al aplicar el principio de estimacion para propuesto arriba, se necesita
un valor de que produzca un valor de S() que este en el centro de su
distribucion nula. En este caso la distribucion nula de S() es binomial.
Cuando N es par la distribucion binomial es simetrica alrededor de N/2 y
50
por lo tanto, cualquier valor entre X(N/2) y X(N/2+1) sirve como estimador
de . Por convencion se utilizara:
X(N/2) + X(N/2+1)
=
2
es decir, la mediana de la muestra. Cuando N es impar, la estimacion de
se obtiene como el valor que se encuentra exactamente el centro de la
distribucion binomial, que coincide con = X((N +1)/2) .
Intervalo de confianza para la mediana basado en la prueba del
signo
Las siguientes desigualdades se deducen de lo anterior y por observacion
directa de la grafica anterior:
x(1) ,
S() N 1
x(2) ,
S() N 2
x(k+1) , S() N k 1.
< x(1) S() = N
< x(2) S() N 1
< x(3) S() N 2
< x(N k) S() N (N k 1) = k + 1.
De las anteriores desigualdades se obtienen las siguientes equivalencias
de eventos:
X(k+1) < X(N k) K + 1 S() N k 1,
y por lo anterior las siguientes igualdades:
P (X(k+1) < X(N k) ) = P (K + 1 S() N k 1)
= P (S() N k 1) P (S() < k + 1)
= 1 P (S() N k) P (S() k)
= 1 P (S() k) P (S() N k) .
|
{z
} |
{z
}
/2
/2
(METODO
2.7. ESTIMACION
DE HODGES LEHMANN)
51
2.7.3.
Definici
on 2.7.1. (Estimador de Hodges y Lehmann): Sea X1 , . . . , XN una
muestra aleatoria de la distribucion F (x), F S y sea V una estadstica
para la prueba de la hipotesis H0 : = 0. Se define V () reemplazando Xi
por Xi , = 1, . . . , N . Se supone que V es no creciente en y que la
distribucion de V bajo H0 es simetrica alrededor de 0 y no depende de F .
Sean:
= sup{ : V () > 0 },
= inf{ : V () < 0 },
Entonces se define la estimacion de H-L para por:
+
=
2
en la siguiente figura se muestra el grafico de V () no creciente. Se
observa que para todo valor de la funcion V () toma valores mayores
o iguales que 0 , mientras que para valores de mayores que la funcion
V () esta siempre estrictamente por debajo de 0 , por ser una funcion
continua por la derecha.
52
V()
0
0
0
Figura 4.
(METODO
2.7. ESTIMACION
DE HODGES LEHMANN)
53
V()
0
C1
0
0
V () > C2
V() < C1
C2
{ : V () < C1 }
{ : V () > C2 }
Figura 5.
2.7.4.
En primer lugar es posible demostrar que T tiene distribucion simetrica alrededor de 0 (Veanse Randles & Wolfe). Para la construccion del
estimador de HodgesLehmann para basado en la estadstica del rango
signado de Wilcoxon, es necesario expresar a T como una funcion no creciente de . Esto se puede hacer por medio de los promedios de Walsh que
se definen a continuacion.
Definici
on: Para una muestra aleatoria X1 , . . . , XN se definen los N (N +
1)/2 promedios de Walsh por:
Xi + Xj
2
i j.
54
Xi
Xit
0
Figura 6.
Xit +Xj
2
o
0, con Xj Xit , para todo t = 1, . . . , p.
L=
N (N + 1)
.
2
(METODO
2.7. ESTIMACION
DE HODGES LEHMANN)
55
Captulo 3
Introducci
on
En este captulo se presentan varias pruebas de hipotesis para determinar si las distribuciones muestreadas en un problema de dos muestras se
distinguen en alg
un sentido (por ejemplo por su parametro de localizacion),
y un metodo de estimacion del parametro de localizacion que diferencia las
distribuciones muestreadas.
Modelo de muestreo
El problema general de dos muestras se puede formular de la siguiente
manera: se consideran dos muestras aleatorias independientes entre s X1 , . . . , Xm
(llamada muestra 1) y Y1 , . . . , Yn (llamada muestra 2), provenientes de distribuciones absolutamente continuas F y G respectivamente, donde F (x) =
P (Xi x) y, G(y) = P (Yi y) i = 1, . . . , m, j = 1, . . . , n. Las hipotesis
de interes son:
56
Descripci
on Hip
otesis
nula H0 :
(I) Alternati- F (x) = G(x)
para
todo
va general
xR
Hip
otesis alternativa K1 :
F (x) 6= G(x)
al menos un
xR
(II) Alternativa de un
cola (izquierda)
(III)
Alternativa
de un cola
(derecha)
57
Interpretaci
on
de la alternativa
Las dos distribuciones se distinguen
en al menos un punto
Las probabilidades
de los valores de X
son mayores que las
de Y en al menos un
punto
Las probabilidades
de los valores de Y
son mayores que las
de X en al menos
un punto
Si se puede suponer que F y G son distribuciones normales que solo se diferencian en su media (en su varianza), entonces la prueba t (la
prueba F) es la mejor para la igualdad de las medias (de las varianzas).
Sin embargo, si por alguna circunstancia no es posible garantizar que las
dos distribuciones son normales, los mencionados procedimientos pueden
resultar sensibles a la violacion del supuesto de normalidad en el sentido de
que las pruebas pierden calidad, en cuanto a su potencia. En tal caso los
metodos no parametricos son una alternativa mas adecuada.
3.2.
3.2.1.
58
nveces
mveces
tambien R = 2, pero en este caso es un indicador de F (z) G(z), es decir, indica lo contrario que en el caso anterior. Entonces, por un lado el
valor peque
no de R es un indicador de que la prueba si distingue cuando las dos distribuciones son diferentes, pero no es capaz de distinguir en
que direccion.
3.2.2.
59
La informacion disponible consta otra vez de dos muestras aleatorias independientes X1 , . . . , Xm y Y1 , . . . , Yn , provenientes de distribuciones continuas F y G respectivamente. Como en el caso de una muestra es necesario
definir las distribuciones empricas de las dos muestras:
Fm (z) =
k
m
z < X(1)
X(k) z < X(k+1)
z X(m)
y,
Gn (z) =
k
n
z < Y(1)
Y(k) z < Y(k+1)
z Y(m)
Hip
otesis
H0 :
F (x) = G(x)
K1 :
F (x) 6= G(x),
x R
F (x) G(x),
x R
F (x) G(x),
(I)
x R
Estadstica de pureba
Regi
on de
rechazo
Km,n =
m
axz |Fm (z) Gn (z)|
para al menos un x R
+
Km,n
=
m
ax (Fm (z) Gn (z))
para al menos un x R
+
Km,n
=
m
ax (Gn (z) Fm (z))
para al menos un x R
Km,n > k1
+
+
> k1
Km,n
> k1
Km,n
La obtenci
on de la distribuci
on exacta de las tres estadsticas de prueba es
bastante engorrosa y no se presentar
a aqu. Tablas de valores crticos se encuentran
en Gibbons (1992, Tabla I).
3.2.2.1.
Distribuci
on asint
otica de Km,n y K+
m,n
La distribuci
on asint
otica de las estadsticas de prueba coincide (con excepci
on
de una constante), con la de las estadsticas de prueba para las pruebas de la
bondad del ajuste estudiadas en la secci
on anterior.
Teorema 3.2.1. Bajo la hip
otesis nula es una distribuci
on continua. Las distribu+
0
ciones lmite de Km,n y Km,n
para todo > 0 y N = mn/(m + n) son:
60
lm P Km,n / N 0 = Q1 (),
m,n
donde Q1 () = 1 2
(1)k12k
k=1
+
lm P Km,n
/ N 0 = Q2 () ,
m,n
donde Q2 () = 1 + 2
+
En este caso se rechaza H0 para valores de Km,n
/ n a favor de la alternativa de localizaci
alogamente se rechaza a favor de la alternativa general
on y an
para Km,n / n.
3.3.
versus
K1 : > .
3.3. UNA PRUEBA PARA LA ALTERNATIVA DE LOCALIZACION
61
62
3.3.1.
(3.1)
Proposici
on 1.
P (Qi = s) =
1
s = 1, . . . i = 1, . . . , N
N
Demostraci
on Al fijar un valor de Qi solo permutan los restante N 1. Entonces
P (Qi = s) = (N 1)!/N ! = 1/N
Ejemplo. para N = 3
Q1
1
Q2
2
Q3
3
1
2
3
1
2
3
2
3
3
3
1
2
1
2
1
N (N 1)
Propocici
on 2. P (Qi = s, Qj = t) =
s 6= t
1 i 6= j N
s=t
Demostraci
on Como arriba, al fijar dos valores Qi y Qj solo permutan los
3.3. UNA PRUEBA PARA LA ALTERNATIVA DE LOCALIZACION
63
restantes N 2. Entonces
P (Qi = s, Qj = t) =
1
(N 2)!
=
.
N!
N (N 1)
Propocici
on 3.
N +1
i = 1, . . . , N.
2
E(Qi ) =
Demostraci
on.
E(Qi ) =
s = 1N sP (Qi = s) =
1 X
(N + 1)
.
s = 1N s =
N
2
Propocici
on 4.
V arQi =
N2 1
i = 1, . . . , N.
12
Demostraci
on
N
1 X 2 (N + 1)2
V arQi = E Q2i E 2 (Qi ) =
s
N s=1
4
N2 1
(N + 1)(2N + 1) (N + 1)2
=
.
6
4
12
Propocici
on 5.
Cov(Qi , Qj ) =
(N + 1)
1 i 6= j N.
12
Demostraci
on Ejercicio. Sugerencia utilice el hecho de que
Cov(Qi , Qj ) = E(Qi , Qj ) E(Qi )E(Qj ).
y que
N
X
s=1
3.3.2.
N
X
t=1
N
X
t=1
t2 +
N
N X
X
st.
s=1 t=1
2.
64
3.
3.3.3.
Distribuci
on exacta de U
N
arreglos distinguibles de m X 0 s y n Y 0 s que
n
corresponden a todas las maneras posibles como pueden mezclarse las dos muestras
en orden ascendente en la muestra combinada.
Se construyen todos los
1
y
y
y
x
y
x
x
x
x
x
Arreglos
5
x
x
x
x
y
x
y
x
y
y
U
3
4
5
5
6
6
7
7
8
9
W
0
1
2
2
3
3
4
4
5
6
La columna de W = U n(n+1)
se utiliza m
as adelante. La distribuci
on exacta
2
de U se muestra en la siguiente tabla:
U
P (U = u)
1
10
1
10
1
10
2
10
1
5
4
10
1
5
6
10
1
5
8
10
1
10
9
10
1
10
P (U u)
n
X
i=1
Ri .
3.3. UNA PRUEBA PARA LA ALTERNATIVA DE LOCALIZACION
65
n(N + 1)
mn(N + 1)
y V ar(U ) =
.
2
12
Otra expresi
on para U es la propuesta por Mann & Whitney (1947), que adem
as
ser
au
til en la construcci
on de un intervalo de confianza para :
U =W +
n(n + 1)
,
2
(3.2)
donde
W =
m X
m
X
i=1 j=1
1 x>0
0 x0
En la expresi
on anterior se nota que W cuenta el n
umero de observaciones de
las Y que son mayores que las X. Tambien se deduce de all que (Ejercicio):
E(W ) = mn/2 y V ar(W ) = mn/(N + 1)/12
(3.3)
Dada la relaci
on entre U y W , la regi
on crtica de cualquiera de las estadsticas se
puede obtener a partir de la de la otra.
Nota: Para prop
ositos de la prueba de hip
otesis es m
as sencillo utilizar U , pero
para construcci
on del intevalo de confianza de y su estimador puntual es mejor
usar la expresi
on #(Y i Xj > 0).
3.3.4.
Distribuci
on asint
otica de U y W y aproximaci
on de
la regi
on crtica
66
3.4.
n
P
n
X
Ri =
i=1
m
n X
X
(Yi Xj ) +
n
n X
X
i=1 j=1
(Yi Yj ),
i=1 j=1
m
n X
X
(Yi Xj ) +
i=1 j=1
n
n X
X
(Y(i) Yj ).
(3.4)
i=1 j=1
En la anterior expresi
on el primer par de sumas est
a indicando el n
umero total de
diferencias positivas en la muestra. Para el segundo par de sumas observar que
n
X
j=1
(Y(i) Yj ) =
j=1 j=1
n
X
i=
j=1
n(n + 1)
.
2
n
n X
X
j=1 j=1
(Yi Xj ) +
n(n + 1)
n(n + 1)
=W +
.
2
2
(3.5)
67
3.5.
Manejo de empates
Aqu, como en el caso de una muestra, los empates se tratan con cualquiera de
los metodos descritos para tratarlos en la secci
on 2.6, en especial para el metodo
de asignaci
on de rangos promedio se construye la distribuci
on de la estadstica de
Wilcoxon condicionada al n
umero y tama
no de los empates.
Por ejemplo, para m = 3 y n = 2 considerese la muestra:
X1 = 2,1, X2 = 1,2, X3 = 0,5, Y1 = 1,2, Y2 = 2,2,
en la cual hay 2 observaciones empatadas. La muestra combinada ordenada es
0,5, 1,2, 1,2, 2,1, 2,2
Entonces se procede a calcular las probabilidades asociadas a todos los valores
posibles de los rangos promedio. Para esto se muestran en la siguiente tabla los
rangos sin empates (que son los rangos que hubieran correspondido a las observaciones si no hubiera habido empates), los datos ordenados, los rangos promedio de
las observaciones y el valor de la estadstica de Wilcoxon en presencia de empates:
68
1
0,5
1
2
1,2
2,5
3
1,2
2,5
4
2,1
4
5
2,2
5
T =7.5
Despues se construyen todas las maneras posibles como pueden ocurrir las m = 3
y las n = 2 observaciones de la muestra combinada, ordenados de manera ascendente. Para cada arreglo se calcula el valor de la estadstica de U de Wilcoxon
y las probabilidades asociadas a ellos (parte A de la siguiente tabla). Despues se
calcula la funci
on de probabilidad de la estadstica y su funci
on de distribuci
on
(parte B de la tabla):
A
Resultados posibles
P (T = t)
1
10
1
10
1
10
1
10
1
10
1
10
1
10
1
10
1
10
1
10
3,5
3,5
6,5
6,5
7,5
7,5
B
t
P (T = t)
P (T t)
0,2
0,4
6,5
0,2
0,7
7,5
0,2
0,9
0,1
1
n(N + 1)
2
V arU =
mn(N + 1)
=
12
mn
r
P
b3i bi
i=1
12N (N 1)
Esta aproximaci
on solo se usa en caso de que m
ax
3.6.
69
El problema surge en el mismo contexto de dos muestras provenientes de distribuciones continuas que tienen la misma mediana pero que se distinguen por un
par
ametro de escala. Concretamente, sean X1 , . . . , Xm y Y1 , . . . , Yn dos muestras
aleatorias, pero ahora la primera muestra X1 , . . . , Xm viene de una distribuci
on
F (t/1 ) y la segunda muestra Y1 , . . . , Yn viene de una distribuci
on F (t/2 ), F 0 .
Tambien en este caso, como para la alternativa de localizaci
on, se construye la
muestra combinada X1 , . . . , XN , N = m + n, donde Xi = Xi i = 1, . . . , n y
Xm+j = Yj , j = 1, . . . , n y se ordenan las observaciones en la muestra combinada
ordenada X(1) , . . . , X(N ) . Cuando el supuesto sobre la igualdad de las medianas
no se cumple, es necesario suponer que al menos la diferencia = 1 2 entre
las medianas de las dos poblaciones se conoce. En este caso la transformaci
on
X 1 , . . . , Xm 1 garantiza que las dos muestras tienen la misma mediana 2 ,
la cual puede restarse a las dos sucesiones de datos para que ambas queden con
mediana igual a cero. Por u
ltimo si las medianas 1 y 2 de las dos poblaciones son
conocidas, entonces las transformaciones X 1 , . . . , Xm 1 y Y 2 , . . . , Yn 2
tienen la misma mediana igual a cero.
Definiendo el cociente entre los par
ametros de escala de las dos muestras por
= 1 /2 ,
el interes se centra en la prueba de la hip
otesis que compara los dos par
ametros
de escala as:
Hip
otesis Hip
otesis alnula H0
ternativa
Interpretaci
on de la alternativa
=1
K1 : 0 < 6= 1
=1
K2 : > 1
La primera muestra es m
as dispersa que la de
las Y 0 s.
=1
K3 : 0 < < 1
La segunda muestra es m
as dispersa que la de
las X 0 s.
70
Hip
otesis
nula H0
Hip
otesis
alternativa
Interpretaci
on de la alternativa
G(x) = F (x)
x R
K1 : G(x) = F (x),
para alg
un x R,
0 < 6= 1
G(x) = F (x)
x R
K2 : G(x) = F (x),
para alg
un x R,
>1
La muestra de las X 0 s es m
as dipersa
que la de las Y 0 s.
G(x) = F (x)
x R
K3 : G(x) = F (x),
para alg
un x R,
0<<1
La muestra de las Y 0 s es m
as dipersa
que la de las X 0 s.
3.6.1.
Prueba de Mood
La idea para la prueba se basa en los cuadrados de las distancias entre los
rangos i de las observaciones de una de las muestras y el rango medio de estas
(N + 1)/2:
2
N +1
i
.
2
Estos desvos son indicadores de que entre m
as lejos se encuentre el rango de una
observaci
on de su rango medio m
as dispersa se le puede considerar. La estadstica
de prueba es:
(
2
N
X
1 si X(i) proviene de la muestra 1,
N +1
MN =
i
zi , zi =
2
0 si X(i) proviene de la muestra 2.
i=1
Las regiones de rechazo para las hip
otesis de interes son las siguientes:
Hip
otesis
nula H0
Hip
otesis
alternativa
Regi
on de rechazo
=1
K1 : 0 < 6= 1
MN k/2 o MN k1/2
=1
K2 : > 1
MN k1
=1
K3 : 0 < < 1
MN k
3.6.2.
71
Distribuci
on exacta y momentos de MN
Se obtiene a partir de todos los arreglos distinguibles de las dos muestras como
en el caso de la estadstica de Wilcoxon para la alternativa de localizaci
on en dos
muestras. El valor esperado y la varianza de la estadstica son (Vease demostraci
on
en Gibbons. (1984, P
ags. 265-266)):
E(MN ) =
m(N 2 1)
mn(N + 1)(N 2 4)
y V ar(MN ) =
.
12
180
La distribuci
on de MN es simetrica u
nicamente en el caso en que m = n.
3.6.3.
Distribuci
on asint
otica de MN
Hip
otesis
Alternativa
=1
K1 : 6= 1,
>0
=1
K2 : > 1
=1
K3 : < 1,
>0
MN Z 2
180
12
o
r
2
mn(N + 1)(N 4) m(N 2 1)
+
MN Z 2
180
12
r
mn(N + 1)(N 2 4) m(N 2 1)
+
MN Z
180
12
r
mn(N + 1)(N 2 4) m(N 2 1)
MN Z
180
12
Captulo 4
Problemas de K muestras:
Arreglos de una y dos vas
4.1.
Introducci
on
En este captulo se introducen metodos basados en rangos que permiten comparar localizaci
on en m
as de dos poblaciones. Se presentan dos modelos; en el
primero de ellos se dispone de K muestras independientes. Este modelo suele llamarse un arreglo de una va. El interes est
a en probar la hip
otesis de que todas las
muestras vienen de la misma poblaci
on. La prueba m
as usada en este caso es la de
Kruskal Wallis. En el segundo modelo tambien se quieren comparar K muestras
independientes pero los datos pueden estar influidos por una segunda variable y
por lo tanto se pueden clasificar de dos maneras; la poblaci
on de donde vienen y
el bloque o categora de la segunda variable a la que pertenecen. A este modelo se
le llama arreglo de dos vas y la prueba m
as conocida y usada para la comparac
on
de los par
ametros de localizaci
on de las K muestras es la prueba de Friedman.
4.2.
Como se anunci
o arriba, en un arreglo de una va se dispone de K muestras
independientes para las cuales se quiere probar una hip
otesis sobre igualdad de
las distribuciones de donde estas provienen, frente a la alternativa de que estas
difieren en alg
un sentido. En el caso que se trata aqu, el interes est
a en diferencias
entre sus par
ametros de localizaci
on.
72
73
Modelo de muestreo
Se dispone de K muestras
X1,1 , . . . , XN1 ,1 , X1,2 , . . . , XN2 ,2 , . . . , X1,K , . . . , XNK ,K .
extradas de las distribuciones F (x1 ), F (x2 ), . . . , F (xK ) respectivamente,
donde F 0 y 1 , . . . , K son las medianas de las K poblaciones. El problema
de inferencia es la prueba de la hip
otesis:
H0 : 1 = = K versus K1 : i 6= j para alg
un i 6= j con i, j = 1, . . . , K.
La hip
otesis nula especifica u
nicamente que las medianas son todas iguales pero
no dice cu
al es la mediana com
un. Otra forma de expresar la hip
otesis nula es
definiendo j = j+1 j j = 1, . . . , K 1. Entonces la hip
otesis nula se puede
expresar:
H0 : 1 = = K1 = 0.
Ejemplo 4.2.1. (Tomado de Hettmansperger (1984)). En un estudio sobre la influencia de la base sangunea en la conducta, Terkel & Rosenblatt (1968) inducen
conducta materna en ratas vrgenes inyect
andolas con plasma sanguneo de ratas
que acaban de tener un parto. Luego se exponen las ratas vrgenes a la presencia de
cras de rata y se mide el tiempo hasta que comienzan a acariciar a los cachorros.
Acariciar es una conducta maternal que generalmente aparece dentro de las 48
horas siguientes del parto. Por otra parte, se sabe que esta misma conducta se da
tambien en las ratas vrgenes cuando se dejan con cachorros cerca de cinco das.
Por lo tanto, se espera que el plasma maternal reduzca este tiempo en las ratas
inyectadas con el. Para el experimento se usaron 32 ratas vrgenes de 60 das de
edad que fueron asignadas aleatoriamente a los siguientes 4 grupos de 8 ratas.
Grupo 1. Ratas inyectadas con plasma sanguneo de ratas que acaban de tener
parto.
Grupo 2. Ratas antes del celo que recibieron sangre de ratas antes del celo.
Grupo 3. Ratas en celo que recibieron plasma sanguneo de ratas en celo.
Grupo 4. Ratas inyectadas con una soluci
on salina (placebo).
Entonces se considera que los datos fueron obtenidos de cuatro poblaciones con
funciones de distribuci
on F (x i ), i = 1, . . . , 4, F 0 y la hip
otesis que se
un par i 6= j
quiere probar es: H0 : 1 = 2 = 3 = 4 versus K1 : i 6= j para alg
con i, j = 1, . . . , 4. En caso de que sea rechazada, se quiere saber tambien cu
ales
grupos son significativamente diferentes. En general los datos se pueden visualizar
en una tabla o arreglo de K columnas en el que la j-esima columna representa la
j-esima muestra y tiene Nj filas que corresponden a las Nj observaciones de una
poblaci
on con distribuci
on F (x j ), F 0 . La estrategia de Kruskal Wallis
para construir la prueba es calcular los rangos de la muestra combinada de tama
no
N = N1 + N2 + + NK y comparar las sumas (o promedios) de los rangos por
columnas. El procedimiento se discute a continuaci
on.
74
4.2.1.
Nj
X
Rij
Rj =
i=1
Los Rj satisfacen
K
P
Rj
Nj
N=
K
X
Ni .
i=1
Rj =N (N + 1)/2. La distribuci
on bajo H0 de los Rij as co-
j=1
E ( Rj ) =
Nj (N + 1)
2
E ( Rj ) =
N +1
.
2
N (N +1)
H=
2
X Rj
12
3(N + 1).
N (N + 1) j=1 Nj
La distribuci
on exacta de esta estadstica se puede calcular construyendo, como
en el caso de dos muestras, todos los N !/(N1 !N2 ! . . . NK !) arreglos de las observaciones combinadas, las cuales son igualmente probables bajo la hip
otesis nula.
Sin embargo este proceso puede resultar tedioso y largo si se tiene en cuenta que
hay que construir una tabla de valores crticos para cada K. Es decir desde el
punto de vista pr
actico esta alternativa no resulta muy u
til. Por esta raz
on es
conveniente desarrollar la metodologa de construcci
on de la regi
on crtica va
distribuci
on asint
otica de la estadstica de prueba. Valores crticos de la estadstica para la prueba de Kruskal - Wallis se encuentran en la Tabla K de Gibbons
(1992, P
ag. 503), Para otros valores de K y de Nj la estadstica H se distribuye
asint
oticamente como una 2K1 bajo la condici
on de que:
Nj
j ,
N
0 < j < 1.
(4.1)
75
4.2.2.
Manejo de empates
Aunque te
oricamente la probabilidad de que se presenten observaciones empatadas en la muestra es igual a cero porque las distribuciones muestreadas se
suponen absolutamente continuas, es inevitable que en la pr
actica se presenten
observaciones empatadas. En este caso se puede utilizar la siguiente estadstica
modificada:
H =
1
H
r b3 b ,
P
j
j
j=1
(4.2)
N 3 N
donde r es el n
umero de grupos empatados y bj es el n
umero de empates en el jesimo grupo. En el c
alculo de r se tiene en cuenta que una observaci
on no empatada
es un grupo de tama
no 1. La hip
otesis nula la cual es H0 : 1 = = K se rechaza
cuando
H > 21 ;K1
Ejemplo 4.2.2. (Tomado de Hettmansperger (1984 P
ag. 187)). La caracterstica
observada en el experimento de las ratas es el tiempo que transcurre hasta que
aparece la conducta esperada y la unidad de tiempo es la longitud de una sesi
on
de observaci
on. Por ejemplo, 0.5 significa que la conducta maternal se inicio a la
mitad de la primera sesi
on de observaci
on. Los datos recolectados se presentan en
la siguiente tabla:
76
Plasma
materno
Plasma antes
del celo
Plasma
despu
es del
celo
Soluci
on
salina
Obs
Rij
Obs
Rij
Obs
Rij
Obs
Rij
0.5
1.1
0.4
0.9
0.7
1.6
1.9
10
2.1
11
1.0
3.7
18
2.4
13.5
3.0
16
1.2
4.3
20
2.8
15
4.7
21.5
1.7
4.7
21.5
3.9
19
6.4
25
2.3
12
5.6
24
5.4
23
6.6
26.5
24
13.5
6.6
26.5
11.4
31
8.5
28
17
8.8
29
20.4
32
10
3.1
30
Rj
68.5
153
144.5
162
E ( Rj )
132
132
132
132
0,99945, lo cual en este ejemplo (por ser tan pocos y tan cortos los empates) no
hace cambiar considerablemente el valor de H ni la decisi
on sobre la hip
otesis nula.
4.2.3.
77
0
2 ,
o bien cuando
N (N + 1) 1
1
.
+
12
Nj
Ni
Observaci
on:
p
Para la interpretaci
on de 0 n
otese que 0
= P |Dij | > Z 0 V ar Dij es la
2
probabilidad de error tipo I en una de las pruebas. Por tanto, la probabilidad de
incurrir en al menos un error tipo I en todas las pruebas es:
[
X
p
p
P
|Dij | > Z 0 V ar Dij 6
P |Dij | > Z 0 V ar Dij
2
i<j
i<j
K(K 1) 0
= .
2
Por lo tanto, tomar 0 = 2/K(K 1) equivale a acotar la probabilidad de incurrir
en al menos un error tipo I en todas las K(K 1) pruebas realizadas.
=
Ejercicio: Hacer las pruebas comparando por pares para determinar cuales son
los que se diferencian significativamente.
78
4.2.4.
donde
Wij = #(Xvj Xui ),
v = 1, . . . , Nj
u = 1, . . . , Ni
es el n
umero de observaciones de la muestra j que exceden a las de la muestra i.
La prueba de Jonckheere - Terpstra rechaza la hip
otesis H0 : 1 = = K a
favor de la alternativa K1 : 1 6 6 K cuando
J 6 E( J ) + Z V ar J ,
donde
E (J ) =
X Ni Nj
i<j
porque
K
P
j=1
Nj
2
K
P
j=1
V ar J =
Nj2 + 2
PP
=N
K
X
Nj2
j=1
Ni Nj y
i<j
K
X
1
N 2 (2N + 3)
Nj2 (2Nj + 3)
72
j=1
on normal.
y Z el -esimo cuantil superior de la distribuci
4.3.
79
entre los sujetos dentro de las muestras puede enmascarar las diferencias existentes entre los K tratamientos. Para disminuir el efecto de esta variabilidad en
muchos casos se suelen separar los individuos en subgrupos m
as homogeneos que
se denominan bloques y se realizan las comparaciones dentro de los bloques. En la
pr
actica esta situaci
on se denomina un modelo de bloques completos aleatorizados
y se presenta en alguna de las siguientes dos situaciones:
1.
2.
Una situaci
on ligeramente diferente pero que puede ser descrita por este
modelo es cuando m jueces (bloques) estan ordenando K productos (tratamientos). En este caso no hay independencia entre tratamientos pues se
trata del mismo juez calificando cada vez un producto diferente.
Modelo de muestreo
Para la primera situaci
on se supone que las observaciones son variables aleatorias independientes Xij , i = 1, . . . , n j = 1, . . . , K, de distribuciones Fi (x
j ), Fi 0 , i = 1, . . . , n. Es decir Fi es la distribuci
on de las observaciones en el
i-esimo bloque y dentro del i-esimo bloque j es la mediana del j-esimo tratamiento. Para la segunda situaci
on se supone que la observaci
on en el i-esimo bloque
(Xi1 , . . . , XiK ) proviene de una distribuci
on conjunta Fi (x1 1 , . . . , xK K ),
y que la distribuci
on de cualquier permutaci
on de los tratamientos dentro de un
bloque es la misma. El interes en cualquiera de los dos casos, esta en contrastar
la hip
otesis H0 : 1 = = K contra la alternativa K1 : no todos los 0 s son
iguales. Sea Rij el rango de Xij entre Xi1 , . . . , XiK que son las observaciones denn
P
tro del i-esimo bloque. Entonces Rj =
Rij es la suma de los rangos del j-esimo
i=1
80
Tratamientos
4.3.1.
Bloques
R11
R12
R1K
2
..
.
R21
..
.
R22
..
.
R2K
..
.
Rn1
Rn2
RnK
R1
R2
RK
La prueba de Friedman
X
12
R2
nK(K + 1) j=1 j
3n(K + 1),
4.3.2.
Manejo de empates
K
P
Rj
j=1
nK(K + 1)
1
K1
n(K+1)
2
n
P
i=1
rj
P
j=1
2
,
b3ij K
81
Individuos
Tipo de historia
10
11
12
13
14
15
82
Individuos
Tipo de historia
+
1,5
1,5
2,5
2,5
2,5
2,5
1,5
1,5
1,5
1,5
10
11
1,5
1,5
12
13
14
1,5
1,5
15
25,5
28
4,43
= 5,021.
0,883
valor que no permite rechazar al nivel de significancia del 5 % pues 210,055,2 = 5,8.
4.3.3.
Para saber cu
ales tratamientos son los que originan las fuentes de significancia,
se hacen pruebas por pares utilizando las sumas de los rangos por tratamiento.
Entonces se declara significante la diferencia entre i y j si:
|Rj Ri | > Z 2
donde 0 =
2
K(K1) ,
0
2
= 1 (Z 0 ).
2
nk(K + 1)
,
6
4.3.4.
83
K 2 (K 2 1)(K + 1)
.
144
Captulo 5
Asociaci
on y correlaci
on
Las medidas de asociaci
on pueden entenderse como medidas de coincidencia o
de concordancia entre dos variables o entre los rangos que las representan. En esta
secci
on se introducen algunas medidas de correlaci
on por rangos y de asociaci
on
entre dos variables X y Y y las pruebas de hip
otesis asociadas a ellas.
Modelo de muestreo
Muestra aleatoria (X1 , Y1 ), . . . , (Xn , Yn ) proveniente de una distribuci
on bivariada continua F (x, y), con distribuciones marginales continuas FX (x) y FY (y).
Es decir, los datos corresponden a la observaci
on de dos caractersticas observadas simult
aneamente sobre un grupo de n individuos. Sin perder generalidad,
se puede suponer que las parejas de datos se encuentran ordenadas con respecto
a la primera componente del par, es decir que X1 < X2 < < Xn . En este caso
al asignar rangos a las dos caractersticas simult
aneamente se obtiene la sucesi
on
(1, S1 ), . . . , (n, Sn ), donde S1 , . . . , Sn son los rangos de los Y s.
84
POR RANGOS DE
5.1. COEFICIENTE DE CORRELACION
SPEARMAN
5.1.
85
Coeficiente de correlaci
on por rangos de
Spearman
i
2
2
rs = s i=1
2 n
2 ,
n
P
P
n+1
n+1
i 2
Si 2
i=1
i=1
rs = 1
di = 1 Si .
(5.1)
Demostraci
on: N
otese que (ejercicio):
n
X
n+1
n(n2 1)
i
=
.
2
12
i=1
Por otra parte
2 X
2
n
n
X
n+1
n+1
Si
i
=
,
2
2
i=1
i=1
pues la suma sobre los Si es solo una permutaci
on de los sumandos de la suma
sobre i. As el denominador completo es:
n(n2 1)
.
12
Para el numerador basta escribirlo como
n
n
n
X
X
n+1
n+1 n+1 X
n+1
i
i
i
Si
=
Si ,
2
2
2
2
i=1
i=1
i=1
porque
n
P
i=1
i
n+1
2
n+1
2
n
P
rs =
i=1
= 0. Entonces (ejercicio):
i
n+1
2
n(n2 1)
12
Si
n
P
i=1
iSi
n(n+1)2
4
n(n2 1)
12
(5.2)
86
Y CORRELACION
CAPITULO 5. ASOCIACION
Finalmente, n
otese que (ejercicio):
n
X
di 2 =
n
X
n(n + 1)(2n + 1)
2
iSi ,
3
i=1
iSi =
n(n + 1)(2n + 1) 1 X 2
di .
6
2 i=1
i=1
entonces
n
X
i=1
que los rangos de las dos sucesiones vayan en direcciones opuestas, lo cual ocurre
cuando Si = n i + 1. En este caso basta demostrar que (ejercicio):
n
X
i=1
di =
n
X
i=1
(i (n i + 1))2 =
n(n2 1)
.
3
Para la interpretaci
on es suficiente tener en cuenta que valores cercanos a uno
indican asociaci
on positiva o directa entre las variables (aumento en X implica
aumento en Y , disminuci
on en X implica disminuci
on en Y , y viceversa en ambos
casos). Valores cercanos a menos uno indican asociaci
on negativa o inversa entre
las variables (aumento en X implica disminuci
on en Y , disminuci
on en X implica
aumento en Y , y viceversa en ambos casos).
5.1.1.
POR RANGOS DE
5.1. COEFICIENTE DE CORRELACION
SPEARMAN
87
Hip
otesis
nula
Alternativas
Interpretaci
on
de la alternativa
Regi
on crtica
X y Y son independientes
K1 : X y Y
est
an correlacionadas
X y Y est
an correlacionadas
K2 : est
an correlacionadas
positivamente
X implica Y o
X implica Y
rs > rs,1
K2 : est
an correlacionadas
negativamente
X implica Y o
X implica Y
rs 6 rs,
5.1.2.
Distribuci
on exacta de la estadstica de prueba
n
P
di 2 . Bajo la hip
otesis
i=1
nula las dos variables son independientes y por lo tanto todas las n! permutaciones
de los enteros 1, . . . , n, tiene la misma probabilidad de ocurrir. Por lo anterior la
distribuci
on de rs se puede obtener construyendo estas permutaciones. Por ejemplo, para n = 3 se construyen las 3! = 6 permutaciones de los enteros 1, 2 y 3:
S1
S2
S3
n
P
iSi
Valores de D
rs
i=1
14
1.0
13
0.5
13
0.5
11
-0.5
11
-0.5
10
-1.0
As la distribuci
on exacta de rs es:
Distribuci
on de probabilidades
Funci
on de distribuci
on
-1
-0.5
0.5
-1
-0.5
0.5
P (rs = r)
1/6
1/3
1/3
1/6
P (rs 6 r)
1/6
3/6
5/6
88
5.1.3.
Y CORRELACION
CAPITULO 5. ASOCIACION
Distribuci
on asint
otica de rs
n+1
n2 1
n+1
, V ar Si =
, Cov ( Si , Sj ) =
,
2
12
12
V ar rs =
1
.
n1
rs
Z=q
= n 1 rs
1
n1
tiene distribuci
on normal para grandes valores de n.
5.1.4.
n
P
di 6( bx by )
i=1
rsE = p
,
(n(n2 1) 12 bx)(n(n2 1) 12 by )
donde di = Ri Si , Ri y Si son los rangos promedio de los X 0 s y de los Y 0 s en
presencia de empates y
n
bx =
1 X
1 X
(bj 1)2 bj , by =
(cj 1)2 cj ,
12 j=1
12 j=1
donde bj es el n
umero de observaciones empatadas en el j-esimo grupo de empates
de la serie de las X, y cj es el n
umero de observaciones empatadas en el j-esimo
grupo de empates de la serie de las Y .
5.2.
Coeficiente de correlaci
on de Kendall
DE KENDALL
5.2. COEFICIENTE DE CORRELACION
89
Se dice que los pares (Xi , Yi ) y (Xi , Yj ), con i 6= j son concordantes Xi Xj > 0
y Yi Yj > 0 o Xi Xj < 0 y Yi Yj < 0 son discordantes Xi Xj > 0 y
Yi Yj < 0 o Xi Xj < 0 y Yi Yj > 0.
Las concordancias y discordancias se pueden expresar tambien como sigue. Sea
1 si x > 0,
sg(x) =
0 si x = 0,
1 si x < 0,
entonces los pares (Xi , Yi ) y (Xi , Yj ) son concordantes si sg(Xi Xj )sg(Yi Yj ) =
1 y son discordantes si sg(Xi Xj )sg(Yi Yj ) = 1.
Definiendo P como el n
umero de pares concordantes y Q como el n
umero de pares
discordantes, se calcula el exceso de concordancias sobre el exceso de discordancias
por la diferencia:
XX
S =P Q=
sg(Xi Xj )sg(Yi Yj ).
i<j
Este ndice de exceso de concordancias vara desde n(n 1)/2 cuando todos
los pares son discordantes (todos los productos de signos son negativos), hasta
n(n 1)/2 cuando todos los pares son concordantes (todos los productos de signos
son positivos). Entonces m
ax {S} = n(n 1)/2. El coeficiente de Kendall
(1938) es:
=
S
2(P Q)
=
m
ax S
n(n 1)
El n
umero total de comparaciones posibles de los n pares es n(n1)/2, n
umero que
coincide con la suma de las concordancias y las discordancias. Es decir, P + Q =
n(n 1)/2, as que P = n(n 1)/2 Q. Reemplazando este valor de P se obtiene
la siguiente expresi
on m
as com
un para :
2 n(n1)
2Q
2
4Q
=1
.
=
n(n 1)
n(n 1)
Como para obtener se dividi
o por el m
aximo se tiene inmediatamente que:
1 < < 1,
donde = 1 cuando todos los pares son concordantes en la misma direcci
on,
= 1 cuando todos los pares son concordantes en direcciones opuestas,
y = 0 cuando no hay ninguna concordancia.
90
5.2.1.
Y CORRELACION
CAPITULO 5. ASOCIACION
n(n1)
2
P Q
q
,
Tx n(n1)
T
y
2
donde
n
1X 2
Tx =
(bj bj ),
2 j=1
1X 2
Ty =
(cj cj ),
2 j=1
Bibliografa
[1] Arbuhnot, J. (1710). An Argument for Divine Providence, taken from de
Konstant Regularity Observed in Births of both Sexes. Phil. Trans, 27, 186190.
[2] B
unning, H. Trenkler, G. (1994). Nichtparametrische statistische Methoden.
Walter de Gruuyter, Berlin. New York.
[3] Conover, W.(1999). Practical nonparametric statistics. Wiley. NY.
[4] DAgostino, R. B., Stephens, M. A. (1986). Goodness-of-fit-thechniques. Marcel Dekker, New York.
[5] Gibbons, J. D, Chakraborti, S. (1992). Nonprametric Statistical Inference.
Marcel Dekker Inc., New York.
[6] Gibbons, J. D. (1971). Nonprametric Statistical Inference. McGraw-Hill, New
York.
[7] Hettmansperger, T. (1984). Statistical Inference Based on Ranks. John Wiley
& Sons. New York.
[8] Hollander , M. Wolfe, D. A. (1973). Nonparametric Statistical Methods. John
Wiley & Sons. New York.
[9] H
ajek, J. Sid
ak, Z. (1967). Theory of Rank Tests.
[10] H
ajek, J. Sid
ak, Z. Sen, P. (1999). Theory of Rank Tests.
[11] Landry , L. Lepage, Y. (1992)Empirical behaviour of some tests for normality.
Comm, Statist. Simul. Comput. 21, 971-999.
[12] Lehmann, E. L. (1975). Nonparametrics: Statistical Methods Based on Ranks.
McGraw-Hill, New York.
[13] Manoukian, E. (1986). Mathematical Nonparametric Statistics. Gordon and
Breach Sience Publishers. New York.
91
92
BIBLIOGRAFIA
[14] Pearson, K. (1900). On the criterion that a given system from the probable
in the case of correlated system of variables is such that it can be reasonable
supposed to have arisen from random sampling. Phil. Mag. Ser. (5) 50, p
157-175.
[15] Randles, R. Wolfe, D. (1979). Introduction to The Theory of nonparametric
Statistics. John Wiley & Sons. New York.
[16] Serfling, R. (1980). Approximation Theorems of Mathematical Statistics.
John Wiley & Sons. New York.
[17] Siegel, S. (1995). Estadstica No parametrica Aplicada a las ciencias de la
conducta. Trillas, Mejico.
[18] Sprent, P. (1989). Applied Nonparametric Statistical Methods.
[19] Wald, A. Wolfowitz, J. (1940). On a test whether two samples are from the
same population. Ann. Math. Statist. 11, 147-162.