Documente Academic
Documente Profesional
Documente Cultură
Tutor:
Profesor Doctor D. Ismael Ramn Snchez Borrego
Autor
Teresa Zamora Garca
DEPARTAMENTO DE ESTADSTICA E INVESTIGACIN
OPERATIVA
GRANADA
Junio de 2010
UNIVERSIDAD DE GRANADA
ndice general
1. Introduccin a la regresin no paramtrica.
4
4
5
6
7
7
8
9
10
11
14
16
18
18
22
22
22
24
26
27
28
30
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
34
35
35
37
37
40
41
NDICE GENERAL
4. Estudio Emprico.
43
43
44
46
47
Captulo 1
Introduccin a la regresin no
paramtrica.
En el estudio de las variables bidimensionales, y en general, de las multidimensionales puede resultar interesante investigar la posible existencia de una
relacin de dependencia entre las variables implicadas y la construccin de algn
modelo matemtico que permita describir dicha relacin, en el supuesto de que
sta exista.
El propsito del estudio de los modelos de regresin es construir modelos
matemticos que permitan explicar la relacin de dependencia existente entre
una variable respuesta Y y una o ms variables independientes. Podemos utilizar estos modelos como herramienta para predecir nuevos valores de la variable
respuesta a partir de cierto valor particular que ha tomado la variable explicativa. Es imprescindible el empleo de tcnicas de regresin no paramtrica cuando
se pretende predecir una variable respuesta que es imposible o muy costosa de
medir.
n
Dadas n observaciones de dos variables bidimensionales {(Xi , Yi )}i=1 , consideramos el modelo de regresin
yi = m(xi ) + i ,
i = 1, ..., n,
(1.1)
mh (x) =
whi (x)yi ,
(1.2)
i=1
n
donde {whi }i=1 denota una sucesin de pesos que pueden depender del vector
n
completo {xi }i=1 . h es el llamado parmetro de suavizado, tambin conocido
por ancho de banda o ventana. Este parmetro tiene una gran importancia
para el rendimiento del estimador ncleo de regresin. Dependiendo de la eleccin de la funcin peso vamos a tener distintos subtipos de la clase general de
estimadores ncleo. As, la funcin
Kh (x xi )
,
n
i=1 Kh (x xi )
whi (x) =
(1.3)
mh (x) =
n
i=1 Kh (x xi )yi
,
n
i=1 Kh (x xi )
n1
n1
(1.4)
donde Kh () = h K h . La funcin K se denomina funcin ncleo, y determina qu peso se asigna a cada observacin dependiendo de su distancia a
x.
Habitualmente se elige K una funcin de densidad simtrica. La eleccin,
si
whi (x) =
Kh (u x)du,
si1
(1.5)
si
i=1
si1
mh (x) =
Kh (u x)du yi ,
(1.6)
Los estimadores tipo ncleo que emplean estos pesos son tambin conocidos
por estimadores ncleo por convolucin.
La mayora de mtodos de regresin no paramtrica son asintticamente
equivalentes a la estimacin ncleo de regresin.
Sh (m) =
(yi m(xi )) + h
i=1
m (x)2 dx,
(xi , xi+1 ). En (0, xi ) y (xn , 1), mh es lineal en las respuestas y l y sus dos
primeras derivadas son continuas sobre los xi . Por tanto, h es un spline cbico
con nodos en los puntos de diseo xi .
Los splines de suavizamiento son los estimadores de la funcin de regresin
ms complejos y difciles de manejar matemticamente hablando.
(x0 )
(x
p!
+ +
x0 )
p
j=0 j (x x0 )j ,
m (x0 )
(x
2!
x0 )2
(1.7)
y
i
j (xi x0 )j
j=0
Kh (xi x0 ),
(1.8)
m = !
(1.9)
= 0, ..., p,
1
.
X= .
.
1
Sea
x1 x0
.
.
.
...
.
.
.
xn x0
...
(x1 x0 )p
.
.
= [1 xj xi
.
(xn x0 )p
y1
.
y= . y
.
yn
...
(xj xi )p ]j
U,
0
.
= .
.
(1.10)
mk (x) = n1
whi (x)yi ,
(1.11)
i=1
n
togonal en la forma m(x) = j=0 j j (x), donde {j }j=0 son los coecientes
de Fourier y {j }j=1 es una base de funciones. Una vez jada dicha base, es
equivalente estimar m a estimar los coecientes de Fourier. El estimador en serie
ortogonal se dene entonces por:
hn
mh (x) =
j j (x),
j=0
El estimador tipo ncleo de regresin, en especial el estimador por convolucin puede constituir una buena eleccin por su sencillez matemtica y su fcil
interpretabilidad.
Aunque el estimador polinmico local es asintticamente equivalente al estimador tipo ncleo por convolucin en un diseo jo, bajo un diseo aleatorio
es superior en trminos de su varianza asinttica, permaneciendo igual su sesgo.
Esto unido al hecho de no necesitar correccin alguna pro el efecto frontera lo
convierten en una magnca eleccin entre los distintos estimadores de la funcin
de regresin.
(1.12)
ISE(h) =
(1.13)
donde w es una funcin peso no negativa. Supongamos que esta funcin tiene
derivada segunda continua. w puede ser elegida de forma que sea constante en
el interior de su soporte [a, b] y 0 en una apropiada regin frontera de dicho
intervalo. Una razn fundamental para elegir esta funcin peso es que infrapondera los errores en la frontera, que habitualmente dominan el error cometido en
el interior del intervalo. Aunque existen situaciones en las que no es necesario
considerar tal funcin, su empleo simplica de forma drstica los desarrollos
tericos. Otra eleccin habitual de w es elegirla como la funcin de densidad f .
Una aproximacin discreta de ISE viene dada por el Error Cuadrtico
Promedio (ASE), que est dado por:
n
ASE(h) = n1
(1.14)
i=1
(1.15)
M ISE(h) = E[ISE(h)].
(1.16)
10
M ASE(h) = n1
(1.17)
i=0
que es E[ASE(h)].
Presentamos a continuacin algunos selectores del ancho de banda que consisten en la minimizacin de la suma de cuadrados de los residuos.
n1
i=1
Una medida de error que responde a esta construccin viene dada por la
funcin de validacin cruzada.
La funcin de validacin cruzada (CV) est basada en el estimador
mh,i (xi ) construido a partir de una submuestra de tamao n 1 tomada a
CV (h) = n1
(1.18)
i=1
Notamos por hCV el ancho de banda que hace mnima la funcin de validacin cruzada, es decir,
(1.19)
Si notamos por hASE el ancho de banda que hace mnimo ASE, hCV pro CV sufre una
porciona en general buenas aproximaciones a hASE . Sin embargo h
alta variabilidad y CV tiende a elegir anchos de banda muy pequeos.
Estos inconvenientes motivaron la introduccin del criterio de validacin
cruzada generalizada (GCV). Esta medida de error fue introducida en el
contexto del suavizamiento por splines, y se dene por:
11
2
yi mh (xi )
GCV (h) = n
w(xi )
tr W W S(h)
i=1
n
(1.20)
Denicin 1.1 Si d es una medida de error cualquiera, se dice que h es asintticamente ptimo respecto de d si la probabilidad de que
l
m
h
nf
d(h)
=1
Hn d(h)
12
d(h)
= n1 h1 2
K 2 du +
w(u)du
2
+ h4
u2 K(u)/2du
(m (u))2 w(u)du,
(1.21)
en el sentido de que
sup
h Hn
ASE(h) d(h)
M ASE(h) d(h)
+
d(h)
d(h)
0,
h = Cn1/5
(1.22)
donde
C=
2 ( w(u)du)( K 2 du)
2 K(u)du)2 (m (u))2 w(u)du
( u
1/5
hM ASE
hM ASE
1,
(1.23)
en probabilidad.
13
Se puede demostrar que los anchos de banda seleccionados por estas medidas
ASE(h)
1,
ASE(hM ASE )
(1.24)
en probabilidad, y que
hM ASE
1,
(1.25)
en probabilidad.
Por tanto, los mtodos de seleccin del ancho de banda construidos mediante
un factor de correccin proporcionan anchos de banda asintticamente ptimos.
El problema de determinacin del ancho de banda est resuelto, ya que basta
elegir un valor de h que haga mnimo alguno de los selectores anteriores.
Parece razonable preguntarse en esta situacin por las razones de convergencia de (1.24) y (1.25). El siguiente teorema responde a esta cuestin.
2
en distribuciones, donde 1 y C1 estn denidas en (1.25)
ASE(hM ASE )
decrece a una razn de n1/5 .
A la vista de este resultado, puede pensarse que las velocidades alcanzadas
son insatisfactorias. Sin embargo el siguiente teorema establece idnticas razones
Teorema 1.3 Bajo las mismas hiptesis del teorema anterior, se cumple que
2
y
2
14
(1.26)
2
2
2
2 = 3 /C3 ,
(1.27)
2
C1 = C3 1 /2,
2
C2 = C3 2 /2,
2
4 =
8 4
3
C0
w2
2
(K L)2 + 4C0 2 d2
k
(m )2 w2 ,
L(u) = uK (u),
3
4
8
3
C0
w2
+ 4C0 2 d2
k
C3 =
2 2 2
3 ck
C0
(K K K L)2 +
(m )2 w2 ,
2
w + 3C0 d2 (m )2 w2 ,
k
15
Existen muchos problemas basado en datos reales que implican que hay
funciones de regresin suaves que tienen saltos en un nmero nito de puntos,
tales, como el impacto de un terremoto, un cambio climtico repentino, etc..
Para tratar el problema de estimar la funcin de discontinuidad y sus puntos
de salto en regresin se propone un mtodo que consiste en dos pasos:
En la primera etapa se estimaran los puntos de saltos.
Y en la segunda etapa se estimara la funcin de regresin a travs de
una versin adaptada del estimador lineal local suave, que hace uso de los
saltos ya estimados.
Consideramos un modelo de regresin del tipo (1.1)
La funcin de regresin m es suave en todas partes y tiene un nmero nito de
puntos de salto conocidos q , los cules podemos escribir como tk (k = 1..., q). Qiu
(2002), Horvth y Kokoszka (2002) y otros propusieron mtodos para determinar
el nmero puntos de salto .
Consideramos una descomposicin de m dada por m(x) = (x) + (x),
siendo (x) una funcin en [0, 1], y (x) una funcin de salto denida por
(x) = q (tk )1[tk ,1] , para x [0, 1], donde (tk ) denota el tamao de salto
k=1
en el punto tk (k = 1..., q).
Se propone un mtodo para estimar la funcin discontinua de regresin junto
con sus puntos de salto. Para estimar los puntos de salto se emplea el estimador
local lineal suave (Ruppert y Wand (1994), y Fan y Gijbels (1996) entre otros),
junto con el mtodo de observaciones proyectadas pero extendido a un diseo
aleatorio (Wu y Chu (1993b, c)). Notamos los puntos de salto estimados por
intervalo [tk1 , tk ].
El mtodo ms empleado para estimar puntos de salto consiste en las estimaciones de regresin no paramtrica obtenida restando estimaciones unilaterales a
cada lado de un punto dado de la estimacin. Mller (1992), Wu y Chu (1993c),
y Mller y Song (1997) entre otros han propuesto tales procedimientos, pero
consideran estimaciones de la regresin ncleo denidas en un diseo jo. Loader (1996) y ms tarde Horvth y Kokoszka (2002) introdujeron los mtodos
basados en la estimacin polinmica local unilateral de la regresin segn diseos jos con los puntos equidistantes. Grgoire y Hamrouni (2002) estimaron
un solo punto de salto para una funcin de regresin discontinua usando un
16
mh (x) =
{i:xi [1,2]}
P
Kh (x xi ) {sn,2 (x xi )sn,1 } yi
(sn,1 )2
(1.28)
Kh (x xi )(x xj )j .
sn,j =
{i:xi [1,2]}
Los valores xi son los pseudo-puntos construidos a partir de los puntos del diseo
(Wu y Chu (1993b, c) de la forma siguiente:
xi = (1)x1i
i = 2 n, 2 n + 1, ..., 0,
xi = 2 x2ni+1
i = n + 1, n + 2, ..., 2n 1,
i = 2 n, 2 n + 1, ..., 0,
y2i + 2mgL (0)(xi ),
P
yi ,
i = 1, 2, ..., n,
yi =
donde mgL y mgR son funciones ncleos suaves (Wu y Chu (1993c)). L y R
17
son estimadores del tipo (1.28) con igual ancho de banda, pero con funciones
ncleo K1 y K2 diferentes.
tk = max|D(x)| k = 1, ..., q,
x Ak
[tj , tj + ], k = 1, ..., q,
Ak = [h, 1 h]
j=1
i = 2 n, 2 n + 1, ..., 0,
k
pk
k1 ), i = n + 1, n + 2, ..., 2n 1,
yi = y2ni + 2mgR (x)(xi t
(1.29)
pk
donde yi = yi para i = 1, ..., n. Los pseudo-puntos, el ancho de banda g y
la funcin ncleo mgR y mgL son elegidos bajo idnticas consideraciones.
mh (x) =
k=1
{i:xi [2tk1 tk ,2tk tk1 ]}
p
Kh (x xi ){sn,2 (x xi )sn,1 }yi k
,
sn,2 sn,0 (sn,1 )2
pk
donde yi son los datos proyectados obtenidos de las observaciones originales
Kh (x xi )(x xi )j .
sn,j =
{i:xi [2tk1 tk ,2tk tk1 ]}
CV (h) = n1
donde para cada xj [tk1 , tk ] mh,j es el estimador de mh (xj ) donde se ha
omitido la observacin (xi , yj ). El ancho de banda que hace mnima esta funcin
Captulo 2
El estimador de Breidt y
Opsomer (2000).
En muchos estudios de muestreo en poblaciones nitas es fcil obtener informacin auxiliar de la poblacin, que puede ser utilizada para mejorar la precisin
de los estimadores. La estimacin modelo-asistida proporciona un marco para
incorporar modelos de superpoblacin en la estimacin basada en el diseo.
En el contexto del muestreo en poblaciones nitas, Breidt y Opsomer (2000)
presentaron el estimador de regresin polinmico local adaptado al diseo. Bajo
hiptesis de suavidad sobre m(x) obtuvieron un estimador asintticamente insesgado y consistente para la media. Varios estudios de simulacin indican que
este estimador es ms eciente que el estimador de regresin cuando el modelo
no est correctamente especicado, mientras que si el modelo est correctamente especicado entonces ambos estimadores son aproximadamente igual de
efectivos.
Este estimador mejora la eciencia del diseo de los estimadores de regresin en el caso donde es difcil ver a priori la relacin existente entre la variable
de inters y la variable auxiliar. Como en cualquier mtodo de regresin no
paramtrico las caractersticas prcticas del estimador dependen de la eleccin
del parmetro de suavizado (ancho de banda). Breidt y Opsomer (2000) utilizaron un ancho de banda jo, sin embargo no estudiaron cmo seleccionar el
mejor valor de ste. Opsomer y Miller (2005) propusieron un mtodo para seleccionar el mejor ancho de banda minimizando un cierto criterio de validacin
cruzada.
19
ty =
i s
yi
=
i
i U
yi Ii
.
i
(2.1)
V arp (ty ) =
(ij i j )
i,j U
yi yj
.
i j
(2.2)
yi = m(xi ) + i ,
donde i son variables aleatorias independientes de media cero y varianza
v(xi ), m(x) es una funcin suave de x, y v(x) es tambin suave y estrictamente
positiva. Dada xi , m(xi ) = E[yi ] es la funcin de regresin mientras que V ar(yi )
es la funcin varianza.
Sea K una funcin ncleo continua y h el ancho de banda. Presentamos el
estimador polinmico local tipo ncleo de grado p basado en los datos poblacionales. Sea yU = [yi ]i UN el vector de dimensin N de yi en la poblacin nita.
Denimos la matriz N (p + 1)
1 x1 xi . . . (x1 xi )p
.
.
.
p
.
.
.
XU i = .
.
= [1 xj xi . . . (xj xi ) ]j U ,
.
.
.
.
xN xi
...
(xN xi )p
y denimos la matriz,
WU i = diag
1
K
h
xj xi
h
.
j U
Sea er el vector con un 1 en la posicin rsima y ceros en el resto. El estimador polinmico local de la funcin de regresin en xi basado en la poblacin,
viene dado por
mi = e1 (XU i WU i XU i )1 XU i WU i yU = wU i yU ,
que estar bien denido si XU i WU i XU i es inversible.
(2.3)
20
t =
y
i s
yi mi
+
i
(2.4)
mi ,
i U
y su varianza sera
V arp (t ) =
y
(ij i j )
i,j U
yi mi yj mj
.
i
j
(2.5)
El estimador poblacional mi es el estimador tradicional de regresin polinmico local para la funcin desconocida m(). Sin embargo, no puede ser calculado
porque slo conocemos los yi de s U . Sea ys = [yi ]i s el vector de dimensin
n de yi obtenido de la muestra. Denimos la matriz de dimensin n (p + 1)
Xsi = [1 xj xi
y sea
Wsi = diag
(xj xi )p ]j s ,
...
1
K
i h
xj xi
h
.
j s
(2.6)
que est denido si Xsi Wsi Xsi es inversible. Si sustituimos los mo en (2.4)
i
obtenemos el estimador de regresin polinmico local para el total poblacional
y
to =
i s
yi mo
i
+
i
mo .
i
(2.7)
i U
si
estimador consistente bajo el diseo, con un ancho de banda h jo y no necesariamente ptimo. Independientemente de la eleccin del ancho de banda, mi
es un parmetro bien denido para una poblacin nita. En principio, el estimador (2.6) puede no estar denido para cierto i U : si para alguna muestra s
hay menos de p + 1 observaciones en el dominio de denicin del ncleo para
un xi entonces la matriz Xsi Wsi Xsi sera singular. Esto no es un problema en
la prctica, ya que se puede seleccionar un ancho de banda lo sucientemente
grande para que Xsi Wsi Xsi sea inversible para todos los xi . Sin embargo, esta
situacin no puede ser excluida tericamente mientras el ancho de banda se considere jo para una determinada poblacin. A continuacin vamos a considerar
un estimador muestral que existe para cualquier muestra s U .
El ajuste del estimador muestral para mi viene dado por
mi = e1
N2
p+1
j=1
(2.8)
21
ty =
i s
yi mi
+
i
mi .
(2.9)
i U
K(u)du = 1.
5. (La razn muestral n/N y ancho de banda h). Si N , n/N (0, 1),
h 0, y N h2 /(log log N ) .
6. (Probabilidades de inclusin i y ij ).
Para todo N , m i
n
i > 0, m i,j
n
lim sup n
N
ij > 0
i,j U :i=j
lim n2
max
donde Dt,N denota la pareja de todos los distintos (i1 , i2 , ...., it ) para U ,
22
max
lim
max
lim sup n
N
y
to
=
i s
=
i s
yi
+
i
j U
1
+
i
j U
Ij
j
Ij
1
j
wo ys
sj
wo ei yi
sj
(2.10)
wis yi .
i s
y
Por lo tanto to es una combinacin lineal de los yi s muestrales, donde los
pesos son las probabilidades inversas de inclusin, modicadas convenientemente
para reejar la informacin en la variable auxiliar xi . El mismo razonamiento
se aplica directamente a ty .
Debido a que los pesos son independientes de yi , se pueden aplicar a cualquier
variable de estudio de inters. En particular, se pueden aplicar a las variables
1, xi , ..., xp . A continuacin, es sencillo comprobar que para el estimador de
i
y
regresin polinmico local to se verica
wis xl =
i
i s
xl ,
i
i U
para l = 0, 1, ..., p.
23
local
ty =
(yi mi )
i U
Ii
+ mi
ty ty
N
lim Ep
=0
con probabilidad 1,
con probabilidad 1
ty ty
= 0.
N
Siendo
ty ty
=
N
i U
Ii
1 +
i
yi mi
N
i U
mi mi
Ii
i
Entonces
Ep
ty ty
N
Ep
i U
yi mi
N
+ Ep
i U
Ii
1
i
(mi mi )2
Ep
N
(2.11)
i U
1
(1 i Ii )
N
1/2
l sup
m
N
1
N
(yi mi )2 < ,
i U
por el Lema 2 (iv)(ver Apndice Breidt and Opsomer(2000)), el primer trmino de la derecha de (2.11) converge a cero como N (ver teorema 1 en
Robinson and Srndal(1983)). Suponiendo 6 entonces,
Ep
i U
1
(1 i Ii )2
N
=
i U
i (1 i )
1
.
2
N i
Combinando esto con el lema 4 (ver Breidt and Opsomer (2000)), el segundo
trmino de la derecha de (2.11) converge a cero como N .
24
ty ty
N
nEp
n
=
N2
(yi mi )(yj mj )
i,j U
ij i j
+ o(1).
i j
(2.12)
Ii
1
i
yi mi
N
mi mi
b = n1/2
i U
Ii
1 .
i
Entonces
Ep [a2 ] =
n
N2
(yi mi )(yj mj )
i,j U
n maxi,j
1
+
U : i=j |ij
2
ij i j
i j
i j |
i U
(yi mi )2
, (2.13)
N
de forma que lim supN Ep [a2 ] < por la propiedad 6. Por el lema 5 (Breidt
and Opsomer (2000)), Ep [b2 ] = o(1) por lo que
nEp
ty ty
N
lim n Ep V N 1 ty AMSE N 1 ty
= 0,
donde
1
V N 1 ty = 2
N
(yi mi )(yj mj )
i,j U
ij i j Ii Ij
i j
ij
(2.14)
AMSE N 1 ty =
1
N2
(yi mi )(yj mj )
i,j U
25
ij i j
.
i j
Demostracin 2.3.
Escribimos lo siguiente:
A = nEp
1
N2
(yi mi )(yj mj )
i,j U
ij i j Ii Ij
.
i j
ij
Ahora
1
n2 Ep 2
N
n2
i,k U
i,j U
2
ij i j Ii Ij ij
(yi mi )(yj mj )
i j
ij
1 i 1 k (yi mi )2 (yk mk )2 ik i k
i
k
N4
i k
+2n2
i U k,l U :k=l
Ep
Ii i Ik Il kl
+ n2
i
kl
ij i j kl k l
i j
k l
=
Pero
a1
n2
k,l U :k=l
(yi mi )4
+ n2
3 N 4
nmaxi,k
1
+
N 3
i,k U :i=k
U :i=k |ik
N 4
i k |
i U
(yi mi )4
,
N
26
a3
(nmaxi,k
U :i=k |ik
4 2
i k |)
Ep
4
N
ij
kl
(nmaxi,k U :i=k |ik i k |)2
O(N 1 ) +
4 2
Ii Ij ij Ik Il kl
(yi mi )4
Ep
,
max
i
kl
N
(i,j,k,l) D4
i U
=
+
nEp
1
N2
{2(yi mi )(mj mj )
i,j U
ij i j Ii Ij
i j
ij
2n
U :i=j |ij i j |
+ 2
2
N
(mi mi )(mj mj )}
2nmaxi,j
Ep [(mi mi )2 ]
N
N
nmaxi,j U :i=j |ij i j |
n
+ 2
2
N
Ep [(mi mi )2 ]
i U
N
i U (yi
mi )2
1/2
i U
nEp V (N 1 ty ) AMSE(N 1 ty ) A + B.
1/2
arp
N 1 t
y
N(0, 1)
27
N 1 (ty ty ) L
N(0, 1)
1/2 N 1 ty
N 1 (ty ty ) =
i U
Ii
1 +op (n1/2 ) = N 1 (t ty )+op n1/2 .
y
i
yi mi
N
2.1.5. Robustez.
En este apartado se considera
V ar(N 1 (ty ty )) = E N 1 (t ty )
E 2 [N 1 (ty ty )].
E 2 [N 1 (ty ty )] = o(n1 ).
E 2 [N 1 (ty ty )] = 0,
por lo que se tiene la siguiente desigualdad
ty ty
N
1
N2
v(xi )
i U
1 i
.
i
La parte derecha de la expresin anterior es el lmite inferior de GodambeJoshi , que alcanza su mnimo valor cuando i v 1/2 (xi ). Hay condiciones
ty ty
N
n
N2
v(xi )
i U
1 i
+ o(1).
i
28
b=
n1/2
N
c=
d=
n1/2
N
Ii
1 ,
i
(mi mi )
i U
(yi m(xi ))
Ii
1 ,
i
(m(xi ) mi )
Ii
1 .
i
i U
i U
Entonces:
nE
ty ty
N
E[d2 ]
n
N2
i,j U
nmaxi,j
i j |
ij i j
i j
E[c2 ] =
n
N2
v(xi )
i U
as que
1
N
1 i
i
v(xi ) <
i U
por la propiedad 3.
29
el diseo del estimador, esta cantidad mide las desviaciones de las medidas entre
un estimador basado en la muestra y un parmetro poblacional.
Segn han demostrado Breidt and Opsomer(2000), V arp (t ) (2.5) es una
y
V (ty ) =
i,j
ij i j yi mi yj mj
.
ij
i
j
s
(2.15)
de forma que el estimador (2.15) estima el trmino principal de M SEp (ty ). Las
2
condiciones sucientes para que se cumplan esto son que h 0 y nh .
Esto se puede explicar por el hecho de que el trmino principal de M SEp (ty )
depende solamente de las residuos yi mi , mientras que el M SE del estimador
de regresin no paramtrico basado en el modelo depende de las desviaciones
mi m(xi ) (que estn sujetos al sesgo y varianza de la estimacin).
M SEp (ty ).
Sea hopt el ancho de banda ptimo desconocido. Como V (ty ) es un estimador
consistente de M SEp (ty ) podramos pensar en estimar hopt por el valor del
ancho de banda que hace mnimo V (ty ). Pero ste no es un estimador vlido en
la prctica puesto que si h 0 entonces mi est prximo a yi , y si h es pequeo
mi puede no existir.
Por tanto, V (ty ) se puede hacer arbitrariamente pequea cuando h se acerca
a 0. Por otra parte, M SEp (ty ) sigue siendo en general ms grande de 0 para
todos los valores de h. Por consiguiente el ancho de banda que hace mnimo a
V (ty ) es una buena opcin para estimar hopt .
Sin embargo podemos modicar V (ty ) de modo que proporcione un criterio ms conveniente para la seleccin del ancho de banda. Se reemplaza cada
()
estimador mi en la ecuacin (2.15) por un estimador mi . Para hacer esto
0
si i = j,
()
()
que utilizamos solamente {yi : j = i s} para estimar mi de modo que h 0,
()
esto hace automticamente que mi no se aproxime a yi . Opsomer y Miller
(1995) propusieron la modicacin de la V (ty ) empleando un criterio de seleccin
del ancho de banda dado por
30
()
VCV (h) =
i,j
ij i j yi mi
ij
i
s
()
yj mj
(2.17)
VCV (h) es el llamado criterio de seleccin del ancho de banda por validacin
3
(1 t2 )2 I{|t|1} ,
4
Se consideran dos anchos de banda diferentes: h = 0,1 y h = 0,25 y ocho
funciones de regresin:
K(t) =
31
Lineal
Cuadrtica
Bump
Salto
cdf
Exponencial
Ciclo 1
Ciclo 4
m6 (x) = exp(8x),
m7 (x) = 2 + sin(2x),
m8 (x) = 2 + sin(8x),
(2.18)
32
Los estimadores paramtricos REG3 y PS funcionan mejor que REG, excepto en la poblacin lineal. Tambin podemos observar que en la mayora de los
casos, LPR1 es competitivo o mejor que los estimadores paramtricos (Razn
de MSE 0.95). En varios casos los estimadores paramtricos son algo mejor
que LPR1 (Razn de MSE 0.90-0.94), esto es debido al suavisamiento cuando la
poblacin es lineal o cuadrtica y tambin es debido al excedente de alisado en
otros casos. Finalmente, el estimador PS en las poblaciones Bump y Ciclo 4, as
como REG3 en Ciclo 1 son substancialmente mejores que el estimador LPR1.
Sin embargo, podemos observar que cuando el ancho de banda es muy pequeo el
estimador LPR1 es mucho mejor que el estimador paramtrico correspondiente.
Cuadro 2.1: Razn de MSE de los estimadores de HorvitzThompson(HT), regresin lineal(REG), Regresin Cbica (REG3), post-estraticacin (PS), Regresin Lineal constante (LPR0), Ncleo del modelo basado(KERN), sesgo calibrado no paramtrico(CDW), y regresin lineal local(LPR1)
Poblacin
Lineal
Cuadrtica
Bump
Salto
cdf
Exponencial
Ciclo 1
Ciclo 2
HT
REG
REG3
PS
LPR0
KERN
CDW
0.1
0.1
0.4
0.4
0.1
0.1
0.4
0.4
0.1
0.1
0.4
0.4
0.1
0.1
0.4
0.4
0.1
0.1
0.4
0.4
0.1
0.1
0.4
0.4
1.0
0.1
0.4
0.4
0.1
0.1
0.4
0.4
0.10
0.25
0.10
0.25
0.10
0.25
0.10
0.25
0.10
0.25
0.10
0.25
0.10
0.25
0.10
0.25
0.10
0.25
0.10
0.25
0.10
0.25
0.10
0.25
0.10
0.25
0.10
0.25
0.10
0.25
0.10
0.25
33.35
35.41
2.97
3.16
2.96
3.08
1.01
1.07
25.06
8.57
3.43
2.94
7.12
4.88
1.47
1.51
6.37
5.00
1.58
1.64
5.21
4.88
1.14
1.20
46.58
16.15
3.91
3.67
3.85
0.98
2.27
0.97
0.09
0.95
0.90
0.95
3.02
3.14
1.02
1.08
4.90
1.67
1.35
1.16
5.24
3.59
1.30
1.33
3.00
2.35
1.05
1.09
2.90
2.72
1.02
1.07
18.68
6.48
2.08
1.95
3.79
0.96
2.26
0.97
0.94
1.00
0.94
1.00
0.94
0.98
0.94
1.00
4.00
1.37
1.30
1.11
2.08
1.42
1.05
1.07
1.64
1.29
0.97
0.01
1.07
1.00
0.96
1.00
1.36
0.47
0.99
0.93
3.56
0.91
2.17
0.93
1.43
1.52
1.05
1.12
1.15
1.20
1.03
1.10
2.08
0.71
1.15
0.98
1.51
1.03
1.07
1.09
1.20
0.94
1.05
1.08
1.36
1.27
1.05
1.10
2.73
0.94
1.15
1.08
1.83
0.46
1.35
0.58
0.98
1.45
0.96
1.00
0.99
1.29
0.96
1.00
1.13
1.13
0.98
1.01
1.00
1.13
0.96
1.00
1.00
1.09
0.98
1.00
1.10
1.64
0.97
1.03
1.24
1.66
0.97
1.09
1.21
1.09
1.07
1.07
0.98
1.68
0.95
1.02
1.02
2.16
0.95
1.07
1.50
1.32
1.01
1.07
1.08
1.53
0.95
1.05
1.02
1.44
0.97
1.04
1.19
2.44
0.96
1.10
1.46
2.55
0.97
1.26
1.97
1.00
1.42
1.01
0.95
0.98
0.95
0.98
1.08
2.70
0.96
1.11
1.47
1.14
1.01
1.03
1.07
1.46
0.95
1.04
1.02
1.58
0.97
1.08
1.19
2.45
0.96
1.10
1.25
2.34
0.96
1.23
2.02
1.09
1.45
1.08
Basado en 1000 rplicas de muestras aleatorias simple para las ocho poblaciones de tamao N = 1000.
Tamao muestral n = 100.
Estimadores no paramtrico calculados con una ancho de banda h y nucleo de Epanechnikov .
33
Captulo 3
Mtodos de regresin no
paramtrica en el muestreo en
poblaciones nitas.
Presentamos a continuacin algunos de los mtodos ms recientes en los
que se ha incorporado la regresin no paramtrica al contexto del muestreo en
poblaciones nitas.
34
35
yi = m(xi ) + i ,
donde los i son variables aleatorias independientes e idnticamente distribuidas con media cero y varianza constante 2 , m(x) es una funcin suave de
x.
La media estimada se puede escribir como:
y = f ys + (1 f )s ,
y
1
n
1
donde ys =
i s yi y ys = N n
j s yj , el ndice i denota las unidades de
Si los valores yj = m(xj ) son conocidos, una estimacin de Y est dada por:
yp = f ys + (1 f )
1
N n
0
yj .
(3.1)
j s
Sin embargo, en la prctica los valores m(xj ) son desconocidos. Para obtener
las estimaciones mj , j s, se emplea la regresin no paramtrica.
yM B = f ys + (1 f )
1
N n
(3.2)
mj ,
j s
(1995)).
yM B
1
=
N i
yi +
s
1
mj =
N
s
i s
1+
wsj ei
j s
yi =
wis yi ,
i s
36
siendo wis = 1 +
j s wsj ei
yM B y =
1
N i
1
N
xK(x)dx =
yi +
mj
yj
yi
j s
i s
1
N
E (mj mj /x) +
j s
1
(mj yj ) =
(mj mj ) + (mj yj ) .
N js
s
Por tanto
E (M B y /x) =
y
=
ya que E (yj ) = mj .
1
N
j s
E (mj mj /x),
j s
1
N
E (mj yj /x)
j s
37
Por otra parte el Teorema 3 de Fan y Gijbels (1996) arma que bajo las
condiciones a -d si h 0 y nh , entonces:
E (mj mj /x) =
1
ck m (x)h2 + Op (h2 ),
2
con ck = u2 k(u)du, y m la derivada segunda de m(x). Esto implica que E (mj mj /x) 0, y por tanto yM B es aproximadamente un
ty =
i s
yi mi
+
i
mi .
i U
t
La idea bsica para estimar la funcin de regresin discontinua consiste en
emplear el estimador lineal local tipo ncleo en los intervalos donde la funcin
38
Estimador propuesto.
La funcin de regresin desconocida m se considera sin prdida de generalidad
(x) =
(3.3)
1
1
0
0
y=
yj =
yj +
(yj yj ) ,
(3.4)
N
N
j U
j U
j U
o
yj
donde
= m(xj ).
0
yj yj
1
0
.
yj +
yd =
(3.5)
N
j
j s
j U
En la prctica, los valores m(xj ) son desconocidos por lo que estimamos los
puntos de salto en el contexto general de la regresin no paramtrica y estas
estimaciones sern empleadas en el estimador (3.5).
Para estimar los puntos del salto se consideran
m(x) =
{i:xi [1,2]}
p
Kh (x xi ) {sn,2 (x xi )sn,1 } yi
(sn,1 )2
(3.6)
xi = (1)x1i ,
y
xi = 2 x2ni+1 ,
i = 2 n, 2 n + 1, ..., 0,
i = n + 1, n + 2, ..., 2n 1.
39
i = 2 n, 2 n + 1, ..., 0,
y2i + 2mgL (0)(xi ),
p
yi ,
i = 1, 2, ..., n,
yi =
gL
(1972) con distintas funciones ncleo L y R, dadas por L(x) = (6 12x) y
R(x) = (1)L(x), y un ancho de banda comn g = 1,572h (Wu y Chu (1993)).
Las funciones sn,r estn dadas por
Kh (x xi )(x xi )r .
sn,r =
{i:xi [1,2]}
donde m1 (x) y m2 (x) son estimadores dados en (3.6) con mismo ancho de
t = max|D(x)|,
k
x Ak
k = 1, ..., q,
[tl , tl + ], k = 1, ..., q,
Ak = [h, 1 h]
l=1
i = 2 n, 2 n + 1, ..., 0,
k
pk
j s,
j s,
(3.7)
pk
donde yi = yi para i = 1, ..., n. Los pseudo-puntos, el ancho de banda comn
g y las funcines ncleo mgR y mgL son elegidos bajo idnticas consideraciones.
q+1
mj =
p
Kh (xj xi ){sn,2 (xj xi )sn,1 }yi k
, j
sn,2 sn,0 (sn,1 )2
s,
40
pk
donde yi son los datos proyectados obtenidos para las observaciones origi
nales yi en los puntos de diseo xi [tk1 , tk ]. Los sn,r estn dados por
Kh (xj xi )(xj xi )r .
sn,r =
{i:xi
[2tk1 tk ,2tk tk1 ]}
1
yj mj
yJP M A =
mj +
,
N
i
j s
(3.8)
j U
1
y
V (JP M A ) = 2
N
j,
yj mj y m j j
.
i
j
s
(3.9)
1
V2 (yJP M A ) =
2N 2
j, s
yj mj
y m
j j
.
j
(3.10)
41
yM B =
1
N
yj +
j s
1
N
mj .
(3.11)
j U s
1
yJP M A =
+
mj ,
(3.12)
N js
j
N
j U
yJP M B =
1
N
yj +
j s
1
N
mj ,
(3.13)
j U s
42
yHT
50
75
100
1
1
1
yM A
yJP M A
yM B
yJP M B
yREG
0.04021
0.01968
0.01647
0.03465
0.01722
0.01341
0.16749
0.02721
0.02545
0.12868
0.01917
0.01733
0.13266
0.10599
0.10371
yHT
50
75
100
1
1
1
yM A
yJP M A
yM B
yJP M B
yREG
0.09759
0.06799
0.06113
0.09664
0.06456
0.06041
0.10372
0.07149
0.06581
0.10623
0.06529
0.06066
0.13266
0.10599
0.10371
Cuadro 3.3: Sesgo relativo absoluto RAB para un ancho de banda h = 0,1.
yHT
50
75
100
0.01020
0.00818
0.00743
yM A
yJP M A
yM B
yJP M B
yREG
0.00106
0.00061
0.00047
0.00101
0.00055
0.00046
0.00289
0.00087
0.00077
0.00242
0.00063
0.00059
0.00372
0.00269
0.00237
Cuadro 3.4: Sesgo relativo absoluto RAB para un ancho de banda h = 0,25.
yHT
50
75
100
0.01095
0.00820
0.00649
yM A
yJP M A
yM B
yJP M B
yREG
0.00129
0.00081
0.00063
0.00123
0.00081
0.00061
0.00369
0.00157
0.00116
0.00121
0.00078
0.00069
0.00372
0.00269
0.00237
RAB() =
500
i=1
(si ) y
RE() =
500
i=1
500
i=1
(si ) y
43
2
2.
(HT (si ) y )
y
m(x) = e1 (Xs Ws Xs )1 Xs Ws Xs ,
1
i Kh (xi
(3.14)
x)
i s
, y Xs =
[1(xi x)]i s .
Kh (u) = h1 K(u/h), siendo K una funcin ncleo continua y h el ancho de
banda.
Bajo el modelo yi = m(xi ) + i la informacin auxiliar proporcionada por
la variable auxiliar x debe ser utilizada en la denicin de la pseudo-variable
siguiente:
mi = m(xi ), i U.
(3.15)
Para incorporar la informacin auxiliar proponemos el estimador de calibracin
Fymc (t) =
N
wi (t yi ),
(3.16)
i s
s =
i s
(wi di )2
,
d i qi
(3.17)
con qi constantes positivas conocidas sin relacin con di , sujeto a las ecuaciones
de la calibracin
1
N
(3.18)
i s
asumimos t1 < t2 < < tP . Las nuevas condiciones (3.18) son adaptadas para
un supuesto modelo de superpoblacin (1.1) y podemos expresarlos as:
1
N
wi (tj mi ) = Fm (t),
(3.19)
i s
donde hemos denotado por t = (t1 , ..., tP ), Fm (t) = (Fm (t1 ), ..., Fm (tP )) y
hacen mnimo (3.17) sujeto a (3.19) usando la aproximacin de los multiplicadores de Lagrange y son dados por
wi = di +
di qi (t mi )
,
N
(3.20)
= N 2 (Fm (t) FmH (t)) Tm con FmH (t) = FmH (t1 ), ..., FmH (tP ) y
1
Tm (t mi ),
(3.21)
Dm ,
(3.22)
yi = a + bxi + i
i = 1, ..., N.
Es fcil vericar que Fymc (t) es una funcin de distribucin. Puesto que
ymc (t) es un estimador de calibracin, es montona no decreciente si wk es
F
positivo para todas las unidades de la muestra. La eleccin qk = c garantiza
Finalmente, tenemos lim Fymc (t) = 0 pero lim Fymc (t) generalmente no
t
t+
es igual a 1.
Para hacer cumplir esto ltimo observamos que esta condicin es equivalente
a esta otra condicin:
1
N
wk = 1.
(3.23)
k=1
j U
podemos construir los estimadores de Qy () invirtiendo Fymc (t). El nuevo estiymc (t) se dene como
mador de calibracin de Qy () obtenido a partir de F
Qymc () = inf {t : Fymc (t) }.
(3.24)
Captulo 4
Estudio Emprico.
En este captulo estudiamos la eciencia de los mtodos de regresin no
paramtricos para las variables poblacin con ttulos universitarios (variable independiente) y poblacin activa mujeres (variable dependiente) de 166
municipios de la provincia de Granada en el ao 2001. No se han considerado
Motril ni Granada por ser valores extremos.
La plena incorporacin de la mujer a la sociedad y el fuerte crecimiento de la
inmigracin son los dos rasgos ms destacados de la segunda mitad del siglo XX.
La tasa de analfabetismo de la poblacin espaola pas del 63 % en 1900 al 2,4 %
en 2001; esta reduccin ha sido todava ms intensa entre la poblacin femenina
(del 71,4 % en 1900 al 3,4 % en 2001), el porcentaje de mujeres analfabetas
continuaba siendo superior al de la poblacin masculina, aunque dentro de los
parmetros que pueden considerarse normales, dada la mayor esperanza de vida
de las mujeres (3,36 % de mujeres analfabetas frente al 1,55 % de los hombres).
La espectacular mejora en el nivel de formacin de las mujeres espaolas
es uno de los principales cambios experimentados por la poblacin espaola
desde mediados del siglo XX. As, mientras en 1960 el porcentaje de mujeres
con estudios superiores era de un 0,14 %, el 13 % de la poblacin femenina
tena formacin universitaria en 2001, superando ligeramente el porcentaje de
hombres con esa cualicacin (12,6 %).
Se observa por tanto, una extraordinaria evolucin de la situacin de la
mujer, que parta de una realidad de clara discriminacin. Este hecho es especialmente notable desde mediados del siglo XX, coincidiendo con los aos
de fuerte despegue de la economa espaola y con la fractura territorial que
se produjo entonces, como consecuencia de los fuertes movimientos migratorios
interprovinciales.
Se realiz un breve estudio descriptivo de las variables "Poblacin Activa
mujeres" y "Poblacin Activa hombres"). Con los grcos de dispersin
(Figura 4.1 y Figura 4.2) se comprob que la poblacin activa hombres es mucho
mayor que la poblacin activa de mujeres en todos los municipios de la provincia
de Granada, en el caso de las hombres el municipio que cuenta con el menor
nmero de hombres activos es de 30 (Lenteg) y el mayor de 5588 (Almuecar),
47
48
49
Hombres
Frecuencia
Media
Mediana
Desviacin tpica
Varianza
Mnimo
Mximo
Rango
Primer cuartil
Segundo cuartil
Rango intercuar
Asimetra
Asimetra tipi.
Curtosis
Curtosis tipicada
Coef. de variacin
M ujeres
166
849.84
368
1134.087
1286154
0.941
0.998
5558
193
1047
854
2.34469
12.3329
5.45704
14.3518
133,448 %
166
512.55
234.50
683.929
467758.3
0.01208
0.00056
3352
112
604
492
2.26914
11.9355
4.9138
12,9231
133,437 %
Cuadro 4.2:
Hombres
M ujeres
Para
Para
[676.042 ; 1023.63]
[1023.800 ; 1271.22]
[407.738 ; 617.358]
[617.421 ; 766.628]
50
H0 : 1 = 2
H1 : 1 = 2
(4.1)
(4.2)
R
i=1
R
i=1
(si ) Y
y HT (si ) Y
2
2
51
RB() =
i=1
(si ) Y
,
Y
RE
y HT
yM A
yM B
y Reg
y Raz
y Dif
RB
1
0.587
0.533
0.600
0.941
0.998
0.00056
0.00442
-0.00685
0.00570
0.01208
0.00056
Bibliografa
[1] Breidt, F.J. and Opsomer, J.D. (2000) Local Polynomial Regression
Estimators in Survey Sampling. The Annals of Statistics, Vol. 28, No. 4,
pp. 10261053
[2] Cassell, C.M., Srndal, C.E. and Wretman, J.H. (1977). Foundations of Inference in Survey Sampling. New York. John Wiley.
[3] Chambers, R.L.; Dorfman, A.H. and Wherly, T.E. (1993) Bias
robust estimation in nite populations using nonparametric calibration. J
Am Stat Assoc 88:268277
[4] Chen, J. and Qin, J.(1993). Empirical likelihood estimation for nite
populations and the eective usage of auxiliary information. Biometrika,
80, 107-116.
[5] Deville, J.C. and Srndal, C.E. (1992). Calibration Estimators
in Survey Sampling. Journal of the American Statistical Association.,
87:376382
[6] Dorfman, A.H. (1993). A comparison of design-based and model-based
estimators of the nite population distribution function. Aust J Stat
35:2941
[7] Dorfman, A.H. and Hall, P. (1993). Estimators of the nite population distribution function using nonparametric regression. Ann Stat
16(3):14521475
[8] Fan, J. and Gijbels, I. (1995). Data-driven bandwidth selection in local
polynomial tting: variable bandwidth and spatial adaptation. J R Stat
Soc Ser B 59(2):371394
[9] Fan, J. and Gijbels, I. (1996). Local Polynomial Modelling and Its
Applications. Monographs on Statistics and Applied Probability, Chapman
and Hall, New York. Vol. 66
[10] Georgiev, A.A. (1989). Asymptotic properties of the multivariate
Nadaraya-Watson regression function estimate: the xed design case.
Statistics and Probability Letters, 7, 35-40.
52
BIBLIOGRAFA
53
BIBLIOGRAFA
54
BIBLIOGRAFA
55