Documente Academic
Documente Profesional
Documente Cultură
ON
NO PARAM
ETRICA
EN R
Trabajo Fin de Master
Master en Estadstica Aplicada
Autora: Nisa Boukichou Abdelkader
Tutora: Mara Dolores Martnez Miranda
Indice general
Prologo 1
1. Introduccion 5
1.1. Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2. Estimacion del modelo de Regresion No Parametrica . . . . . . . . . 6
1.3. Regresion Polinomial Local . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4. Metodos de seleccion de la complejidad del modelo . . . . . . . . . . 13
1.5. Extension multivariante . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5.1. El problema de la dimensionalidad . . . . . . . . . . . . . . . 16
1.5.2. Modelos aditivos no parametricos . . . . . . . . . . . . . . . . 16
1.6. Seleccion del parametro ancho de banda . . . . . . . . . . . . . . . . 17
2. Software disponible en R 19
2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2. Libro KernSmooth . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3. Libro Locpol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.4. Libro Loct . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
2.5. Libro sm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3. Aplicacion practica 87
3.1. Estudio con datos reales . . . . . . . . . . . . . . . . . . . . . . . . . 87
3.2. Estudio con datos simulados . . . . . . . . . . . . . . . . . . . . . . . 94
Bibliografa 99
iii
Prologo
Dado el rapido avance que ha experimentado la Estadstica Computacional en
las ultimas decadas, hoy en da podemos agradecerle el desarrollo de diversos cam-
pos dentro de la Estadstica, que eran impensables dado que requeran costosos
procedimientos de calculo. Un ejemplo de este tipo lo constituyen los enfoques no
parametricos del Analisis de Regresion.
Las tecnicas de Regresion No Parametrica logran una mejor adaptacion a los
datos disponibles, mediante la obtencion de estimaciones mas proximas a la curva
de regresion subyacente. Esto es posible usando la informacion suministrada direc-
tamente desde los datos, sin formular rgidos modelos parametricos.
En este trabajo nuestro objetivo ha sido el de explorar las tecnicas de regresion
no parametrica mas habituales y las capacidades que R incorpora actualmente para
su aplicacion practica. En este sentido el trabajo se ha estructurado en tres captulos.
El primero tiene como nalidad establecer los elementos teoricos fundamentales de
la regresion no parametrica, desde la propia formulacion del modelo. De este modo
para un problema general de regresion se denen dos vas se solucion. Una sera la
regresion parametrica o clasica que presenta la ventaja de ser mas sencilla y menos
costosa desde el punto de vista computacional, pero que suele ser muy poco exible
y de difcil adaptacion en situaciones complejas. Paralelamente y no necesariamente
en contraposicion (puesto que ambas pueden ir de la mano) la denominada regresion
no parametrica. De esta ultima destacamos fundamentalmente su exibilidad, ya que
permite una mejor adaptacion a diversas situaciones y problemas, si bien requiere
de un elevado coste computacional y una mayor complejidad desde el punto de vista
teorico.
Una vez denido el contexto general y establecidas las caractersticas particulares
que perlan el problema de regresion no parametrica frente a los planteamientos
clasicos parametricos, se procede a analizar algunas de las mas relevantes tecnicas de
este tipo. El tratamiento que se ha hecho de dichos metodos en este trabajo, ha sido
dirigido fundamentalmente hacia la practica y concreto la practica con el software
R. De este modo no se ha profundizado en aspectos teoricos de complejidad como
son los estudios de tipo asintotico. Bajo tal perspectiva se han explorado metodos
univariantes y multivariantes, perlandose los denominados metodos de regresion
polinomial local como una buena solucion, dadas sus buenas propiedades teoricas y
1
2 PR
OLOGO
sus deseables caractersticas de interpretabilidad y sencillez en la practica.
De forma sencilla se plantea tambien en este primer captulo el conocido problema
de la dimensionalidad. Desde dicha motivacion se introducen metodos que permiten
salvar dicho problema, como son los modelos de regresion aditivos no parametri-
cos. Dichos modelos se caracterizan fundamentalmente porque la naturaleza de los
efectos de las variables explicativas sobre la variable de respuesta se considera de
forma individual. Esto obviamente permite ganar en simplicidad y tambien en in-
terpretabilidad.
Asociado a los metodos de regresion no parametrica (univariantes o multivari-
antes) se introduce uno de los problemas tecnicos cruciales en la practica, la eleccion
del parametro de suavizado o ancho de banda que dene la complejidad del modelo.
Desde el punto de vista teorico se formula el problema de seleccion y se perlan los
distintos metodos dise nados para su seleccion automatica. En concreto se distingue
entre los metodos basados en la metodologa plug-in, los basados en el criterio de
validacion cruzada (cross-validation) y los procedimientos basados en Bootstrap.
Una vez expuestos los elementos teoricos necesarios comienza el captulo dos,
donde se hace un estudio profundo de los aspectos computacionales asociados a
dichos metodos. El software analizado es el entorno de analisis y programacion es-
tadstica R y en contreto algunos de los libros especcos de funciones, actualmente
disponibles en la web http://cran.es.r-project.org, para la aplicacion practica
de los metodos de regresion no parametricos. Nuestra atenci on se ha centrado fun-
damentalmente en los libros kernSmooth, locpol, loct y sm, si bien existen
funciones disponibles en otros libros (stats, monreg, lokern, loess, lowess, np,
psplines, etc.). Asociado a alguna aplicacion de datos concreta se ilustrara tambien
el uso de alguna de estas funciones adicionales.
De estos libros de R se ha hecho una descripcion casi exhaustiva, obviando solo
en algunos casos partes que no corresponden a los objetivos concretos de este trabajo
y mas concretamente de los metodos teoricos desarrollados en el captulo primero.
Hemos de destacar que todo el trabajo aqu desarrollado esta sujeto a la necesaria
y continua actualizacion, dado el rapido avance en esta materia computacional. En
este sentido para cada libro se ha especicado la version utilizada incorporando
dentro de la ultima (hasta septiembre de 2009) version de R.
Para nalizar este trabajo se desarrollan en el captulo tres algunas aplicaciones
practicas. Nos hemos centrado en modelos de regresion univariante, haciendo uso de
algunas de las funciones analizadas en el captulo dos. Se han ilustrado los metodos
de regresion no parametrica para distintos conjuntos de datos. Hemos querido re-
alizar dichas ilustraciones usando datos reales (disponibles en libros de R) y tambien
mediante ejercicios de simulacion. Con esto pretendemos iniciarnos en el metodo
habitualmente usado en la investigacion para la validacion practica de las nuevas
metodologas propuestas. En la resolucion de estos ejercicios practicos hemos uti-
lizado varias funciones disponibles para el mismo problema. Esto nos ha permitido
INDICE GENERAL 3
realizar conclusiones acerca de dichos procedimientos.
A modo de conclusion podemos decir que este trabajo nos ha permitido un
acercamiento a los metodos de regresion no parametrica m as habituales con un
enfoque eminentemente practico. Las ilustraciones desarrolladas con datos permiten
explorar el modo en que actualmente se puede trabajar en R, para dar soluciones
al problema de regresion no parametrico. Los metodos de regresion polinomial local
ofrecen una sencilla va de solucion, sucientemente documentada e implementada
en diversos libros de R. No obstante sigue siendo necesaria la incorporacion de nuevas
funciones, que permitan la implementacion de novedosas tecnicas, que ocupan las
publicaciones actuales en dicha materia. Estamos seguros de que es cuestion de
no mucho tiempo y entre nuestros objetivos esta el de intentar colaborar en dicha
tarea. El inicio de este proposito se traduce en el trabajo que actualmente tiene en
sus manos.
Nisa Boukichou Abdelkader
Granada, 27 de septiembre de 2009
4
INDICE GENERAL
Captulo 1
Introduccion
1.1. Antecedentes
Consideremos en primer lugar el planteamiento de un problema de regresion,
habitualmente especicado como sigue:
Sea un conjunto de n observaciones, {(X
i
, Y
i
), i = 1, . . . , n}, de una variable
aleatoria bidimensional, (X, Y ), satisfaciendo el modelo,
Y
i
= m(X
i
) +
i
, i = 1, . . . , n, (1.1)
donde
los residuos
i
son variables aleatorias independientes (vv.aa.ii.) con media
cero y varianza
2
(X
i
),
y la funcion m es desconocida y se dene como la funcion de regresion, m(x) =
E[Y |X = x].
Un planteamiento tal corresponde a un modelo de regresion de tipo univariante,
esto es, con tan solo una variable explicativa, basado en un dise no aleatorio, donde
las observaciones constituyen una muestra aleatoria de la poblacion (X,Y). Ademas,
estamos considerando una situacion general de heterocedasticidad, es decir, las
varianzas de los errores se suponen distintas.
Con tal planteamiento el interes se centra principalmente en los tres objetivos
siguientes:
1. Explorar y representar la relacion existente entre la variable explicativa, X, y
la variable Y .
2. Predecir el comportamiento de Y para valores de la variable X a un no obser-
vados.
5
6 CAP
ITULO 1. INTRODUCCI
ON
3. Estimar las derivadas de m, as como algunas propiedades relacionadas.
Para alcanzar tales objetivos se puede optar por dos aproximaciones diferentes:
asumir alg un modelo parametrico para la funcion de regresion o no imponer tal re-
striccion, asumiendo tan solo que la funcion presenta algunas propiedades deseables
generalmente relacionadas con la derivabilidad.
La primera aproximacion correspondera a lo que se denomina Regresion Pa-
rametrica, y supone que la funcion de regresion desconocida, m, pertenece a alguna
familia parametrica de funciones, m {m
ON NO PARAM
ETRICA 7
metodologas ha tenido dos razones principales: la primera, que los estadsticos se
dieron cuenta de que planteamientos puramente parametricos no aportaban la ex-
ibilidad necesaria para la estimacion de las curvas que aparecan en la practica. Y
la segunda razon estaba ligada al avance de la informatica y al desarrollo de un
hardware que posibilitaba el costoso calculo de esos estimadores no parametricos.
Los primeros estimadores de regresion no parametrica propuestos fueron los sencillos
estimadores de tipo n ucleo de Nadaraya (1964) y Watson (1964). Dichos estimadores
se han ido renando y perfeccionando dentro de los denominados metodos de re-
gresion polinomial local, convirtendose en uno de los metodos mas empleados por
diversos analistas en la actualidad.
Y centrando la atencion en la adecuada eleccion de los par ametros decisivos en
el buen comportamiento de los estimadores de regresion resultantes, como son: el
ancho de banda o parametro de suavizado y el grado de los ajustes polinomiales
locales. A continuacion, en Eubank (1988) se puede encontrar el siguiente postulado
que dice lo siguiente:
Supongamos que la funcion de regresi on desconocida m, es suave entonces, pode-
mos esperar que las observaciones tomadas en puntos proximos a uno dado x puedan
darnos informacion del vector de dicha funcion en x.
Con este planteamiento y sobre el diagrama de dispersion de los datos, se trata
de denir unas bandas centradas en cada punto y de un ancho h, y calcular la esti-
macion en el punto utilizando tan solo las observaciones que caen dentro. Ademas,
para obtener la curva de regresion estimada, la banda denida por el parametro
h recorrera todo el diagrama de dispersion de izquierda a derecha. No obstante
tambien, al parametro h se le suele llamar ancho de banda o parametro de suavizado.
Figura 1.1: Ancho de Banda
8 CAP
ITULO 1. INTRODUCCI
ON
Como podemos observar en este graco (Figura 1.1), en primer lugar hemos
denido unas bandas centradas en los puntos x = 25 y x = 30 con un ancho h en
cada una de ellos. Y despues, hemos estimado las curvas de regresion en cada uno
de los puntos utilizando solamente las observaciones que caen dentro de cada una
de las bandas.
Por tanto, siguiendo esta idea se han desarrollado diversas tecnicas, entre las que
destacaremos estos cuatro tipos:
1. Estimadores tipo n ucleo: realizan un promedio de las observaciones que
caen en cada banda. Se denen como:
m(x) =
n
i=1
W
i
(x)Y
i
(Nadaraya Watson, 1964)
donde:
W
i
(x)
= n
1
h
1
k
_
X
i
x
h
_
2. Regresion Polinomial Local: realiza un ajuste polinomial con las observa-
ciones que caen en la banda. Se dene como:
mn
n
i=1
_
_
_
Y
i
p
j=0
j
(X
i
x)
j
_
_
_
2
h
1
k
_
X
i
x
h
_
(Cleveland, 1979)
3. Suavizamiento por Splines: se dene como la solucion a un problema de
mnimos cuadrados penalizados. Y se calcula de la siguiente forma:
min n
1
n
i=1
{m(X
i
) Y
i
}
2
+
_
(m
(r)
(x))
2
dx ( > 0)
4. Estimadores basados en Desarrollos en Serie Ortogonal o los que estan
tan de moda denominados Wavelets, se denen como:
1.2. ESTIMACI
ON NO PARAM
ETRICA 9
m
N
(x) =
N
j=1
j
q
j
(x)
donde:
j
= n
1
n
i=1
q
j
(X
i
)Y
i
Ruppert, Wand y Carroll (2003) establecen los siguientes factores a tener en
cuenta a la hora de evaluar y decidir que tipo de estimador no parametrico utilizar
en la practica:
1. Conveniencia. Esta disponible en el software de uso habitual o favorito por
el analista?
2. Facilidad para su implementacion. Si no esta disponible directamente, es facil
implementarlo en el lenguaje de programacion habitual del analista?
3. Flexibilidad. Se trata de ver si el estimador es capaz de explicar un amplio
abanico de tipos de relaciones que pueden existir entre las variables de interes.
4. Simplicidad y sencillez. Es intuitivo? esto es, si es facil entender como el
metodo act ua sobre los datos para dar respuestas.
5. Tratabilidad: es sencillo estudiar las propiedades matematicas del estimador?.
6. Fiabilidad. Si se tiene garanta de que las respuestas proporcionadas por el
estimador son verdad.
7. Eciencia. Si el estimador hace un uso de los datos eciente.
8. Posibilidades de extension a otras situaciones o problemas mas complicados.
Este trabajo se desarrolla desde una perspectiva computacional y practica, en
este sentido ponemos especial atencion en los puntos 1, 2, 3 y 8 anteriores. As,
desde tales premisas, los metodos de regresion polinomial local constituyen una
adecuada eleccion. De hecho se trata de un procedimiento sencillo y muy intuitivo,
que esta implementado y ampliamente documentado en programas estadsticos y
lenguajes de programacion de uso extendido. Destacan implementaciones en S-Plus,
MatLab y en R atraves de diversos libros especcos.
A continuacion describiremos con mas detalle el procedimiento de regresion poli-
nomial local desde el punto de vista teorico.
10 CAP
ITULO 1. INTRODUCCI
ON
1.3. Regresion Polinomial Local
Si suponemos que la funcion de regresion,m tiene p derivadas en un punto x
0
,
entonces va el teorema de Taylor tenemos una aproximacion de este tipo para los
valores en un entorno de x
0
.
m(x) m(x
0
) +m
(x
0
)(x x
0
) +
m
(x
0
)
2!
(x x
0
)
2
+ ... +
m
(p)
(x
0
)
p!
(x x
0
)
p
Luego, esto justica que se puede aproximar localmente mpor funciones polin omi-
cas de grado p.
P
p
(x) =
p
j=0
j
(x x
0
)
j
As, se obtienen estimaciones de los coecientes
j
con j = 0, . . . , p y entonces,
observando la expresion, vemos que la estimacion del termino independiente
0
sera un estimador de m en x
0
y el resto de coecientes
j
proporcionaran esti-
maciones de sus derivadas.
Por eso, con el n de estimar m localmente mediante polinomios de grado p
consideraremos un problema de mnimos cuadrados ponderados:
min
n
i=1
_
_
_
Y
i
p
j=0
j
(X
i
x
0
)
j
_
_
_
2
k
h
(X
i
x
0
)
donde:
h es un parametro denominado ancho de banda o parametro de suavizado
que controla las observaciones que caen en cada entorno.
K
h
(u) = h
1
K(
u
h
), donde la funcion K(), se denomina funcion n ucleo.
Dicha funcion dene las ponderaciones que se asignan a cada observacion en
el entorno local considerado. Habitualmente se supone una densidad simetrica
y con soporte compacto.
y p es el grado del ajuste polinomial local.
Ademas,como casos particulares se puede obtener el conocido estimador n ucleo
de Nadaraya-Watson, que supone realizar ajustes polinomiales locales de grado cero,
y tambien cuando el ajuste polinomial es de grado uno, se obtiene el denominado es-
timador lineal local. Si bien los ajustes constantes has sido estudiados y ampliamente
1.3. REGRESI
ON POLINOMIAL LOCAL 11
utilizados por teoricos y analistas de datos, es el ajuste lineal el que ha mostrado
ser mas conveniente y el mas usado actualmente en la practica (en este sentido es
interesante la discusion del artculo de Cleveland (1979).
Como anteriormente hemos mencionado la denicion del estimador esta deter-
minado por tres parametros: el ancho de banda, h, la funcion n ucleo y el grado
p.
El ancho de banda se dene como un parametro positivo cuyo rango en prin-
cipio sera la amplitud del intervalo de estimacion. No obstante la eleccion de dicho
parametro constituye uno de los aspectos cruciales del procedimiento de estimacion.
Las buenas propiedades del estimador resultante dependera en gran medida de la
eleccion que se haga de dicho parametro. En este sentido existe una compensacion
(trade-o en ingles) entre exiblidad y complejidad que es contralada a traves de di-
cho parametro. As, si dicho parametro se toma muy peque no, tan solo observaciones
muy proximas al punto de estimacion intervendran en el calculo del estimador, de-
scribiendo muy bien comportamientos locales pero obtendremos una curva estimada
muy variable. Si por el contrario, dicho parametro se toma muy grande, las estima-
ciones en cada punto se veran afectadas por observaciones en puntos alejados de
forma que difcilmente se podran recoger los comportamientos locales, dando lugar
a grandes sesgos y como consecuencia obtendremos poca variabilidad. Notese por
tanto que una practica con anchos de banda muy grandes se traduce en proced-
imientos computacionalmente costosos.
As, desde un punto de vista teorico, la eleccion del ancho de banda tendra que
buscar una adecuada compensacion entre sesgo y varianza. Y desde un punto de
vista practico supondra la eleccion de la complejidad del modelo.
Por otro lado, con la eleccion del grado de los ajustes polinomiales nos ocurre
algo similar. Es decir, la utilizacion de ajustes de grado cero o uno nos daran es-
timaciones con poca variabilidad, muy suaves, pero con sesgos muy elevados. Por
el contrario, cuando los ajustes son con grados mayores (dos o tres) nos permitiran
mayor adaptabilidad, o sea, menores sesgos pero, obtendremos mayor varianza.
Luego, del mismo modo que para la eleccion del ancho de banda es necesario una
compensacion entre sesgo y varianza, para elegir p se buscara tambien la compen-
sacion optima entre sesgo y varianza.
Y nalmente, la funcion n ucleo, K, dene la forma de los pesos que se asocian a
cada observacion dentro de la banda denida y por tanto, determina su importancia
en el calculo de la estimacion. Para dicha funcion es habitual el uso de alguna de las
siguientes densidades:
1. Triangular: k(u) = (1 |u|)1
|u|1
2. Epanechnikov: k(u) =
3
4
(1 u
2
)1
|u|1
3. Biponderado: k(u) =
15
16
(1 u
2
)
2
1
|u|1
12 CAP
ITULO 1. INTRODUCCI
ON
4. Gaussiano: k(u) = (2)
1
exp(
x
2
2
)1
|u|1
En la practica, la eleccion del n ucleo no afecta al buen comportamiento de las
estimaciones resultantes, por lo que considerar una funcion u otra atiende funda-
mentalmente a razones tecnicas.
Por otro lado, tenemos que el ancho de banda y el grado del polinomio necesitan
una compensacion entre el sesgo y la varianza, por tanto, se denen a continuacion
criterios para medir dicho compromiso y asimismo, la consecuente bondad de las
estimaciones.
Luego, entre las diversas medidas que se pueden denir, hemos considerado las
siguientes:
- El Error Cuadratico Medio Condicional en su version local (MSE):
MSE( m
h
(x
0
)) = E
Y/X
_
( m
h
(x
0
) m(x
0
))
2
_
- El Error Cuadratico Medio Condicional en su version global (MISE):
MISE( m
h
) = E
Y/X
__
( m
h
(x) m(x))
2
dx
_
Por tanto, como sabemos el error cuadratico medio se puede descomponer en
un termino de sesgo al cuadrado mas uno de varianza, por lo que podemos asumir
que este criterio permitira la compensacion entre sesgo y varianza anteriormente
mencionado.
MSE( m
h
(x
0
)) =
_
E
Y/X
[ m
h
(x
0
)] m(x
0
)
_
2
. .
sesgo
2
+V ar
Y/X
( m
h
(x
0
))
. .
varianza
En cuanto, a la eleccion entre un criterio u otro dependera de que busquemos
optimalidad en cada punto (MSE) o bien, que busquemos la optimalidad conjunta
en todo el intervalo de estimacion (MISE).
A continuacion, veremos varios procedimientos de estimacion de h o tambien
denominados selectores del ancho de banda o metodos se seleccion de la complejidad
del modelo.
1.4. M
ETODOS DE SELECCI
ITULO 1. INTRODUCCI
ON
La validacion cruzada por mnimos cuadrados.
La validacion cruzada generalizada.
El criterio de informacion de Akaike.
El error de prediccion nito.
El selector de Shibata.
La T de Rice.
C) Procedimientos basados en aproximaciones Bootstrap
La metodologa bootstrap tiene como proposito ganar informacion acerca de
la distribucion de un estimador. Sin embargo, en regresion no parametrica
la metodologa bootstrap es utilizada fundamentalmente para dos tareas: la
primera es la de elegir el parametro de suavizamiento o ancho de banda y la
segunda es la de construir intervalos de conanza para la curva de regresion.
1.5. Extension multivariante
Consideramos ahora la extension del modelo (1.1) al caso en que se considera
mas de una covariable. De este modo sea X
i
un vector de D covariables y el modelo
general de regresion multivariante heterocedastico dado por:
Y
i
= m(X
i
) +
i
(1.2)
donde la funcion (x) = V ar[Y |X = x] es nita, y los residuos,
i
, son vari-
ables independientes e identicamente distribuidas, con media cero, varianza
2
(X
i
)
y son independientes de los vectores aleatorios, X
i
. La funcion de regresion, m(x) =
E[Y |X = x], con x = (x
1
, . . . , x
D
)
T
.
El modelo de regresion lineal multivariante supone que la relacion entre la vari-
able de respuesta Y y cada una de las variables independientes es lineal. A veces,
es evidente que esta relacion no es lineal, por lo que hay que considerar modelos
que sean mas exibles. Las tecnicas de regresion no parametricas responden a esta
exibilidad ya que no imponen condiciones sobre la forma de la funcion D-variante,
m(x).
En esta situacion, los estimadores mas comunes para m(x) son versiones mul-
tivariantes de los estimadores tipo n ucleo (como los polinomiales locales descritos
anteriormente) o splines de suavizamiento. Ruppert y Wand (1994) introducen la
extension multivariante del estimador polinomial local. A continuacion describimos
el estimador polinomial local para el caso general de grado p y D > 1. Consideramos
el siguiente problema de mnimos cuadrados ponderados:
1.5. EXTENSI
ON MULTIVARIANTE 15
mn
i=1
_
_
_
Y
i
p
L=1
l
1
+...+l
d
=L
l
1
,...,l
d
D
j=1
(X
i
x
j
)
l
j
_
_
_
2
K
H
(X
i
x)
donde: = {
l
1
,...,l
D
: l
1
+. . . + l
D
= L} y L = {0, . . . , p} es un vector de coe-
cientes, H es una matriz de dimension D D simetrica, denida positiva; K() es
una funcion n ucleo no negativa D-variante y K
H
(u) = |H|
1/2
K(H
1/2
u).
A la matriz H se le denomina matriz ancho de banda, dado que es la extension
multivariante del parametro ancho de banda univariante. Si denotamos por
j
, j =
0, . . . , p, a las soluciones del problema anterior entonces, usando el desarrollo de
Taylor, el estimador polinomico local vendra dado por la primera de ellas, esto es:
m
p
(x) =
0,...,0
El problema en forma matricial y su solucion, se denen mediante:
mn
(YX
x
)
T
W
x,H
(YX
x
)
m
p
(x) = e
T
1
_
X
T
x
W
x,H
X
x
_
1
X
T
x
W
x,H
Y
donde e
1
es un vector (pD + 1), con un 1 en la primera posicion y 0 en el resto,
Y = (Y
1
, . . . , Y
n
)
T
,
X
x
=
_
_
_
_
1 (X
1
x)
T
((X
1
x)
p
)
T
.
.
.
.
.
.
.
.
.
.
.
.
1 (X
n
x)
T
((X
n
x)
p
)
T
_
_
_
_
y
W
x,H
= diag {K
H
(X
1
x), . . . , K
H
(X
n
x)}
Casos particulares:
p = 0, este coincide con la version multivariante del estimador n ucleo de
Nadaraya-Watson:
m
0
(x) =
n
i=1
K
H
(X
i
x)Y
i
n
i=1
K
H
(X
i
x)
16 CAP
ITULO 1. INTRODUCCI
ON
p = 1, es el estimador lineal local multivariante (Ruppert y Wand, 1994):
m
1
(x) = e
T
1
_
X
T
x,H
W
x,H
X
x
_
1
X
T
x
W
x,H
Y
1.5.1. El problema de la dimensionalidad
Aunque la generalizacion al caso multidimensional de la mayora de tecnicas
de suavizamiento es posible, aparece un problema importante conocido como: el
problema de la dimensionalidad, (en ingles the curse of dimensionality, Bell-
man,1961).
Este problema se reere al hecho de que cuando estamos estimando, considerando
un entorno con un n umero jo de datos, y tenemos una supercie de gran dimension,
dicho entorno puede ser demasiado grande como para ser llamado local, es decir,
si un entorno local contiene 10 datos de cada variable, entonces el correspondiente
entorno local D dimensional contiene 10
D
datos.
Como consecuencia se necesitan conjuntos de datos mucho mas grandes incluso
cuando D no es muy elevado, y en la practica puede que tales conjuntos no esten
disponibles.
Otro problema que presentan los estimadores multivariantes es la falta de inter-
pretabilidad, ya que sera difcil de visualizarlos gracamente. No es posible repre-
sentar supercies para D > 2.
Tambien resulta un inconveniente el excesivo coste computacional de las versiones
multivariantes, que requieren un gran n umero de operaciones. Esto hace que en la
practica los suavizadores multidimensionales solo se apliquen hasta dimensiones 2
o 3.
Los problemas anteriores nos llevan a plantear modelos alternativos que eviten
estos inconvenientes, como los que se comentan en este trabajo y que reciben el
nombre de modelos aditivos.
Los modelos aditivos se presentan como una herramienta util para el analisis de
datos. Estos modelos mantienen una importante caracterstica de interpretacion de
los modelos lineales, al tener representada cada variable de forma separada. As la
naturaleza de los efectos de una variable sobre la variable de respuesta no depende
de los valores de las otras variables.
Los modelos aditivos fueron formulados por Friedman y Stuetzle, (1981) y con-
stituan el centro del algoritmo ACE de Breiman y Friedman(1985).
1.5.2. Modelos aditivos no parametricos
Propuestos por Hastie y Tibshirani (1990), son una tecnica de regresion no
parametrica multivariante muy utilizada. Frente a otras tecnicas de regresion no
1.6. SELECCI
ON DEL PAR
ITULO 1. INTRODUCCI
ON
El metodo de validacion cruzada de este modelo se puede encontrar en el libro
de Kim, Linton y Hengartner, 1999; en el de Kauermann y Opsomer, 2003 y en el
de Nielsen y Sperlich, 2005.
Y para los metodos plug-in ver los libros de Opsomer y Ruppert, 1997; el de
Severance-Lossin y Sperlich, 1997 y el de Mammen y Park, 2005.
Captulo 2
Software disponible en R
2.1. Introducci on
El programa R es un entorno de analisis y programacion estadstico que forma
parte del proyecto de software libre GNU General Public Licence. R esta disponible
en la direccion http://www.r-project.org. El proyecto R comenzo en 1995 por
un grupo de estadsticos de la universidad de Auckland, dirigidos por Ross Ihaka
y Robert Gentleman. R esta basado en el lenguaje de programacion S, dise nado
especcamente para la programacion de tareas estadsticas en los a nos 80 por los
Laboratorios Bell AT&T. El lenguaje S se considera un lenguaje de programacion
estadstica orientado a objetos de alto nivel.
Frente a otros lenguajes de programacion, R es sencillo, intuitivo y eciente
ya que se trata de un lenguaje interpretado (a diferencia de otros como Fortran,
C++, Visual Basic, etc.). Como programa de analisis estadstico, R-base permite
realizar tareas estadsticas sencillas habituales y ademas permite extensiones que
implementan tecnicas estadsticas avanzadas. De este modo se cubre las necesidades
de cualquier analista, tanto en el ambito de la estadstica profesional como en el de
la investigacion estadstica.
R consta de un sistema base pero la mayora de las funciones estadsticas vienen
agrupadas en distintos libros (o bibliotecas del ingles packages) que se incorporan
de forma opcional. Para los metodos de regresion no parametrica existen funciones
disponibles en el libro basico stats, no obstante el uso mas adecuado de dichos meto-
dos puede conseguirse a traves de funciones incorporadas en varios libros adicionales
y actualmente disponibles en la web. Entre estos libros destacan kernSmooth,
locpol, np, loct,lokern, monreg, loess, sm, lowess etc.
En este captulo haremos una descripcion casi exhaustiva de algunos de estos
libros. En concreto nos centraremos en los libros kernSmooth, locpol, loct y sm.
Se ha obviado solo en algunos casos, partes que no corresponden a los objetivos
concretos de este trabajo y mas concretamente de los metodos teoricos desarrollados
19
20 CAP
0
.
5
0
.
0
0
.
5
1
.
0
x
E
p
a
K
(
x
)
Figura 2.12: Locpol de equivKernel
3 2 1 0 1 2 3
0
.
5
0
.
0
0
.
5
1
.
0
x
E
p
a
K
(
x
)
Figura 2.13: Locpol de equivKernel
38 CAP
0
.
5
0
.
0
0
.
5
1
.
0
x
E
p
a
K
(
x
)
Figura 2.14: Locpol de equivKernel
3 2 1 0 1 2 3
0
.
5
0
.
0
0
.
5
1
.
0
x
E
p
a
K
(
x
)
Figura 2.15: Locpol de equivKernel
2.3. LIBRO LOCPOL 39
Funci on KernelChars
Descripcion: para un determinado n ucleo devuelve algunos de los valores numeri-
cos mas com unmente utilizados para funciones relacionadas con ellos.
Funciones: aqu tenemos las mismas que en el punto 2.2.1.
-- RK(K)
-- RdK(K)
-- mu2K(K)
-- mu0K(K)
-- K4(K)
-- dom(K)
Valor devuelto por las funciones: estas funciones devuelven un valor numerico.
Ejemplo de uso:
> g <- function(kernels)
+ {
+ mu0 <- sapply(kernels,function(x) computeMu0(x,))
+ mu0.ok <- sapply(kernels,mu0K)
+ mu2 <- sapply(kernels,function(x) computeMu(2,x))
+ mu2.ok <- sapply(kernels,mu2K)
+ Rk.ok <- sapply(kernels,RK)
+ RK <- sapply(kernels,function(x) computeRK(x))
+ K4 <- sapply(kernels,function(x) computeK4(x))
+ res <- data.frame(mu0,mu0.ok,mu2,mu2.ok,RK,Rk.ok,K4)
+ res
+ }
> g(kernels=c(EpaK,gaussK,TriweigK,TrianK))
mu0 mu0.ok mu2 mu2.ok RK Rk.ok K4
1 1 1 0.2000000 0.200000 0.6000000 0.6000000 0.4337657
2 1 1 1.0000000 1.000000 0.2820948 0.2820948 0.1994711
40 CAP
1X
T
W evaluados en la matriz xeval.
Valor devuelto por las funciones:
locCteWeightsC y locLinWeightsC devuelven una lista con dos componentes
que son:
den : estimacion de (n bw f(x))
p
+ 1.
locWeig : (X
T
WX)
1X
T
W evaluado en la matriz xeval.
locWeightsEvalC y locWeightsEval devuelven un vector con la estimacion. Y
realizan el producto matricial entre locWeig y y, para obtener la estimacion
dada por los puntos de xeval.
Ejemplo de uso:
> size <- 200
> sigma <- 0.25
42 CAP
0
.
5
0
.
0
0
.
5
1
.
0
d$x
d
$
y
Figura 2.20: Locpol de pluginBw
1
0.0 0.2 0.4 0.6 0.8 1.0
0
.
5
0
.
0
0
.
5
1
.
0
d$x
d
$
y
Figura 2.21: Locpol de pluginBw
2
54 CAP
0
.
5
0
.
0
0
.
5
1
.
0
d$x
d
$
y
Figura 2.22: Locpol de regCVBwSelC
58 CAP
0
.
5
0
.
0
0
.
5
1
.
0
d$x
d
$
y
Figura 2.23: Locpol de thumbBw
2.4. LIBRO LOCFIT 63
2.4. Libro Loct
En este libro llamado Loct se implementan funciones asociadas al calculo de
la regresion polinomial local, la verosimilitud y la densidad estimada. Los metodos
implementados se pueden consultar en los textos de Cook y Weisberg (1994), Loader
(1999). Dicho libro corresponde a la actualizacion del 17-04-2009, version 1.5-4.
El libro contiene muchas funciones, en este trabajo nos centramos tan solo en
aquellas asociadas al estimador de la densidad y de regresion de tipo polinomial local.
As como aquellas que permiten la seleccion del parametro de suavizado asociado.
Funciones que calculan la densidad estimada
Funcion density.lf: proporciona un interfaz para el calculo de la funcion de
densidad.
Uso de la funcion:
density.lf(x, n = 50, window = "gaussian", width, from, to,
cut = if(iwindow == 4.) 0.75 else 0.5,
ev = lfgrid(mg = n, ll = from, ur = to),
deg = 0, family = "density", link = "ident", ...)
donde:
window: es el tipo de ventana que se utiliza para la estimacion.
from: es el lmite inferior para el dominio de estimacion.
to: es el lmite superior para el dominio de estimacion.
cut: es la expansion de los controles por defecto del dominio.
Valor devuelto por la funcion: esta funcion devuelve una lista con los
componentes de x (puntos de evaluacion) e y (densidad estimada).
Ejemplo de uso:
> data(geyser)
> density.lf(geyser, window="tria")
64 CAP
1
0
1
2
3
y[1]
y
[2
]
Figura 2.29: sm de sm-density
2
70 CAP
1
0
1
2
3
4
5
x
y
Figura 2.32: sm de sm
2
x
[1
]
1
0
1
2
x
[
2
]
1
0
1
2
y
2
4
6
Figura 2.33: sm de sm
3
2.5. LIBRO SM 73
La funcion hcv utiliza la tecnica de validacion cruzada para seleccionar un
parametro de suavizacion adecuado para la construccion de la densidad esti-
mada o la curva de regresion no parametrica en una o dos dimensiones.
Uso de la funcion:
hcv(x, y = NA, hstart = NA, hend = NA, ...)
donde:
hstart: es el valor mas peque no de los puntos de la red para ser utilizado en
una b usqueda en la red inicial para el valor del parametro de suavizacion.
hend: es el mayor valor de los puntos de la red para ser utilizado en una
b usqueda en la red inicial para el valor del parametro de suavizacion.
Valor devuelto por la funcion: esta funcion devuelve el valor del parametro
de suavizacion que minimiza el criterio de validacion cruzada en la cuadrcula
seleccionada.
Ejemplo de uso:
> # Density estimation
> x <- rnorm(50)
> par(mfrow=c(1,2))
> h.cv <- hcv(x, display="lines", ngrid=32)
> sm.density(x, h=hcv(x))
> # Nonparametric regression
> x <- seq(0, 1, length = 50)
> y <- rnorm(50, sin(2 * pi * x), 0.2)
> par(mfrow=c(1,2))
> h.cv <- hcv(x, y, display="lines", ngrid=32)
> sm.regression(x, y, h=hcv(x, y))
7
4
C
A
P
I
T
U
L
O
2
.
S
O
F
T
W
A
R
E
D
I
S
P
O
N
I
B
L
E
E
N
R
0
.
2
0
.
4
0
.
6
0
.
8
0.36 0.34 0.32 0.30 0.28 0.26 0.24
h
CV
1
1
2
3
0.0 0.2 0.4 0.6
x
Probability density function
F
i
g
u
r
a
2
.
3
4
:
s
m
d
e
s
m
4
0
.
0
5
0
.
1
5
0
.
2
5
2 4 6 8 10
h
CV
0
.
0
0
.
4
0
.
8
1.0 0.5 0.0 0.5 1.0
x
y
F
i
g
u
r
a
2
.
3
5
:
s
m
d
e
s
m
5
2.5. LIBRO SM 75
La funcion hnormeval ua el parametro de suavizacion, asintoticamente optimo,
para estimar una funcion de densidad cuando la distribucion subyacente es
normal.
Uso de la funcion:
hnorm(x, weights)
Valor devuelto por la funcion: esta funcion devuelve el valor del parametro
de suavizacion asintoticamente optimo para el caso normal.
Ejemplo de uso:
> x <- rnorm(50)
> hnorm(x)
[1] 0.4273578
La funcion hsj utiliza el metodo plug-in de Sheather-Jones para la seleccion
de un parametro de suavizacion, que es adecuado para la construccion de la
densidad estimada unidimensional.
Uso de la funcion:
hsj(x)
Valor devuelto por la funcion: esta funcion devuelve el valor del parametro
de suavizacion encontrado por el metodo de Sheather-Jones.
Ejemplo de uso:
> x <- rnorm(50)
> hsj(x)
[1] 0.3350144
76 CAP
1
1
.
8
1
1
.
4
Longitude
L
a
t
i
t
u
d
e 2.5
3
Figura 2.36: sm de sm-discontinuity
1
0.0 0.2 0.4 0.6 0.8 1.0
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
x1
x
2
2
.5
3
3.5
4
4.5
Figura 2.37: sm de sm-discontinuity
2
80 CAP
1
1
.
8
1
1
.
6
1
1
.
4
Longitude 143
L
a
t
it
u
d
e
L
o
n
g
it
u
d
e
1
4
3
0.0
0.2
0.4
0.6
0.8
L
a
titu
d
e
11.8
11.7
11.6
11.5
11.4
11.3
S
c
o
r
e
1
[
Z
o
n
e
9
2
]
0.0
0.5
1.0
1.5
L
o
n
g
it
u
d
e
1
4
3
0.0
0.2
0.4
0.6
0.8
L
a
titu
d
e
11.8
11.7
11.6
11.5
11.4
11.3
S
c
o
r
e
1
[
Z
o
n
e
9
2
]
0.0
0.5
1.0
1.5
Figura 2.40: sm de sm-regression
1
Figura 2.41: sm de sm-regression
2
Figura 2.42: sm de sm-regression
3
2.5. LIBRO SM 85
0.0 0.2 0.4 0.6 0.8
0
.
0
0
.
5
1
.
0
1
.
5
2
.
0
Position[Zone92, 1]
S
c
o
r
e
1
[
Z
o
n
e
9
2
]
df = 6 h = 0.0948
Figura 2.43: sm de sm-regression
4
L
o
n
g
itu
d
e
1
4
3
0.0
0.2
0.4
0.6
0.8
L
a
t
i
t
u
d
e
11.8
11.7
11.6
11.5
11.4
11.3
S
c
o
r
e
1
[
Z
o
n
e
9
2
]
0.0
0.5
1.0
1.5
df = 12 h = ( 0.167 , 0.0863 )
Figura 2.44: sm de sm-regression
5
Figura 2.45: sm de sm-regression
6
86 CAP
ITULO 3. APLICACI
ON PR
ACTICA
n ucleos normales (argumento kernel =normal), y en este ejemplo hemos dejado
dicha eleccion por defecto. De este modo compararemos el resultado usando difer-
entes grados para lo cual hemos generado el siguiente codigo:
> data(geyser, package = "MASS")
> names(geyser)
[1] "waiting" "duration"
> x <- geyser$duration
> y <- geyser$waiting
> plot(x, y)
> fit <- locpoly(x, y, bandwidth = 0.25,degree=1)
> lines(fit,col="red")
> fit <- locpoly(x, y, bandwidth = 0.25,degree=0)
> lines(fit,col="blue")
> fit <- locpoly(x, y, bandwidth = 0.25,degree=2)
> lines(fit,col="green")
> fit <- locpoly(x, y, bandwidth = 0.25,degree=3)
> lines(fit,col="orange")
> legend(1,60,legend=c("p=1", "p=0", "p=2", "p=3"),lty=1,
+ col=c("red", "blue", "green", "orange"))
3.1. ESTUDIO CON DATOS REALES 89
1 2 3 4 5
5
0
6
0
7
0
8
0
9
0
1
0
0
1
1
0
x
y
p=1
p=0
p=2
p=3
Figura 3.1: Estimador polinomico local de grado p para los datos del geyser. La
variable x es duracion y la variable y es tiempo de espera y el tama no de la hoja de
datos es n = 299
Como se puede observar en la Figura 3.1 conforme vamos aumentando el grado
del estimador polinomico local, las estimaciones son mas irregulares, intentando
capturar en mayor medida las observaciones consideradas. Notese que como ya se
discutio en el captulo 1, esto supone estimaciones que pagan la disminucion en el
sesgo con un incremento notable de la variabilidad. Tambien es notable ver como
el incremento de p = 1 hasta p = 2 no supone una mejora del modelo (ni en sesgo
ni en variabilidad), de hecho como tambien se discutio al inicio de este trabajo es
preferible usar grados impares frente a los inmediatamente consecutivos pares (ver el
libro de Fan y Gijbels 1996 para una discusion mas detallada y algunos resultados
numericos).
Finalmente podemos ver como las diferencias entre el estimador de Nadaraya-
Watson que considera ajustes locales constantes (p = 0) presenta las mayores difer-
encias en la proximidades a las fronteras, esto es debido a que los ajustes lineales
locales (p = 1) permiten una correccion automatica de los efectos frontera (para
mas detalles se puede ver el libro de Wand y Jones 1994 o Fan y Gijbels 1996).
A continuacion vamos a ilustrar otro metodo de suavizamiento para dichos datos,
en concreto un estimador de tipo spline. Existen funciones para dicho proposito en
varios libros de R (SemiPar, ssplines, esplines, etc.), ademas de la funcion smooth.spline
dentro del libro base stats. En este caso hemos considerado esta ultima funcion y
la hemos comparado con el resultado ofrecido por la funcion sm.spline, que imple-
menta el estimador descrito en Heckman y Ramsay (1996), y que esta contenida
90 CAP
ITULO 3. APLICACI
ON PR
ACTICA
en el libro pspline. Dicho estimador se dene con un parametro de suavizado que
por defecto considera un criterio basado en validacion cruzada o validacion cruzada
generalizada.
Nosotros dejamos las deniciones por defecto que considera dicha funcion. A
efectos comparativos tambien hemos incluido el estimador lineal local con ancho
de banda plug-in (mas detalles sobre dicho procedimiento se daran en el ejemplo
siguiente, Figura 3.3). De este modo, el codigo generado para dicho ajuste y los
resultados ofrecidos son los siguientes:
data(geyser, package="MASS")
x <- geyser$duration
y <- geyser$waiting
plot(x,y,title=Suavizado por Splines para los datos del geyser,
+ xlab=Duracion,ylab=Tiempo de espera)
geyser.spl <- sm.spline(x,y)
geyser.spl
lines(geyser.spl, lty=1,lwd=2, col = "green")
geyser.sts<-smooth.spline(x,y)
geyser.sts
lines(geyser.spl, lty=2,lwd=2, col = "blue")
h1 <- dpill(x, y)
fit1 <- locpoly(x,y,bandwidth = h1, degree=1)
lines(fit1,col="red",lty=3,lwd=2)
legend(topright,legend=c("sm.spline", "smooth.spline",
+ "locpoly (plug-in)"), lwd=2,lty=1:3,
+ col=c("green","blue","red"))
1 2 3 4 5
5
0
6
0
7
0
8
0
9
0
1
0
0
1
1
0
Duracin
T
ie
m
p
o
d
e
e
s
p
e
r
a
sm.spline
smooth.spline
locpoly (plugin)
Figura 3.2: Estimador de tipo spline.
3.1. ESTUDIO CON DATOS REALES 91
La Figura 3.2 muestra los ajustes realizados. Podemos observar que los resultados
gracos de las funciones smooth.spline y sm.spline son identicos, si bien los algo-
ritmos implementos dieren ligeramente y los resultados de los objetos generados
tambien. En concreto se obtiene:
> geyser.spl
Call:
smooth.Pspline(x = ux, y = tmp[, 1], w = tmp[, 2], method = method)
Smoothing Parameter (Spar): 5.388047e-05
Equivalent Degrees of Freedom (Df): 32.3831
GCV Criterion: 31.59988
CV Criterion: 60.01679
> geyser.sts
Call:
smooth.spline(x = x, y = y)
Smoothing Parameter spar= 1.044891 lambda= 0.05174406 (12 iterations)
Equivalent Degrees of Freedom (Df): 3.366694
Penalized Criterion: 9604.32
GCV: 110.0222
Con respecto a la bondad de los ajustes vemos que el estimador lineal local ofrece
una estimacion mas suavizada que los splines en este caso.
Nuestro siguiente objetivo sera comparar todos los procedimientos disponibles
para la seleccion del ancho de banda, asociado al estimador lineal local. Los proced-
imientos para seleccionar el ancho de banda considerado son los metodos plug-in,
validacion cruzada y la sencilla regla del pulgar.
La implementacion de dichos metodos se hace en diversas funciones disponibles
en los libros KernSmooth, Locpol y sm (si bien existen algunas versiones mas
disponibles en otros libros de R que contienen posibilidades para metodos no parametri-
cos, como por ejemplo el libro Loct que implementa versiones del estimador que
jan el n umero de observaciones en el entorno local en lugar del tama no del mismo).
Todas ellas fueron ampliamente descritas en el captulo 2 de este trabajo, por
lo que aqu nos centraremos en su particular aplicacion a los datos con los que
estamos trabajando. Agrupando las funciones seg un la metodologa de seleccion que
implementan, podemos enumerar las siguientes:
92 CAP
ITULO 3. APLICACI
ON PR
ACTICA
Selectores de tipo plug-in: la funcion dpill que forma parte del libro KernS-
mooth, implementando el metodo de Ruppert, Sheather y Wand (1995). Y
la funcion pluginBw dentro del libro Locpol, que implementa el metodo
descrito en el libro de Fan y Gijbels (1996) paginas 110-112.
Selectores basados en Validacion Cruzada: la funcion regCVBwSelC, que
se puede encontrar en el captulo 2 de este trabajo en el libro Locpol, y la
funcion h.select del libro sm.
Usando dichas funciones nuestro objetivo es el calcular el estimador lineal local,
usando distintos parametros ancho de banda. En concreto par ametros seg un metodos
plug-in y validacion cruzada. Ademas de ilustrar el resultado nal, podremos discutir
las particularidades que conllevan la aplicacion de cada uno de ellos.
Dado que nuestro objetivo en este momento es el parametro de suavizado, volve-
mos a jar la eleccion de la funcion n ucleo de tipo gausiano y, como ya hemos
comentado antes, jamos ajustes de grado p = 1. El codigo generado para tales
propositos es el siguiente:
data(geyser, package="MASS")
x <- geyser$duration
y <- geyser$waiting
plot(x,y,title=Estimacion lineal local para los datos del geyser,
+ xlab=Duracion,ylab=Tiempo de espera)
h1 <- dpill(x, y)
h1
fit1 <- locpoly(x,y,bandwidth = h1, degree=1)
lines(fit1,col="red",lty=1,lwd=2)
h2<- pluginBw(x,y, deg=1, kernel=gaussK)
h2
fit2 <- locpoly(x, y , bandwidth = h2, degree=1)
lines(fit2,col="yellow",lty=2,lwd=2)
h3<- regCVBwSelC(x,y, deg=1, kernel=gaussK)
h3
fit3 <- locpoly(x,y,bandwidth = h3, degree=1)
lines(fit3,col="green",lty=3,lwd=2)
h4<-h.select(x, y,method = "cv")
h4
fit4 <- locpoly(x,y,bandwidth = h4, degree=1)
lines(fit4,col="blue",lty=4,lwd=2)
legend(topright,legend=c("h1-dpill", "h2-pluginBw","h3-regCVBwSelC",
+ "h4-h.select"),lwd=2,lty=1:4,col=c("red", "yellow", "green","blue"))
3.1. ESTUDIO CON DATOS REALES 93
Los resultados obtenidos para los parametros de suavizado son los siguientes:
> h1
[1] 0.2342897
> h2
[1] 0.08805326
> h3
[1] 0.739138
> h4
[1] 0.6789217
En el calculo de h2, el parametro seg un el metodo plug-in dentro del libro locpol
resulta notorio el valor tan peque no que se obtiene en comparacion con los otros.
Habra que estudiar el procedimiento implementado puesto que si observamos la esti-
macion resultante (Figura 3.3) la curva estimada sufre de regularidades inadmisibles
en las proximidades de la frontera inicial, debido a la escasez de observaciones.
El resultado correspondiente a los criterios basados en validacion cruzada (h3
y h4) son analogos, observandose leves diferencias que tendra que ver con la im-
plementacion concreta que se ha hecho del metodo (en concreto con la rejilla de
minimizacion denida para el criterio).
En este caso el mejor ajuste viene desde el metodo plug-in que implementa la
funcion dpill del libro KernSmooth.
1 2 3 4 5
5
0
6
0
7
0
8
0
9
0
1
0
0
1
1
0
Duracin
T
i
e
m
p
o
d
e
e
s
p
e
r
a
h1dpill
h2pluginBw
h3regCVBwSelC
h4h.select
Figura 3.3: Estimador lineal local con distintos h.
94 CAP
ITULO 3. APLICACI
ON PR
ACTICA
3.2. Estudio con datos simulados
Ilustraremos ahora los metodos de regresion no parametrica y en concreto el es-
timador polinomial local a partir de datos simulados. Nuestro objetivo ahora sera el
de cuanticar la bondad de las estimaciones (dado que conocemos los modelos ex-
actos) y ademas ilustrar aspectos interesantes del problema de regresion con sera el
del efecto del tama no muestral y la variabilidad de la muestra considerada.
De este modo estudiaremos el comportamiento de los estimadores con distintos
tama nos de muestra (n = 25, 50, 100y500) y con distintas desviaciones tpicas para
los residuos del modelo (0,3, 0,4y0,1).
De esta forma lo que se pretende es observar la convergencia de la curva teorica
y asimismo ver como el problema de estimacion se hace mas difcil de resolver a
medida que vamos aumentando el valor de la desviacion tpica de los residuos del
modelo.
Para realizar lo anterior consideramos el siguiente modelo de regresion:
Y = m(x) +
donde
m(x) = sen(2x) + 2exp(16x
2
)
y donde x se genera seg un una distribucion uniforme continua en el intervalo (2, 2)
y los residuos se consideran normales con media 0 y desviacion tpica .
En primer lugar, empezaremos comparando el estimador polin omico local (EPL)
con con grados p = 0, 1, 3. El parametro ancho de banda lo jamos en h = 0,15.
Y en segundo lugar, de forma similar al ejercicio que hicimos con los datos del
geyser, compararemos el EPL con los distintos metodos de seleccion para el ancho
de banda (plug-in, CV, regla del pulgar), jando ajustes de grado p = 1.
Para cuanticar la precision de las estimaciones resultantes utilizaremos como cri-
terio de error la suma residual de cuadrados sobre una rejilla de puntos de estimacion.
De este modo evaluaremos el estimador sobre una red de puntos x
l
, l = 1, ..., ngrid
equiespaciada en (2, 2) de tama no ngrid = 500. Una vez calculadas las estima-
ciones sobre la rejilla calcularemos los errores con la formula:
1
500
500
i=1
(m(x
l
) m
h
(x
l
))
2
(3.1)
y compararemos los resultados tomando la raz cuadrada.
Consideramos en primera lugar (caso 1) la estimacion considerando muestras
de tama no n = 100 y = 0,4. El codigo generado, as como los resultados obtenidos
son los siguientes:
3.2. ESTUDIO CON DATOS SIMULADOS 95
n<-100
sigma<-0.4
nucleo<-gaussK
regFun<-function(x) sin(2*x)+2*exp(-16*x^2)
x<-runif(n,-2,2)
mx<-regFun(x)
y<-mx+rnorm(n,mean=0,sd=sigma)
plot(x,y,main="Datos simulados")
curve(sin(2*x)+2*exp(-16*x^2),col="black",lwd=2,add=T)
h<- 0.15
fit0 <- locpoly(x,y,bandwidth = h,degree=0)
lines(fit0,col="orange",lty=2,lwd=2)
fit1 <- locpoly(x,y,bandwidth = h, degree=1)
lines(fit1,col="blue",lty=3,lwd=2)
fit3 <- locpoly(x,y,bandwidth = h, degree=3)
lines(fit3,col="green",lty=4,lwd=2)
legend(topright,legend=c("Curva teorica", "ajuste p=0",
"ajuste p=1","ajuste p=3"),lwd=2,lty=1:4,col=c("black",
"orange","blue","green"))
2 1 0 1 2
1
0
1
2
Datos simulados
x
y
Curva terica
ajuste p=0
ajuste p=1
ajuste p=3
Figura 3.4: Estimacion polinomial local a partir de datos simulados. El tama no
muestral es 100 y la desviacion tpica residual 0,4
Como se puede observar en la Figura 3.4, el graco cuando p = 0 y p = 1 son muy
parecidos los estimadores salvo en la frontera, debido a que p = 1 permite corregir
de forma automatica los efectos frontera. Los resultados para p = 3 muestran una
mayor irregularidad.
96 CAP
ITULO 3. APLICACI
ON PR
ACTICA
Consideramos ahora una disminucion en el tama no muestral hasta n = 25 man-
teniendo el mismo = 0,4 (caso 2). El codigo generado a tal efecto es analogo,
cambiando n<-25, y los resultados obtenidos se muestran en la Figura 3.5.
2.0 1.5 1.0 0.5 0.0 0.5 1.0 1.5
1
.
0
0
.
5
0
.
0
0
.
5
1
.
0
1
.
5
2
.
0
Datos simulados
x
y
Curva terica
ajuste p=0
ajuste p=1
ajuste p=3
Figura 3.5: Estimacion polinomial local a partir de datos simulados. El tama no
muestral es 25 y la desviacion tpica residual 0,4
Como se puede observar en el graco cuando hemos disminuido el tama no mues-
tral a 25 vemos que los estimadores presentan bastantes irregularidades, sobre todo
cuando intentamos ajustar un polinomio de grado alto (p = 3).
Considerando ahora un tama no de muestra intermedio de n = 50 (caso 3), y
usando un codigo similar en R obtenemos los resultados que se muestran en la Figura
3.6.
2 1 0 1 2
1
0
1
2
Datos simulados
x
y
Curva terica
ajuste p=0
ajuste p=1
ajuste p=3
Figura 3.6: Estimacion polinomial local a partir de datos simulados. El tama no
muestral es 50 y la desviacion tpica residual 0,4
3.2. ESTUDIO CON DATOS SIMULADOS 97
La convergencia a la curva teorica la podemos observar considerando un tama no
de muestra elevado como n = 500 (caso 4).
2 1 0 1 2
1
0
1
2
Datos simulados
x
y
Curva terica
ajuste p=0
ajuste p=1
ajuste p=3
Figura 3.7: Estimacion polinomial local a partir de datos simulados. El tama no
muestral es 500 y la desviacion tpica residual 0,4
A continuacion ilustraremos el comportamiento de los estimadores lineales locales
con diferentes metodos de seleccion del parametro de suavizado. Nos centramos
en el caso 1 en el que se simularon n = 100 datos con = 0,4. Los metodos
considerados son el selector basado en validacion cruzada calculado usando la funcion
regCVBwSelC, el de tipo plug-in calculado usando pluginBw y el calculado seg un
la simple regla del pulgar, ofrecido por la funcion thumbBw, todas ellas contenidas
en el libro locpol. La comparacion de los metodos la haremos va la raz cuadrada
del error denido en 3.1. El codigo generado para ello se muestra a continuacion:
n<-100
sigma<-0.4
ngrid<-500
nucleo<-gaussK
xgrid<-runif(ngrid,-2,2)
regFun<-function(x) sin(2*x)+2*exp(-16*x^2)
x<-runif(n,-2,2)
mx<-regFun(x)
y<-mx+rnorm(n,mean=0,sd=sigma)
p<-1
est <- function(h, x,y, xgrid,p,nucleo) return(locPolSmootherC(x,y,
xgrid, h, deg=p,kernel=nucleo)$beta0)
error<-function(val,est)return(sqrt(mean((val-est)^2)))
98 CAP
ITULO 3. APLICACI
ON PR
ACTICA
cvBwSel <- regCVBwSelC(x,y, deg=p, kernel=nucleo)
teoricos <- regFun(xgrid)
estimados <- est(cvBwSel, x,y,xgrid,p,nucleo)
cvError <- error(teoricos, estimados)
thBwSel <- thumbBw(x, y, deg=p, kernel=nucleo)
estimados <- est(thBwSel, x,y,xgrid,p,nucleo)
thError <- error(teoricos, estimados)
piBwSel <- pluginBw(x, y, deg=p, kernel=nucleo)
estimados <- est(piBwSel, x,y,xgrid,p,nucleo)
piError <- error(teoricos, estimados)
resultado <- list(n=n,cv=cvError,th=thError,pi=piError)
resultado
Los resultado obtenidos comparando con los tama nos muestrales n = 25, 50, 100, 500
se muestran de forma resumida en la siguiente tabla:
cv th pi
n= 25 0.3238807 0.2492679 NA
n= 50 0.2768001 0.2395432 0.2738346
n=100 0.2140991 0.2080944 0.2093302
n=500 0.07953835 0.09508265 0.08881742
De dichos resultados se puede observar que el comportamiento de los metodos
plug-in es ligeramente superior a validacion cruzada. No obstante la diferencia se
hace menos patente en tama nos de muestra lmite. Tambien es de destacar que
cuando se consideran pocos datos n = 25 no es posible el calculo del selector de tipo
plug-in. Esto es debido a que dichos metodos requieren estimaciones de las derivadas
que no son posibles en este caso.
Finalmente, repetiremos el ejercicio de comparacion de los selectores variando la
dicultad del problema de estimacion. Esto lo haremos variando la desviacion tpica
de los residuos del modelo, considerando = 0,001, 0,1, 0,5. El tama no de muestral
lo mantenemos en n = 100.
cv th pi
sigma= 0.001 0.01265973 0.08732214 0.03904589
sigma= 0.1 0.06306383 0.0912005 0.06364838
sigma= 0.5 0.2278124 0.1755693 0.1888333
Bibliografa 99
Desde la tabla de resultados obtenidos se observa un paralelismo entre aumentar
el tama no muestral y reducir la variabilidad residual. Cuando hay alta variabilidad
muetral = 0,5 validacion cruzada ofrece resultados pobres. En este caso son los
selectores de tipo plug-in y en particular la sencilla regla del pulgar.
100 Bibliografa
Bibliografa
[1] Wand, M. P. and Jones, M. C. (1995). Kernel Smoothing. Chapman and
Hall, London.
[2] Wand, M. P. (1994). Fast Computation of Multivariate Kernel Estimators.
Journal of Computational and Graphical Statistics, 3, 433-445.
[3] Sheather, S. J. and Jones, M. C. (1991). A reliable data-based bandwidth
selection method for kernel density estimation. Journal of the Royal Statistical
Society, Series B, 53, 683690.
[4] Scott, D. W. (1979). On optimal and data-based histograms. Biometrika, 66,
605610.
[5] Wand, M. P. (1995). Data-based choice of histogram binwidth. University of
New South Wales, Australian Graduate School of Management Working Paper
Series No. 95011.
[6] Ruppert, D., Sheather, S. J. and Wand, M. P. (1995). An eective band-
width selector for local least squares regression. Journal of the American Statis-
tical Association, 90, 12571270.
[7] John Fox, 2002. Nonparametric Regression. Appendix to An R and S-PLUS
Companion to Applied Regression.
[8] Fan, J. and Gijbels, I. Local polynomial modelling and its applications. Chap-
man and Hall, London (1996).
[9] Wand, M. P. and Jones, M. C. Kernel smoothing. Chapman and Hall Ltd.,
London (1995).
[10] Cristobal, J. A. and Alcala, J. T. (2000). Nonparametric regression esti-
mators for length biased data. J. Statist. Plann. Inference, 89, pp. 145-168.
[11] Ahmad, Ibrahim A. (1995). On multivariate kernel estimation for samples
from weighted distributions. Statistics and Probability Letters, 22, num. 2, pp.
121-129
101
102 Bibliografa
[12] Hardle W. (1990). Smoothing techniques. Springer Series in Statistics, New
York (1991).
[13] Loader, C. (1999). Local Regression and Likelihood. Springer, New York.
[14] Consult the Web page http://www.loct.info/.
[15] Cleveland, W. and Grosse, E. (1991). Computational Methods for Local
Regression. Statistics and Computing 1.
[16] Sheather, S. J. and Jones, M. C. (1991). A reliable data-based bandwidth
selection method for kernel density estimation. JRSS-B 53, 683-690.
[17] Bowman, A.W. and Azzalini, A. (1997). Applied Smoothing Techniques for
Data Analysis: the Kernel Approach with S-Plus Illustrations. Oxford University
Press, Oxford.
[18] Hurvich, C.M., Simono, J.S. and Tsai, C.-L. (1998). Smoothing parame-
ter selection in nonparametric regression using an improved Akaike information
criterion. J. R. Statistic. Soc., Series B, 60, 271-293.
[19] Bowman, A.W., Pope, A. and Ismail, B. (2006). Detecting discontinuities
in nonparametric regression curves and surfaces. Statistics and Computing, 16,
377390.
[20] Bowman, A.W., Jones, M.C. and Gijbels, I. (1998). Testing monotonicity
of regression. J.Comp.Graph.Stat. 7, 489-500.
[21] Bowman, A.W. (2006). Comparing nonparametric surfaces. Statistical Mod-
elling, 6, 279-299.
[22] Hastie, T.J. and Tibshirani R.J. Generalized Additive Models. Chapman
and Hall. (2000).
[23] Fan, J., Gijbels, I. and Hu, T.-C. and Huang, L.-S. (1996). An asymp-
totic study of variable bandwidth selection for local polynomial regression with
application to density estimation. Statistica Sinica, Vol. 6, No. 1.
[24] Wand, M.P. and Jones, M.C. (1994). Multivariate Plug-in Bandwidth Se-
lection. Computational Statistics, 9. pp. 97-116.
[25] Wand, M.P. and Jones, M.C. (1995). Kernel Smoothing. Monographs on
Statistics and Applied Probability 60. Ed. Chapman and Hall.
[26] Azzalini, A. and Bowman, A. W. (1990). A look at some data on the Old
Faithful geyser. Applied Statistics 39, 357-365.
Bibliografa 103
[27] Venables, W. N. and Ripley, B. D. (2002). Modern Applied Statistics with
S. Fourth edition. Springer.
[28] Heckman, N. and Ramsay, J. O. (1996). Spline smoothing with model based
penalties. McGill University, unpublished manuscript.
[29] Martnez Miranda, M.D., Raya Miranda, R., Gonzalez Manteiga, W.
and Gonzalez Carmona, A. (2008). A bootstrap local bandwidth selector for
additive models. Journal of Computational and Graphical Statistics, 17,38-55.
[30] Linton, O.B., and Nielsen, J.P. (1995). A Kernel Method of Esti-
mating Structured Nonparametric Regression Based on Marginal Integration.
Biometrika, 82, 93100.
[31] Kim,W., Linton, O.B., and Hengartner, N.W. (1999). A Computationally
Ecient Oracle Estimator for Additive Nonparametric Regression with Boot-
strap Condence Intervals. Journal of Computational and Graphical Statistics,
8, 278297.
[32] Kauermann, G., and Opsomer, J.D. (2003). Local Likelihood Estimation in
Generalized Additive Models. Scandinavian Journal of Statistics, 30, 317337.
[33] Nielsen, J.P., and Sperlich, S. (2005). Smooth Backtting in Practise. Jour-
nal of the Royal Statistical Society, Ser. B, 67, 4361.
[34] Mammen, E., and Park, C. (2005). Bandwidth Selection for Smooth Back-
tting in Additive Models. The Annals of Statistics, 33, 12601294.
[35] Severance-Lossin, E., and Sperlich, S. (1997). Estimation of Deriva-
tives for Additive Separable Models. Discussion paper, SBF 373. Humboldt-
University, Berlin.
[36] Opsomer, J.D., and Ruppert, D. (1997). Fitting a Bivariate Additive Model
by Local Polynomial Regression. The Annals of Statistics, 25, 186211.
[37] Nadaraya, E.A. (1964). On estimating regression. Theory Probab. Appl, No.9,
pp. 141-142.
[38] Watson, G.S. (1964). Smooth regression analysis. Sankhya Ser. A, No. 26, pp.
101-116.
[39] Eubank, R.L. (1988). Spline Smoothing and Nonparametric Regression. Mar-
cel Dekker, New York.
104 BIBLIOGRAF
IA
[40] Cleveland, W.S. (1979). Robust Locally Weighted Regression and Smoothing
Scatterplots. Journal of the American Statistical Association, Vol. 74, No. 368.
Theory and Methods, pp. 829-836.
[41] Ruppert,D. Wand, M.P. and Carroll, R.J. (2003). Semiparametric Regres-
sion. Cambridge Series in Statistical and Probabilistic Mathematics. Cambridge
University Press.
[42] Ruppert, D. and Wand, M.P. (1994). Multivariate Locally Weighted Least
Squares Regression. The Annals of Statistics, Vol. 22, No. 3, pp. 1346-1370.
[43] Bellman, R.E. (1961). Adaptive control processes. Princeton University Press.
[44] Friedman, J.H. and Stuetzle, W. (1981). Projection pursuit regression.
Journal of the American Statistical Association, Vol. 76, No. 376, pp. 817-823.
[45] Breiman, L. and Friedman, J.H. (1985). Estimating optimal transforma-
tions for multiple regression and correlation (with discussion). Journal of the
American Statistical Association, Vol. 80, pp. 580-619.
[46] Hastie, T.J. and Tibshirani R. (1990). Generalized additive models. Wash-
ington, D.C.;Chapman and Hall.
[47] Buja, A., Hastie, T.J. and Tibshirani, R. (1989). Linear smoothers and
additive models (with discussion). The Annals of Statistics, Vol. 17, No. 2, pp.
453555.
[48] Kim,W., Linton, O.B., and Hengartner, N.W. (1997). A nimble
method of estimating additive nonparametric regression. Electronic article,
http://www.stats.yale.edu.
[49] Hengartner, N.W. (1996). Rate optimal estimation of additive regression via
the integration method in the presence of many covariates. Preprint, Depart-
ment of Statistics, Yale University.
[50] Cook and Weisberg (1994). An Introduction to Regression Graphics. Wiley,
New York.