Documente Academic
Documente Profesional
Documente Cultură
o
c
u
m
e
n
t
o
Curso de Estadstica con R
s
T
Autor: Francisco Parra Rodrguez
Jefe de Servicio de Estadsticas
Econmicas y Sociodemogrficas
c
ICANE
n
i
DOC. N 2/2016
ISSN 2444 - 1627
Santander, Cantabria
c
o
s
1. EL MODELO LINEAL GENERAL ..................................................................................................3
1.1. INTRODUCCIN........................................................................................................................3
1.2. REGRESIN LINEAL SIMPLE. EL MTODO DE LOS MNIMOS CUADRADOS
ORDINARIOS. ........................................................................................................................................3
1.3. REGRESIN LINEAL MLTIPLE............................................................................................6
1.4. PROPIEDADES ESTADISTICAS DEL ESTIMADOR MNIMO CUADRADO: TEOREMA
DE GAUSS-MARKOV............................................................................................................................8
1.5. COEFICIENTES DE DETERMINACIN..................................................................................9
1.6. TABLA DE ANALIS DE LA VARIANZA (ANOVA).............................................................10
1.7. INFERENCIA ACERCA DE LOS ESTIMADORES................................................................11
1.7.1. Intervalos De Confianza.................................................................................................12
1.7.2. Contrastes de Hiptesis ..................................................................................................13
1.8. PREDICCIN EN EL MODELO DE REGRESIN ................................................................15
1.9. ESTIMACIN DE UN MODELO DE REGRESIN LINEAL CON R...................................15
1.10. LA CONSOLA R STUDIO. ..........................................................................................20
2. EXTENSIONES AL MODELO DE REGRESIN LINEAL......................................................25
2.1. INTRODUCCIN......................................................................................................................25
2.2. HETEROSCEDASTICIDAD.....................................................................................................27
2.2.1. Test de Bartlett ...............................................................................................................27
2.2.2. Contraste de Goldfeld-Quant..........................................................................................28
2.2.3. Contraste de White .........................................................................................................29
2.3 AUTOCORRELACIN...................................................................................................................30
2.3.1. Contraste de Durbin-Watson ....................................................................................................30
2.3.2. Contraste de Breush-Godfrey ...................................................................................................32
2.3. DEFICIENCIAS MUESTRALES: MULTICOLINEALIDAD .................................................33
2.4. ERRORES DE ESPECIFICACIN...........................................................................................35
2.4.1. Omisin de una variable relevante .................................................................................35
2.4.2. Inclusin de una variable innecesaria.............................................................................37
2.4.3. Especificacin funcional incorrecta ...............................................................................37
2.4.4. Contraste de errores de especificacin ...........................................................................37
2.5. METODOS DE SELECCIN DE VARIABLES EN EL MODELO DE REGRESIN
LINEAL. ................................................................................................................................................38
3. MODELOS CON VARIABLES CUALITATIVAS ....................................................................42
3.1. MODELOS CON VARIABLES CUANTITATIVAS Y CUALITATIVAS COMO
REGRESORES. .....................................................................................................................................42
3.2. MODELOS ANOVA .................................................................................................................43
3.3. MODELOS ANCOVA...............................................................................................................46
4. MODELO LINEAL GENERALIZADO..........................................................................................52
4.1. EL MODELO PROBABILSTICO LINEAL ............................................................................56
4.2. EL MODELO LOGIT ................................................................................................................58
4.3. MODELO PROBIT....................................................................................................................62
5. MODELOS CON DATOS DE PANEL.......................................................................................64
5.1. INTRODUCCIN......................................................................................................................64
5.2. ESPECIFICACIN GENERAL DE UN MODELO DE DATOS DE PANEL.........................65
5.3. VENTAJAS Y DESVENTAJAS DE LOS MODELOS DE DATOS DE PANEL....................67
5.4. MODELO DE EFECTOS FIJOS ...............................................................................................68
5.5. MODELO DE EFECTOS ALEATORIOS.................................................................................70
5.6. ELECCIN DE MODELO DE EFECTOS O EFECTOS ALEATORIOS................................71
1
6. MTODOS DE ESTIMACIN NO PARAMTRICOS...........................................................75
6.1. INTRODUCCIN......................................................................................................................75
6.2. FUNCIN NUCLEO .................................................................................................................76
6.3. ESTIMADORES DE FUNCIN NUCLEO Y POLINOMIOS LOCALES..............................79
6.4. REGRESIN POR SPLINES ....................................................................................................83
6.5. APROXIMACIN POR SERIES DE FOURIER......................................................................88
7. REGRESIN EN EL DOMINIO DE LA FRECUENCIA ...........................................................92
7.1. INTRODUCCIN......................................................................................................................92
7.2. REGRESIN BAND SPECTRUM ...........................................................................................93
7.3. REGRESIN EN EL DOMINIO DE LA FRECUENCIA CON PARAMETROS
DEPENDIENTES DEL TIEMPO. .........................................................................................................99
7.4. DESESTACIONALIZACIN A TRAVS DE LA REGRESIN DEPENDIENTE DE LA
FRECUENCIA.....................................................................................................................................106
8. MTODOS DE CLASIFICACION..............................................................................................111
8.1. INTRODUCCION....................................................................................................................111
8.2. ANALISIS DISCRIMINANTE ...............................................................................................113
8.3. REGRESION LOGSTICA......................................................................................................117
8.4. ALGORITMO K-VECINOS MAS CERCANOS. ...................................................................119
8.5. RBOLES DE CLASIFICACIN ..........................................................................................121
8.6. MQUINAS DE SOPORTE VECTOR...................................................................................126
8.7. METODOLOGAS COMBINANDO CLASIFICADORES.................................................130
9. BIBLIOGRAFA..............................................................................................................................132
10. ANEXO I ........................................................................................................................................137
2
1. EL MODELO LINEAL GENERAL
1.1. INTRODUCCIN
La regresin lineal es la tcnica bsica del anlisis economtrico. Mediante dicha tcnica
tratamos de determinar relaciones de dependencia de tipo lineal entre una variable dependiente
o endgena, respecto de una o varias variables explicativas o exgenas. Gujarati (1975), define
el anlisis de regresin como el estudio de la dependencia de la variable dependiente, sobre una
o ms variables explicativas, con el objeto de estimar o predecir el valor promedio poblacional
de la primera en trminos de los valores conocidos o fijos (en medias muestrales repetidas) de
las ltimas.
En este capitulo abordaremos el estudio del caso de una nica ecuacin de tipo lineal con una
variable dependiente y una independiente, y la generalizacin del modelo al caso de mltiples
variables exgenas. Las extensiones del modelo lineal general se analizarn en captulos
siguientes.
Partimos de la existencia de una relacin lineal entre una variable endgena (Y) y k variables
exgenas (Xi):
Yi 0 1 X 1i 2 X 2i ... k X ki ei
Nuestro objetivo consiste en estimar los parmetros i de la ecuacin anterior a partir de los
datos muestrales de los que disponemos. Para ello utilizaremos el mtodo de los Mnimos
Cuadrados Ordinarios (MCO), pero antes de ver en que consiste este mtodo debemos plantear
ciertas hiptesis sobre el comportamiento de las variables que integran el modelo.
De lo anterior se desprende que, a la hora de estimar los parmetros del modelo, resultar de
vital importancia que dicho trmino de error no ejerza ninguna influencia determinante en la
explicacin del comportamiento de la variable dependiente. Por ello, si el modelo est bien
especificado, cuando se aplica el mtodo de Mnimos Cuadrados Ordinarios, cabe realizar las
siguientes hiptesis de comportamiento sobre el trmino de error:
3
longitud de un determinado objeto, a veces al medir dicha longitud cometeremos un
error de medida por exceso y otras por defecto, pero en media los errores estarn
compensados.
2. La covarianza entre ei y ej es nula para i j tal que E (eiej) = 0. Ello quiere decir que
el error cometido en un momento determinado, i, no debe estar correlacionado con el
error cometido en otro momento del tiempo, j, o dicho de otro modo, los errores no
ejercen influencia unos sobre otros. En caso de existir este tipo de influencia o
correlacin, nos encontraramos ante el problema de la autocorrelacin en los residuos,
el cual impide realizar una estimacin por Mnimos Cuadrados vlida.
3. La matriz de varianzas y covarianzas del trmino de error debe ser escalar tal que
Var(ei) = 2I, i=1,,n, donde I es la matriz unidad. Dado que siempre que medimos
una variable, se produce un cierto error, resulta deseable que los errores que cometamos
en momentos diferentes del tiempo sean similares en cuanta. Esta condicin es lo que
se conoce como supuesto de homocedasticidad que, en caso de no verificarse, impedira
un uso correcto de la estimacin lineal por Mnimos Cuadrados.
Estas hiptesis implican que los errores siguen una distribucin Normal de media cero y
varianza constante por lo que, dado su carcter aleatorio, hace que los errores sean por
naturaleza impredecibles.
2. Las variables explicativas, Xi, son no estocsticas, es decir, son consideradas fijas en
muestreos repetidos.
3. El nmero de variables explicativas, k, siempre debe ser menor que el tamao muestral,
n. Es decir, siempre debemos disponer de ms observaciones que parmetros haya en el
modelo (coeficientes ).
Yi 0 1 X 1i ei
Si suponemos que se verifican los supuestos anteriores, la estimacin mnimo cuadrtica de los
parmetros 0 y 1, dar como resultado grfico una recta que se ajuste lo mximo posible a la
nube de puntos definida por todos los pares de valores muestrales (Xi,Yi), tal y como se puede
apreciar en el Figura 1.1.
4
Fig. 1.1. Nube de puntos o grfico de dispersin con variables relacionadas linealmente
El trmino de error, ei, puede ser entendido, a la vista del grfico anterior, como la distancia
que existe entre el valor observado, Yi, y el correspondiente valor estimado, que sera la
imagen de Xi en el eje de ordenadas. El objetivo de la estimacin por Mnimos Cuadrados
Ordinarios es, precisamente, minimizar el sumatorio de todas esas distancias al cuadrado; es
decir1:
n n n
Min ei2 (Yi Yi ) 2 (Yi 0 1 X i ) 2
i 1 i 1 i 1
n n
Yi n0 1 X i Y o 1 X
i 1 i 1
n n n
Yi X i 0 X i 1 X i2
i 1 i 1 i 1
X X Yi Y
n
i
1 i 1
X X
n
2
i
i 1
o Y 1 X
1
Los parmetros y variables que llevan encima un smbolo de acento circunflejo (^) indican que son
estimadas por lo que no se corresponden con el valor real del parmetro sino con el calculado por
nosotros.
5
1.3. REGRESIN LINEAL MLTIPLE
Y X e 1 X 1i 2 X 2i ... k X ki ei , i=1,2,, n
donde:
Y1
Y2
Y es el vector de observaciones de la variable endgena
...
Yn
X11 X12 ... X1k
X 21 X 22 ... X 2k
X X1 X2 ... Xk es la matriz de observaciones de las variables
... ... ... ...
X n1 X n2 ... X nk
exgenas
1
2 es el vector de coeficientes que pretendemos estimar
...
K
e1
e2
e es el vector de trminos de error
...
en
Yi o 1 X 1i 2 X 2i ... k X ki ei , i=1,2,, n
Suponiendo que se verifican las hiptesis que veamos antes, el problema a resolver nuevamente
es la minimizacin de la suma de los cuadrados de los trminos de error tal que:
6
Y X
n n n
ei2 Yi Yi
2 2
Min
i 1 i 1 i 1
Desarrollando dicho cuadrado y derivando respecto a cada i obtenemos el siguiente sistema de
ecuaciones normales expresado en notacin matricial:
X ' X X ' Y
en donde basta con despejar premultiplicando ambos miembros por la inversa de la matriz
( X ' X ) para obtener la estimacin de los parmetros del modelo tal que:
( X ' X ) 1 X ' Y
donde:
n 2 n n
n
X 1i X 1i X 2i ... X 1i X ki X 1i Yi
t 1 t 1 t 1 t 1
n n n
n
X ' X X ... X 2i X ki X `Y
2
X 2i X 1i 2i X 2i Yi
t 1 t 1 t 1
t 1
n ..... n
..... ...
n
..... n ....
X X X ki2 X Y
ki 1i X ki X 2i ... ki i
t 1 t 1 t 1 t 1
n
n
n
n
X
t 1
1i ...
t 1
X
Yi
ki
t 1
n n n
n
X'X X ... X 1i X ki X `Y X 1i Yi
2
X 1i 1i
t 1 t 1 t 1
t 1
n..... n
..... ...
n
..... n
....
X X Y
ki X ki i
2
ki X 1i ... X ki
t 1 t 1 t 1 t 1
Cada uno de los coeficientes estimados, i , son una estimacin insesgada del verdadero
parmetro del modelo y representa la variacin que experimenta la variable dependiente Y
cuando una variable independiente Xi vara en una unidad y todas las dems permanecen
7
constantes (supuesto ceteris paribus). Dichos coeficientes poseen propiedades estadsticas muy
interesantes ya que, si se verifican los supuestos antes comentados, son insesgados, eficientes y
ptimos.
E ( ) E ( X ' X ) 1 X ' e ( X ' X ) 1 X ' E (e) .
var( ) E E ( ) E ( )
'
E ( ) ( X ' X ) 1
X ' e ( X ' X ) 1 X ' e
Entonces
var( ) E ( X ' X ) 1 X ' ee' X ( X ' X ) 1 ( X ' X ) 1 X ' E ee'X ( X ' X ) 1 2 ( X ' X ) 1
donde D es una matriz (kn) arbitraria, que establece la diferencia entre el estimador MCO y el
estimador alternativo.
8
La esperanza de dicho estimador es:
~
E DX
~
Si es insesgado, entonces DX 0 . En otras palabras el estimador alternativo slo ser
insesgado si la matriz de distancia es ortogonal a las variables explicativas.
~ ~
~ ~
~
var( ) E E ( ) E ( )
'
~ E (~) DX ( X ' X ) 1
X ' e De ( X ' X ) 1 X ' D e
entonces,
~
var( ) ( X ' X ) 1 X ' D E ee' D' X ( X ' X ) 1 2 ( X ' X ) 1 D' D
~
y como D' D es una matriz semidefinida positiva, se demuestra que la var( ) var( ) con
~
independencia de la normalidad o no de las distribucin .
Una vez estimada la ecuacin de regresin lineal tiene inters determinar la exactitud del ajuste
realizado. Para ello hay que analizar la variacin que experimenta esta variable dependiente y,
dentro de esta variacin, se estudia qu parte est siendo explicada por el modelo de regresin y
qu parte es debida a los errores o residuos.
donde:
Cuando el modelo tiene trmino independiente, cada una de estas sumas viene dada por:
n
SCT Y ' Y nY 2 Yi 2 nY 2
i 1
n
SCE ' X ' Y nY 2 Yi 2 nY 2
i 1
9
n n n
SCR ei2 Y ' Y ' X ' Y Yi 2 Yi 2 SCT SCE
i 1 i 1 i 1
A partir de las expresiones anteriores es posible obtener una medida estadstica acerca de la
bondad de ajuste del modelo mediante lo que se conoce como coeficiente de determinacin (R2),
que se define como:
SCR
R2 1 , 0 R 1
2
SCT
SCE
R2 , 0 R 1
2
SCT
Mediante este coeficiente es posible seleccionar el mejor modelo de entre varios que tengan el
mismo nmero de variables exgenas, ya que la capacidad explicativa de un modelo es mayor
cuanto ms elevado sea el valor que tome este coeficiente. Sin embargo, hay que tener cierto
cuidado a la hora de trabajar con modelos que presenten un R2 muy cercano a 1 pues, aunque
podra parecer que estamos ante el modelo perfecto, en realidad podra encubrir ciertos
problemas de ndole estadstica como la multicolinealidad que veremos en el captulo 3.
Por otra parte, el valor del coeficiente de determinacin aumenta con el nmero de variables
exgenas del modelo por lo que, si los modelos que se comparan tienen distinto nmero de
variables exgenas, no puede establecerse comparacin entre sus R2. En este caso debe
emplearse el coeficiente de determinacin corregido R 2 , el cual depura el incremento que
experimenta el coeficiente de determinacin cuando el nmero de variables exgenas es mayor.
R2 1
SCR n k
SCT n 1
1
n 1
nk
1 R2
cuyo valor tambin oscila entre 0 y 1
SCE
Fexp k 1
SCR
nk
y la regla de decisin que rechaza la hiptesis H 0 ocurre cuando Fexp F (k 1, n k . ).
10
Yi o 1 X 1i 2 X 2i ... k X ki ei , i=1,2,, n
que nos proporciona la suma de cuadrados de los residuos e' e SCR ;
Yi o u ri , i = 1, . . . ,n,
n
que nos proporciona la suma de cuadrados de los residuos, u r ' u r i 1
(Yi Y ) SCT ;
Hasta el momento hemos visto como la estimacin por MCO permite obtener estimaciones
puntuales de los parmetros del modelo. La inferencia acerca de los mismos permite completar
dicha estimacin puntual, mediante la estimacin por intervalos y los contrastes de hiptesis.
Los primeros posibilitan la obtencin de un intervalo dentro del cual, con un determinado nivel
de confianza, oscilar el verdadero valor de un parmetro, mientras que los segundos nos
permitirn extraer consecuencias del modelo, averiguando si existe o no, evidencia acerca de
una serie de conjeturas que pueden plantearse sobre sus parmetros.
Por esta razn, a la estimacin que obtenemos en una investigacin por muestreo la acompaamos
con un intervalo de valores posibles. La amplitud de dicho intervalo depender del grado de
confianza que establezcamos.
El grado o nivel de confianza nos expresa el nmero de veces que la media verdadera de la
poblacin est incluida en cien intervalos de cien muestras extradas de una poblacin dada. El
11
nivel de confianza ms utilizado es el 95%, lo que quiere decir que 95 de cada 100 intervalos
construidos contendrn el verdadero valor de la media.
P[ X a X X b ] 1
Presentamos a continuacin cmo se construyen los intervalos de confianza para los distintos
trminos que hayamos estimado en el modelo:
ICi : ( i S tn k )
i
21 ... 1 K
1 2
2 ... 22 K
2 1 2
... ... ... ...
... 2K
K1 K 2
S S 2
... S 2
2 2 K
S 2 1
... ... ... ...
S S ... S 2
K 1 K 2 K
12
obtenidos a partir de la expresin S S e2 X ' X , donde S e2 es la estimacin de la varianza
1
S 2 (n k ) S 2 (n k ) SCR SCR
IC : e
; e
;
2 2 2 2 2
e 1 1
2 2 2 2
En este caso se asume que la Suma de Cuadrados de los Errores se distribuyen segn una
distribucin tambin derivada de la Normal que se conoce como 2 de Pearson. La distribucin
2 de Pearson es asimtrica. Su propiedad fundamental es que si sumamos dos 2
independientes de grados de libertad n1 y n2 , se obtiene una nueva variable 2 con grados de
libertad igual a la suma de n1 y n2 . Los grados de libertad que hay que considerar en el clculo
de los intervalos de confianza del trmino error son de n-k.
Una buena parte de las investigaciones estadsticas estn orientadas al desarrollo de procesos
encaminados a la contrastacin de hiptesis que previamente se han establecido.
Una hiptesis es una afirmacin que est sujeta a verificacin o comprobacin. Hay que tener
presente que una hiptesis no es un hecho establecido o firme, las hiptesis estn basadas en la
experiencia, en la observacin, en la experimentacin o en la intuicin del sujeto que las formula.
Cuando las hiptesis se plantean de tal modo que se pueden comprobar por medio de mtodos
estadsticos reciben el nombre de hiptesis estadsticas. Estas hiptesis son afirmaciones que se
efectan sobre uno o ms parmetros de una o ms poblaciones. Las hiptesis estadsticas son de
dos tipos: hiptesis nula e hiptesis alternativa. La hiptesis nula, o que no se verifique dicha
afirmacin, simbolizada por H0, es la hiptesis que se debe comprobar.
Para contrastar una hiptesis nula examinamos los datos de la muestra tomados de la poblacin y
determinamos si son o no compatibles con dicha hiptesis. Si son compatibles entonces H0 se
acepta, en caso contrario se rechaza. Si se acepta la hiptesis nula afirmamos que los datos de esa
muestra en concreto no dan suficiente evidencia para que concluyamos que la hiptesis nula sea
falsa; si se rechaza decimos que los datos particulares de la muestra ponen de manifiesto que la
hiptesis nula es falsa, entonces la hiptesis alternativa. H1, es verdadera.
El criterio que permite decidir si rechazamos o no la hiptesis nula es siempre el mismo. Definimos
un estadstico de prueba, y unos lmites que dividen el espacio muestral en una regin en donde se
rechaza la hiptesis establecida, y otra regin en la que no se rechaza, llamada regin de
aceptacin. A la regin donde se rechaza la hiptesis nula se le llama regin crtica. Esta regin es
un subconjunto del espacio muestral, y si el valor del estadstico de prueba pertenece a l se rechaza
la hiptesis nula.
13
El lmite entre la regin crtica y la regin de aceptacin viene determinado por la informacin
previa relativa a la distribucin del estadstico de prueba.
Sealar que un estadstico de prueba es una frmula que nos dice como confrontar la hiptesis nula
con la informacin de la muestra y es, por tanto, una variable aleatoria cuyo valor cambia de
muestra a muestra.
Otra de las consideraciones a realizar en el contraste de hiptesis es fijar la probabilidad del error de
rechazar la prueba siendo cierta, a este error se le denomina nivel de significacin. Por ejemplo, si
se utiliza un nivel de significacin de 0.05, equivale a decir que si para realizar un contraste
tomramos infinitas muestras de la poblacin, rechazaramos la hiptesis nula de forma incorrecta
un 5 % de las veces.
Los contrastes de hiptesis que normalmente se realizan en la estimacin MCO son los
siguientes:
Formulacin de la hiptesis: H 0 : j *j
H 1 : j *j
j *j
Estadstico experimental: texp
S
j
Formulacin de la hiptesis: H0 : j 0
H1 : j 0
j
Estadstico experimental: texp
S
j
14
c) Contraste de significacin global
SCE R2
k 1 k 1
Estadstico experimental: Fexp
SCR
nk
1 R
2
nk
Una vez estimado y validado el modelo, una de sus aplicaciones ms importantes consiste en
poder realizar predicciones acerca del valor que tomara la variable endgena en el futuro o para
una unidad extramuestral. Esta prediccin se puede realizar tanto para un valor individual como
para un valor medio, o esperado, de la variable endgena, siendo posible efectuar una
prediccin puntual o por intervalos. Su clculo se realiza mediante las expresiones que figuran a
continuacin:
15
disponen de libertad para ejecutar, copiar, distribuir, estudiar, cambiar y mejorar el software. De
hecho R dispone de una comunidad de desarrolladores/usuarios detrs que se dedican
constantemente a la mejora y a la ampliacin de las funcionalidades y capacidades del
programa. En la web http://www.r-project.org/ se encuentra disponible toda la informacin
acerca de R. La instalacin de R se realiza a travs de la CRAN (ComprehensiveR Archive
Network): http://cran.r-project.org
Actualmente R se distribuye para los siguientes Sistemas Operativos:
Windows: entorno grfico.
Linux (Debian/Mandrake/SuSe/RedHat/VineLinux)
MacOSX
Cdigo fuente: ampliacin a sistemas Unix
Las funciones de R se agrupan en paquetes (packages, libraries), los que contienen las funciones
ms habituales se incluyen por defecto en la distribucin de R, y el resto se encuentran
disponibles en la Comprehensive R Archive Network (CRAN).
Las entidades que R crea y manipula se llaman objetos. Dichos objetos pueden ser:
Escalares: nmeros, caracteres, lgicos (booleanos), factores
Vectores/matrices/listas de escalares
Funciones
Objetos ad-hoc
Dichos objetos se guardan en un workspace. Durante una sesin de R todos los objetos estarn
en memoria, y se pueden guardar en disco para prximas sesiones.
16
R trabaja sobre estructuras de datos. La estructura ms simple es un vector numrico, que
consiste en un conjunto ordenado de nmeros.
Un vector de reales se crea mediante la funcin c y se guarda con el nombre Cantidad.
> Cantidad <- c(2.456,2.325,2.250,2.200,2.100,2.082,2.045,2.024)
Se crea ahora el vector de nombre Precio.
> Precio <- c(82,92,94,99,106,108,112,115)
Para obtener los estadsticos bsicos del vector (Cantidad): media, desviacin estandar, varianza
y mediana, se utilizan las siguientes funciones R:
> mean(Cantidad)
> sd(Cantidad)
> var(Cantidad)
> median(Cantidad)
17
Factores (factor): tiles para el uso de datos categricos.
Listas (list): generalizacin de los vectores donde los elementos pueden ser de diferentes tipos
(incluso vectores o nuevas listas).
Data frames: matrices donde las diferentes columnas pueden tener valores de diferentes tipos.
Funciones (function): conjunto de cdigo de R ejecutable y parametrizable.
Una tabla debe estar en un objecto tipo matriz. Ejemplo:
Tabla<-matrix(c(652,1537,598,242,36,46,38,21,218,327,106,67),nrow=3,byrow=T)
La funcin read.table permite leer datos desde ficheros en formato ASCII. Devuelve como
resultado un data.frame, por tanto, se supone que cada lnea contiene los datos para un
individuo.
El fichero EXCEL personas.xls tiene el siguiente aspecto:
18
La funcin de R que nos permite estimar un modelo de regresin lineal es la funcin lm. La
forma de invocar a la funcin para estimar un modelo de regresin lineal simple es lm(y~x).
Se puede consultar la ayuda de la funcin para ver todas las posibilidades que ofrece.
> lm(Cantidad~Precio)
Call:
lm(formula = Cantidad ~ Precio)
Coefficients:
(Intercept) Precio
3.53427 -0.01336
En lugar de invocar simplemente la funcin podemos guardar su resultado en una variable y
veremos as que obtenemos ms informacin.
> reg = lm(Cantidad~Precio)
Si queremos obtener el vector de residuos bastar solicitar:
> reg$residuals
Para realizar el anlisis del modelo estimado utilizaremos la funcin summary. As:
> summary(reg)
19
1.10. LA CONSOLA R STUDIO
RStudio es una interfaz que permite acceder de manera sencilla a toda la potencia de R. Para
utilizar RStudio se requiere haber instalado R previamente. Al igual que R-project, RStudio es
software libre.
El objetivo de los creadores de RStudio es desarrollar una herramienta potente que soporte los
procedimientos y las tcnicas requeridas para realizar anlisis de calidad y dignos de confianza.
Al mismo tiempo, pretenden que RStudio sea tan sencillo e intuitivo como sea posible para
proporcionar un entorno amigable, tanto para los ya experimentados como para los nuevos
usuarios
La instalacin de RStudio se puede realizar desde la pgina oficial del programa
http://www.rstudio.org.
20
Para familiarizarnos con la consola R-Studio, vamos a cargar los datos de la encuesta de
presupuestos familiares de Espaa que se distribuyen a travs de la siguiente direccin web:
http://www.ine.es/dyngs/INEbase/es/operacion.htm?c=Estadistica_C&cid=1254736176806&me
nu=resultados&secc=1254736195147&idp=1254735976608, para ello nos vamos a auxiliar del
lenguaje Markdown.
Markdown es un lenguaje de marcado ligero creado por John Gruber que trata de conseguir la
mxima legibilidad y facilidad de publicacin tanto en su forma de entrada como de salida,
inspirndose en muchas convenciones existentes para marcar mensajes de correo electrnico
usando texto plano. En Anexo I aparecen las instrucciones bsicas de Markdown.
21
En el men file seleccionamos R Markdown, y creamos un documento al que llamamos Curso
de estadstica en R.
Instalamos la librera o Package-R: MicroDatosEs que incluye las funciones para leer el
fichero de microdatos de la Encuesta de Presupuestos Familiares. Base 2006 (EPF), cuyos
microdatos se descargan en la siguiente direccin web:
http://www.ine.es/dyngs/INEbase/es/operacion.htm?c=Estadistica_C&cid=1254736176806&me
nu=resultados&secc=1254736195147&idp=1254735976608
```{r}
library(MicroDatosEs)
setwd("D:/Curso de estadistica con R")
ecpf2014 <- epf.2011.hogares("Fichero de usuario de hogar a2014.txt")
str(ecpf2014)
```
Ejecutamos el Chunk:
22
Para realizar una estimacin MCO del gasto de los hogares a partir de los ingresos, hay que
utilizar las siguientes variables:
GASTMON: Importe total del gasto monetario anual del hogar elevado temporal y
poblacionalmente (para el salario en especie se contabiliza slo el importe del pago realizado
por el hogar).
IMPEXAC: Importe exacto de los ingresos mensuales netos totales del hogar.
Definimos el gasto por hogar y estimamos una regresin lineal entre gastos e ingresos en un
nuevo Chunk que ejecutamos:
```{r, echo=FALSE}
ecpf2014$GAST=ecpf2014$gastot/(12*ecpf2014$factor/10000)
est1 <- lm(ecpf2014$GAST~ecpf2014$impexac)
summary(est1)
```
##
## Call:
## lm(formula = ecpf2014$GAST ~ ecpf2014$impexac)
##
## Residuals:
## Min 1Q Median 3Q Max
## 9737.1 623.1 198.5 426.2 14583.7
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
23
## (Intercept) 1.000e+03 1.290e+01 77.52 <2e16 ***
## ecpf2014$impexac 7.130e01 5.613e03 127.02 <2e16 ***
##
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1062 on 22144 degrees of freedom
## Multiple Rsquared: 0.4215, Adjusted Rsquared: 0.4215
##Fstatistic:1.613e+04on1and22144DF,pvalue:<2.2e16
La librera-R:gvlma, junto a la presentacin de los resultados de la regresin incluye un test
sobre los supuestos bsicos del modelos de mnimos cuadrados ordinarios, se ejecuta con el
siguiente Chunk:
```{r, echo=FALSE}
library(gvlma)
gvmodelo <- gvlma(est1)
summary(gvmodelo)
plot(gvmodelo)
```
##Warning:package'gvlma'wasbuiltunderRversion3.2.3
##Call:
##lm(formula=ecpf2014$GAST~ecpf2014$impexac)
##
##Residuals:
##Min1QMedian3QMax
##9737.1623.1198.5426.214583.7
##
##Coefficients:
##EstimateStd.ErrortvaluePr(>|t|)
##(Intercept)1.000e+031.290e+0177.52<2e16***
##ecpf2014$impexac7.130e015.613e03127.02<2e16***
##
##Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1
##
##Residualstandarderror:1062on22144degreesoffreedom
##MultipleRsquared:0.4215,AdjustedRsquared:0.4215
##Fstatistic:1.613e+04on1and22144DF,pvalue:<2.2e16
##
##
##ASSESSMENTOFTHELINEARMODELASSUMPTIONS
##USINGTHEGLOBALTESTON4DEGREESOFFREEDOM:
##LevelofSignificance=0.05
##
##Call:
##gvlma(x=est1)
##
##ValuepvalueDecision
##GlobalStat96987.0280.0000AssumptionsNOTsatisfied!
##Skewness8351.4690.0000AssumptionsNOTsatisfied!
##Kurtosis87869.7310.0000AssumptionsNOTsatisfied!
##LinkFunction764.2730.0000AssumptionsNOTsatisfied!
##Heteroscedasticity1.5550.2124Assumptionsacceptable.
24
2. EXTENSIONES AL MODELO DE REGRESIN LINEAL
2.1. INTRODUCCIN
Como veamos en el capitulo anterior, el modelo de regresin lineal requiere que se cumplan las
siguientes hiptesis sobre los trminos de error:
Si se construye una grfica de los resultados de una estimacin mnimo cuadrtica (en
ordenadas) frente al valor absoluto de los residuos (en abscisas), cuando stos ltimos presentan
una distribucin aleatoria, es decir una distribucin Normal de media cero y varianza constante,
N (0, 2 ) , el resultado obtenido (vase Fig. 2.1.) muestra que el tamao del error es
independiente del tamao de la variable estimada, ya que errores con valor elevado se
corresponden con valores bajos y altos de la variable dependiente estimada; sin embargo, una
distribucin de residuos con problemas de heteroscedasticidad da lugar a una figura como la que
puede observarse en la figura 2.2., en donde se manifiesta una clara relacin de dependencia
entre la variable estimada y el tamao del error. En este caso los errores de mayor tamao se
corresponden con los valores ms altos de la variable estimada.
R e s id u o s a le a to rio s d e m e d ia c e ro y
v a ria n z a c o n s ta n te
3500
V a ri a b le e s ti m a d a
3000
2500
2000
1500
1000
500
0
0 200 400 600 800
R e si d u o s v a l o r a b so l u to (e )
25
R e s id u o s c o n h e te ro c e d a s tic id a d
3500
V a ria b le e s tim a d a
3000
2500
2000
1500
1000
500
0
0 200 400 60 0 800 10 0 0
R e sid u o s va lo r a b s o lu to (e )
La representacin grfica de los errores en forma de serie temporal, es decir, poniendo en el eje
de ordenadas los errores y en abscisas el periodo temporal en que estn datados, permite
apreciar la ausencia o presencia de correlacin ya que a los residuos no correlacionados (figura
2.3.) les corresponde una representacin grfica en la que no se aprecia pauta temporal alguna,
sucedindose de forma impredecible o aleatoria, mientras que en los residuos con problemas de
autocorrelacin la pauta temporal es evidente, evidencindose que cada residuo podra ser
previsto en funcin de la sucesin de los errores correspondientes a periodos temporales
pasados (figura 2.4.)
1000
500
0
-5001940 1950 1960 1970 1980 1990 2000 2010
-1000
26
Residuos con problema de autocorrelacin
1000
500
0
1940 1950 1960 1970 1980 1990 2000 2010
-500
-1000
Estos problemas asociados a los errores pueden detectarse con tests estadsticos diseados para
ello. A continuacin se describen dichos tests y la forma en que debe procederse para estimar
modelos en donde la estimacin mnimo-cuadrtica presenta problemas de este tipo asociados a
los residuos.
2.2. HETEROSCEDASTICIDAD
Decimos que el trmino de error de una estimacin mnimo-cuadrtica presenta
heteroscedasticidad cuando la varianza del mismo es diferente para las distintas observaciones
que integran la muestra, lo que implica que la variabilidad de los errores mnimo-cuadrticos
obtenidos estn relacionados de alguna manera con los datos utilizados en el modelo, ya sea por
estar relacionados con la escala temporal de los datos recogidos o por presentar alguna relacin
de dependencia con alguna de las variables exgenas utilizadas. Las consecuencias para la
estimacin mnimo-cuadrtica son que los estimadores de los coeficientes seguirn siendo
insesgados y lineales pero ya no sern de mnima varianza o eficientes. Estos problemas se
resuelven utilizando una tcnica de estimacin lineal que recibe el nombre de Mnimos
Cuadrados Generalizados (MCG), mtodo que se estudiar ms adelante.
El test de Bartlett se basa en de que la suposicin de que las n observaciones de los datos de la
variable a estimar por el modelo pueden agruparse en G grupos (g=1, 2, ..., G), cada uno de los
cuales se caracteriza por tener un distinto tipo de observaciones asociadas a la variable
explicativa, de tal manera que n1 sera el nmero de observaciones correspondientes al primer
grupo, n2 el nmero de observaciones asociadas al segundo grupo y, en general, nG es el nmero
de observaciones asociadas al grupo g-simo. A cada grupo le corresponde un valor medio de la
variable dependiente y una varianza para este valor medio.
El test contrasta si dicha varianza es igual o no entre los distintos grupos que se han construido
para la variable dependiente, admitindose la hiptesis de existencia de heteroscedasticidad si la
varianza es significativamente diferente entre los grupos formados.
27
Los pasos a seguir en la prctica para realizar el test de Bartlett son los siguientes:
2
1. Se estima la varianza ( s g ) de cada grupo de observaciones, g=1, 2, ..., G mediante la
siguiente expresin:
ng
( y
g 1
i yg )2
s g2
ng
2. Se calcula el estadstico S:
G ng 2 G
n log
s n log sg2
g 1 n g g 1 g
S
1 G 1 1
1
3(G 1) g 1 ng n
1. Ordenar todas las observaciones de las variables del modelo, de menor a mayor, en
funcin de la variable z.
4. Denominando SR1 y SR2 a las sumas de los cuadrados de los residuos de ambas
submuestras (de manera que el subndice 1 corresponda a la submuestra con la menor
suma) se define el estadstico F:
SCR1
F
SCR2
28
residuos est asociado con la varianza de los mismos, entonces SR2 debera ser
sensiblemente mayor que SR1. Por ello, se rechazara la hiptesis nula de
homocedasticidad siempre que el valor del estadstico F excede el valor en tablas de la
distribucin F(n-c-2k)/2, (n-c-2k)/2, aceptndose la existencia de heteroscedasticidad en caso
contrario.
El contraste de White se desarroll tambin para evitar la necesidad de considerar una forma
especfica para la heteroscedasticidad. El contraste se basa en que, bajo la hiptesis nula de
homocedasticidad, la matriz de varianzas y covarianzas de los estimadores MCO de es:
2 X ' X 1
Por ello, basta con contrastar la hiptesis nula de que todas estas diferencias son iguales a cero,
lo que equivale a contrastar que no hay heteroscedasticidad.
Los pasos a seguir para realizar el contraste de White son los siguientes:
2. Realizar una regresin del cuadrado de la serie de residuos obtenidos en el paso anterior
sobre una constante, las variables exgenas del modelo original, sus cuadrados y los
productos cruzados de segundo orden (los productos resultantes de multiplicar cada
variable exgena por cada una de las restantes). Es decir, se trata de estimar por MCO la
relacin:
et2 1X1 ...k Xk 1X12 ...k Xk2 1X1X2 ...k X1Xk 2X2X3 ...k X2Xk ... k Xk1Xk t
Ejemplo 2.1.
29
> install.packages("tseries")
data: x and y
X-squared = 746.56, df = 2, p-value < 2.2e-16
En este ejemplo el valor del estadstico nR 2 746,56 , dado que el valor de la distribucin
Chi-cuadrado terica para el nivel de significacin 0,05 da un valor crtico c 0,103
habra que aceptar la hiptesis de existencia de heterocedasticidad. El p-value es la probabilidad
asociada al estadstico calculado, al ser de 2.2e-16 y por tanto menor que 0,05, situara al
estadstico en la zona de aceptacin de la hiptesis H 0 .
2.3. AUTOCORRELACIN
Si se sospecha que el trmino de error del modelo economtrico tiene una estructura como la
siguiente:
et et 1 u t
30
n
(e
t 2
t et 1 ) 2
d n
e
t 1
2
t
El valor del estadstico d oscila entre 0 y 4, siendo los valores cercanos a 2 los indicativos de
ausencia de autocorrelacin de primer orden. La interpretacin exacta del test resulta compleja,
ya que los valores crticos apropiados para contrastar la hiptesis nula de no autocorrelacin
requieren del conocimiento de la distribucin de probabilidad bajo el supuesto de cumplimiento
de dicha hiptesis nula, y dicha distribucin depende a su vez de los valores de las variables
explicativas, por lo que habra que calcularla en cada aplicacin. Para facilitar la interpretacin
del test Durbin y Watson derivaron dos distribuciones: dU y dD, que no dependen de las
variables explicativas y entre las cuales se encuentra la verdadera distribucin de d, de forma
que a partir de un determinado nivel de significacin, se adopta la siguiente regla de decisin:
(e i et 1 ) 2 e e t t 1
d t 2
n
22 t 1
n
21 1
e
t 1
2
t et 1
2
t
Ejemplo 2.2.
En el siguiente ejercicio planteamos una regresin lineal entre el consumo de energa elctrica
en Espaa y el PIB a precios de mercado valorado en moneda constante (millones de euros).
> dwtest(formula)
> install.package(bgtest)
> library(bgtest)
> datos <- read.table(file="libro1.txt",header=T)
> datos
Aos CEnEl PIB
1 1987 9427 355312
2 1988 9876 373412
3 1989 10410 391443
4 1990 10974 406252
31
5 1991 11372 416582
6 1992 11488 420462
7 1993 11569 416126
8 1994 11999 426041
9 1995 12462 437787
10 1996 12827 448457
11 1997 13331 466513
12 1998 14290 486785
13 1999 15364 507346
14 2000 16309 528714
15 2001 17282 543746
16 2002 17756 554852
Durbin-Watson test
data: datos$PIB ~ datos$CEnEl
DW = 0.628, p-value = 0.0001192
alternative hypothesis: true autocorrelation is greater than 0
El test es ms general que el de DurbinWatson, que solo es vlido para regresores no-
estocsticos y para testear la posibilidad de un modelo autoregresivo de primer orden para los
errrores de regresin. El test BreuschGodfrey no tiene estas restricciones, y es estadsticamente
ms poderoso que el estadstico d .
Ejemplo 2.3.
32
Breusch-Godfrey test for serial correlation of order up to 3
data: datos$PIB ~ datos$CEnEl
LM test = 5.3733, df = 3, p-value = 0.1464
En este ejemplo el valor del estadstico n p R 2 5,37 , dado que el valor de la distribucin
Chi-cuadrado terica para el nivel de significacin 0,05 da un valor crtico c 7,81
habra que rechazar la hiptesis de existencia de autocorrelacin. El p-value es la probabilidad
asociada al estadstico calculado, al ser de 0,1454 y por tanto mayor que 0,05, situara al
estadstico en la zona de aceptacin de la H 0 , la que constituyen los valores del estadstico
inferiores al valor crtico.
Yi 0 1 X 1i 2 X 2i u i
X 2i cX 1i
n X 1 X 2
X ' X X 1 X 1
2
X X 1
2
X 2 X X X 2
1 2 2
33
n
X 1 c X 1
A X 1 X 1
2
c X 12
0 0 0
Sin embargo, en la prctica no nos encontraremos con un caso tan extremo como el que
acabamos de exponer, sino que generalmente nos encontraremos ante lo que se conoce como
multicolinealidad aproximada, siendo una de las columnas de la matriz ( X ' X ) ,
aproximadamente, una combinacin lineal del resto por lo que ser una matriz
aproximadamente singular. Al no ser el determinante de ( X ' X ) igual a cero, existir inversa y
podrn estimarse los parmetros pero con las siguientes consecuencias:
1
ser un mltiplo de ( X ' X ) , ser muy grande por ser el determinante de ( X ' X )
muy pequeo por lo que la estimacin realizada ser muy poco precisa al ser la
desviacin tpica de cada parmetro muy elevada.
1. Una posibilidad, sugerida por Johnston (1984), consiste en excluir aquella variable
exgena que puede estar muy correlacionada con el resto y posteriormente estimar el
coeficiente asociado a dicha variable mediante otro procedimiento para incluirlo en el
modelo.
34
2.4. ERRORES DE ESPECIFICACIN
Los errores de especificacin hacen referencia a un conjunto de errores asociados a la
especificacin de un modelo economtrico. En concreto cabe referirse a:
En Economa la teora no suele concretar la forma funcional de las relaciones que estudia. As,
por ejemplo, cuando se analiza la demanda se seala que la cantidad demandada es
inversamente proporcional al precio; cuando se estudia el consumo agregado se apunta que la
propensin marginal a consumir (relacin entre renta y/o consumo) es mayor que cero y menor
que uno. Por otro lado es frecuente utilizar la condicin ceteris paribus para aislar la
informacin de otras variables relevantes que influyen y/o modifican la relacin estudiada. Por
esta razn, la existencia de errores de especificacin en la relacin estimada es un factor a
considerar y a resolver en el proceso de la estimacin economtrica.
Para responder a esta cuestin, partimos del modelo de regresin lineal cuya especificacin
general es:
Yi = o+ 1 X1i ++ k Xki + ei
Para analizar las consecuencias de la omisin de una variable relevante, vamos a partir del
siguiente modelo verdadero:
Yi = 0 + 1 X1i + vi (2.2)
Dado que la variable excluida X2i est relacionada con la variable dependiente Yi, entonces se
deduce que:
35
1
X 1i X 1 y i
X X1
2
1i
X X 1 1 x1i 2 x 2i ei X X 1 1 X 1i X 1 X 2i X 2 2 X 1i X 1 ei
2
1i 1i
1
X X1 X X1
2 2
1i 1i
Al tomar esperanzas condicionales con respecto a los valores de las variables independientes y
dado que E(e| x1, x2, , xk) = 0, se obtiene que:
E 1 1 2
X X X X
1i 1 2i 2
X X
2
1i 1
lo que implica que E ( 1 ) no ser igual a 1, por lo que estar sesgado siendo su sesgo:
2
X X X X
1i 1 2i 2
X X
2
1i 1
Expresin cuyo signo viene determinado por el signo del coeficiente 2 y por el sentido de la
correlacin entre las variables X1 y X2.
Var 1 e2
X 1i
X 1 1 r12, 2
2
donde r21,2 es el R2 resultante de regresar X1 sobre X2.
Y adems:
v2
Var 1
X X1
2
1i
entonces Var (1 ) ser diferente de Var ( 1 ) , y por lo general ser mas pequea ya que
0<r21,2<1; pero an en el caso en que r21,2=0, que implicara que X1 y X2 no estn
correlacionadas, y aunque el estimador MCO de 1 no fuera insesgado (ya que el sesgo de las
variables omitidas se anulara porque el termino 1i
X X 1 X 2i X 2 sera cero), las
X 1i X 1
2
36
2.4.2. Inclusin de una variable innecesaria
Yi = 0 + 1 X1i + ei
Pero como desde el punto de vista de las varianzas ahora resulta que:
Var 1
e2
X X1
2
1i
v2
Var 1
X X 1 1 r12, 2
2
1i
Puesto que 0< r21,2<1, se cumplira que Var (1 ) Var ( 1 ) , es decir, la varianza de la
estimacin MCO de 1 sera mayor que la estimacin MCO de 1.
Si especificamos la forma funcional de una relacin (ya sea lineal, cuadrtica, cbica,
exponencial, logartmica, etc.) y la verdadera relacin presenta una forma diferente a la
especificada tiene, en algunos casos, las mismas consecuencias que la omisin de variables
relevantes, es decir, proporciona estimadores sesgados e inconsistentes. En general, una
especificacin funcional incorrecta lleva a obtener perturbaciones heteroscedsticas y/o
autocorrelacionadas, o alejadas de los parmetros de la distribucin del trmino de error del
modelo correctamente especificado.
2. Se efecta una nueva regresin incluyendo Yi en alguna forma, con uno o varios
regresores adicionales, por ejemplo:
Yi 0 1 X i 2Yi 2 3Yi 3 ei
37
2
3. Considerando el R2 obtenido en el modelo inicialmente especificado, RA , y el R2
2
obtenido en la segunda regresin, RB , se construye el siguiente estadstico:
R 2
B RA2
F l
1 RB2
(n k )
En otras palabras, ante un conjunto elevado de explicativas debemos seleccionar de entre todas,
un subconjunto de ellas que garanticen que el modelo est lo mejor especificado posible. Este
anlisis cabe hacerlo estudiando las caractersticas y propiedades de cada una de las variables
independientes, a partir, por ejemplo, de los coeficientes de correlacin de cada una de ellas y la
dependiente, y de cada explicativa con las restantes, seleccionando modelos alternativos y
observando los resultados estadsticos de la estimacin MCO de cada uno de ellos. Sin
embargo, en la prctica, la seleccin del subconjunto de variables explicativas de los modelos de
regresin se deja en manos de procedimientos ms o menos automticos.
Mtodo backward: se comienza por considerar incluidas en el modelo terico a todas las
variables disponibles y se van eliminando del modelo de una en una segn su capacidad
explicativa. En concreto, la primera variable que se elimina es aquella que presenta un
menor coeficiente de correlacin parcial con la variable dependiente-o lo que es
equivalente, un menor valor del estadstico t y as sucesivamente hasta llegar a una
situacin en la que la eliminacin de una variable ms suponga un descenso demasiado
acusado en el coeficiente de determinacin.
Mtodo forward: se comienza por un modelo que no contiene ninguna variable
explicativa y se aade como primera de ellas a la que presente un mayor coeficiente de
correlacin -en valor absoluto- con la variable dependiente. En los pasos sucesivos se va
incorporando al modelo aquella variable que presenta un mayor coeficiente de
correlacin parcial con la variable dependiente dadas las independientes ya incluidas en
38
el modelo. El procedimiento se detiene cuando el incremento en el coeficiente de
determinacin debido a la inclusin de una nueva variable explicativa en el modelo ya
no es importante.
Mtodo stepwise: es uno de los ms empleados y consiste en una combinacin de los
dos anteriores. En el primer paso se procede como en el mtodo forward pero a
diferencia de ste, en el que cuando una variable entra en el modelo ya no vuelve a salir,
en el procedimiento stepwise es posible que la inclusin de una nueva variable haga que
otra que ya estaba en el modelo resulte redundante.
El modelo de ajuste al que se llega partiendo del mismo conjunto de variables explicativas es
distinto segn cul sea el mtodo de seleccin de variables elegido, por lo que la utilizacin de
un procedimiento automtico de seleccin de variables no significa que con l se llegue a
obtener el mejor de los modelos a que da lugar el conjunto de datos con el que se trabaja.
Ejemplo 2.4.
Utilizando los microdatos de la EPF, vamos a completar un modelo explicativo de los gastos
por hogar, para ellos seleccionamos como posibles variables explicativas, adems de los
ingresos corrientes del hogar, las siguientes variables:
Todas las variables excepto las tres ltimas son numricas, las dos ltimas son variables
cualitativas (factores).
2
Las categoras 07 a 11 se refieren exclusivamente a hogares formados por padres e hijos, incluyendo
los adoptados y los que son hijos slo de un miembro de la pareja. En el caso en que haya otras personas
en el hogar, ste se clasificara en 12.Otros hogares. Se considera adulto a toda persona de 16 o ms
aos
39
Pareja sin hijos
5 Pareja sin hijos teniendo al menos uno de los miembros 65 aos o ms
6 Pareja sin hijos teniendo los dos miembros menos de 65 aos
Para realizar la seleccin de un modelo por el mtodo forward necesitamos instalar la librera-
R: leaps, una vez instalada ejecutamos el siguiente Chunk:
```{r, echo=FALSE}
datos <-
data.frame(ecpf2014[,11],ecpf2014[,25:34],ecpf2014[,41],ecpf2014[,52:5
3],ecpf2014$impexac)
str(datos)
library(leaps)
40
regfit.fwd=regsubsets(y~.,data=datos,method="forward")
plot(regfit.fwd)
coef(regfit.fwd,9)
```
##(Intercept)
##2199.60830
##nmiemb
##68.89259
##nmiem11
##150.39439
##nmiem13
##207.45699
##numinacti
##245.64795
##tiphogar1:Unapersonade30a64aos.
##340.29367
##tiphogar1:Parejaconunhijomenorde16aos.
##193.07523
##situocuhog:Ningnocupadoenelhogar.
##962.83813
##situacthog: El sustentador principal o el cnyuge activo, otro de
losmiembrostambinactivo.
##261.19099
##numnoestu
##27.50668
41
3. MODELOS CON VARIABLES CUALITATIVAS
Las variables cualitativas expresan cualidades o atributos de los agentes o individuos (sexo,
religin, nacionalidad, nivel de estudios, etc.) y tambin recogen acontecimientos
extraordinarios como guerras, terremotos, climatologas adversas, huelgas, cambios polticos
etc.
No cabe duda de que una forma de recoger factores de este tipo sera la utilizacin de variables
proxy o aproximadas a las variables utilizadas. Por ejemplo, si quiero utilizar una variable que
mida el nivel cultural de un pas (variable cualitativa) puedo utilizar como variable proxy el
nmero de bibliotecas existentes en un pas, o representa una climatologa adversa a partir de las
temperaturas medias o precipitaciones. Sin embargo, no siempre es posible encontrar este tipo
de variables y, en cualquier caso, debemos de ser conscientes de la posible existencia de errores
en la definicin de la variable.
Las variables dicotmicas pueden combinarse para caracterizar variables definidas por su
pertenencia o no a un grupo. Si incluyo una variable cualitativa que me define la pertenencia o
no de un pas a un grupo, por ejemplo renta alta, media y baja, introducir tres variables
cualitativas en el modelo asociadas a la pertenencia o no a cada grupo; la primera caracterizara
a los individuos con renta alta, la segunda a los individuos con renta media, y la tercera a los
individuos con renta baja.
Los modelos que utilizan variables cualitativas como regresores se diferencian en dos grupos,
los modelos de Anlisis de la Varianza o modelos ANOVA, que nicamente incluyen variables
cualitativas como regresores; y los modelos de Anlisis de la Covarianza o modelos ANCOVA
que incluyen tanto variables cualitativas como cuantitativas. Los modelos ANOVA son muy
utilizados en Sociologa, Psicologa, Educacin, etc.; en Economa son ms comunes los
modelos ANCOVA.
42
3.2. MODELOS ANOVA
Un problema estadstico clsico es la comparacin de medias de dos distribuciones normales.
Supongamos que las observaciones de la variable Yi , provienen de dos distribuciones normales
con medias 1 y 2 y varianza comn 2 . El tamao de la primera distribucin se circunscribe
a las n1 primeras observaciones, y el de la segunda las n n1 restantes observaciones.
Queremos constrastar la hiptesis H o : 1 2 frente a la alternativa H o : 1 2 al nivel de
significacin de .
Este contraste de igualdad de medias cabe formularlo en el marco del modelo lineal general.
As, bajo H o tenemos el siguiente modelo de regresin mltiple utilizando variables Dummy:
Yi 1 D1i 2 D 2i ei
Siendo:
1 si i 1,..., n1 0 si i 1,..., n1
D1i D2i
0 si i n1 1,..., n 1 si i n1 1,..., n
1 D1 D 2 n
n
i D 2 i Yi
2
i D2i
i 1 i 1 i 1
n n n
Teniendo presente que D1
i 1
2
i n1 , D2
i 1
2
i n n1 n2 , D1 D2
i 1
i i 0,
n n1 n n
D1i Yi Yi y D2i Yi
i 1 i 1 i 1
Y , el estimador mnimo cuadrtico quedara:
i n1 1
i
n1
1 Yi
1 n1 0 i 1 Y1
1 0 n2 n Y
Yi 2
i n1 1
e 2
i
2 i 1
.
n2
La hiptesis H o : 1 2 0 se rechaza con el estadstico terico ttco t n2 ( / 2) si
texp ttco .
43
El anlisis anterior se extiende a la comparacin de medias con tres o ms distribuciones
normales. Suponemos ahora que las n observaciones proceden de tres distribuciones normales
con medias 1 , 2 y 3 y varianza comn 2 , correspondientes a tres muestras que contienen
las n1 primeras observaciones, n2 siguientes y 3 n n1 n2 ultimas observaciones.
2
2 0 n 2 0 Yi Y2
0 0 n in1 1 Y
3 3 n 3
i Y
i n2 1
Para contrastar la hiptesis H o : 1 2 3 , se utiliza el contraste de significacin global,
R2
para el que construimos es estadstico experimental Fexp 2 , siendo el estadstico
(1 R 2 )
n3
terico Ftco F (2, n 3) , la hiptesis se rechazara con la regla de decisin Fexp Ftco .
Ejemplo 3.1.
##Nmnl.itemw/8labelsfor1,2,3,...num[1:22146]998252
8522...
##DfSumSqMeanSqFvaluePr(>F)
##ecpf2014$situacthog12.002e+08200217093103.2<2e16***
##Residuals221444.295e+101939679
##
44
##Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1
## Warning in replications(paste("~", xx), data = mf): nonfactors
ignored:
##ecpf2014$situacthog
##Tablesofeffects.
##ecpf2014$situacthog
##ecpf2014$situacthog
##9
##174.61
##Elsustentadorprincipalyelcnyugeactivos,almenosotrodelos
miembrostambinactivo.
##11.93
##Elsustentadorprincipalyelcnyugeactivos,ningunodelosotros
miembrosactivos(siesqueloshay)
##4.34
##Elsustentadorprincipaloelcnyugeactivo,ningunodelosotros
miembrosactivos(siesqueloshay)
##53.14
##69.41
##Ningnactivoenelhogar
##101.95
45
Utilizando la funcin lm, e incluyendo un trmino constante.
```{r, echo=FALSE}
mod2 <- lm(ecpf2014$GAST ~ as.factor(ecpf2014$situacthog))
anova (mod2)
```
##AnalysisofVarianceTable
##
##Response:ecpf2014$GAST
##DfSumSqMeanSqFvalue
##as.factor(ecpf2014$situacthog)73.1069e+09443837987235.76
##Residuals177633.3440e+101882556
##Pr(>F)
##as.factor(ecpf2014$situacthog)<2.2e16***
##Residuals
##
##Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1
Este modelo es ms fcil de interpretar, ya que considerando un consumo promedio por hogar
de 2962.27, los hogares en donde el sustentador principal y el cnyuge estn activos, y ninguno
de los otros miembros est activos (si es que los hay) , consumiran al mes 175.84 euros que el
hogar medio, en tanto que ni el sustentador principal ni su cnyuge activos, pero al menos otros
dos miembros est activos, consumira 44.69 euros ms al mes que el hogar medio.
De este grupo de individuos conocemos algunas otras caractersticas que pueden ser
transcendentes a la hora de nuestro anlisis, por ejemplo si estn o no estn casados. Utilizando
dicha informacin creamos las siguientes variables dummy:
Si por ejemplo la muestra de individuos que tenemos es de n=10, de los cuales cuatro de ellos
estn casados, las variables dummy tendran la siguiente estructura:
46
1 0
0 1
0 1
1 0
0 1
D1 0 D 2 1
0 1
0 1
1 0
1 0
De cara a estudiar los efectos del estado civil sobre el ahorro podemos estar interesados en saber
si los casados parten de un nivel de ahorro diferente de los solteros, o bien si las diferencias
entre solteros y casados derivan en que unos y otros tienen una diferente propensin marginal a
ahorrar. En el primer caso se trata de conocer si 0 es diferente entre los dos grupos de
individuos, y en el segundo, si lo es 1.
El planteamiento del problema para observar las diferencias de cada grupo respecto a 0 se
puede realizar a travs de las siguientes especificaciones del modelo ANCOVA:
Yi=0+1D1i+1Xi+ei (3.1)
Yi=0+2D2i+1Xi+ei (3.2)
Yi=1D1i+2D2i +1Xi+ei (3.3)
En este caso:
Las tres especificaciones son equivalentes, y hay que tener presente que en la especificacin del
modelo (3.3) se prescinde del trmino constante ya que de no hacerlo as tendramos un
problema de multicolinealidad exacta entre el trmino constante y las dos variables dummy.
Yi = 0+1D1i+2D2i +1Xi+ei
La matriz X quedara:
47
1 1 0 X1
1 0 1 X 2
1 0 1 X3
1 1 0 X4
1 0 1 X5
X
1 0 1 X6
1 0 1 X7
1 0 1 X8
1 1 0 X9
1 1 0 X 10
En la que se aprecia que la suma de las columnas 2 y 3 da como resultado la primera columna,
lo que provoca que la matriz (XX) sea no singular.
Para el anlisis del comportamiento de cada grupo respecto a la pendiente, aqu propensin
marginal a ahorrar, podemos plantear las siguientes especificaciones del modelo ANCOVA:
En este caso:
Si queremos incluir en modelo otra caracterstica de los individuos como sera por ejemplo la
profesin y distinguimos entre tres profesiones: agricultores, asalariados y empresarios, habra
que crear tres nueva variables dummy:
48
1, si i es agricultor
E1i
0, si i no es agricultor
1, si i es asalariado
E 2i
0, si i no es asalariado
1, si i es empresario
E 3i
0, si i no es empresario
Si bien a la hora de especificar el modelo hay que evitar los problemas de multicolinealidad
entre todas las variables dummy incluidas y el trmino constante. Una forma de evitar los
problemas es no incluir alguna de las categoras en forma de variable dummy, y dejar que la
constante recoja el efecto de la categora no incluida. Una especificacin posible de un modelo
ANCOVA sera entonces:
Yi = 0+1D1i+1E1i+2E2i +1Xi+ei
Las variables cualitativas tambin pueden corresponder a hechos que concurren en un periodo
de tiempo y tener la forma de serie temporal. Este tipo de variables se utilizan para observar los
efectos que sobre el modelo provocan sucesos extraordinarios como son las huelgas, una
climatologa adversa, cambios polticos e incluso cambios en la metodologa estadstica de
elaboracin de los datos.
1 si t T1 0 si t T1
D1t D 2t (1 D1t )
0 si t T1 1 si t T1
1 0
. .
. .
1 0
D1 D 2
0 1
. .
. .
0 1
D1 tienen tantos unos como observaciones hay hasta T1 y D2 tiene tantos unos como
observaciones hay entre T1 y T.
El anlisis del efecto del suceso extraordinario sobre la regresin puede realizarse de forma
separada para cada periodo de 1 a T1 y T1 a T, o conjuntamente para todo el periodo, bien sobre
el termino constante 0 o sobre la pendiente 1.
49
Para el anlisis de los efectos sobre el trmino constante tendremos que plantear los siguientes
modelos de regresin:
Yt=0+1D1t+1Xt+et (3.7)
Yt=0+2D2t+1Xt+et (3.8)
Yt=1D1t+2D2t +1Xt+et (3.9)
En este caso:
Si queremos analizar el efecto del acontecimiento extraordinario sobre la pendiente del modelo,
plantearemos las siguientes ecuaciones de regresin:
En cuyo caso:
Para tomar una decisin acerca de que modelo ANCOVA seleccionar entre las varias
especificaciones que utilizan variables cualitativas, hay utilizar el contraste de errores de
especificacin descrito en el apartado 3.5.4.
Ejemplo 3.2.
Partiendo de la base de datos ecpf2014 preparamos un Chunk, con la funcin lm, utilizando
ahora como explicativas la iteracin situacthog e ingresos del hogar:
```{r, echo=FALSE}
mod3 <- lm(ecpf2014$GAST ~ as.factor(ecpf2014$situacthog)* ecpf2014$
impexac)
anova (mod3)
##AnalysisofVarianceTable
50
##
##Response:ecpf2014$GAST
##DfSumSq
## as.factor(ecpf2014$situacthog) 7 3.1069e+09
##ecpf2014$impexac11.2390e+10
##as.factor(ecpf2014$situacthog):ecpf2014$impexac75.0244e+07
##Residuals177552.0999e+10
##MeanSqF
Value
##as.factor(ecpf2014$situacthog)4.4384e+08
375.2692
##ecpf2014$impexac1.2390e+10
10476.2225
##as.factor(ecpf2014$situacthog):ecpf2014$impexac7.1777e+06
6.0688
##Residuals1.1827e+06
##Pr(>F)
##as.factor(ecpf2014$situacthog)<2.2e16***
##ecpf2014$impexac<2.2e16***
##as.factor(ecpf2014$situacthog):ecpf2014$impexac4.283e07***
##Residuals
##
##Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1
51
4. MODELO LINEAL GENERALIZADO.
Los modelos lineales (regresin, ANOVA, ANCOVA), se basan en los siguientes supuestos:
1. Los errores se distribuyen normalmente.
2. La varianza es constante.
3. La variable dependiente se relaciona linealmente con las variables independientes.
E (Yi ) 1 X 1i 2 X 2i ... k X ki
En muchas ocasiones, sin embargo, nos encontramos con que uno o varios de estos supuestos no
se cumplen por la naturaleza de la informacin. En algunos casos, estos problemas se pueden
llegar a solucionar mediante la transformacin de la variable respuesta (por ejemplo tomando
logaritmos). Sin embargo estas transformaciones no siempre consiguen corregir la falta de
normalidad, la heterocedasticidad (varianza no constante) o la no linealidad de nuestros datos.
Los MLG fueron formulados por John Nelder y Robert Wedderburn (1989) como una manera
de unificar varios modelos estadsticos, incluyendo la regresin lineal, regresin logstica y
regresin de Poisson, bajo un solo marco terico.
Los MLG son, por tanto, una extensin de los modelos lineales que permiten utilizar
distribuciones no normales de los errores (binomiales, Poisson, gamma, etc) y varianzas no
constantes.
Los MLG permiten especificar distintos tipos de distribucin de errores, Cayuela (2010) expone
los siguientes ejemplos:
Poisson, muy tiles para conteos de acontecimientos, por ejemplo: nmero de heridos
por accidentes de trfico; nmero de hogares asegurados que dan parte de siniestro al
da.
Binomiales, de gran utilidad para proporciones y datos de presencia/ausencia, por
ejemplo: tasas de mortalidad; tasas de infeccin; porcentaje de siniestros mortales.
Gamma, muy tiles con datos que muestran un coeficiente de variacin constante, esto
es, en donde la varianza aumenta segn aumenta la media de la muestra de manera
constante, por ejemplo : nmero de heridos en funcin del nmero de siniestros
Exponencial, muy tiles para los anlisis de supervivencia.
52
Otra razn por la que un modelo lineal puede no ser adecuado para describir un fenmeno
determinado es que la relacin entre la variable respuesta y las variables independientes no es
siempre lineal.
3
Si bien el mtodo de MCO es el ms frecuentemente usado para calcular los parmetros del modelo de
regresin, hay mtodos alternativos. Uno de ellos es el mtodo de Mxima Verosimilitud (Maximum
Likelihood). Para utilizar el mtodo debemos conocer la distribucin de probabilidad del trmino
aleatorio t .
53
Para valorar el ajuste de los MLG se utiliza el estadstico chi-cuadrado, que se define como el
doble de la diferencia entre el mximo del logaritmo de la verosimilitud que se podra conseguir
con la mnima (o mxima) parametrizacin y el valor del mximo del logaritmo de la
verosimilitud que se consigue con el modelo a evaluar, y el estadstico AIC (Akaike Information
Criterion), formulado por Akaike (1974):
l k
AIC 2 2
N N
donde l es el valor en el ptimo del logaritmo de la funcin de verosimilitud con k parmetros
estimados y N las observaciones. Siguiendo estos criterios, se seleccionar aquel modelo para el
que se obtenga un AIC ms bajo.
Si suponemos que t se distribuyen como una N(0, 2 ), la funcin explcita de probabilidad (PDF) para
Yt se puede escribir como:
f (Yt ) 2
2
1 2
e ( 1 / 2 )(Yt X t )
2
Y1 , Y2 , , Yn
La funcin de probabilidad (likelihood function) de las Yt s (o la funcin de verosimilitud de la muestra)
es:
l f (Y1 , Y2 , , Yn )
Podemos escribir ahora:
l 2 e
2
1
( 1 / 2 2 )(Y1 X1 ) 2
2 e 2
1
( 1 / 2 2 )(Yn X n ) 2
l 2
2
n
e
( 1 / 2 2 ) (Yt X t )2
El enfoque Mximo Verosmil para calcular y (y 2 ) es obtener las expresiones para estos
parmetros que maximizan la funcin de probabilidad de las Yt s en la ecuacin anterior.
54
Ejemplo 4.1.
Utilizando la seleccin de variables del Ejemplo 2.4, vamos a estimar un modelo utilizando la
distribucin de poisson y un tipo de funcin vinculo logartmica, para ello ejecutamos el
siguiente Chunk:
##0.20112720
##tiphogar1Parejacondoshijosmenoresde16aos
##0.32211129
##tiphogar1Parejacontresomshijosmenoresde16aos
##0.39427650
##tiphogar1Padre omadresolo, con al menos un hijode16 o msaos
##0.18283275
##tiphogar1Pareja con al menos un hijo de 16 o ms aos
##0.26667065
##tiphogar1Otroshogares
##0.21708985
##situocuhogElsustentadorprincipalyelcnyugeocupados,ningunode
losotrosmiembrosocupados(siesqueloshay)
##0.17773513
##situocuhogElsustentadorprincipaloelcnyugeocupado,otrodelos
miembrosocupado
55
##0.33215745
##situocuhogEl sustentador principal o el cnyugeocupado, al menos
otrosdosmiembrosocupados
##0.15920869
##situocuhogEl sustentador principal o el cnyugeocupado, ninguno de
losotrosmiembrosocupado(siesqueloshay)
##0.50866957
##situocuhogNi el sustentador principal ni su cnyuge ocupado, otro
miembroocupado
##0.62731322
##situocuhogNi el sustentador principal ni su cnyuge ocupados, al
menosotrosdosmiembrosocupados
##0.34452462
##situocuhogNingnocupadoenelhogar
##0.88982151
##situacthogElsustentadorprincipalyelcnyugeactivos,ningunode
losotrosmiembrosactivos(siesqueloshay)
##0.06184096
##situacthogElsustentadorprincipaloelcnyugeactivo,otrodelos
miembrostambinactivo
##0.05059284
##situacthogEl sustentador principal o el cnyuge activo, al menos
otrosdosmiembrosactivos
##0.02530061
##situacthogEl sustentador principal o el cnyuge activo, ninguno de
losotrosmiembrosactivos(siesqueloshay)
##0.09094561
##situacthogNi el sustentador principal ni su cnyuge activos, otro
miembroactivo
##0.19433718
##situacthogNi el sustentador principal ni su cnyuge activos, al
menosotrosdosmiembrosactivos
##0.14390236
##situacthogNingnactivoenelhogar
##0.21091117
##numnoestu
##0.01565029
56
Yi=0+1Xi+ei siendo i=1,N (4.1)
De acuerdo con la expresin (4.1), el hecho de que la variable endgena tome valores discretos
(1 0), el trmino de perturbacin ei, puede tomar tambin dos valores nicamente:
Dado que la esperanza del trmino de error ha de ser nula E(ei)=0, entonces se demuestra que
p= 1-0-1Xi y (1-p) = 0+1Xi, lo que permite evaluar la probabilidad de que la variable
endgena tome el valor correspondiente:
Var (ei ) (1 0 1 X i )( 0 1 X i ) p (1 p)
Una problemtica inherente a los estimadores MCO de estos modelos, son los siguientes:
1
( 0 1 X i )(1 0 1 X i )
No obstante, el mayor problema que plantean estos modelos es que las predicciones
realizadas sobre la variable endgena no siempre se encuentran en el intervalo [0,1], ya
que pueden ser mayores que cero y menores que uno. Este problema tiene dos
soluciones, una es tomar como valor cero todas las estimaciones de la variable
endgena con valores negativos, y uno cuando estas resulten mayores que uno; la
segunda, solucin es utilizar funciones de distribucin que estn acotadas entre cero y
uno como son la Logstica y la Normal; de stas se derivan los modelos Logit y Probit
que pasamos a ver a continuacin.
4
La distribucin binomial se basa en una prueba conocida como experimento de Bernouilli o problema
de las pruebas repetidas, que consiste en averiguar la probabilidad de que en n extracciones o pruebas
se hayan conseguido X valores de 1 y/o (n-X) valores de 0.
57
4.2. EL MODELO LOGIT
El problema que presentan los modelos probabilsticos lineales en cuanto a la existencia de
predicciones establecidas fuera rango (negativas o mayores que uno), es debido a que utilizan
una funcin de probabilidad que depende linealmente de las variables explicativas (X), que se
resolveran acotando dicha distribucin de probabilidad. El modelo Logit en concreto utiliza,
para ello, la funcin de distribucin logstica:
Debido a que la funcin de distribucin logstica no tiene forma lineal, el modelo Logit se
estima de forma diferente, as en vez de minimizar las sumas de las diferencias al cuadrado
entre los valores observados y los estimados por el modelo, el carcter no lineal de los modelos
Logit requiere la utilizacin del mtodo de Mxima Verosimilitud para ser estimado,
maximizando la verosimilitud de que un suceso tenga lugar, aunque se podra estimar por MCO
mediante una transformacin logartmica de los datos (Gujarati, 1997).
1
(1 p)
(1 e z )
p (1 e z )
ez
(1 p ) (1 e z )
58
Tomando el logaritmo natural de la expresin anterior se obtiene
pi
Li ln ln(e ) 0 1 X i
z
(4.2)
(1 p )
i
Los coeficientes indican el cambio en el Logit causado por el cambio en una unidad en el
valor de Xi, mientras que los e definen el cambio en la razn de probabilidades
p
(1 p )
causado por el cambio en una unidad en el valor de Xi. Si es positivo, e ser mayor que 1, es
decir, se incrementar; si es negativo, e ser menor que 1, es decir, p
p
(1 p ) (1 p )
disminuir. Adicionalmente, puede demostrarse que el cambio en la probabilidad (p) causado
por el cambio en una unidad en el valor de Xi es , es decir, depende no slo del
p
(1 p )
coeficiente, sino tambin del nivel de probabilidad a partir del cual se mide el cambio.
A la hora de estimar un modelo Logit, hay que tener presente que para estimar el modelo
adems de los valores Xi, se necesitan los valores del Logit (Li). Por otro lado, sealar que la
estimacin de los coeficientes de modelo (4.2) se realiza utilizando el mtodo de Mxima
Verosimilitud, es decir, eligiendo como estimadores de los coeficientes a aquellos que
1
maximizan la funcin de verosimilitud, construida sobre la base de p . Pero si
(1 e z )
tenemos la posibilidad de agrupar los datos individuales, entonces podra estimarse el modelo
por MCO.
Ejemplo 4.1.
En la base de datos datos definimos como pobres, aquellos hogares que tienen un ingreso per
cpita inferior al 60% de la mediana.
```{r, echo=FALSE}
datos$ingpc=datos$ecpf2014.impexac/datos$nmiemb
datos$pobre=ifelse(datos$ingpc<0.6*median(datos$ingpc),1,0)
str(datos)
table(datos$pobre)
```
## 'data.frame': 22146 obs. of 17 variables:
## $ nmiemb : num 3 2 2 5 5 3 2 3 3 3 ...
## $ nmiem10 : num 1 1 0 0 0 0 0 0 2 0 ...
## $ nmiem11 : num 2 1 1 2 2 2 0 2 0 2 ...
## $ nmiem12 : num 0 0 1 0 0 0 2 0 0 1 ...
## $ nmiem13 : num 0 0 0 0 0 0 0 0 0 0 ...
## $ numacti : num 1 2 0 2 1 2 0 1 2 2 ...
## $ numinacti : num 2 0 2 2 3 0 2 1 0 1 ...
## $ numocu : num 1 2 0 2 1 2 0 1 2 2 ...
## $ numnocu : num 2 0 2 2 3 0 2 1 0 1 ...
## $ numestu : num 0 0 0 2 2 0 0 0 0 0 ...
59
## $ numnoestu : num 3 2 2 2 2 2 2 2 2 3 ...
##$tiphogar1:Factorw/12levels"Unapersonade65oms
aos",..:111051111757712...
##$situocuhog:Factorw/8levels"Elsustentadorprincipaly
elcnyugeocupados,almenosotrodelosmiembrostambinocupado",..:
NANA82528522...
##$situacthog:Factorw/8levels"Elsustentadorprincipaly
elcnyugeactivos,almenosotrodelosmiembrostambinactivo",..:
NANA82528522...
##$ecpf2014.impexac:num21912702116751671100...
##$ingpc:num73013515841033220...
##$pobre:num0000101000...
##
##
0 1
##171674979
Seleccionamos el mejor modelo explicativo del ingreso per capita con regsubset por el
mtodo exhaustivo (paso por paso):
```{r}
regfit.exh=regsubsets(datos$ingpc~.,data=datos[,1:15],method="exhausti
ve")
plot(regfit.exh)
coef(regfit.exh,9)
```
##(Intercept)
##1085.7566205
##nmiemb
##202.4482883
##nmiem11
60
##59.8275149
##nmiem12
##96.5363080
##numacti
##101.0224460
##numocu
##262.9822263
##tiphogar1Parejacontresomshijosmenoresde16aos
##97.1311348
##tiphogar1Padreomadresolo,conalmenosunhijode16omsaos
##0.7449329
##situocuhogElsustentadorprincipalyelcnyugeocupados,ningunode
losotrosmiembrosocupados(siesqueloshay)
##76.1584450
##situocuhogEl sustentador principal o el cnyugeocupado, al menos
otrosdosmiembrosocupados
##18.3472987
Estimamos un modelo logit con glm utilizando las variables antes seleccionadas, y realizamos
un conteo para ver los resultados obtenidos.
```{r}
# Regresion logistica
est3 <- glm(datos$pobre ~ nmiemb + nmiem11 + numinacti + numocu +
tiphogar1 + situocuhog, data=datos,family=binomial)
est3.probs=predict(est3,type="response")
est3.pred=ifelse(est3.probs>0.5,1,0)
table(est3.pred,est3$y)
mean(est3.pred==est3$y)
```
##
##est3.pred01
##0134802374
##19302098
##[1]0.8250185
61
4.3. MODELO PROBIT
Mientras que el modelo Logit utiliza la funcin de distribucin logstica para acotar la
distribucin de probabilidad en el modelo de probabilidad lineal, el modelo Probit utiliza la
funcin de distribucin Normal.
Figura 4.2. Funcin de densidad (izq.) y de distribucin (dcha.) de una Normal (0,1)
Las funciones de distribucin normal y logstica son muy semejantes: la diferencia principal es
que la funcin de distribucin normal se acerca ms rpidamente a los ejes que la logstica
(figura 4.3).
Figura. 4.3.
Para entender la filosofa del modelo Probit, vamos a suponer que existe una variable
desconocida s que cumple lo siguiente:
Dado el supuesto de normalidad en un suceso, la probabilidad de que este sea menor o igual al
valor (s), se calcula a partir de la funcin de distribucin acumulada de una distribucin Normal
estandarizada, esto es, con esperanza cero y desviacin tpica uno.
1 o 1 X i t dt
pi pr (Y 1) pr ( 0 1 X i s )
2
e 2
(4.3)
62
Lo anterior equivale a que la relacin entre la endgena y las explicativas venga dada por la
siguiente expresin:
1 o 1 X i t dt u
yi ( 0 1 X i ) ui e 2 i
(4.4)
2
Donde:
Dado que (4.4) es una relacin no lineal en los parmetros no puede estimarse por MCO. No
obstante, hay una forma sencilla de asignar valores a las probabilidades que aparecen en la
expresin (4.3). Esta forma consiste en obtener informacin acerca de Ii y de los parmetros a
partir de la inversa de (4.3):
I F I F p
* 1 1
i i i 0 1 X i
*
I i
0 1 X i u i
Ejemplo 4.3
```{r,echo=FALSE}
# Regresion probit
est4 <- glm(datos$pobre ~ nmiemb + nmiem11 + numinacti + numocu +
tiphogar1 + situocuhog, data=datos,family=binomial(link=probit))
est4.probs=predict(est4,type="response")
est4.pred=ifelse(est4.probs>0.5,1,0)
table(est4.pred,est4$y)
mean(est4.pred==est4$y)
```
##
##est4.pred01
##0134952441
##19152031
##[1]0.8222646
63
5. MODELOS CON DATOS DE PANEL
5.1. INTRODUCCIN
Un modelo de datos de panel es, segn la definicin ms extendida, un modelo que utiliza
muestras recogidas a individuos a lo largo de instantes de tiempo. Los modelos de datos de
panel incluyen as informacin de una muestra de agentes econmicos (individuos, empresas,
bancos, ciudades, pases, etc.) durante un perodo determinado de tiempo, combinando, por
tanto, la dimensin temporal y estructural de los datos.
Los modelos de datos de panel se aplican a conjuntos o bases de datos de series de tiempo
agregadas para los mismos individuos; stos conjuntos de datos suelen tener un nmero
relativamente grande de individuos y pocas observaciones en el tiempo, o por el contrario
podemos tener datos para un nmero grande de periodos pero para un nmero pequeo de
individuos. Un ejemplo de este tipo de bases de datos es el panel de hogares de la Unin
Europea (70.000 hogares en la UE), las encuestas de opiniones empresariales del Ministerio de
Industria (3.000 empresas), los ndices Nielsen (5.000 hogares en Espaa) para medir la
audiencia televisiva, etc. Estos conjuntos de datos que son conocidos como datos de panel o
datos longitudinales hay que diferenciarlos de las encuestas transversales que son repetidas en el
tiempo pero no a los mismos individuos (por ejemplo, la Encuesta de Poblacin Activa)5.
El principal objetivo que se persigue al agrupar y estudiar los datos en panel es capturar la
heterogeneidad no observable entre los agentes econmicos como entre periodos temporales.
Dado que esta heterogeneidad no se puede detectar exclusivamente con estudios de series
temporales, ni tampoco con estudios de corte transversal, hay que realizar un anlisis ms
dinmico incorporando a los estudios de corte transversal la dimensin temporal de los datos.
Esta modalidad de analizar la informacin es muy usual en estudios de naturaleza empresarial,
ya que los efectos individuales especficos de cada empresa y los efectos temporales del
medio son determinantes cuando se trabaja con este tipo de informacin.
Los efectos individuales especficos se definen como aquellos que afectan de manera desigual a
cada uno de los agentes de estudio contenidos en la muestra (individuos, empresas, bancos).
Estos efectos son invariables en el tiempo y se supone que afectan de manera directa a las
decisiones que toman dichas unidades. Usualmente, se identifica este tipo de efectos con
cuestiones de capacidad empresarial, eficiencia operativa, el saber-hacer (Know-how), acceso
a la tecnologa, etc.
Por su parte, los efectos temporales son aquellos que afectan por igual a todas las unidades
individuales del estudio y que, adems, varan en el tiempo. Este tipo de efectos suele asociarse,
por ejemplo, a shocks macroeconmicos que afectan por igual a todas las empresas o unidades
de estudio (una subida de los tipos de inters, un incremento de los precios de la energa, un
aumento de la inflacin, etc.), o a cambios en la regulacin de mercados (ampliacin de la
Unin Europea, reduccin de tarifas arancelarias, aumento de la imposicin indirecta, etc.).
5
En los paneles de datos a veces tambin hay que sustituir individuos por falta de respuesta, pero no es el
caso de las encuestas transversales en donde la muestra se renueva de forma sistemtica, de manera que a
un periodo de tiempo determinado, por ejemplo un ao, los hogares de la muestra sean diferentes a los del
periodo anterior. La falta de respuesta en los datos de panel como en otro tipo de encuesta a la hora de los
anlisis estadsticos deben de depurarse, bien eliminando todos los datos del individuo con falta de
respuesta o eliminando nicamente los individuos con falta de respuesta en cada variable analizada.
64
5.2. ESPECIFICACIN GENERAL DE UN MODELO DE DATOS DE PANEL
K
Yit it X itj j uit
j 1
A partir del modelo general, y con base en ciertos supuestos y restricciones acerca del valor de
algunos de los parmetros, se derivan las diferentes variantes de modelos de datos de panel que
resumimos a continuacin en la siguiente tabla.
En un modelo de datos de panel, las variables explicativas pueden ser de tres tipos:
Una variable por cada individuo, sin que exista referencia temporal en dicha
variable: las variables son las mismas para cada unidad de corte transversal y se
refieren a atributos del individuo o agente, por ejemplo, el tipo de empresa, su
tamao, la forma gerencial; el sexo de un trabajador, el nivel de formacin, la
profesin y otras caractersticas sociales de los individuos.
Una variable por periodo, pero sin que existan diferencias en el valor que toma la
variable en cada individuo: las variables toman distintos valores en cada periodo
6
Siglas de Seemingly Unrelated Regression.
65
temporal pero no varan entre los individuos. Como ejemplo de este tipo de
variables cabe citar a la tasa de inflacin, los tipos de inters, etc.
Una variable que cambia en el tiempo y por individuo: se trata de variables que
cambian entre individuos en un momento del tiempo, y que adems cambian a lo
largo del tiempo. Como ejemplo de estas variables se pueden mencionar los
ingresos totales, el nivel de beneficios, el stock de capital o el nivel de
endeudamiento, entre otras.
Los modelos de datos de panel se interpretan a travs de sus componentes de error.
Considerando la notacin matricial abreviada de un modelo general de datos de panel:
uit i t eit
donde i representa los efectos no observables que difieren entre las unidades de estudio pero no
en el tiempo (capacidad empresarial, eficiencia de cada unidad, etc.); t identifica los efectos
no cuantificables que varan en el tiempo pero no entre las unidades de estudio; y eit se refiere al
trmino de error puramente aleatorio.
La mayora de los anlisis realizados con datos de panel utilizan el modelo de componente de
error conocido como one way para el cual t =0 (modelo A). Las diferentes variantes para el
modelo one way de componentes de errores surgen de los distintos supuestos que se hacen
acerca del trmino i, pudindose presentar tres posibilidades:
Bajo la primera especificacin, los it satisfacen todos los supuestos del modelo lineal general y,
por tanto, se emplea como mtodo de estimacin MCO, obteniendo estimadores lineales e
insesgados y con la ventaja de ganar grados de libertad.
Ahora bien, en los casos en que se rechaza el supuesto de homogeneidad en un sistema de datos
de panel, es decir, que existe heterogeneidad no observable ya sea a travs del tiempo, entre
unidades de estudio (individuos) o en ambos sentidos, debe buscarse una especificacin que la
capture de forma apropiada con el fin de evitar que los estimadores de los parmetros de las
variables explicativas estn sesgados.
66
5.3. VENTAJAS Y DESVENTAJAS DE LOS MODELOS DE DATOS DE
PANEL
Los modelos de datos de panel presentan una serie de ventajas y desventajas en comparacin
con los modelos de series temporales y de corte transversal. Las ms relevantes son las
siguientes:
Ventajas
Los datos de panel suponen, e incorporan al anlisis, el hecho de que los individuos o
agentes econmicos (consumidores, empresas, regiones, pases, etc.) son
heterogneos. Los anlisis de series de tiempo y de corte transversal no incorporan esta
heterogeneidad corriendo as el riesgo de obtener resultados sesgados.
Permiten estudiar mejor la dinmica de los procesos de ajuste, ya que a travs de ellos
se pueden analizar los cambios en el tiempo de las distribuciones transversales.
Desventajas
Asimismo, una escasa dimensin temporal puede invalidar alguno de los elementos
tericos de los modelos de datos de panel.
67
corte transversal con pocos periodos de tiempo (700 individuos con 5 periodos, por
ejemplo).
Estos modelos asumen que los efectos de las variables omitidas, ya sean especficas a cada
individuo y/o que cambian en el tiempo, no son importantes en forma individual, pero s en
conjunto.
Por otro lado, dado que el efecto de las variables omitidas se supone constante en el tiempo para
cada individuo, o que no vara en todos los individuos en un determinado momento en el
tiempo, o una combinacin de ambos, se pueden capturar en el trmino constante de un modelo
de regresin como un promedio que toma en cuenta explcitamente la heterogeneidad entre
individuos y/o en el tiempo contenida en los datos.
Los modelos de datos de panel de efectos fijos tienen la siguiente expresin general:
K
Yit i X itj j eit
j 1
donde Yit es la variable dependiente, it , es un escalar que recoge los efectos especficos del i
simo individuo y se supone constante en el tiempo, y X itj , es el vector de las k variables
explicativas y j , de los K parmetros que recogen los efectos de las variables explicativas; uit
es el trmino de error que se suponen aleatorios distribuidos con media cero y varianza
constante de valor u2 . El panel de datos corresponde a i = 1,2..., N unidades o individuos de
corte transversal, observados para los perodos t = 1,2..., T.
Por tanto, lo que se pretende resolver es un sistema de regresiones especficas con N ecuaciones
de corte transversal: Yi ti X it1 1 X it2 2 ... X itj j eit y T observaciones.
Agrupando las observaciones temporales, para cada unidad transversal se llega al siguiente
modelo:
68
Y11 X 11 e11
Y X e
21 21 21
. . .
YN 1 X N1 eN 1
i 0 ... 0 1
. . .
. 0 i ... 0 2 . .
. . ... . .
. . .
Y 0 0 ... i N X e
1T 1T 1T
Y2T X 2T e2 T
. . .
YNT X NT e NT
Con este modelo se considera que las variables explicativas afectan por igual a las unidades de
corte transversal y que stas se diferencian por caractersticas propias de cada una de ellas,
medidas por medio de la intercepcin en el origen. Es por ello que las N intercepciones se
asocian con variables dummy con coeficientes especficos para cada unidad, los cuales se deben
estimar.
La estimacin de i y se realiza por MCO, si bien hay que tener presente que este modelo
presenta una prdida importante de grados de libertad. Un test til en este tipo de modelos es
realizar la prueba F, para comprobar si i para cualquier i. Por otro lado, cabe sealar que
cuando se quiera incluir un trmino constante hay que introducir nicamente N-1 variables
ficticias.
1
N T N T
X it X i X it X i ' X it X i Yit Yi '
i 1 t 1 i 1 t 1
2
N T
Var e X it X i X it X i '
i 1 t 1
e'e
donde e2 es la varianza residual, calculada como u
2
, donde ee es la suma de
NT N K
los residuos del modelo al cuadrado.
69
Y X
T
i
'
it
i Yi X
i
' t 1
T
El modelo anterior puede extenderse al modelo de efectos fijos de doble va, en el que aparecen
tambin los efectos no observables temporales, tal que:
Expresin que equivale a introducir dos conjuntos de variables ficticias, unas individuales y
otras temporales; en este caso el estimador MCO tendra las mismas propiedades del modelo
anterior.
El estimador a utilizar tendra la siguiente expresin:
1
N T N T
X it X i X t X X it X i X t X ' X it X i X t X Yit Yi Yt Y '
i1 t1 i1 t1
donde Yi , X i , son las medias muestrales del individuo i-simo, Yt , X t las medias muestrales del
periodo t, y Y , X las medias muestrales de las variables para todos los N individuos y T
periodos.
Los efectos fijos se estiman en un segundo paso a travs de las siguientes relaciones:
i Yi Y X i X
'
t Yt Y X t X
'
As, en este modelo se considera que tanto el impacto de las variables explicativas como las
caractersticas propias de cada unidad son diferentes.
En lugar de tratar i como una constante fija, esta especificacin asume que i N (0, 2 )
independiente e igualmente distribuida, e incorrelada con eit y X it .
70
A su vez el modelo tambin requiere que t est incorrelado en el tiempo tal que E (t , s ) 0 ,
y adems est incorrelada con i , eit y X it .
j
Yit X itj j u it , u it i eit
i 1
El estimador apropiado de este modelo expresado en desviaciones a la media es, por tanto:
1
1 N N
1 N N
MCG X i'QX i X it X i ' X it X i X i'QYi X it X i X it Yi '
T i 1 i 1 T i 1 i 1
donde:
2 T 2
1
Q IT e e'
T
Generalmente las varianzas (varianza entre grupos) y u2 no son conocidas y, por tanto,
2
habr que estimar un valor para . Para estimar dicho valor un camino sera utilizar las
estimaciones de las varianzas de los residuos obtenidas en la solucin MCO del modelo.
As, Hausman (1978) aconseja utilizar el modelo de efectos fijos para realizar inferencias sobre
la muestra utilizada, mientras que el de efectos aleatorios resulta ms til para realizar
inferencias sobre la poblacin.
Adicionalmente, si el inters del estudio particular est puesto en los coeficientes de las
pendientes de los parmetros, y no tanto en las diferencias individuales, se deber elegir un
mtodo que relegue estas diferencias y trate la heterogeneidad no observable como aleatoria.
El contexto de los datos, es decir, cmo fueron obtenidos y el entorno de donde provienen,
determinan tambin la eleccin del modelo. Con el modelo de efectos fijos la heterogeneidad no
observable se incorpora en la ordenada al origen del modelo y con el de efectos aleatorios, como
ya se mencion, se incorpora en el trmino de error, modificndose la varianza del modelo.
Asimismo, emplear un modelo de efectos fijos o aleatorios genera diferencias en las
estimaciones de los parmetros en los casos en que se cuenta con T pequeo y N grande. En
estos casos debe hacerse el uso ms eficiente de la informacin para estimar esa parte de la
71
relacin de comportamiento contenida en las variables que difieren sustancialmente de un
individuo a otro.
A este respecto hay que tener presente que el modelo de efectos fijos asume la existencia de
diferencias entre unidades que se capturan en forma de movimientos de la curva de regresin.
(Fig. 5.1).
Figura 5.1.
Para elegir entre los estimadores del modelo fijo y aleatorio puede utilizarse el test de Hausman,
que compara directamente ambos estimadores. El contraste se basa en el hecho de que bajo la
hiptesis de que E i X it 0 el estimador del modelo de efectos aleatorios EA es
asintticamente ms eficiente que el estimador MCO del modelo de efectos fijos ; sin
EF
embargo, si E i X it 0 , el estimador MCO mantendr la consistencia, mientras que el
estimador MCG ser sesgado e inconsistente.
m q ' Var (q ) q
1
72
donde q EA EF , y la matriz diagonal Var (q ) Var ( EA ) Var ( EF ) . Bajo la hiptesis
nula H 0 E i X it 0 el estadstico m se distribuye como una variable k2 .
Ejemplo 5.1.
La librera plm ofrece recursos en R para estimar modelos data panel.
> install.packages("plm")
En esta librera tenemos un conjunto de datos panel relativos a 10 empresas para las que
disponemos de las siguientes cifras: ao, invesin bruta, valor de la empresa y capital. El
conjunto de datos es para el periodo de 1935 a 1954.
> data("Grunfeld", package="plm")
> str(Grunfeld)
En el conjunto de datos los campos identificativos de las empresas y aos deben de ser ndices.
Para estimar un modelo de data panel de efectos fijos que relacione la inversin realizada por la
empresa con su valor contable y su capital, se requiere la siguiente sentencia R:
> summary(grun.fe)
Oneway (individual) effect Within Model
Call:
plm(formula = inv ~ value + capital, data = Grunfeld, model =
"within")
Balanced Panel: n=10, T=20, N=200
Residuals :
Min. 1st Qu. Median 3rd Qu. Max.
-184.000 -17.600 0.563 19.200 251.000
Coefficients :
Estimate Std. Error t-value Pr(>|t|)
value 0.110124 0.011857 9.2879 < 2.2e-16 ***
capital 0.310065 0.017355 17.8666 < 2.2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Total Sum of Squares: 2244400
Residual Sum of Squares: 523480
R-Squared : 0.76676
Adj. R-Squared : 0.72075
F-statistic: 309.014 on 2 and 188 DF, p-value: < 2.22e-16
73
Balanced Panel: n=10, T=20, N=200
Effects:
var std.dev share
idiosyncratic 2784.46 52.77 0.282
individual 7089.80 84.20 0.718
theta: 0.8612
Residuals :
Min. 1st Qu. Median 3rd Qu. Max.
-178.00 -19.70 4.69 19.50 253.00
Coefficients :
Estimate Std. Error t-value Pr(>|t|)
(Intercept) -57.834415 28.898935 -2.0013 0.04674 *
value 0.109781 0.010493 10.4627 < 2e-16 ***
capital 0.308113 0.017180 17.9339 < 2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Total Sum of Squares: 2381400
Residual Sum of Squares: 548900
R-Squared : 0.7695
Adj. R-Squared : 0.75796
F-statistic: 328.837 on 2 and 197 DF, p-value: < 2.22e-16
74
6. MTODOS DE ESTIMACIN NO PARAMTRICOS
6.1. INTRODUCCIN
Se dice que se ajusta el modelo paramtrico cuando se estiman sus parmetros a partir de un
conjunto de observaciones que siguen dicho modelo, de manera que pueden hacerse
predicciones de nuevos valores de Y conocido el valor de X, y tener informacin precisa acerca
de la incertidumbre asociada a la estimacin y a la prediccin. Sin embargo, si el modelo
paramtrico no es el adecuado al anlisis de datos que estamos realizando, pueden llevar a
conclusiones que queden muy alejadas de la realidad, dado que el modelo paramtrico conlleva
un grado de exactitud en las afirmaciones que de l se derivan y que son adecuadas siempre y
cuando se cumplan los supuestos bsicos sobre los que se apoya su construccin terica. De
hecho, los modelos paramtricos presentan una estructura terica tan rgida que no pueden
adaptarse a muchos conjuntos de datos de los que hoy da se disponen para el anlisis
econmico.
Los modelos de regresin paramtricos suponen que los datos observados provienen de
variables aleatorias cuya distribucin es conocida, salvo por la presencia de algunos parmetros
cuyo valor se desconoce.
yi 0 1 xi i , con i N 0, 2
Este es un modelo estadstico con tres parmetros desconocidos: 0 ; 1 y 2 .
Se supone que se observan n pares de datos xi , yi que provienen del siguiente modelo de
regresin no paramtrico:
yi m( xi ) i
75
Donde 1... n es una variable aleatoria idnticamente distribuida con E i 0 y V i 2 ,
y los valores de la variable explicativa x1...xn son conocidos, por lo que se dice que el modelo
tiene diseo fijo, y dado que la varianza de los errores es constante el modelo es
Homocedstico.
Una vez establecido el modelo, el paso siguiente consiste en estimarlo (o ajustarlo) a partir de
( x) de la funcin de
las n observaciones disponibles. Es decir hay que construir un estimador m
regresin y un estimador 2 de la varianza del error. Los procedimientos de estimacin de
m( x) se conocen como mtodos de suavizado.
Los estimadores de tipo ncleo (o kernel) fueron diseados para superar estas dificultades. La
idea original es bastante antigua y se remonta a los trabajos de Rosenblatt y Parzen en los aos
76
50 y primeros 60. Los estimadores kernel son, sin duda, los ms utilizados y mejor estudiados
en la teora no paramtrica.
Dada una m.a.s. X 1... X n con densidad f , estimamos dicha densidad en un punto t por medio
del estimador
f t 1
n
t Xi
K
nh i 1 h
Ncleo Triangular
1 u I u 1
Ncleo Uniforme
1
I
2 u 1
Ncleo Biweight
15
16
1 u 2 I u 1
Ncleo Triweight
35
32
1 u 2 I u 1
3 1 2
1 u I
4 5 u 5
1
donde I u 5
es la funcin que vale si u 5 y 0 si u 5
5
8
Por lo general, los programas informticos eligen el ancho de ventana siguiendo criterios de
optimizacin (error cuadrtico medio).
77
3 1 1
h K 10 sn n 5
8
Donde
n es el tamao de la muestra
1
1 n 2
2
sn X i X
n i1
K depende del ncleo K, y se calcula como:
1
K t dt
2 5
K
u 2 K t dt
2
Por ejemplo:
1
1 10
Si K es el ncleo gaussiano, entonces K
4
Si K es el ncleo Epanechnikov, entonces K 15
1
5
Ejemplo 6.1
En R la estimacin de una funcin de densidad kernel se realiza con la funcin density, con
los datos del vector x hay que realizar el siguiente programa:
> x <- c(2.1,2.6,1.9,4.5,0.7,4.6,5.4,2.9,5.4,0.2)
> density(x,kernel="epanechnikov")
Call:
density.default(x = x, kernel = "epanechnikov")
Data: x (10 obs.); Bandwidth 'bw' = 1.065
x y
Min. :-2.99424 Min. :0.00000
1st Qu.:-0.09712 1st Qu.:0.02366
Median : 2.80000 Median :0.09427
Mean : 2.80000 Mean :0.08621
3rd Qu.: 5.69712 3rd Qu.:0.15245
Max. : 8.59424 Max. :0.16948
> plot(density(x,kernel="epanechnikov"))
78
6.3. ESTIMADORES DE FUNCIN NCLEO Y POLINOMIOS LOCALES
La alternativa no paramtrica a los modelos de regresin, supone que
Y m( X ) e
donde m es una funcin que no se supone confinada" dentro de una familia paramtrica. Se
trata de estimar m a partir de una muestra X 1 , Y1 ; X n , Yn .
1 t Xi
K
h h
Wi (t , X i )
f (t )
donde K(t) es una funcin de densidad simtrica (por ejemplo, la normal estndar) y
f (t ) es un estimador kernel de la densidad como el definido en el apartado anterior.
Wi (t , X i ) es, para cada i, una funcin de ponderacin que da mayor importancia" a los valores
X i de la variable auxiliar que estn cercanos a t.
79
A partir de los pesos Wi puede resolverse el problema de mnimos cuadrados ponderados
siguiente:
n
min Wi Yi a bt X i
2
a ,b
i 1
los parmetros as obtenidos dependen de t, porque los pesos Wi tambin dependen de t, la recta
de regresin localmente ajustada alrededor de t sera :
lt ( X ) a(t ) b(t )(t X )
Y la estimacin de la funcin en el punto en donde X t
m (t ) lt (t ) a(t )
Las funciones ncleo usadas en la estimacin no paramtrica de la regresin son las mismas que
en la densidad.
n
min Wi Yi 0 1 t X i ... q t X i
q 2
0 .. q
i 1
j 0
t Xi
n
K
h
Yi n
m K (t ) n
i 1
W t , X i Yi
t Xi
i 1
K
h
i 1
Definida la matriz
1
t X 1 ... t X 1 q
. . ...
Xt
. . ...
1 t X n ... t X n
q
80
Y definidos los vectores Y Y1...Yn , 1... n , 0 ... q . Se calcula la matriz de
pesos Wt
W1 X 1 , t 0 ... 0
0. W2 X 2 , t ... 0
Wt
. . ... 0
0 0 ... Wn X n , t
o
t Xi
Wi (t , X i ) K
h
Ejemplo 6.2
Utilizando la base de datos cars de R, que contine las variables dist (distancia de parada) y
speed (velocidad), vamos a realizar la representacin grfica de la regresin kernel realizada
con el estimador de NadarayaWatson con diferentes parmetros de suavizado.
> data(cars)
> plot(cars$speed, cars$dist)
> lines(ksmooth(cars$speed, cars$dist, "normal", bandwidth = 2), col =
2)
> lines(ksmooth(cars$speed, cars$dist, "normal", bandwidth = 5), col =
3)
81
Si la cantidad de datos de que disponemos lo permite, lo habitual es obtener dos muestras una
para la estimacin del modelo (muestra de entrenamiento) y otra muestra para predecir (muestra
de test). En este caso una medida de calidad del parametro h de suavizado es el error cuadrtico
medio de la poblacin de la muestra de test:
nt
Y m X i ,t
1 2
ECMPtest (h) i ,t
nt i 1
82
no es necesario ajustar las n regresiones no paramtricas, sino que vasta con evaluar todos los
datos y anotar los valores de la diagonal principal de la matriz S .
2
1 n
Yi Yi
n v i1
2
Para poder estimar la funcin f de la forma ms sencilla posible, deberamos poder representar
f de forma que Yi f ( xi ) ei , ei 1,2...., n se convierta en un modelo lineal.
Y esto se puede hacer eligiendo una base de funciones de dimensin q que genere un
subespacio de funciones que incluya a f como elemento y que pueda expresarse como:
q
f ( x) j s j x
j 1
s 2 ( x) x
s 3 ( x) x
2
s 4 ( x) x
3
s 5 ( x) x 4
83
Yi 1 2 xi 3 xi2 4 xi3 5 xi4 ei
Un spline es una curva diferenciable definida en porciones mediante polinomios, que se utiliza
como bases de funciones para aproximar curvas con formas complicadas.
Las bases de spilines ms populares:
Bases de polinomios truncados.
Bases de splines cbicos.
Bases de B-splines.
Bases de thin plate splines.
Una funcin spline est formada por varios polinomios, cada uno definido sobre un
subintervalo, que se unen entre s obedeciendo a ciertas condiciones de continuidad.
Supongamos que se ha fijado un entero q 0 , de manera que disponemos de q+1 puntos, a
los que denominaremos nodos, tales que t0 t1 t 2 .... t q , en los que troceamos nuestro
conjunto de. Decimos entonces que una funcin spline de grado q con nodos en t1 , t 2 ,...., t q es
una funcin S que satisface las condiciones:
(i) en cada intervalo t j 1 , t j , S es un polinomio de grado menor o igual a q .
(ii) S tiene una derivada de orden (q-1) continua en to , t q .
Los splines de grado 0 son funciones constantes por zonas. La expresin matemtica de un
spline de grado 0 es la siguiente:
So ( x) co x t0 , t1
S ( x)S j ( x) c j x t j , t j 1
..
S q1 ( x) cq1 x t q1 , t q
En la figura 6.1 se muestran las grficas correspondientes a los splines de grado cero.
Figura 6.1.
Los splines de grado 0, se define en un solo tramo de nudo y ni siquiera es continua en los
nudos. Equivale a realizar una regresin por tramos.
84
siendo
1 x t j , t j 1
cj
0 resto
..
S ( x) aq1 x bq 1 x t q1 , t q
q 1
La representacin grfica de un spline lineal aparece en la figura 6.2:
Figura 6.2.
Las funciones de spilines ms comnmente utilizadas son las de grado 3 cbicas. Son
polinomios de grado tres a trozos, que son continuos en los nodos al igual que su primera y
segunda derivada, proporcionando un excelente ajuste a los puntos tabulados y a travs de
clculo que no es excesivamente complejo.
Sobre cada intervalo to , t1 , t1 , t 2 ,..., t q 1 , t q , S est definido por un polinomio cbico
diferente. Si el polinomio cbico que representa a b en el intervalo t j , t j 1 , por tanto:
S o ( x) ao x bo x co x d o x t0 , t1
3 3
3 2
S ( x)S j ( x) a j x b j x c j x d j x t j , t j 1
..
3 3
S q1 ( x) aq1 x bq1 x cq1 x d q1 x t q1 , t q
S j 1 xi yi S j xi
85
por lo que se garantiza que S es continuo en todo el intervalo. Adems, se supone que S' y S''
son continuas, condicin que se emplea en la deduccin de una expresin para la funcin del
spline cbico.
Aplicando las condiciones de continuidad del spline S y de las derivadas primera S' y
segunda S'', es posible encontrar la expresin analtica del spline.
Siendo
4
2
12 2
12 24
2
4
2
2
R ( x, z ) 1 z 1 1 x 1 1 1 x z 1 1 x z 1 7
2 2 2
240
Con esta base de splines definimos f a travs de un modelo lineal con matriz de regresores X
con n filas y q columnas cuya i_esima fila es:
X i 1, xi , R xi , x1* , R xi , x2* ,..., R xi , xk*2
Los elementos de una base de splines cbicos son polinomios de grado 3. Un Spline cbico se
representa en la figura 6.3:
Figura 6.3.
Un tema importante es la eleccin del grado de suavizacin del spline. Una de las posibilidades
es a travs del contraste de hiptesis, valorar la posibilidad de utilizar uno o ms nodos. Pero lo
aconsejado es mantener fija la base de splines y controlar el grado de suavizacin aadiendo una
penalizacin a la funcin objetivo de mnimos cuadrados:
' S
Donde S es una matriz de orden q q con coeficientes conocidos que dependen de la base
elegida y un parmetro de suavizado .
La solucin del modelo de regresin lineal penalizado en donde la matriz de regresores est
ahora definida por la base de splines y la penalizacin sera:
penal X ' X S 1 X ' y
El modelo de regresin lineal con spilines penalizados es equivalente al siguiente modelo de
regresin lineal:
86
Y' X ' e
En donde Y ' (Y ,0,0...0)' es un vector de dimensin (n q ) 1 , es decir el vector Y seguido
de tantos ceros como nodos se han utilizado en la base de splines.
X
La matriz de regresores X ' tiene ahora orden (n q) q , siendo B una matriz que
B
cumple S B' B y que se obtiene a travs de la descomposicin de Cholesky y el parmetro
de suavizado y e un vector de (n q ) 1 errores aleatorios.
vg
n y X X ' X S X ' y ' y X X ' X S X ' y
1 1
traza I X X ' X S X '
1
La regresin por splines puede realizarse con mltiples variables explicativas, si tenemos ahora
dos explicativas, xi y zi , y queremos estimar el siguiente modelo aditivo:
yi f1 ( xi ) f 2 ( zi ) ei
Representaramos cada una de estas dos funciones a travs de una base de splines penalizados,
que tomando la base cbica quedara:
q 2
f1 ( x) 1 2 xi R xi , x*j
j 1
y
q 2
f 2 ( z ) 1 2 zi R zi , z *j
j 1
Ejemplo 6.3
87
> cars.spl2 <- smooth.spline(speed, dist,spar=0.10)
> lines(cars.spl1, col = "blue")
> lines(cars.spl2, col = "red")
La forma de Fourier permite aproximar arbitrariamente cerca tanto a la funcin como a sus
derivadas sobre todo el dominio de definicin de las mismas. La idea que subyace en este tipo
de aproximaciones (que podran denominarse semi-no-paramtricas) es ampliar el orden de la
base de expansin, cuando el tamao de la muestra aumenta, hasta conseguir la convergencia
asinttica de la funcin aproximante a la verdadera funcin generadora de los datos y a sus
derivadas (Gallant, A.R.; 1981, 1984).
88
Suponiendo que los datos siguieran el modelo yi g ( xi ) ei para i=1,2,,n estimaramos
por mnimos cuadrados, minimizando
n y g
n
s n 1 i K xi / 2
i 1
Dado que la variable exgena xi no esta expresada en forma peridica, debe de transformase o
normalizarse en un intervalo de longitud menor que 2 , 0,2 .
Ejemplo 6.5
> library(fda)
> library(fda.usc)
> data(aemet,package = "fda.usc")
> tt = aemet$temp$argvals
> temp = as.data.frame(aemet$temp$data,row.names=F)
> range.tt = aemet$temp$rangeval
> inv.temp = data.frame(t(aemet$temp$data)) # 365 x 73 matrix
> names(inv.temp) = aemet$df$name
> plot(ts(inv.temp[,21]),main="Temperaturas medias diarias Santander
1980-2009")
16
14
12
10
Time
89
u cos jwo t v j sin jwo t
5
j
j 1
90
Temperaturas medias diarias Santander 1980-2009
20
18
ts(inv.temp[, 21])
16
14
12
10
Time
91
7. REGRESIN EN EL DOMINIO DE LA FRECUENCIA
7.1. INTRODUCCIN
Nerlove (1964) y Granger (1969) fueron los primeros investigadores en aplicar el Anlisis
espectral a las series de tiempo en economa. El uso del anlisis espectral requiere un cambio en
el modo de ver las series econmicas, al pasar de la perspectiva del tiempo al dominio de la
frecuencia. El anlisis espectral parte de la suposicin de que cualquier serie X t , puede ser
transformada en ciclos formados con senos u csenos:
n
ft ft
xt a j cos 2 b j seno 2 (7.1)
j 1 n n
donde es la media de la serie, a j y b j son su amplitud, f son las frecuencias que del
conjunto de las n observaciones, t es un ndice de tiempo que va de 1 a N , siendo N el
nmero de periodos para los cuales tenemos observaciones en el conjunto de datos, el cociente
ft
convierte cada valor de t en escala de tiempo en proporciones de 2n y rango j desde 1
n
N
hasta n siendo n (es decir, 0,5 ciclos por intervalo de tiempo). La dinmica de las altas
2
frecuencias (los valores ms altos de f ) corresponden a los ciclos cortos en tanto que la
dinmica de la bajas frecuencias (pequeos valores de f ) van a corresponder con los ciclos
f
largos. Si nosotros hacemos que la ecuacin (7.1) quedara, as:
n
xt a j cos j t b j seno j t
n
(7.2)
j 1
bp
donde R p a p b p y p tan 1
a
p
92
nR p2
La representacin grfica de I frente recibe el nombre de periodograma de las
4
serie de datos. Una tendencia produce un pico en la representacin grfica del periodograma en
la frecuencia cero, mientras que las variaciones estacionales procuren "picos" en las frecuencias
estacionales y sus mltiplos enteros, de manera que si un peridograma presenta un "pico" en
alguna frecuencia , presentar tambin "picos" en las frecuencias 2 ,3 ,...
Hannan (1963) fue quien propuso la regresin en dominio de la frecuencia (regresin band
spectrum). Engle (1974), demostr que dicha regresin no alteraba los supuestos bsicos de la
regresin clsica, cuyos estimadores eran Estimadores Lineales Insesgados y ptimos (ELIO).
fx k wk x
2
Haciendo
w0
w1
W w2
.
w
t 1
Se cumple que WW ' I W 'W debido a las ortogonalidad de los productos de senos y
csenos.
93
Se trata de una regresin con variables aleatorias complejas pero que no afecta a los supuestos
bsicos del modelo de regresin clsico. Las propiedades del error u~ :
var(u~ ) E (u~u~ ' ) E (Wuu 'W ' ) WE (uu ' )W ' u2WW '
Si I , entonces var(u~ ) u2 I .
~x ' ~x 1 ~x ' ~y
es un estimador ELIO con la siguiente matriz de varianza y covarianzas: var( ) u2 ( ~
x'~
x ) 1
1 T 1
T 1
fxx k f xy k
k 0 k 0
fxx k fxy k
donde es la matriz de cross-periodogramas de cada frecuencia e es el vector del
x y
cross-periodograma de t e t .
La transformacin de los datos originales del dominio del tiempo al dominio de la frecuencia
utilizando series finitas de senos y csenos en la regresin band spectrium, se realiza a travs de
la matriz ortogonal A, con el elemento (j,t)th (Harvey, 1978) :
1
1 2
j 1
T
1
2 2 j t 1
T cos T j 2,4,6,..., (T 2) /(T 1)
a j ,t 1
2 2 j 1t 1
sin
T T j 3,5,7,..., (T 1) / T
1
1 2 t 1
(1) j T
T (7.4)
De esta forma los problemas derivados del uso de la transformada compleja de Fourier pueden
ser eludidos. Asimismo afirma que el vector de residuos definido en (7.3) da lugar a un vector
de residuos del modelo transformado a travs de A:
v A y X Au
de forma que :
94
T
p j v2 j v2 j 1 , j 1,..., 2 1 si T par
2 2
p v 2 v 2 , j 1,..., T 1 si T impar
pj j 2j 2 j 1
2
T
p j 2v 22 j , j y T impar
2
p o 2v12
Puede ser utilizado de forma consistente como estimador del periodograma de u . Al ser un
estimador MCO de , puede utilizarse el test del periodograma acumulado de Durbin (Durbin,
1969).
Tan H.B and Ashley R (1999), sealan que el procedimiento de elaboracin del cross-
periodograma consta de tres etapas:
1.- Transformar los datos originales del dominio del tiempo al dominio de la frecuencia
utilizando series finitas de senos y cosenos. Implicara premultiplicar los datos originales por
una matriz ortogonal, A, sugerida por Harvey (1978).
3.- Re-estimar el resultado del modelo de regresin en el dominio del tiempo con las
estimaciones 1... k y los coeficientes de las m variables Dummy. Implicara premultiplicar la
ecuacin de regresin ampliada por las variables Dummy por la transpuesta de A.
Ejemplo 7.1
En la tabla siguiente se recogen las cifras de Consumo de energa final elctrica (TEP) y del PIB
en Millones de euros de Espaa en el periodo 1992 y 2008.
95
Consumo de Energa Final Elctrica (TEP) PIB (Mill euros ao 2000)
1992 11244 484580,9
1993 11237 479583,3
1994 11777 491011,6
1995 12116 515405
1996 12655 527862,4
1997 13672 548283,8
1998 14202 572782
1999 15241 599965,8
2000 16205 630263
2001 17279 653255
2002 17759 670920,4
2003 18916 691694,7
2004 19834 714291,2
2005 20827 740108
2006 22052 769850,2
2007 22548 797366,8
2008 22817 804223,1
Fuente: INE
La regresin Mnimo Cuadrtica en el dominio del tiempo de ambas series ofrece los siguientes
resultados:
>y <-
c(11244,11237,11777,12116,12655,13672,14202,15241,16205,17279,17759,18
916,19834,20827,22052,22548)
>x <-
c(484581,479583,491012,515405,527862,548284,572782,599966,630263,65325
5,670920,691695,714291,740108,769850,797367)
> summary(lm(y~x))
Call:
lm(formula = y ~ x)
Residuals:
Min 1Q Median 3Q Max
-346.73 -195.25 -28.16 194.01 360.10
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -6.689e+03 3.707e+02 -18.04 4.32e-11 ***
x 3.687e-02 5.919e-04 62.30 < 2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 242.6 on 14 degrees of freedom
Multiple R-squared: 0.9964, Adjusted R-squared: 0.9961
F-statistic: 3882 on 1 and 14 DF, p-value: < 2.2e-16
La transformacin de los datos del dominio del tiempo al dominio de la frecuencia se realiza
premultiplicando los datos originales por la matriz ortogonal A definida en (7.4). Para ello nos
auxiliamos de la funcin gdf del package-R: descomponer.
> library(descomponer)
> gdf(y)
96
[,1]
[1,] 64391.0000
[2,] -825.7467
[3,] -12360.5380
[4,] -1588.4091
[5,] -5560.1717
[6,] -2165.7826
[7,] -3392.0696
[8,] -2068.9944
[9,] -2052.7310
[10,] -2276.1742
[11,] -1552.3892
[12,] -1975.4091
[13,] -809.8283
[14,] -1748.2101
[15,] -368.2184
[16,] -1527.0000
> gdf(x)
[,1]
[1,] 2471806.00
[2,] -37363.77
[3,] -330603.45
[4,] -36340.78
[5,] -150333.85
[6,] -57659.89
[7,] -99733.49
[8,] -52172.81
[9,] -64772.04
[10,] -53932.84
[11,] -43070.70
[12,] -53680.28
[13,] -22559.65
[14,] -57068.96
[15,] -10290.24
[16,] -41025.50
97
Call:
lm(formula = gdf(y) ~ 0 + gdf(Constante) + gdf(x))
Residuals:
Min 1Q Median 3Q Max
-287.42 -65.98 2.02 98.26 552.03
Coefficients:
Estimate Std. Error t value Pr(>|t|)
gdf(Constante) -6.689e+03 3.707e+02 -18.04 4.32e-11 ***
gdf(x) 3.687e-02 5.919e-04 62.30 < 2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 242.6 on 14 degrees of freedom
Multiple R-squared: 0.9998, Adjusted R-squared: 0.9998
F-statistic: 3.717e+04 on 2 and 14 DF, p-value: < 2.2e-16
Se crean ahora variables Dummys para separar altas frecuencias de las bajas frecuencias.
> D1 <- c(rep(1,6),rep(0,10))
> D2 <- c(rep(0,6),rep(1,10))
> D1
[1] 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0
> D2
[1] 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
La siguiente regresin en el dominio de la frecuencia permite observar los efectos de las altas y
bajas frecuencias en la regresin:
> RBSD
Call:
lm(formula = gdf(y) ~ 0 + gdf(Constante) + c(gdf(x) * D1) + c(gdf(x) *
D2))
Residuals:
Min 1Q Median 3Q Max
-375.80 -82.06 -16.96 58.31 565.38
Coefficients:
Estimate Std. Error t value Pr(>|t|)
gdf(Constante) -6.910e+03 3.975e+02 -17.38 2.21e-10 ***
c(gdf(x) * D1) 3.723e-02 6.361e-04 58.53 < 2e-16 ***
c(gdf(x) * D2) 3.524e-02 1.363e-03 25.86 1.45e-12 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 236.3 on 13 degrees of freedom
Multiple R-squared: 0.9998, Adjusted R-squared: 0.9998
F-statistic: 2.613e+04 on 3 and 13 DF, p-value: < 2.2e-16
La representacin grfica de los resultados obtenidos, requiere transformar los datos ajustados
en el dominio de la frecuencia a datos ajustados en el dominio utilizando la transpuesta de A,
este paso se realiza con la funcin gdt del package-R descomponer.
> plot(ts(y,1992,frequency = 1),main="Consumo de energia electrica en
TEP 1992-2008",col=1)
> lines (ts(gdt(RBS$fitted.values),1992,frequency=1),col=2)
98
> lines (ts(gdt(RBSD$fitted.values),1992,frequency=1),col=3)
> legend("top", ncol=3,c("Y","Estimado RBS","Estimado
RBSD"),cex=0.6,bty="n",fill=c(1,2,3))
Yt y a yj cos j b jy sin j
N
j 1
t a j cos j b j sin j
N
j 1
u t u a uj cos j b uj sin j
N
j 1
donde Y AT Yt , X AT X t , y AT t .
99
El sistema (7.6) puede reescribirse como:
Y AX t I N AT AI N AT u (7.6)
Para obtener una solucin a la minimizacin de los errores e que ofrezca el mismo resultado
que la regresin lineal por mnimos cuadrados ordinarios, requiere utilizar una matriz de
regresores X cuya primera columna sera el vector de tamao T (1,0,0,...), la segunda columna
sera la primera fila de la matriz AX t I N AT y las columnas, corresponderan las filas de
AX t I N AT correspondientes a las frecuencias de senos o csenos que queremos regresar.
X ' X 1 X ' y
donde o ,1 sera el parmetro asociado a la constante, 1,1 el asociado a la pendiente, y 1, j los
asociados a las frecuencias de senos y csenos elegidas.
Ejemplo 7.2
Utilizando los datos del ejemplo 7.1 vamos a plantear la regresin en el dominio de la
frecuencia con parmetros dependientes del tiempo. Para obtener la matriz jjX
X
= AX t I N AT , se
utiliza la funcin cdf del package-R descomponer. Con el siguiente chunk se obtiene la
estimacin MCO:
```{r}
a <- matrix(y, nrow=1)
b <- matrix(x, nrow=1)
cx <- cdf(b)
C <- matrix(c(1,rep(0,15)),nrow=1)
X1 <- rbind(C,cx)
X <- as.matrix(X1[1:2,])
X
cy <- gdf(a)
B1 <- solve(X%*%t(X))%*%(X%*%cy)
Y <- t(X)%*%B1
F <- gdt(Y)
data.frame(y,F,MCO=lm(y~x)$fitted.values)
B1
```
100
X
##[,1][,2][,3][,4][,5][,6]
[,7]
##[1,]1.00.0000.000.0000.000.00
0.00
##[2,]617951.59340.94382650.869085.19537583.4614414.97
24933.37
##[,8][,9][,10][,11][,12][,13]
[,14]
##[1,]0.00.000.000.000.000.000
0.00
##[2,]13043.216193.0113483.2110767.6713420.075639.913
14267.24
##[,15][,16]
##[1,]0.000.00
##[2,]2572.5610256.38
##yFMCO
##11124411179.7511179.75
##21123710995.4610995.46
##31177711416.9011416.90
##41211612316.3812316.38
##51265512775.7312775.73
##61367213528.7813528.78
##71420214432.1414432.14
##81524115434.5415434.54
##91620516551.7316551.73
##101727917399.5617399.56
##111775918050.9518050.95
##121891618817.0218817.02
##131983419650.2419650.24
##142082720602.2320602.23
##152205221698.9621698.96
##162254822713.6422713.64
B1
##[,1]
##[1,]2.675607e+04
##[2,]1.474987e01
Una estimacin utilizando ahora como regresores adems del PIB los ciclos de bajas frecuencias
del PIB, se realizara con el siguiente chunk:
```{r}
a <- matrix(y, nrow=1)
b <- matrix(x, nrow=1)
cx <- cdf(b)
C <- matrix(c(1,rep(0,15)),nrow=1)
X1 <- rbind(C,cx)
X <- as.matrix(X1[1:4,])
X
cy <- gdf(a)
B1 <- solve(X%*%t(X))%*%(X%*%cy)
Y <- t(X)%*%B1
F <- gdt(Y)
data.frame(y,F,MCO=lm(y~x)$fitted.values)
101
B1
# Representaciones grficas
plot(ts(y,1992,frequency = 1),main="Consumo de energia electrica en
TEP 1992-2008",col=1)
lines (ts(F,1992,frequency=1),col=2)
lines (ts(lm(y~x)$fitted.values,1992,frequency=1),col=3)
legend("top", ncol=3,c("Y","Estimado RBS","Estimado
MCO"),cex=0.6,bty="n",fill=c(1,2,3))
```
X
##[,1][,2][,3][,4][,5]
[,6]
##[1,]1.0000.0000.000.0000.000
0.00
##[2,]617951.5009340.94382650.869085.19537583.462
14414.97
##[3,]9340.943611527.29726575.5216797.96976073.542
15647.14
##[4,]82650.86226575.521624375.7040812.4293587.881
15125.33
##[,7][,8][,9][,10][,11]
[,12]
##[1,]0.0000.000.00000.0000.0000
0.000
##[2,]24933.37213043.2016193.010513483.21010767.6749
13420.070
##[3,]38025.70819726.9925244.452618712.36015438.2083
19622.531
##[4,]2798.73510016.66658.85627462.167266.4848
5794.821
##[,13][,14][,15][,16]
##[1,]0.00000.0000.00000.00
##[2,]5639.913114267.2402572.560010256.38
##[3,]9432.970519745.7973988.020814267.24
##[4,]554.39293988.021766.95272572.56
##yFMCO
##11124411455.6911179.75
##21123711207.8010995.46
##31177711537.3811416.90
##41211612325.4812316.38
##51265512698.0312775.73
##61367213374.3913528.78
##71420214225.6414432.14
##81524115209.0815434.54
##91620516341.5716551.73
##101727917248.7917399.56
##111775917986.8718050.95
##121891618840.2418817.02
##131983419746.2719650.24
##142082720739.4520602.23
102
##152205221832.3821698.96
##162254822794.9422713.64
B1
##[,1]
##[1,]2.396021e+04
##[2,]1.428679e01
##[3,]8.053688e04
##[4,]8.870311e04
18000
16000
14000
12000
Time
```{r}
X0.1 <- c(0.4 ,0.35044 ,0.35477 ,0.33435 ,0.31556
,0.30244 ,0.28991 ,0.27828 ,0.26794
,0.25884 ,0.25071 ,0.24325 ,0.23639
,0.2301 ,0.2243 ,0.21895 ,0.21397 ,0.20933
,0.20498 ,0.20089 ,0.19705 ,0.19343
,0.19001 ,0.18677 ,0.1837 ,0.18077 ,0.17799 ,0.17037
,0.14466 ,0.14325 ,0.14188 ,0.14055 ,0.13926 ,0.138 ,
,0.12255 ,0.12087 ,0.12087 ,0.11926 ,0.11926 ,0.11771
,0.10835 ,0.10719 ,0.10719 ,0.10607 ,0.10607 ,0.10499
103
X0.05 <-
c(0.45,0.44306,0.41811,0.39075 ,0.37359 ,0.35522 ,0.33905 ,0.32538
,0.22012 ,0.2163 ,0.21268 ,0.20924 ,0.20596
,0.20283 ,0.19985 ,0.197 ,0.19427 ,0.19166 ,0.18915
,0.16058 ,0.15911 ,0.15769 ,0.1563 ,0.15495
,0.15363 ,0.15235 ,0.1511 ,0.14989 ,0.1487
,0.14754 ,0.14641 ,0.1453 ,0.1453 ,0.14361
,0.14361 ,0.14112 ,0.14112 ,0.13916
,0.13916 ,0.13728 ,0.13728 ,0.13548
,0.13548 ,0.13375 ,0.13375 ,0.13208
,0.13208 ,0.13048 ,0.13048 ,0.12894
,0.12894 ,0.12745 ,0.12745 ,0.12601
,0.12601 ,0.12464 ,0.12464 ,0.12327
,0.12327 ,0.12197 ,0.12197 ,0.12071
,0.12071 ,0.11949 ,0.11949 ,0.11831
,0.11831 ,0.11716 ,0.11716 ,0.11604
,0.11604 ,0.11496)
Realiza una prueba estadstica para estudiar la dependencia serial sobre el periodograma
acumulado de la variable y, con una significacin de 0,1(significance=1);
0,05(significance=2); 0,025(significance=3); 0,01(significance=4) y 0,005 (significance=5)
(Durbin; 1969)
```{r}
td <- function(y,significance) {
# Author: Francisco Parra Rodrguez
104
# Some ideas from:
#Harvey, A.C. (1978), Linear Regression in the Frequency Domain,
International Economic Review, 19, 507-512.
# DURBIN, J., "Tests for Serial Correlation in Regression Analysis
based on the Periodogram ofLeast-Squares Residuals," Biometrika, 56,
(No. 1, 1969), 1-15.
# http://econometria.wordpress.com/2013/08/21/estimation-of-time-
varying-regression-coefficients/
per <- periodograma(y)
p <- as.numeric(per$densidad)
n <- length(p)
s <- p[1]
t <- 1:n
for(i in 2:n) {s1 <-p[i]+s[(i-1)]
s <- c(s,s1)
s2 <- s/s[n]
}
while (n > 100) n <- 100
if (significance==1) c<- c(TestD[n,1]) else {if (significance==2) c <-
c(TestD[n,2]) else {if (significance==3) c <- c(TestD[n,3]) else {if
(significance==4) c <- c(TestD[n,4])
c <- c(TestD[n,5])}}}
min <- -c+(t/length(p))
max <- c+(t/length(p))
data.frame(s2,min,max)
}
```
Funcin para presentar grficamente los resultados de la prueba de Durbin (Durbin; 1969):
```{r}
gtd <- function (y,significance) {
S <- td(y,significance)
plot(ts(S), plot.type="single", lty=1:3,main = "Test Durbin",
ylab = "densidad acumulada",
xlab="frecuencia")
}
```
> res <- Y-F
> td(res,3)
s2 min max
1 0.1042583 -0.2447 0.4947
2 0.2230305 -0.1197 0.6197
3 0.3581542 0.0053 0.7447
4 0.4971258 0.1303 0.8697
5 0.6324497 0.2553 0.9947
6 0.7536951 0.3803 1.1197
7 0.8544578 0.5053 1.2447
8 1.0000000 0.6303 1.3697
> gtd(res,3)
105
Test Durbin
1.0
densidad acumulada
0.5
0.0
1 2 3 4 5 6 7 8
frecuencia
Si la observacin se toma a intervalos de tiempo t , entonces la frecuencia angular es .
t
1
La frecuencia equivalente expresada en ciclos por unidad de tiempo es f t .
2 2
1
Cuando solo hay una observacin por ao, radianes por ao o f ciclos por ao (un
2
ciclo por cada dos aos), variaciones con una oscilacin de un ao tienen una frecuencia de
2 radianes por ao o f 1 ciclos por ao.
Por ejemplo en una serie mensual de n 100 datos, el ciclo estacional o las oscilaciones que
100
ocurren al cabo del ao, tienen una frecuencia de f 8,33 ciclos por cada 100 datos.
12
Una serie mensual que completa 8 ciclos, al ser su menor frecuencia estacional 1 ciclo por ao,
tendr un total de 96 observaciones (8 ciclos), y los mltiplos enteros que tambin destacaran en
n 2n 3n
su periodograma correspondern a las frecuencias f , , ,... ; las oscilaciones de
12 12 12
106
tendencia o de baja frecuencia, las que ocurren con un ciclo inferior al ao correspondern a las
n
frecuencias f .
12
Puede utilizarse (7.6) para estimar los coeficientes de Fourier de la serie temporal y t :
Y AI n AT AI N AT u
o
Y AtI n AT AI N AT u
En (6.9)
1 0 0 ... 0
0 1 0 ... 0
W At I n A 0
T
0 1 ... 0
. . . ... .
0 0 0 ... 1
1 0 0 0 0 ... 0
0 1 0 0 0 ... 0
0 0 1 0 0 ... 0
W * At I n AT 0 0 0 1 0 ... 0
0 0 0 0 0 ... 0
. . . . . ... .
0 0 0 0 0 ... 0
2n
Las 1 primeras filas de la matriz A son utilizadas para estimar los coeficientes de Fourier
12
2n
que corresponden a los ciclos de bajas frecuencias, los ciclos de tendencia, y las filas y
12
2n
1 permiten regresar sobre los coeficientes de Fourier que dan lugar a oscilaciones de un
12
6n 6n 8n
ciclo en cada ao, los mltiplos enteros de dicha frecuencia y 1 , el ...deben de ser
12 12 12
utilizados para obtener la frecuencia estacional.
Ejemplo 7.3
107
La funcin descomponer, requiere indicar la serie, la frecuencia de la serie temporal, el tipo de
ajuste, 1, si se quiere realizar un ajuste utilizando (6.9) o 2 si se desea realizar un ajuste
utilizando (6.10), y el numero de datos a proyectar.
plot(ts(desc1$datos,frequency=12))
Para realizar una representacin grfica del periodograma de los residuos se invoca la funcin
gperiodograma.
> gperiodograma(desc1$datos$IR)
108
Para realizar un test sobre la aleatoriedad de la serie irregular (IR) basado en el periodograma
acumulados puede utilizarse la funcin cpgram.
> cpgram(ts(desc1$datos$IR,frequency=12))
o alternativamente:
> gtd(desc1$datos$IR,3)
109
110
8. MTODOS DE CLASIFICACIN
8.1. INTRODUCCIN
La clasificacin supervisada es una de las tares que ms frecuentemente son llevadas a cabo por
los denominados Sistemas Inteligentes. Por lo tanto, un gran nmero de paradigmas
desarrollados bien por la Estadstica (Regresin Logstica, Anlisis Discriminante) o bien por la
Inteligencia Artificial (Redes Neuronales, Induccin de Reglas, rboles de Decisin, Redes
Bayesianas) son capaces de realizar las tareas propias de la clasificacin.
A lo largo del curso se trataran los mtodos desarrollados por la estadstica: Anlisis
Discriminante y Regresin Logstica y los K vecinos prximos, los Arboles de Decisin y las
Mquinas Soporte Vector desarrollados por la Inteligencia Artificial.
Paso previo a aplicar un mtodo de clasificacin, es la particin del conjunto de datos en dos
conjuntos de datos ms pequeos que sern utilizadas con los siguientes fines: entrenamiento y
test9. El subconjunto de datos de entrenamiento es utilizado para estimar los parmetros del
modelo y el subconjunto de datos de test se emplea para comprobar el comportamiento del
modelo estimado. Cada registro de la base de datos debe de aparecer en uno de los dos
subconjuntos, y para dividir el conjunto de datos en ambos subconjuntos, se utiliza un
procedimiento de muestreo: muestreo aleatorio simple o muestreo estratificado. Lo ideal es
entrenar el modelo con un conjunto de datos independiente de los datos con los que realizamos
el test.
Valor real de Yi
Yi 0 Yi 1
Yi Yi 0 P11 P12
Yi 1 P21 P22
Donde P11 y P22 correspondern a predicciones correctas (valores 0 bien predichos en el primer
caso y valores 1 bien predichos en el segundo caso), mientras que P12 y P21 correspondern a
predicciones errneas (valores 1 mal predichos en el primer caso y valores 0 mal predichos en el
segundo caso). A partir de estos valores se pueden definir los ndices que aparecen en el
siguiente cuadro:
9
Pueden considerarse tres conjuntos de datos: entrenamiento, validacin y test. El conjunto de datos de
validacin se utilizara en estos casos para ajustar y/o seleccionar el mejor modelo.
111
Un mtodo para evaluar clasificadores alternativo a la mtrica expuesta es la curva ROC
(Receiver Operating Characteristic). La curva ROC es una representacin grfica del
rendimiento del clasificador que muestra la distribucin de las fracciones de verdaderos
positivos y de falsos positivos. La fraccin de verdaderos positivos se conoce como
sensibilidad, sera la probabilidad de clasificar correctamente a un individuo cuyo estado real
sea definido como positivo. La especificidad es la probabilidad de clasificar correctamente a un
individuo cuyo estado real sea clasificado como negativo. Esto es igual a restar uno de la
fraccin de falsos positivos.
112
Figura n 8.1.
En R existe una librera que ayuda a la representacin de la curva ROC: el R-package ROCR.
El Anlisis Discriminante (AD), introducido por Fisher (1936), es una tcnica que se utiliza
para predecir la pertenencia a un grupo (variable dependiente) a partir de un conjunto de
predictores (variables independientes). El objetivo del AD es entender las diferencias de los
grupos y predecir la verosimilitud de que una persona o un objeto pertenezca a una clase o
grupo basndose en los valores que toma en los predictores. Ejemplos de anlisis discriminante
son distinguir entre innovadores y no innovadores de acuerdo a sus perfiles demogrficos y
sociales o el riesgo de impago de un prstamo a travs de predictores econmicos y
sociodemogrficos.
Y1 X 1i X 2i ... X p
Z jk 0 1 X 1k 2 X 2 k ... p X pk
donde,
113
o trmino constante
i ponderacin discriminante para la variable independiente i
Una vez hallada la funcin discriminante, el resultado es una nica puntuacin Z discriminante
compuesta para cada individuo en el anlisis. Promediando las puntuaciones discriminantes para
todos los individuos dentro de un grupo particular, obtenemos la media del grupo. Esta media es
conocida como centroide. Cuando el anlisis se realiza con dos grupos tenemos dos centroides,
si es con tres seran tres los centroides, con k objetos tendremos k centroides.
Z jk 0 1 X 1k 2 X 2 k
Sustituyendo en la funcin discriminante el valor de las medias del grupo 1 en las variables X 1
y X 2 , obtenemos el centroide del grupo 1:
Z 1 0 1 X 11 2 X 21
De igual modo, sustituyendo las medias del grupo 2, obtenemos el centroide del grupo 2:
Z 2 0 1 X 12 2 X 22
La funcin Z debe ser tal que la distancia entre los dos centroides sea mxima, consiguiendo de
esta forma que los grupos estn lo ms distantes posible. Podemos expresar esta distancia de la
siguiente manera:
h Z1 Z 2
Es importante sealar que los grupos deben diferenciarse de antemano en las variables
independientes. El anlisis busca diferenciar los dos grupos al mximo combinando las
variables independientes pero si los grupos no difieren en las variables independientes, no podr
encontrar una dimensin en la que los grupos difieran (figura 8.2). Dicho de otro modo, si el
solapamiento entre los casos de ambos grupos es excesivo, los centroides se encontrarn en la
misma o parecida ubicacin en el espacio p-dimensional y en esas condiciones, no ser posible
encontrar una funcin discriminante til para la clasificacin. Es decir, si los centroides estn
muy prximos, las medias de los grupos en la funcin discriminante sern tan parecidas que no
ser posible distinguir a los sujetos de uno y otro grupo.
114
Figura n 8.2.
La mayor utilidad de una funcin discriminante radica en su capacidad para clasificar nuevos
casos. Ahora bien, la clasificacin de casos es algo muy distinto de la estimacin de la funcin
discriminante. De hecho, una funcin perfectamente estimada puede tener una pobre capacidad
clasificatoria.
Una vez obtenida la funcin discriminate podemos utilizarla, en primer lugar, para efectuar una
clasificacin de los mismos casos utilizados para obtener la funcin: esto permitir comprobar
el grado de eficacia la funcin desde el punto de vista de la clasificacin. Si los resultados son
satisfactorios, la funcin discriminante podr utilizarse, en segundo lugar, para clasificar futuros
casos de los que, conociendo su puntuacin en las variables independientes, se desconozca el
grupo al que pertenecen.
Una manera de clasificar los casos consiste en calcular la distancia existente entre los centroides
Z1 Z 2
de ambos grupos y situar un punto de corte z 0 equidistante de ambos centroides. A
2
partir de ese momento, los casos cuyas puntuaciones discriminantes sean mayores que el punto
de corte z 0 sern asignados al grupo superior y los casos cuyas puntuaciones discriminantes
sean menores que el punto de corte z 0 sern asignados al grupo inferior.
La regla de clasificacin descrita slo permite distinguir entre dos grupos, con lo que es
difcilmente aplicable al caso de ms de dos grupos e incluso a dos grupos con distinto tamao,
con tamaos desiguales es preferible utilizar una regla de clasificacin que desplace el punto de
corte hacia el centroide del grupo de menor tamao buscando igualar los errores de
clasificacin. Para calcular este punto de corte se utiliza una distancia ponderada10:
n1 Z 1 n2 Z 2
z0
n1 n2
El AD solo admite variables cuantitativas como regresores, por lo que si alguna de las variables
independientes es categrica, hay que utilizar otros mtodos alternativos de clasificacin.
10
Fukunaga y Kessell (1973) han propuesto una regla de clasificacin basada en la teora bayesiana. Esta
otra regla permite incorporar fcilmente la informacin relativa al tamao de los grupos y, adems, es
extensible al caso de ms de dos grupos.
115
Ejemplo 8.1
Para realizar una minera de datos con la clasificacin de familias con renta inferior al 60% de la
mediana a partir de las explicativas seleccionadas en el Ejemplo 4.2, para ello se va a dividir la
encuesta en dos muestras una de entrenamiento con el 70% de los datos y una muestra test con
el 30% restante, a fin de no tener problemas en los clculos con los datos ausentes se va a
elaborar un data frame en donde se omitirn los NAs. La funcin R que realiza el Anlisis
Discriminante Lineal es lda. Para los 5 primeros datos, se dan los resultados de la
clasificacin (class), las probabilidades posteriores de pertenecer a la clase cero (posterior.0) o
de pertenecer a la clase 1 (posterior.1), la probabilidad posterior es la probabilidad condicional
que es asignada despus de que la evidencia es tomada en cuenta. Evaluaremos los resultados
con una mtrica de porcentaje de aciertos y la curva ROC.
```{r}
datos1<-na.omit(datos)
explicativas <-
data.frame(datos1$nmiemb,datos1$nmiem11,datos1$nmiem12,datos1$numinact
i,datos1$numocu)
#modelo
x=explicativas
y=datos1$pobre
# divisin de la muestra en entrenamiento y validacion
train=sample(seq(length(y)),length(y)*0.70,replace=FALSE)
# Lineal Discriminat Analisys
lda.tr=lda(y[train]~.,data=x[train,])
#prediccin
probs=predict(lda.tr,newdata=x[-train,],type="prob")
data.frame(probs)[1:5,]
table(probs$class,y[-train])
mean(probs$class==y[-train]) #porcentaje de bien clasificados
#grfica curva ROC
library(ROCR)
predict.rocr <- prediction (probs$posterior[,2],y[-train])
perf.rocr <- performance(predict.rocr,"tpr","fpr") #True y False
postivie.rate
auc <- as.numeric(performance(predict.rocr ,"auc")@y.values)
plot(perf.rocr,type='o', main = paste('Area Bajo la Curva
=',round(auc,2)))
abline(a=0, b= 1)
```
##classposterior.0posterior.1LD1
##100.89475610.105243930.1670454
##700.94168820.058311810.6064807
##1200.89361140.106388600.1587596
##1500.89361140.106388600.1587596
##1900.80197550.198024480.3408693
##
##01
116
##03920629
##1256527
##[1]0.834021
La Regresin Logstica es un mtodo ajuste estadstico cuyo objetivo es obtener una relacin
funcional entre una transformacin -de una variable cualitativa- llamada logit y p variables
predictoras que pueden ser cuantitativas o cualitativas (apartado 4.2). La caracterstica
fundamental de esta regresin es que la variable dependiente es dicotmica.
pi
Li ln ln(e ) 0 1 X 1i 2 X 2i ... p X pi
z
(1 pi )
En el caso de una variable explicativa dicotmica, el modelo tiene una formulacin equivalente
dada por:
117
1
p ( o 1 X 1i 2 X 2 i ... p X pi
(1 e )
De manera que el modelo se usa para clasificar nuevos individuos a partir de reglas de la
siguiente forma:
Sin embargo, la eleccin de un umbral igual a 0,5 no siempre es la mejor alternativa. En el caso
en que la muestra presente desequilibrios entre el nmero de unos y el de ceros la eleccin de un
umbral igual a 0,5 podra conducir a no predecir ningn uno o ningn cero. El modo de resolver
este problema es tomar un umbral ms pequeo.
Ejemplo 8.2.
Partiendo del modelo estimado en el Ejemplo 4.1, vamos a realizar una minera de datos,
dividiendo la encuesta en dos muestras una de entrenamiento con el 70% de los datos y una
muestra test con el 30% restante, a fin de no tener problemas de clculo con los datos ausentes
se va a elaborar un data frame en donde se omitirn los NAs. Evaluaremos los resultados
con una mtrica de porcentaje de aciertos y la curva ROC.
# Seleccin de variables
datos2=na.omit(datos)
explicativas <-
data.frame(datos2$nmiemb,datos2$nmiem11,datos2$nmiem12,datos2$numinact
i,datos2$numocu,datos2$tiphogar1,datos2$situocuhog)
x=explicativas
y=datos1$pobre
# divisin de la muestra en entrenamiento y validacion
train=sample(seq(length(y)),length(y)*0.70,replace=FALSE)
# Estimacin de modelo probit
glm.tr=glm(y[train]~.,data=x[train,],family=binomial)
#prediccin
probs=predict.glm(glm.tr,newdata=x[-train,],type="response")
pred=ifelse(probs>0.5,1,0)
table(pred,y[-train])
mean(pred==y[-train])
#grfica curva ROC
library(ROCR)
predict.rocr <- prediction (probs,y[-train])
perf.rocr <- performance(predict.rocr,"tpr","fpr") #True y Tasa de
falsos positivos
118
auc <- as.numeric(performance(predict.rocr ,"auc")@y.values)
plot(perf.rocr,type='o', main = paste('Area Bajo la Curva
=',round(auc,2)))
abline(a=0, b= 1)
```
Los resultados obtenidos:
##
##pred01
##03929625
##1246532
##[1]0.8366467
119
Figura n 8.3
xi x1i , x 2i ,..., x pi X
x x rj
p
2
d ( xi , x j ) ri
r 1
La fase de entrenamiento del algoritmo consiste en almacenar los vectores caractersticos y las
etiquetas de las clases de los ejemplos de entrenamiento. En la fase de test, la evaluacin del
ejemplo (del que no se conoce su clase) es representada por un vector en el espacio
caracterstico. Se calcula la distancia entre los vectores almacenados y el nuevo vector, y se
seleccionan los k ejemplos ms cercanos. El nuevo ejemplo es clasificado con la clase que ms
se repite en los vectores seleccionados.
El mtodo k-nn supone que los vecinos ms cercanos nos dan la mejor clasificacin y esto se
hace utilizando todos los atributos; el problema de dicha suposicin es que es posible que se
120
tengan muchos atributos irrelevantes que dominen sobre la clasificacin, de manera que los
atributos relevantes perderan peso entre otros veinte irrelevantes.
Ejemplo 8.2
Partiendo del modelo estimado en el Ejemplo 4.1, vamos a realizar una minera de datos,
dividiendo la encuesta en dos muestras una de entrenamiento con el 70% de los datos y una
muestra test con el 30% restante, se va a realizar el proceso con el primer vecino prximo k=1
(Nearest Neighbor Algorithm), para ello hay que instalar el package-R class, e invocar la
funcin knn1, dentro de esta librera la funcin knn permite elegir el numero de vecinos a
aproximar, en est funcin todas las covariables han de ser numricas por lo que las variables
clasificatorias de tipos de hogares y situacin de ocupacin de hogares son transformadas a
numricas. Evaluaremos los resultados con una mtrica de porcentaje de aciertos.
```{r}
library(class)
# Seleccin de variables
explicativas <-
data.frame(datos1$nmiemb,datos1$nmiem11,datos1$nmiem12,datos1$numinact
i,datos1$numocu)
x=explicativas
y=datos1$pobre
# K-Nearest Neighbors
Pobre=as.factor(y)
train=sample(seq(length(y)),length(y)*0.70,replace=FALSE)
knn.prd=knn1(x[train,1:5],x[-train,1:5],Pobre[train])
table(knn.prd,Pobre[-train])
```
Los resultados obtenidos:
knn.prd01
##03954662
##1223493
Los rboles de decisin o de clasificacin son un modelo surgido en el mbito del aprendizaje
automtico (Machine Learning) y de la Inteligencia Artificial que partiendo de una base de
datos, crea diagramas de construcciones lgicas que nos ayudan a resolver problemas. A esta
121
tcnica tambin se la denomina segmentacin jerrquica. Es una tcnica explicativa y
descomposicional que utiliza un proceso de divisin secuencial, iterativo y descendente que
partiendo de una variable dependiente, forma grupos homogneos definidos especficamente
mediante combinaciones de variables independientes en las que se incluyen la totalidad de los
casos recogidos en la muestra.
Suponemos que se dispone de una muestra de entrenamiento que incluye la informacin del
grupo al que pertenece cada caso y que sirve para construir el criterio de clasificacin. Se
comienza con un nodo inicial y nos preguntamos cmo dividir el conjunto de datos disponibles
en dos partes ms homogneas utilizando una de las variables. Esta variable se escoge de modo
que la particin de datos se haga en dos conjuntos lo ms homogneos posibles. Se elige, por
ejemplo, la variable x1 y se determina un punto de corte, por ejemplo c, de modo que se puedan
separar los datos en dos conjuntos: aquellos con x1 c y los que tienen x1 c . De este nodo
inicial saldrn ahora dos: uno al que llegan las observaciones con x1 c y otro al que llegan las
observaciones con x1 c . En cada uno de estos nodos se vuelve a repetir el proceso de
seleccionar una variable y un punto de corte para dividir la muestra en dos partes ms
homogneas. El proceso termina cuando se hayan clasificado todas las observaciones
correctamente en su grupo.
En los rboles de decisin se encuentran los siguientes componentes: nodos, ramas y hojas. Los
nodos son las variables de entrada, las ramas representan los posibles valores de las variables de
entrada y las hojas son los posibles valores de la variable de salida. Como primer elemento de
un rbol de decisin tenemos el nodo raz que va a representar la variable de mayor relevancia
en el proceso de clasificacin. Todos los algoritmos de aprendizaje de los rboles de decisin
obtienen modelos ms o menos complejos y consistentes respecto a la evidencia, pero si los
datos contienen incoherencias, el modelo se ajustar a estas incoherencias y perjudicar su
comportamiento global en la prediccin, es lo que se conoce como sobreajuste. Para solucionar
este problema hay que limitar el crecimiento del rbol modificando los algoritmos de
aprendizaje para conseguir modelos ms generales. Es lo que se conoce como poda en los
rboles de decisin.
Las reglas de parada tratan de preguntar si merece la pena seguir o detener el proceso de
crecimiento del rbol por la rama actual, se denominan reglas de prepoda ya que reducen el
crecimiento y complejidad del rbol mientras se est construyendo:
122
Pureza de nodo. Si el nodo solo contiene ejemplos o registros de una nica clase se
decide que la construccin del rbol ya ha finalizado.
Cota de profundidad. Previamente a la construccin se fija una cota que nos marque la
profundidad del rbol, cuando se alcanza se detiene el proceso.
Umbral de soporte. Se especifica un nmero de ejemplos mnimo para los nodos, y
cuando se encuentre un nodo con ejemplos por debajo del mnimo se para el proceso, ya
que no consideramos fiable una clasificacin abalada con menos de ese nmero mnimo
de ejemplos.
Existen dos formas de poda muy comunes utilizadas en los diferentes algoritmos: la poda por
coste-complejidad y la poda pesimista. En la poda por coste-complejidad se trata de equilibrar la
precisin y el tamao del rbol. La complejidad est determinada por el nmero de hojas que
posee el rbol (nodos terminales). La poda pesimista utiliza los casos clasificados
incorrectamente y obtiene un error de sustitucin, eliminando los subrboles que no mejoran
significativamente la precisin del clasificador.
Ejemplo 8.3
Partiendo del modelo estimado en el Ejemplo 4.1, vamos a realizar una minera de datos,
dividiendo la encuesta en dos muestras una de entrenamiento con el 70% de los datos y una
muestra test con el 30% restante, se va ha realizar la clasificacin utilizando arboles de decisin,
para ello hay que instalar el package-R: tree, e invocar la funcin tree. Se realiza una poda por
el procedimiento de coste-complejidad, y mediante un procedimiento de validacin cruzada
elegir el mejor resultado. Para ello hay que invocar la funcin cv.tree con la opcin
FUN=prune.misclas. Evaluaremos los resultados con una mtrica de porcentaje de aciertos.
require(tree)
# Seleccin de variables
explicativas <-
data.frame(datos2$nmiemb,datos2$nmiem11,datos2$nmiem12,datos2$numinact
i,datos2$numocu,datos2$tiphogar1,datos2$situocuhog)
y=as.factor(datos1$pobre)
datos3 <- data.frame(explicativas,y)
# divisin de la muestra en entrenamiento y validacion
train=sample(seq(length(y)),length(y)*0.70,replace=FALSE)
Pobreza.tree = tree(y~.,datos3,subset=train)
summary(Pobreza.tree)
plot(Pobreza.tree);text(Pobreza.tree,pretty=0)
Pobreza.tree
tree.pred=predict(Pobreza.tree,datos3[-train,],type="class")
summary(tree.pred)
with(datos3[-train,],table(tree.pred,y))
123
cv.Pobreza
plot(cv.Pobreza)
prune.Pobreza=prune.misclass(Pobreza.tree,best=5)
plot(prune.Pobreza);text(Pobreza.tree,pretty=0)
tree.pred=predict(prune.Pobreza,datos3[-train,],type="class")
with(datos3[-train,],table(tree.pred,y))
```
##
##Classificationtree:
##tree(formula=y~.,data=datos3,subset=train)
##Variablesactuallyusedintreeconstruction:
##[1]"datos1.situocuhog""datos1.nmiemb"
##Numberofterminalnodes:5
##Residualmeandeviance:0.8397=10440/12430
##Misclassificationerrorrate:0.1939=2412/12439
##node),split,n,deviance,yval,(yprob)
##*denotesterminalnode
##
##1)root1243912930.00(0.785590.21441)
##2)datos1.situocuhog:Elsustentadorprincipalyel
cnyugeocupados,almenosotrodelosmiembrostambinocupado,El
sustentadorprincipalyelcnyugeocupados,ningunodelosotros
miembrosocupados(siesqueloshay),Elsustentadorprincipaloel
cnyugeocupado,almenosotrosdosmiembrosocupados,Nielsustentador
principalnisucnyugeocupados,almenosotrosdosmiembrosocupados
39051989.00(0.929580.07042)*
##3)datos1.situocuhog:Elsustentadorprincipaloelcnyuge
ocupado,otrodelosmiembrosocupado,Elsustentadorprincipaloel
cnyugeocupado,ningunodelosotrosmiembrosocupado(siesquelos
hay),Nielsustentadorprincipalnisucnyugeocupado,otromiembro
ocupado,Ningnocupadoenelhogar853410130.00(0.719710.28029)
##6)datos1.nmiemb<2.543683169.00(0.882100.11790)*
##7)datos1.nmiemb>2.541665734.00(0.549450.45055)
##14)datos1.situocuhog:Elsustentadorprincipaloelcnyuge
ocupado,otrodelosmiembrosocupado,Nielsustentadorprincipalni
sucnyugeocupado,otromiembroocupado768738.30(0.81380
0.18620)*
##15)datos1.situocuhog:Elsustentadorprincipaloel
cnyugeocupado,ningunodelosotrosmiembrosocupado(siesquelos
hay),Ningnocupadoenelhogar33984709.01(0.489700.51030)
##30)datos1.nmiemb<4.529514079.00(0.531350.46865)*
##31)datos1.nmiemb>4.5447465.11(0.214770.78523)*
124
Se ha elaborado un arbol con 5 nodos terminales, que considera como pobres todos los hogares
de ms de 4,5 miembros en donde: El sustentador principal o el cnyuge est ocupado, y
ninguno de los otros miembros ocupado (si es que los hay), y en los que no hay ningn ocupado
en el hogar. Este clasificador presenta los siguientes resultados en la muestra de test:
##01
##5130202
##y
##tree.pred01
##041141016
##145157
##$size
##[1]51
##
##$dev
##[1]24112580
##
##$k
##[1]Inf63.75
##
##$method
##[1]"misclass"
##
##attr(,"class")
##[1]"prune""tree.sequence"
125
8.6. MQUINAS DE SOPORTE VECTOR
Las Mquinas de Soporte Vectorial (Support Vector Machines SVMs) son un conjunto de
algoritmos de aprendizaje supervisados que desarrollan mtodos relacionados con los problemas
de clasificacin y regresin.
Como en la mayora de los mtodos de clasificacin supervisada, los datos de entrada (los
puntos) son vistos como un vector p-dimensional (una lista de p nmeros). Dado un conjunto de
puntos como un subconjunto de un conjunto mayor (espacio), en el que cada uno de ellos
pertenece a una de dos posibles categoras, de manera que un algoritmo basado en SVM
construye un modelo capaz de predecir si un punto nuevo (cuya categora desconocemos)
pertenece a una categora o a la otra.
126
puntos en el espacio para tratar de separar las diferentes clases mediante un espacio lo ms
amplio posible, para que cuando las nuevas muestras de los casos de test se pongan en
correspondencia con dicho modelo puedan ser clasificadas correctamente en funcin de su
proximidad.
Figura 8.4
La manera ms simple de realizar la separacin es mediante una lnea recta, un plano recto o un
hiperplano N-dimensional. Desafortunadamente los universos a estudiar no se suelen presentar
en casos idlicos de dos dimensiones como en el ejemplo anterior, sino que un algoritmo SVM
debe tratar con ms de dos variables predictoras, curvas no lineales de separacin, casos donde
los conjuntos de datos no pueden ser completamente separados, clasificaciones en ms de dos
categoras.
Ejemplo 8.4.
Partiendo del modelo estimado en el Ejemplo 4.1, vamos a realizar una minera de datos,
dividiendo la encuesta en dos muestras una de entrenamiento con el 70% de los datos y una
muestra test con el 30% restante, se va ha realizar la clasificacin utilizando una mquina de
soporte vector, para ello hay que instalar el package-R: e1017, e invocar la funcin svm. Se
estima un modelo con un lineal y un Kernel de base radial (la funcin permite adems funciones
base polinomiales y sigmoides). Evaluaremos los resultados con una mtrica de porcentaje de
aciertos, y obtenemos la curva ROC para la muestra test con la funcin radial.
```{r}
library(e1071)
# Seleccin de variables
127
explicativas <-
data.frame(datos1$nmiemb,datos1$nmiem11,datos1$nmiem12,datos1$numinact
i,datos1$numocu)
y=as.factor(datos1$pobre)
datos4 <- data.frame(explicativas,y)
# se estima un modelo svm lineal para la muestra de entrenamiento
train=sample(seq(length(y)),length(y)*0.70,replace=FALSE)
svmfit=svm(datos4$y~.,data=datos4,kernel="linear",scale=FALSE,subset=t
rain)
print(svmfit)
plot(svmfit,datos4,datos1.nmiemb~datos1.numocu)
table(datos4$y[train],svmfit$fitted)
# Prediccin para la muestra test
svm.pred=predict(svmfit,datos4[-train,])
summary(svm.pred)
with(datos4[-train,],table(svm.pred,y))
# se estima un modelo svm lineal para la muestra de entrenamiento y se
predice la muestra de test
svmfit2=svm(datos4$y~.,data=datos4,kernel="radial",scale=FALSE,subset=
train,probability=TRUE)
print(svmfit2)
svm.pred=predict(svmfit2,datos4[-train,],probability=TRUE)
summary(svm.pred)
with(datos4[-train,],table(svm.pred,y))
#grfica curva ROC
library(ROCR)
svm.pred=predict(svmfit2,datos4[-train,],probability =TRUE)
prob=svm.pred=predict(svmfit2,datos4[-train,],probability =TRUE)
predict.rocr <- prediction (attr(prob,"probabilities")[,2],y[-train])
perf.rocr <- performance(predict.rocr,"tpr","fpr") #True y Tasa de
falsos positivos
auc <- as.numeric(performance(predict.rocr ,"auc")@y.values)
plot(perf.rocr,type='o', main = paste('Area Bajo la Curva
=',round(auc,2)))
abline(a=0, b= 1)
```
En primer lugar, se estima un Kernel lineal:
##
##Call:
##svm(formula=datos4$y~.,data=datos4,kernel="linear",
##subset=train,scale=FALSE)
##
##
##Parameters:
##SVMType:Cclassification
##SVMKernel:linear
128
##cost:1
##gamma:0.2
##
##NumberofSupportVectors:4582
##
##01
##09466319
##11715939
##y
##svm.pred01
##04017802
##1129384
##
##Call:
##svm(formula=datos4$y~.,data=datos4,kernel="radial",
##probability=TRUE,subset=train,scale=FALSE)
##
##
##Parameters:
##SVMType:Cclassification
##SVMKernel:radial
129
##cost:1
##gamma:0.2
##
##NumberofSupportVectors:4280
##y
##svm.pred01
##03970757
##1176429
El mtodo propuesto por Breinan (1966) intenta aunar las caractersticas del Boostrapping11 y la
agregacin incorporando los beneficios de ambos (Boostrap AGGregatiNG). La operativa del
mtodo es la siguiente:
Se generan muestras aleatorias que sern los conjuntos de entrenamiento. Las muestras
se generan a travs de un muestreo aleatorio con reemplazamiento.
Cada subconjunto de entrenamiento aprende un modelo.
11
El bootstrapping (o bootstrap) es un mtodo de remuestreo propuesto por Bradley Efron en 1979. Se
utiliza para aproximar la distribucin en el muestreo de un estadstico.
130
Para clasificar un ejemplo se predice la clase de ese ejemplo para cada clasificador y se
clasifica en la clase con mayor voto.
El mtodo propuesto por Freund y Schapire (1996), est basado en la asignacin de un peso a
cada conjunto de entrenamiento. Cada vez que se itera se aprende un modelo que minimiza la
suma de los pesos de aquellos ejemplos clasificados errneamente. Los errores de cada iteracin
sirven para actualizar los pesos del conjunto de entrenamiento, incrementando el peso de los
mal clasificados y reduciendo el peso de aquellos que han sido correctamente clasficados. La
decisin final para un nuevo patrn de clasificacin viene dada por la votacin mayoritaria
ponderada entre los diferentes conjuntos de entrenamiento.
131
9. BIBLIOGRAFA
Introduccin a R:
https://www.datacamp.com/courses/introduccion-a-r/?tap_a=5644-
dce66f&tap_s=10907-287229
Akaike, H. (1974), A new look at the statistical model identification, IEEE Transactions on
Automatic Control AC-19, pp. 716723.
Ashley, Richard A. (1984), A Simple Test for Regression Parameter Instability, Economic
Inquiry 22, No. 2, 253-267.
Box, G.E.P., Jenkins, G.M. y Reinsel, G.C. (1994), Time Series Analysis - Forecasting and
Control, 3rd Edition, Prentice Hall.
Cayuela L (2010) Modelos lineales generalizados (GLM). EcoLab, Centro Andaluz de Medio
Ambiente, Universidad de Granada. Junio 2010.
Chateld, Cris (2004). The Analysis of Time Series: An Introduction (6th edn.), 2004. CRC Press
Christ (1960). Simultaneus Equations Estimation: Any Veredict Yet?. Econometrica 28, pp.
835-845.
132
Cochrane, D. y Orcutt, G. H. (1949a), Application Of Least Squares Regression To
Relationships Containing Autocorrelated Error Terms, Journal of American Statistical
Association 44, pp. 32-61.
Dickey, D.A. y W.A. Fuller (1979), Distribution of the Estimators for Autoregressive Time
Series with a Unit Root, Journal of the American Statistical Association, 74, p. 427431.
Durbin, J. y Koopman, S. J. (2001), Time Series Analysis by State Space Models (Oxford
Statistical Science Series, n 24), Oxford University Press.
Durbin, J. y Watson, G. S. (1950), Testing for Serial Correlation Least Squares Regressions,
Biometrika, vol 37. pp. 409-428.
Bradley Efron, Elizabeth Halloran, and Susan Holmes (1996). "Bootstrap confidence levels for
phylogenetic trees". PNAS 93 (23): http://www.pnas.org/content/93/23/13429.full.pdf
Fix, E.; J.L. Hodges (1989) (1951): An Important Contribution to Nonparametric Discriminant
Analysis and Density Estimation: Commentary on Fix and Hodges (1951). International
Statistical Review / Revue Internationale de Statistique 57 (3): 233-238.
Gallant, A. R.(1981) "On the Bias in Flexible Functional Forms and an Essentially Unbiased
Form." J. Econometrics 15(1981):211-45.
Gallant, A. R.(1984) "The Fourier Flexible Form." Amer. J. Agr. Econ. 66(1984):204-15
Granger, C.W.J.(1981), Some properties of time series data and their use in econometric model
specification, Journal of Econometrics 16, pp. 121-130.
133
Greene, W. H. (2000), Anlisis Economtrico, Ed. Prentice Hall
Hannan, E.J. (1963), Regression for Time Series, in Rosenblatt, M. (ed.), Time Series Analysis,
New York, John Wiley.
Hastie, T, Tibshirani R. and Friedman, J. (2008), The Element of Statistical Learning. Data
Minining, Inference and Prediction. Second Edition. Springe.
Harvey, A.C. (1978), Linear Regression in the Frequency Domain, International Economic
Review, 19, 507-512.
Hausman, J.A. (1974), Estimation and Inference in Nonlinear Structural Models, Annals of
Economic and Social Measurement, con Berndt E., Hall R.E. y Hall, B.H. October 1974.
Hausman, J.A. (1978), Specification tests in econometrics, Econometrica, 46, pp. 1251-71.
Koopmans, T.C., Rubin, H. y Leipnik, R.B. (1950). Measuring The Equation System Of
Dinamic Economics, en Statistical Inference In Dinamic Economic Models, Cowles
Commision Monografico n 10. John Wiley. Nueva York.
134
McFadden, D. (1976), Quantal Choice Analysis: A Survey, Annals Of Economic And Social
Measurement.
Muth, J.F. (1961), Rational Expectations And The Theory Of Price Movements,
Econometrica 29, pp. 315-335.
Nelder, John; Wedderburn, Robert (1972). "Generalized Linear Models". Journal of the Royal
Statistical Society. Series A (General) (Blackwell Publishing) 135 (3): 370384.
Sargent, T.J. (1984), Vector autoregressions, expectations and advice, American Economic
Review 74, pp.408-415
Swamy, P. A. y Menhta, J. S. (1977), Estimation Of Linear Models With Time And Cross-
Sectionaly Varying Coefficients, Journal Of The American Statistical Association 72.
Tan, Hui Boon & Ashley, Richard, 1999. "Detection And Modeling Of Regression Parameter
Variation Across Frequencies," Macroeconomic Dynamics, Cambridge University Press, vol.
3(01), pages 69-83, March.
135
Theil, H. (1954), Estimation Of Parameters Of Econometrics Models, Bulletin Of
International Statistics Institute 34, pp.122-128.
Tinbergen, J. (1930), Bestimmung Und Deutung Von Angebotkurven, Zeitschrift Fr
Nationalkonomie 1.
Working, E.J. (1927), What Do Statistical Demand Curves Show?, Quarterly Journal Of
Economics 41.
Wright, P.G. (1915), Review Of Economic Cycles By Henry Moore, Quarterly Journal Of
Economics 29.
Wright, P.G. (1928), The Tariff On Animal And Vegetable Oils, New York, The Mcmillan
Company
136
10. ANEXO I
137