Sunteți pe pagina 1din 138

D

o
c
u
m
e
n
t
o
Curso de Estadstica con R
s
T

Autor: Francisco Parra Rodrguez
Jefe de Servicio de Estadsticas
Econmicas y Sociodemogrficas

c
ICANE

n
i
DOC. N 2/2016
ISSN 2444 - 1627
Santander, Cantabria

c
o
s
1. EL MODELO LINEAL GENERAL ..................................................................................................3
1.1. INTRODUCCIN........................................................................................................................3
1.2. REGRESIN LINEAL SIMPLE. EL MTODO DE LOS MNIMOS CUADRADOS
ORDINARIOS. ........................................................................................................................................3
1.3. REGRESIN LINEAL MLTIPLE............................................................................................6
1.4. PROPIEDADES ESTADISTICAS DEL ESTIMADOR MNIMO CUADRADO: TEOREMA
DE GAUSS-MARKOV............................................................................................................................8
1.5. COEFICIENTES DE DETERMINACIN..................................................................................9
1.6. TABLA DE ANALIS DE LA VARIANZA (ANOVA).............................................................10
1.7. INFERENCIA ACERCA DE LOS ESTIMADORES................................................................11
1.7.1. Intervalos De Confianza.................................................................................................12
1.7.2. Contrastes de Hiptesis ..................................................................................................13
1.8. PREDICCIN EN EL MODELO DE REGRESIN ................................................................15
1.9. ESTIMACIN DE UN MODELO DE REGRESIN LINEAL CON R...................................15
1.10. LA CONSOLA R STUDIO. ..........................................................................................20
2. EXTENSIONES AL MODELO DE REGRESIN LINEAL......................................................25
2.1. INTRODUCCIN......................................................................................................................25
2.2. HETEROSCEDASTICIDAD.....................................................................................................27
2.2.1. Test de Bartlett ...............................................................................................................27
2.2.2. Contraste de Goldfeld-Quant..........................................................................................28
2.2.3. Contraste de White .........................................................................................................29
2.3 AUTOCORRELACIN...................................................................................................................30
2.3.1. Contraste de Durbin-Watson ....................................................................................................30
2.3.2. Contraste de Breush-Godfrey ...................................................................................................32
2.3. DEFICIENCIAS MUESTRALES: MULTICOLINEALIDAD .................................................33
2.4. ERRORES DE ESPECIFICACIN...........................................................................................35
2.4.1. Omisin de una variable relevante .................................................................................35
2.4.2. Inclusin de una variable innecesaria.............................................................................37
2.4.3. Especificacin funcional incorrecta ...............................................................................37
2.4.4. Contraste de errores de especificacin ...........................................................................37
2.5. METODOS DE SELECCIN DE VARIABLES EN EL MODELO DE REGRESIN
LINEAL. ................................................................................................................................................38
3. MODELOS CON VARIABLES CUALITATIVAS ....................................................................42
3.1. MODELOS CON VARIABLES CUANTITATIVAS Y CUALITATIVAS COMO
REGRESORES. .....................................................................................................................................42
3.2. MODELOS ANOVA .................................................................................................................43
3.3. MODELOS ANCOVA...............................................................................................................46
4. MODELO LINEAL GENERALIZADO..........................................................................................52
4.1. EL MODELO PROBABILSTICO LINEAL ............................................................................56
4.2. EL MODELO LOGIT ................................................................................................................58
4.3. MODELO PROBIT....................................................................................................................62
5. MODELOS CON DATOS DE PANEL.......................................................................................64
5.1. INTRODUCCIN......................................................................................................................64
5.2. ESPECIFICACIN GENERAL DE UN MODELO DE DATOS DE PANEL.........................65
5.3. VENTAJAS Y DESVENTAJAS DE LOS MODELOS DE DATOS DE PANEL....................67
5.4. MODELO DE EFECTOS FIJOS ...............................................................................................68
5.5. MODELO DE EFECTOS ALEATORIOS.................................................................................70
5.6. ELECCIN DE MODELO DE EFECTOS O EFECTOS ALEATORIOS................................71

1
6. MTODOS DE ESTIMACIN NO PARAMTRICOS...........................................................75
6.1. INTRODUCCIN......................................................................................................................75
6.2. FUNCIN NUCLEO .................................................................................................................76
6.3. ESTIMADORES DE FUNCIN NUCLEO Y POLINOMIOS LOCALES..............................79
6.4. REGRESIN POR SPLINES ....................................................................................................83
6.5. APROXIMACIN POR SERIES DE FOURIER......................................................................88
7. REGRESIN EN EL DOMINIO DE LA FRECUENCIA ...........................................................92
7.1. INTRODUCCIN......................................................................................................................92
7.2. REGRESIN BAND SPECTRUM ...........................................................................................93
7.3. REGRESIN EN EL DOMINIO DE LA FRECUENCIA CON PARAMETROS
DEPENDIENTES DEL TIEMPO. .........................................................................................................99
7.4. DESESTACIONALIZACIN A TRAVS DE LA REGRESIN DEPENDIENTE DE LA
FRECUENCIA.....................................................................................................................................106
8. MTODOS DE CLASIFICACION..............................................................................................111
8.1. INTRODUCCION....................................................................................................................111
8.2. ANALISIS DISCRIMINANTE ...............................................................................................113
8.3. REGRESION LOGSTICA......................................................................................................117
8.4. ALGORITMO K-VECINOS MAS CERCANOS. ...................................................................119
8.5. RBOLES DE CLASIFICACIN ..........................................................................................121
8.6. MQUINAS DE SOPORTE VECTOR...................................................................................126
8.7. METODOLOGAS COMBINANDO CLASIFICADORES.................................................130
9. BIBLIOGRAFA..............................................................................................................................132
10. ANEXO I ........................................................................................................................................137

2
1. EL MODELO LINEAL GENERAL

1.1. INTRODUCCIN

La regresin lineal es la tcnica bsica del anlisis economtrico. Mediante dicha tcnica
tratamos de determinar relaciones de dependencia de tipo lineal entre una variable dependiente
o endgena, respecto de una o varias variables explicativas o exgenas. Gujarati (1975), define
el anlisis de regresin como el estudio de la dependencia de la variable dependiente, sobre una
o ms variables explicativas, con el objeto de estimar o predecir el valor promedio poblacional
de la primera en trminos de los valores conocidos o fijos (en medias muestrales repetidas) de
las ltimas.

En este capitulo abordaremos el estudio del caso de una nica ecuacin de tipo lineal con una
variable dependiente y una independiente, y la generalizacin del modelo al caso de mltiples
variables exgenas. Las extensiones del modelo lineal general se analizarn en captulos
siguientes.

1.2. REGRESIN LINEAL SIMPLE. EL MTODO DE LOS MNIMOS


CUADRADOS ORDINARIOS.

Partimos de la existencia de una relacin lineal entre una variable endgena (Y) y k variables
exgenas (Xi):

Yi 0 1 X 1i 2 X 2i ... k X ki ei

Nuestro objetivo consiste en estimar los parmetros i de la ecuacin anterior a partir de los
datos muestrales de los que disponemos. Para ello utilizaremos el mtodo de los Mnimos
Cuadrados Ordinarios (MCO), pero antes de ver en que consiste este mtodo debemos plantear
ciertas hiptesis sobre el comportamiento de las variables que integran el modelo.

La variable ei la denominamos trmino de perturbacin o error, y en ella recogemos todos


aquellos factores que pueden influir a la hora de explicar el comportamiento de la variable Y y
que, sin embargo, no estn reflejados en las variables explicativas, Xi. Estos factores deberan
ser poco importantes, ya que no debera existir ninguna variable explicativa relevante omitida en
el modelo de regresin. En caso contrario estaramos incurriendo en lo que se conoce como un
error de especificacin del modelo. El trmino de perturbacin tambin recogera los posibles
errores de medida de la variable dependiente, Y.

De lo anterior se desprende que, a la hora de estimar los parmetros del modelo, resultar de
vital importancia que dicho trmino de error no ejerza ninguna influencia determinante en la
explicacin del comportamiento de la variable dependiente. Por ello, si el modelo est bien
especificado, cuando se aplica el mtodo de Mnimos Cuadrados Ordinarios, cabe realizar las
siguientes hiptesis de comportamiento sobre el trmino de error:

1. La esperanza matemtica de et es cero, tal que E (ei) = 0. Es decir, el comportamiento


del trmino de error no presenta un sesgo sistemtico en ninguna direccin determinada.
Por ejemplo, si estamos realizando un experimento en el cual tenemos que medir la

3
longitud de un determinado objeto, a veces al medir dicha longitud cometeremos un
error de medida por exceso y otras por defecto, pero en media los errores estarn
compensados.

2. La covarianza entre ei y ej es nula para i j tal que E (eiej) = 0. Ello quiere decir que
el error cometido en un momento determinado, i, no debe estar correlacionado con el
error cometido en otro momento del tiempo, j, o dicho de otro modo, los errores no
ejercen influencia unos sobre otros. En caso de existir este tipo de influencia o
correlacin, nos encontraramos ante el problema de la autocorrelacin en los residuos,
el cual impide realizar una estimacin por Mnimos Cuadrados vlida.

3. La matriz de varianzas y covarianzas del trmino de error debe ser escalar tal que
Var(ei) = 2I, i=1,,n, donde I es la matriz unidad. Dado que siempre que medimos
una variable, se produce un cierto error, resulta deseable que los errores que cometamos
en momentos diferentes del tiempo sean similares en cuanta. Esta condicin es lo que
se conoce como supuesto de homocedasticidad que, en caso de no verificarse, impedira
un uso correcto de la estimacin lineal por Mnimos Cuadrados.

Estas hiptesis implican que los errores siguen una distribucin Normal de media cero y
varianza constante por lo que, dado su carcter aleatorio, hace que los errores sean por
naturaleza impredecibles.

Asimismo, las variables incluidas en el modelo deben verificar que:

1. El comportamiento de la variable independiente Y se ajusta al modelo lineal durante


todo el periodo muestral, es decir, no se produce un cambio importante en la estructura
de comportamiento de Y a lo largo de la muestra considerada.

2. Las variables explicativas, Xi, son no estocsticas, es decir, son consideradas fijas en
muestreos repetidos.

3. El nmero de variables explicativas, k, siempre debe ser menor que el tamao muestral,
n. Es decir, siempre debemos disponer de ms observaciones que parmetros haya en el
modelo (coeficientes ).

Partiendo de la relacin lineal ms sencilla:

Yi 0 1 X 1i ei

Si suponemos que se verifican los supuestos anteriores, la estimacin mnimo cuadrtica de los
parmetros 0 y 1, dar como resultado grfico una recta que se ajuste lo mximo posible a la
nube de puntos definida por todos los pares de valores muestrales (Xi,Yi), tal y como se puede
apreciar en el Figura 1.1.

4
Fig. 1.1. Nube de puntos o grfico de dispersin con variables relacionadas linealmente

El trmino de error, ei, puede ser entendido, a la vista del grfico anterior, como la distancia
que existe entre el valor observado, Yi, y el correspondiente valor estimado, que sera la
imagen de Xi en el eje de ordenadas. El objetivo de la estimacin por Mnimos Cuadrados
Ordinarios es, precisamente, minimizar el sumatorio de todas esas distancias al cuadrado; es
decir1:

n n n
Min ei2 (Yi Yi ) 2 (Yi 0 1 X i ) 2
i 1 i 1 i 1

Derivando esta expresin respecto a los coeficientes 0 y 1 e igualando a cero obtenemos el


sistema de ecuaciones normales:

n n

Yi n0 1 X i Y o 1 X
i 1 i 1
n n n

Yi X i 0 X i 1 X i2
i 1 i 1 i 1

donde n representa el tamao muestral y X e Y representan las medias de dichas variables.


Resolviendo dicho sistema de ecuaciones obtenemos la solucin para los parmetros a y b:

X X Yi Y
n

i
1 i 1

X X
n
2
i
i 1

o Y 1 X

1
Los parmetros y variables que llevan encima un smbolo de acento circunflejo (^) indican que son
estimadas por lo que no se corresponden con el valor real del parmetro sino con el calculado por
nosotros.

5
1.3. REGRESIN LINEAL MLTIPLE

Pasamos a continuacin a generalizar el modelo anterior al caso de un modelo con varias


variables exgenas, de tal forma que se trata de determinar la relacin que existe entre la
variable endgena Y y variables exgenas: X1, X2., Xk. Dicho modelo se puede formular
matricialmente de la siguiente manera:

Y X e 1 X 1i 2 X 2i ... k X ki ei , i=1,2,, n

donde:

Y1

Y2
Y es el vector de observaciones de la variable endgena
...

Yn
X11 X12 ... X1k

X 21 X 22 ... X 2k
X X1 X2 ... Xk es la matriz de observaciones de las variables
... ... ... ...

X n1 X n2 ... X nk
exgenas
1


2 es el vector de coeficientes que pretendemos estimar
...

K
e1

e2
e es el vector de trminos de error
...

en

Si en la expresin anterior se considerara que existe trmino independiente, 0, la matriz X


quedara como:
1 X 11 ... X 1k

1 X 21 ... X 2 k
X 1 X1 X 3 ... X k
... ... ... ...
1 X
... X nk
n1

Y el modelo quedara as:

Yi o 1 X 1i 2 X 2i ... k X ki ei , i=1,2,, n

Suponiendo que se verifican las hiptesis que veamos antes, el problema a resolver nuevamente
es la minimizacin de la suma de los cuadrados de los trminos de error tal que:

6
Y X
n n n

ei2 Yi Yi
2 2
Min
i 1 i 1 i 1
Desarrollando dicho cuadrado y derivando respecto a cada i obtenemos el siguiente sistema de
ecuaciones normales expresado en notacin matricial:

X ' X X ' Y

en donde basta con despejar premultiplicando ambos miembros por la inversa de la matriz
( X ' X ) para obtener la estimacin de los parmetros del modelo tal que:

( X ' X ) 1 X ' Y

donde:

n 2 n n
n
X 1i X 1i X 2i ... X 1i X ki X 1i Yi
t 1 t 1 t 1 t 1
n n n
n
X ' X X ... X 2i X ki X `Y
2
X 2i X 1i 2i X 2i Yi
t 1 t 1 t 1
t 1
n ..... n
..... ...
n
..... n ....
X X X ki2 X Y
ki 1i X ki X 2i ... ki i
t 1 t 1 t 1 t 1

Si en el modelo existiera trmino independiente, 0, las matrices anteriores seran:

n

n
n
n

X
t 1
1i ...
t 1
X


Yi
ki
t 1
n n n
n
X'X X ... X 1i X ki X `Y X 1i Yi
2
X 1i 1i
t 1 t 1 t 1
t 1
n..... n
..... ...
n
..... n
....
X X Y
ki X ki i
2
ki X 1i ... X ki
t 1 t 1 t 1 t 1

El resultado de multiplicar dichas matrices conduce a la obtencin de la estimacin de los


parmetros i del modelo:
1
n n
n
n

X 1i
t 1
... t 1
X ki

Yi
i 1 o
n n n
n

X ' X X ' Y X X 1i Yi 1
2
1 X 1i 1i ... X 1i X ki
t 1 t 1 t 1
i 1 ...
n..... ..... ... ..... n ....
X Y k
n n
X X ki2
ki X ki X 1i ... ki i
t 1 t 1 t 1 i 1

Cada uno de los coeficientes estimados, i , son una estimacin insesgada del verdadero
parmetro del modelo y representa la variacin que experimenta la variable dependiente Y
cuando una variable independiente Xi vara en una unidad y todas las dems permanecen

7
constantes (supuesto ceteris paribus). Dichos coeficientes poseen propiedades estadsticas muy
interesantes ya que, si se verifican los supuestos antes comentados, son insesgados, eficientes y
ptimos.

1.4. PROPIEDADES ESTADSTICAS DEL ESTIMADOR MNIMO CUADRADO:


TEOREMA DE GAUSS-MARKOV

El estimador ( X ' X ) 1 X ' Y puede escribirse como:

( X ' X ) 1 X ' ( X e) ( X ' X ) 1 X ' e

Si se cumplen las hiptesis de comportamiento sobre el trmino error, la distribucin de


probabilidad del estimador MCO ser uno distribucin Normal multivariante con vector de
medias y matriz de varianzas y covarianzas 2 ( X ' X ) 1 .

La esperanza matemtica del estimador MCO se demuestra a partir de:


E ( ) E ( X ' X ) 1 X ' e ( X ' X ) 1 X ' E (e) .

De la definicin de matriz de varianzas y covarianzas, se tiene que:


var( ) E E ( ) E ( )

'

Teniendo presente que

E ( ) ( X ' X ) 1
X ' e ( X ' X ) 1 X ' e

Entonces


var( ) E ( X ' X ) 1 X ' ee' X ( X ' X ) 1 ( X ' X ) 1 X ' E ee'X ( X ' X ) 1 2 ( X ' X ) 1

El estimador j del parmetro j es insesgado porque su esperanza matemtica coincide con el


verdadero valor del parmetro E ( j ) j .
~
Se dice que un estimador insesgado j es mas eficiente que otro estimador insesgado j , si la
~
varianza muestral de j es menor que la varianza muestral de j . El teorema de Gauss-
Markov demuestra que el estimador MCO j es el ms eficiente de la clase de estimadores
lineales e insesgados de j .

Segn el Teorema de Gauss-Markov, cualquier estimador lineal de puede expresarse como:

( X ' X ) 1 X ' D Y ( X ' X ) 1 X ' D X e DX ( X ' X ) 1 X ' e De

donde D es una matriz (kn) arbitraria, que establece la diferencia entre el estimador MCO y el
estimador alternativo.

8
La esperanza de dicho estimador es:


~
E DX

~
Si es insesgado, entonces DX 0 . En otras palabras el estimador alternativo slo ser
insesgado si la matriz de distancia es ortogonal a las variables explicativas.

A continuacin obtenemos la matriz de covarianzas de este estimador

~ ~
~ ~
~
var( ) E E ( ) E ( )
'

Teniendo presente que:

~ E (~) DX ( X ' X ) 1

X ' e De ( X ' X ) 1 X ' D e

entonces,
~

var( ) ( X ' X ) 1 X ' D E ee' D' X ( X ' X ) 1 2 ( X ' X ) 1 D' D
~
y como D' D es una matriz semidefinida positiva, se demuestra que la var( ) var( ) con
~
independencia de la normalidad o no de las distribucin .

1.5. COEFICIENTES DE DETERMINACIN

Una vez estimada la ecuacin de regresin lineal tiene inters determinar la exactitud del ajuste
realizado. Para ello hay que analizar la variacin que experimenta esta variable dependiente y,
dentro de esta variacin, se estudia qu parte est siendo explicada por el modelo de regresin y
qu parte es debida a los errores o residuos.

La forma de realizar dicho anlisis es a partir de la siguiente expresin:

SCT SCE SCR

donde:

SCT: es la Suma de Cuadrados Totales y representa una medida de la variacin de la


variable dependiente.
SCE es la Suma de Cuadrados Explicados por el modelo de regresin.
SCR es la Suma de Cuadrados de los Errores

Cuando el modelo tiene trmino independiente, cada una de estas sumas viene dada por:

n
SCT Y ' Y nY 2 Yi 2 nY 2
i 1

n
SCE ' X ' Y nY 2 Yi 2 nY 2
i 1

9
n n n
SCR ei2 Y ' Y ' X ' Y Yi 2 Yi 2 SCT SCE
i 1 i 1 i 1

A partir de las expresiones anteriores es posible obtener una medida estadstica acerca de la
bondad de ajuste del modelo mediante lo que se conoce como coeficiente de determinacin (R2),
que se define como:

SCR
R2 1 , 0 R 1
2
SCT

y en el caso particular de modelo con trmino independiente como:

SCE
R2 , 0 R 1
2
SCT

Mediante este coeficiente es posible seleccionar el mejor modelo de entre varios que tengan el
mismo nmero de variables exgenas, ya que la capacidad explicativa de un modelo es mayor
cuanto ms elevado sea el valor que tome este coeficiente. Sin embargo, hay que tener cierto
cuidado a la hora de trabajar con modelos que presenten un R2 muy cercano a 1 pues, aunque
podra parecer que estamos ante el modelo perfecto, en realidad podra encubrir ciertos
problemas de ndole estadstica como la multicolinealidad que veremos en el captulo 3.

Por otra parte, el valor del coeficiente de determinacin aumenta con el nmero de variables
exgenas del modelo por lo que, si los modelos que se comparan tienen distinto nmero de
variables exgenas, no puede establecerse comparacin entre sus R2. En este caso debe
emplearse el coeficiente de determinacin corregido R 2 , el cual depura el incremento que
experimenta el coeficiente de determinacin cuando el nmero de variables exgenas es mayor.

La expresin analtica de la versin corregida es:

R2 1
SCR n k
SCT n 1
1
n 1
nk

1 R2
cuyo valor tambin oscila entre 0 y 1

1.6. TABLA DE ANALIS DE LA VARIANZA (ANOVA)

La hiptesis de no significacin global H 0 : 1 2 ... k 0 se rechaza al nivel de


significacin construyendo el estadstico experimental:

SCE
Fexp k 1
SCR
nk
y la regla de decisin que rechaza la hiptesis H 0 ocurre cuando Fexp F (k 1, n k . ).

El contraste en la prctica se realiza elaborando una tabla ANOVA, que requiere:

1. estimar el modelo de regresin con todas las variables de inters

10
Yi o 1 X 1i 2 X 2i ... k X ki ei , i=1,2,, n
que nos proporciona la suma de cuadrados de los residuos e' e SCR ;

2. estimar el modelo de regresin bajo H 0 : 1 2 ... k 0

Yi o u ri , i = 1, . . . ,n,

n
que nos proporciona la suma de cuadrados de los residuos, u r ' u r i 1
(Yi Y ) SCT ;

El contraste de significacin global se resume en el cuadro siguiente, en donde la variacin total


de la variable dependiente (SCT) se descompone en la explicada por la regresin (SCE) y en la
no explicada (SCR). Los grados de libertad de estas tres sumas de cuadrados son n 1 , k 1 y
n k , respectivamente.

A partir de esta informacin muestral, podemos calcular el numerador y denominador del


estadstico F.

Fuente de Grados de Cuadrado


Suma de cuadrados Estadstico F
variacin libertad medio
2 k-1 SCE SCE
(Yi Y )
n
SCE= i 1 k 1 k 1
Regresin
SCR
nk
2 n-k SCR
(Yi Yi )
n
Residual SCR= nk
i 1
2 n-1
SCT=
n
Total
i 1
(Yi Y )

1.7. INFERENCIA ACERCA DE LOS ESTIMADORES

Hasta el momento hemos visto como la estimacin por MCO permite obtener estimaciones
puntuales de los parmetros del modelo. La inferencia acerca de los mismos permite completar
dicha estimacin puntual, mediante la estimacin por intervalos y los contrastes de hiptesis.
Los primeros posibilitan la obtencin de un intervalo dentro del cual, con un determinado nivel
de confianza, oscilar el verdadero valor de un parmetro, mientras que los segundos nos
permitirn extraer consecuencias del modelo, averiguando si existe o no, evidencia acerca de
una serie de conjeturas que pueden plantearse sobre sus parmetros.

La inferencia estadstica consiste en la estimacin de los parmetros poblacionales a partir de la


informacin extrada de una muestra de dicha poblacin. El nmero de estimaciones que podemos
realizar de una poblacin, a travs de la extraccin de diferentes muestras de un mismo tamao, es
generalmente muy grande porque cada una de las muestras posibles que se pueden sacar de la
poblacin arrojara una estimacin.

Por esta razn, a la estimacin que obtenemos en una investigacin por muestreo la acompaamos
con un intervalo de valores posibles. La amplitud de dicho intervalo depender del grado de
confianza que establezcamos.

El grado o nivel de confianza nos expresa el nmero de veces que la media verdadera de la
poblacin est incluida en cien intervalos de cien muestras extradas de una poblacin dada. El

11
nivel de confianza ms utilizado es el 95%, lo que quiere decir que 95 de cada 100 intervalos
construidos contendrn el verdadero valor de la media.

El intervalo de confianza para la media de una poblacin normalmente distribuida se construye en


base a la probabilidad de que dicha media est comprendida entre dos valores X a y X b equidistantes
a ella:

P[ X a X X b ] 1

siendo 1- el nivel o grado de confianza asociado a dicho intervalo.


En trminos generales, los intervalos de confianza para los estadsticos muestrales se expresan
como:

Estimador (Factor de Fiabilidad)*(Error Tpico del Estimador)

1.7.1. Intervalos de Confianza

Presentamos a continuacin cmo se construyen los intervalos de confianza para los distintos
trminos que hayamos estimado en el modelo:

a) Intervalo de confianza para el parmetro i


Para construir los intervalos de confianza de las estimaciones i , se parte de que la estimacin
MCO proporciona el valor medio de los posibles valores que pudiera tener dicho parmetro, y
que la distribucin de dichos valores sigue una distribucin derivada de la Normal que se
conoce como t de Student. Dicha distribucin es simtrica presentando mayor dispersin que la
curva Normal estndar para un tamao muestral n pequeo. A medida que n aumenta (n > 100)
es prcticamente igual que la distribucin Normal.

El clculo del intervalo de confianza para i se realiza mediante la siguiente expresin:

ICi : ( i S tn k )
i

donde S i es la desviacin tpica estimada para el coeficiente i , que se obtiene de la matriz de


varianzas y covarianzas de los estimadores expresada como:

21 ... 1 K
1 2

2 ... 22 K
2 1 2

... ... ... ...
... 2K
K1 K 2

cuyos estimadores sern:


S 2 S ... S
1 1 2 1 K

S S 2
... S 2
2 2 K
S 2 1
... ... ... ...
S S ... S 2
K 1 K 2 K

12
obtenidos a partir de la expresin S S e2 X ' X , donde S e2 es la estimacin de la varianza
1

del trmino de error.

b) Intervalo de confianza para la varianza del trmino de error


La expresin del intervalo de confianza para la varianza del trmino de error es:


S 2 (n k ) S 2 (n k ) SCR SCR
IC : e
; e
;
2 2 2 2 2
e 1 1
2 2 2 2

donde representa el nivel de significacin del contraste y generalmente se utiliza un 5% de


significacin, que corresponde a un intervalo de confianza del 95 %.

En este caso se asume que la Suma de Cuadrados de los Errores se distribuyen segn una
distribucin tambin derivada de la Normal que se conoce como 2 de Pearson. La distribucin
2 de Pearson es asimtrica. Su propiedad fundamental es que si sumamos dos 2
independientes de grados de libertad n1 y n2 , se obtiene una nueva variable 2 con grados de
libertad igual a la suma de n1 y n2 . Los grados de libertad que hay que considerar en el clculo
de los intervalos de confianza del trmino error son de n-k.

1.7.2. Contrastes de Hiptesis

Una buena parte de las investigaciones estadsticas estn orientadas al desarrollo de procesos
encaminados a la contrastacin de hiptesis que previamente se han establecido.

Una hiptesis es una afirmacin que est sujeta a verificacin o comprobacin. Hay que tener
presente que una hiptesis no es un hecho establecido o firme, las hiptesis estn basadas en la
experiencia, en la observacin, en la experimentacin o en la intuicin del sujeto que las formula.

Cuando las hiptesis se plantean de tal modo que se pueden comprobar por medio de mtodos
estadsticos reciben el nombre de hiptesis estadsticas. Estas hiptesis son afirmaciones que se
efectan sobre uno o ms parmetros de una o ms poblaciones. Las hiptesis estadsticas son de
dos tipos: hiptesis nula e hiptesis alternativa. La hiptesis nula, o que no se verifique dicha
afirmacin, simbolizada por H0, es la hiptesis que se debe comprobar.

Para contrastar una hiptesis nula examinamos los datos de la muestra tomados de la poblacin y
determinamos si son o no compatibles con dicha hiptesis. Si son compatibles entonces H0 se
acepta, en caso contrario se rechaza. Si se acepta la hiptesis nula afirmamos que los datos de esa
muestra en concreto no dan suficiente evidencia para que concluyamos que la hiptesis nula sea
falsa; si se rechaza decimos que los datos particulares de la muestra ponen de manifiesto que la
hiptesis nula es falsa, entonces la hiptesis alternativa. H1, es verdadera.

El criterio que permite decidir si rechazamos o no la hiptesis nula es siempre el mismo. Definimos
un estadstico de prueba, y unos lmites que dividen el espacio muestral en una regin en donde se
rechaza la hiptesis establecida, y otra regin en la que no se rechaza, llamada regin de
aceptacin. A la regin donde se rechaza la hiptesis nula se le llama regin crtica. Esta regin es
un subconjunto del espacio muestral, y si el valor del estadstico de prueba pertenece a l se rechaza
la hiptesis nula.

13
El lmite entre la regin crtica y la regin de aceptacin viene determinado por la informacin
previa relativa a la distribucin del estadstico de prueba.

Sealar que un estadstico de prueba es una frmula que nos dice como confrontar la hiptesis nula
con la informacin de la muestra y es, por tanto, una variable aleatoria cuyo valor cambia de
muestra a muestra.

Otra de las consideraciones a realizar en el contraste de hiptesis es fijar la probabilidad del error de
rechazar la prueba siendo cierta, a este error se le denomina nivel de significacin. Por ejemplo, si
se utiliza un nivel de significacin de 0.05, equivale a decir que si para realizar un contraste
tomramos infinitas muestras de la poblacin, rechazaramos la hiptesis nula de forma incorrecta
un 5 % de las veces.

En la formalizacin del procedimiento de contrastacin podemos distinguir siete pasos principales:

1.- Planteamiento de las hiptesis.


2.- Seleccin del nivel de significacin.
3.- Descripcin de la poblacin y tamao de la muestra.
4.- Seleccin del estadstico de prueba y su distribucin.
5.- Especificacin de las regiones de aceptacin y de rechazo.
6.- Recoleccin de datos y clculo del estadstico.
7.- Decisin estadstica.

Los contrastes de hiptesis que normalmente se realizan en la estimacin MCO son los
siguientes:

a) Contraste individual sobre un parmetro

Formulacin de la hiptesis: H 0 : j *j
H 1 : j *j

j *j
Estadstico experimental: texp
S
j

Estadstico terico: ttco tn k ( / 2)

Regla de decisin: Si texp ttco se rechaza la hiptesis H0

b) Contraste de significacin individual

Formulacin de la hiptesis: H0 : j 0
H1 : j 0
j
Estadstico experimental: texp
S
j

Estadstico terico: t tco t n k ( / 2)

Regla de decisin: Si texp ttco se rechaza la hiptesis H0

14
c) Contraste de significacin global

Formulacin de la hiptesis: H 0 : 1 2 ... k 0

SCE R2
k 1 k 1
Estadstico experimental: Fexp
SCR
nk
1 R
2

nk

Estadstico terico: Ftco F k 1, n k ,

Regla de decisin: Si Fexp Ftco se rechaza la hiptesis H0

1.8. PREDICCIN EN EL MODELO DE REGRESIN

Una vez estimado y validado el modelo, una de sus aplicaciones ms importantes consiste en
poder realizar predicciones acerca del valor que tomara la variable endgena en el futuro o para
una unidad extramuestral. Esta prediccin se puede realizar tanto para un valor individual como
para un valor medio, o esperado, de la variable endgena, siendo posible efectuar una
prediccin puntual o por intervalos. Su clculo se realiza mediante las expresiones que figuran a
continuacin:

a) Prediccin individual: se trata de hallar el valor estimado para la variable Y un periodo


hacia delante. En este caso basta con sustituir el valor de las variables exgenas en el
modelo en el siguiente periodo y calcular el nuevo valor de Y.

b) Intervalo de prediccin. Para hallar un intervalo de prediccin debe utilizarse la


siguiente expresin:

IC : Yt 1 t n k S e 1 X t' 1 X ' X X t 1 ; Yt 1 t n k S e 1 X t'1 X ' X X t 1


1 1

c) Intervalos de prediccin para un valor medio o esperado, Yj , La expresin a utilizar en


este caso ser:

IC E Y j : Y j t n k S e X 'j X ' X X j ; Y j t n k S e X 'j X ' X X j


1 1

1.9. ESTIMACIN DE UN MODELO DE REGRESIN LINEAL CON R

R es un entorno especialmente diseado para el tratamiento de datos, clculo y desarrollo


grfico. Permite trabajar con facilidad con vectores y matrices y ofrece diversas herramientas
para el anlisis de datos.
R es una implementacin open-source del lenguaje S (Bell Labs -principios de los 90), que
tambin es la base del sistema S-Plus (entorno comercial). R y S-Plus an comparten una gran
mayora de cdigo e instrucciones, si bien R es software libre, gratuito en donde los usuarios

15
disponen de libertad para ejecutar, copiar, distribuir, estudiar, cambiar y mejorar el software. De
hecho R dispone de una comunidad de desarrolladores/usuarios detrs que se dedican
constantemente a la mejora y a la ampliacin de las funcionalidades y capacidades del
programa. En la web http://www.r-project.org/ se encuentra disponible toda la informacin
acerca de R. La instalacin de R se realiza a travs de la CRAN (ComprehensiveR Archive
Network): http://cran.r-project.org
Actualmente R se distribuye para los siguientes Sistemas Operativos:
Windows: entorno grfico.
Linux (Debian/Mandrake/SuSe/RedHat/VineLinux)
MacOSX
Cdigo fuente: ampliacin a sistemas Unix

Las funciones de R se agrupan en paquetes (packages, libraries), los que contienen las funciones
ms habituales se incluyen por defecto en la distribucin de R, y el resto se encuentran
disponibles en la Comprehensive R Archive Network (CRAN).
Las entidades que R crea y manipula se llaman objetos. Dichos objetos pueden ser:
Escalares: nmeros, caracteres, lgicos (booleanos), factores
Vectores/matrices/listas de escalares
Funciones
Objetos ad-hoc
Dichos objetos se guardan en un workspace. Durante una sesin de R todos los objetos estarn
en memoria, y se pueden guardar en disco para prximas sesiones.

16
R trabaja sobre estructuras de datos. La estructura ms simple es un vector numrico, que
consiste en un conjunto ordenado de nmeros.
Un vector de reales se crea mediante la funcin c y se guarda con el nombre Cantidad.
> Cantidad <- c(2.456,2.325,2.250,2.200,2.100,2.082,2.045,2.024)
Se crea ahora el vector de nombre Precio.
> Precio <- c(82,92,94,99,106,108,112,115)
Para obtener los estadsticos bsicos del vector (Cantidad): media, desviacin estandar, varianza
y mediana, se utilizan las siguientes funciones R:

> mean(Cantidad)
> sd(Cantidad)
> var(Cantidad)
> median(Cantidad)

Si se quiere tener un resumen sumario de estadstico de una variable:


> summary(Cantidad)

En R los valores "desconocidos" o "no disponibles" (missings) se simbolizan con el valor


especial NA (NotAvailable). Cualquier operacin que incluya un NA en general devolver NA
como resultado.La funcin is.na nos permite saber si un elemento es missingo no.
Otros tipos de objectosen R.
Arrays y matrices (matrix): generacin multidimensional de los vectores. Todos los elementos
de la matriz han de ser del mismo tipo.

17
Factores (factor): tiles para el uso de datos categricos.
Listas (list): generalizacin de los vectores donde los elementos pueden ser de diferentes tipos
(incluso vectores o nuevas listas).
Data frames: matrices donde las diferentes columnas pueden tener valores de diferentes tipos.
Funciones (function): conjunto de cdigo de R ejecutable y parametrizable.
Una tabla debe estar en un objecto tipo matriz. Ejemplo:
Tabla<-matrix(c(652,1537,598,242,36,46,38,21,218,327,106,67),nrow=3,byrow=T)
La funcin read.table permite leer datos desde ficheros en formato ASCII. Devuelve como
resultado un data.frame, por tanto, se supone que cada lnea contiene los datos para un
individuo.
El fichero EXCEL personas.xls tiene el siguiente aspecto:

Guardamos el fichero EXCEL como un fichero ASCII delimitado por tabulaciones


> manzanas <- read.table(file="manzanas.txt",header=T)
Tecleamos
> manzanas

18
La funcin de R que nos permite estimar un modelo de regresin lineal es la funcin lm. La
forma de invocar a la funcin para estimar un modelo de regresin lineal simple es lm(y~x).
Se puede consultar la ayuda de la funcin para ver todas las posibilidades que ofrece.

En nuestro ejemplo, obtenemos:

> lm(Cantidad~Precio)
Call:
lm(formula = Cantidad ~ Precio)
Coefficients:
(Intercept) Precio
3.53427 -0.01336
En lugar de invocar simplemente la funcin podemos guardar su resultado en una variable y
veremos as que obtenemos ms informacin.
> reg = lm(Cantidad~Precio)
Si queremos obtener el vector de residuos bastar solicitar:
> reg$residuals
Para realizar el anlisis del modelo estimado utilizaremos la funcin summary. As:
> summary(reg)

19
1.10. LA CONSOLA R STUDIO

RStudio es una interfaz que permite acceder de manera sencilla a toda la potencia de R. Para
utilizar RStudio se requiere haber instalado R previamente. Al igual que R-project, RStudio es
software libre.
El objetivo de los creadores de RStudio es desarrollar una herramienta potente que soporte los
procedimientos y las tcnicas requeridas para realizar anlisis de calidad y dignos de confianza.
Al mismo tiempo, pretenden que RStudio sea tan sencillo e intuitivo como sea posible para
proporcionar un entorno amigable, tanto para los ya experimentados como para los nuevos
usuarios
La instalacin de RStudio se puede realizar desde la pgina oficial del programa
http://www.rstudio.org.

20
Para familiarizarnos con la consola R-Studio, vamos a cargar los datos de la encuesta de
presupuestos familiares de Espaa que se distribuyen a travs de la siguiente direccin web:
http://www.ine.es/dyngs/INEbase/es/operacion.htm?c=Estadistica_C&cid=1254736176806&me
nu=resultados&secc=1254736195147&idp=1254735976608, para ello nos vamos a auxiliar del
lenguaje Markdown.

Markdown es un lenguaje de marcado ligero creado por John Gruber que trata de conseguir la
mxima legibilidad y facilidad de publicacin tanto en su forma de entrada como de salida,
inspirndose en muchas convenciones existentes para marcar mensajes de correo electrnico
usando texto plano. En Anexo I aparecen las instrucciones bsicas de Markdown.

21
En el men file seleccionamos R Markdown, y creamos un documento al que llamamos Curso
de estadstica en R.

Instalamos la librera o Package-R: MicroDatosEs que incluye las funciones para leer el
fichero de microdatos de la Encuesta de Presupuestos Familiares. Base 2006 (EPF), cuyos
microdatos se descargan en la siguiente direccin web:

http://www.ine.es/dyngs/INEbase/es/operacion.htm?c=Estadistica_C&cid=1254736176806&me
nu=resultados&secc=1254736195147&idp=1254735976608

Completamos el Chunk con las siguientes sentecias:

```{r}
library(MicroDatosEs)
setwd("D:/Curso de estadistica con R")
ecpf2014 <- epf.2011.hogares("Fichero de usuario de hogar a2014.txt")
str(ecpf2014)
```
Ejecutamos el Chunk:

22
Para realizar una estimacin MCO del gasto de los hogares a partir de los ingresos, hay que
utilizar las siguientes variables:

GASTMON: Importe total del gasto monetario anual del hogar elevado temporal y
poblacionalmente (para el salario en especie se contabiliza slo el importe del pago realizado
por el hogar).

IMPEXAC: Importe exacto de los ingresos mensuales netos totales del hogar.

Definimos el gasto por hogar y estimamos una regresin lineal entre gastos e ingresos en un
nuevo Chunk que ejecutamos:

```{r, echo=FALSE}
ecpf2014$GAST=ecpf2014$gastot/(12*ecpf2014$factor/10000)
est1 <- lm(ecpf2014$GAST~ecpf2014$impexac)
summary(est1)
```

##
## Call:
## lm(formula = ecpf2014$GAST ~ ecpf2014$impexac)
##
## Residuals:
## Min 1Q Median 3Q Max
## 9737.1 623.1 198.5 426.2 14583.7
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)

23
## (Intercept) 1.000e+03 1.290e+01 77.52 <2e16 ***
## ecpf2014$impexac 7.130e01 5.613e03 127.02 <2e16 ***
##
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1062 on 22144 degrees of freedom
## Multiple Rsquared: 0.4215, Adjusted Rsquared: 0.4215
##Fstatistic:1.613e+04on1and22144DF,pvalue:<2.2e16
La librera-R:gvlma, junto a la presentacin de los resultados de la regresin incluye un test
sobre los supuestos bsicos del modelos de mnimos cuadrados ordinarios, se ejecuta con el
siguiente Chunk:

```{r, echo=FALSE}
library(gvlma)
gvmodelo <- gvlma(est1)
summary(gvmodelo)
plot(gvmodelo)
```
##Warning:package'gvlma'wasbuiltunderRversion3.2.3
##Call:
##lm(formula=ecpf2014$GAST~ecpf2014$impexac)
##
##Residuals:
##Min1QMedian3QMax
##9737.1623.1198.5426.214583.7
##
##Coefficients:
##EstimateStd.ErrortvaluePr(>|t|)
##(Intercept)1.000e+031.290e+0177.52<2e16***
##ecpf2014$impexac7.130e015.613e03127.02<2e16***
##
##Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1
##
##Residualstandarderror:1062on22144degreesoffreedom
##MultipleRsquared:0.4215,AdjustedRsquared:0.4215
##Fstatistic:1.613e+04on1and22144DF,pvalue:<2.2e16
##
##
##ASSESSMENTOFTHELINEARMODELASSUMPTIONS
##USINGTHEGLOBALTESTON4DEGREESOFFREEDOM:
##LevelofSignificance=0.05
##
##Call:
##gvlma(x=est1)
##
##ValuepvalueDecision
##GlobalStat96987.0280.0000AssumptionsNOTsatisfied!
##Skewness8351.4690.0000AssumptionsNOTsatisfied!
##Kurtosis87869.7310.0000AssumptionsNOTsatisfied!
##LinkFunction764.2730.0000AssumptionsNOTsatisfied!
##Heteroscedasticity1.5550.2124Assumptionsacceptable.

24
2. EXTENSIONES AL MODELO DE REGRESIN LINEAL

2.1. INTRODUCCIN

Como veamos en el capitulo anterior, el modelo de regresin lineal requiere que se cumplan las
siguientes hiptesis sobre los trminos de error:

Media cero: E(ei) = 0 i=1,,n


Varianza constante: Var(ei) = 2I i=1,,n
Residuos incorrelacionados: Cov(ei,ej) = 0

El incumplimiento de alguna de dichas hiptesis, implica la no aleatoriedad de los residuos y,


por tanto, la existencia de alguna estructura o relacin de dependencia en los residuos que puede
ser estimada, debiendo ser considerada en la especificacin inicial del modelo. Los principales
problemas asociados al incumplimiento de las hiptesis de normalidad de los residuos son, por
un lado, la heteroscedasticidad, cuando la varianza de los mismos no es constante, y la
autocorrelacin o existencia de relacin de dependencia o correlacin entre los diferentes
residuos, lo que violara el supuesto de trminos de error incorrelacionados.

Si se construye una grfica de los resultados de una estimacin mnimo cuadrtica (en
ordenadas) frente al valor absoluto de los residuos (en abscisas), cuando stos ltimos presentan
una distribucin aleatoria, es decir una distribucin Normal de media cero y varianza constante,
N (0, 2 ) , el resultado obtenido (vase Fig. 2.1.) muestra que el tamao del error es
independiente del tamao de la variable estimada, ya que errores con valor elevado se
corresponden con valores bajos y altos de la variable dependiente estimada; sin embargo, una
distribucin de residuos con problemas de heteroscedasticidad da lugar a una figura como la que
puede observarse en la figura 2.2., en donde se manifiesta una clara relacin de dependencia
entre la variable estimada y el tamao del error. En este caso los errores de mayor tamao se
corresponden con los valores ms altos de la variable estimada.

R e s id u o s a le a to rio s d e m e d ia c e ro y
v a ria n z a c o n s ta n te

3500
V a ri a b le e s ti m a d a

3000
2500
2000
1500
1000
500
0
0 200 400 600 800
R e si d u o s v a l o r a b so l u to (e )

Fig. 2.1. Residuos Homocedsticos

25
R e s id u o s c o n h e te ro c e d a s tic id a d

3500
V a ria b le e s tim a d a

3000
2500
2000
1500
1000
500
0
0 200 400 60 0 800 10 0 0
R e sid u o s va lo r a b s o lu to (e )

Fig. 2.2. Residuos Heteroscedsticos

La representacin grfica de los errores en forma de serie temporal, es decir, poniendo en el eje
de ordenadas los errores y en abscisas el periodo temporal en que estn datados, permite
apreciar la ausencia o presencia de correlacin ya que a los residuos no correlacionados (figura
2.3.) les corresponde una representacin grfica en la que no se aprecia pauta temporal alguna,
sucedindose de forma impredecible o aleatoria, mientras que en los residuos con problemas de
autocorrelacin la pauta temporal es evidente, evidencindose que cada residuo podra ser
previsto en funcin de la sucesin de los errores correspondientes a periodos temporales
pasados (figura 2.4.)

Residuos aleatorios con media cero y


varianza constante

1000
500
0
-5001940 1950 1960 1970 1980 1990 2000 2010

-1000

Fig. 2.3. Residuos sin Autocorrelacin

26
Residuos con problema de autocorrelacin

1000

500

0
1940 1950 1960 1970 1980 1990 2000 2010
-500

-1000

Fig. 2.4. Residuos con Autocorrelacin

Estos problemas asociados a los errores pueden detectarse con tests estadsticos diseados para
ello. A continuacin se describen dichos tests y la forma en que debe procederse para estimar
modelos en donde la estimacin mnimo-cuadrtica presenta problemas de este tipo asociados a
los residuos.

2.2. HETEROSCEDASTICIDAD
Decimos que el trmino de error de una estimacin mnimo-cuadrtica presenta
heteroscedasticidad cuando la varianza del mismo es diferente para las distintas observaciones
que integran la muestra, lo que implica que la variabilidad de los errores mnimo-cuadrticos
obtenidos estn relacionados de alguna manera con los datos utilizados en el modelo, ya sea por
estar relacionados con la escala temporal de los datos recogidos o por presentar alguna relacin
de dependencia con alguna de las variables exgenas utilizadas. Las consecuencias para la
estimacin mnimo-cuadrtica son que los estimadores de los coeficientes seguirn siendo
insesgados y lineales pero ya no sern de mnima varianza o eficientes. Estos problemas se
resuelven utilizando una tcnica de estimacin lineal que recibe el nombre de Mnimos
Cuadrados Generalizados (MCG), mtodo que se estudiar ms adelante.

La deteccin de la heteroscedasticidad se realiza a travs de diversos contrastes paramtricos,


entre los que cabe destacar el contraste de Bartlett (Mood, 1950), el constraste de Goldfeld-
Quandt (1965) y el contraste de White (1980), los cuales describimos a continuacin.

2.2.1. Test de Bartlett

El test de Bartlett se basa en de que la suposicin de que las n observaciones de los datos de la
variable a estimar por el modelo pueden agruparse en G grupos (g=1, 2, ..., G), cada uno de los
cuales se caracteriza por tener un distinto tipo de observaciones asociadas a la variable
explicativa, de tal manera que n1 sera el nmero de observaciones correspondientes al primer
grupo, n2 el nmero de observaciones asociadas al segundo grupo y, en general, nG es el nmero
de observaciones asociadas al grupo g-simo. A cada grupo le corresponde un valor medio de la
variable dependiente y una varianza para este valor medio.

El test contrasta si dicha varianza es igual o no entre los distintos grupos que se han construido
para la variable dependiente, admitindose la hiptesis de existencia de heteroscedasticidad si la
varianza es significativamente diferente entre los grupos formados.

27
Los pasos a seguir en la prctica para realizar el test de Bartlett son los siguientes:

2
1. Se estima la varianza ( s g ) de cada grupo de observaciones, g=1, 2, ..., G mediante la
siguiente expresin:

ng

( y
g 1
i yg )2
s g2
ng

2. Se calcula el estadstico S:

G ng 2 G
n log
s n log sg2
g 1 n g g 1 g
S
1 G 1 1

1
3(G 1) g 1 ng n

Bajo el supuesto de homocedasticidad, S se distribuye como una chi-cuadrado (2) con G1


grados de libertad. Por lo tanto, se rechazar la hiptesis de igual varianza en todos los grupos si
S es mayor que el valor crtico de la distribucin chi-cuadrado al nivel de significacin
estadstica fijado.

2.2.2. Contraste de Goldfeld-Quant

El contraste de Goldfeld-Quant se utiliza para contrastar la homocedasticidad cuando la forma


de la heteroscedasticidad no es conocida, aunque se intuye que la varianza guarda una relacin
montona creciente o decreciente respecto a alguna variable exgena (que denominaremos
variable z). La operativa de este test es la siguiente:

1. Ordenar todas las observaciones de las variables del modelo, de menor a mayor, en
funcin de la variable z.

2. Eliminar c observaciones centrales de la ordenacin anterior, de tal forma que queden


dos submuestras de (n-c)/2 observaciones cada una. Al seleccionar c, debe hacerse de
tal forma que (n-c)/2 sea sustancialmente mayor que el nmero de parmetros del
modelo.

3. Estimar dos veces el modelo original mediante Mnimos Cuadrados Ordinarios,


utilizando en cada estimacin cada una de las submuestras.

4. Denominando SR1 y SR2 a las sumas de los cuadrados de los residuos de ambas
submuestras (de manera que el subndice 1 corresponda a la submuestra con la menor
suma) se define el estadstico F:

SCR1
F
SCR2

La idea que subyace bajo este contraste es la siguiente: si existe heteroscedasticidad


entonces, con la ordenacin de la muestra, la varianza del trmino de error ser mayor
hacia el final de la muestra que al principio de la misma. Como el cuadrado de los

28
residuos est asociado con la varianza de los mismos, entonces SR2 debera ser
sensiblemente mayor que SR1. Por ello, se rechazara la hiptesis nula de
homocedasticidad siempre que el valor del estadstico F excede el valor en tablas de la
distribucin F(n-c-2k)/2, (n-c-2k)/2, aceptndose la existencia de heteroscedasticidad en caso
contrario.

2.2.3. Contraste de White

El contraste de White se desarroll tambin para evitar la necesidad de considerar una forma
especfica para la heteroscedasticidad. El contraste se basa en que, bajo la hiptesis nula de
homocedasticidad, la matriz de varianzas y covarianzas de los estimadores MCO de es:

2 X ' X 1

Por el contrario, si existe heteroscedasticidad, la matriz de varianzas y covarianzas viene dada


por:
( X ' X ) 1 X ' X ( X ' X ) 1 , diag ( 12 , 22 ,..., n2 )

Por tanto, si tomamos la diferencia entre ambas queda:

( X ' X ) 1 X ' X ( X ' X ) 1 2 ( X ' X ) 1

Por ello, basta con contrastar la hiptesis nula de que todas estas diferencias son iguales a cero,
lo que equivale a contrastar que no hay heteroscedasticidad.

Los pasos a seguir para realizar el contraste de White son los siguientes:

1. Estimar el modelo original y obtener la serie de residuos estimados

2. Realizar una regresin del cuadrado de la serie de residuos obtenidos en el paso anterior
sobre una constante, las variables exgenas del modelo original, sus cuadrados y los
productos cruzados de segundo orden (los productos resultantes de multiplicar cada
variable exgena por cada una de las restantes). Es decir, se trata de estimar por MCO la
relacin:

et2 1X1 ...k Xk 1X12 ...k Xk2 1X1X2 ...k X1Xk 2X2X3 ...k X2Xk ... k Xk1Xk t

3. Al aumentar el tamao muestral, el producto nR2 (donde n es el nmero de


observaciones y R2 es el coeficiente de determinacin de la ltima regresin) sigue una
distribucin Chi-cuadrado con p 1 grados de libertad, donde p es el nmero de
variables exgenas utilizadas en la segunda regresin. Se aceptar la hiptesis de
existencia de heteroscedasticidad cuando el valor del estadstico supere el valor crtico
de la distribucin Chi-cuadrado (c) al nivel de significacin estadstica fijado
( nR 2 c ).

Ejemplo 2.1.

Para realizar en R el constraste de heterocedasticidad de White en el modelo estimado para el


gasto de los hogares en Espaa (apartado 1.10), primero hay que instalar en Package-R:
tseries:

29
> install.packages("tseries")

y despus ejecutar el siguiente programa R:


library(tseries)
y <- matrix(ecpf2014$GAST,ncol=1)
x <- matrix(ecpf2014$impexac,ncol=1)
white.test(x,y)
White Neural Network Test

data: x and y
X-squared = 746.56, df = 2, p-value < 2.2e-16

En este ejemplo el valor del estadstico nR 2 746,56 , dado que el valor de la distribucin
Chi-cuadrado terica para el nivel de significacin 0,05 da un valor crtico c 0,103
habra que aceptar la hiptesis de existencia de heterocedasticidad. El p-value es la probabilidad
asociada al estadstico calculado, al ser de 2.2e-16 y por tanto menor que 0,05, situara al
estadstico en la zona de aceptacin de la hiptesis H 0 .

2.3. AUTOCORRELACIN

Decimos que existe autocorrelacin cuando el trmino de error de un modelo economtrico


est correlacionado consigo mismo a travs del tiempo tal que E (ei , e j ) 0 . Ello no significa
que la correlacin entre los errores se d en todos los periodos sino que puede darse tan slo
entre algunos de ellos. En presencia de autocorrelacin, los estimadores MCO siguen siendo
insesgados pero no poseen mnima varianza, debindose utilizar en su lugar el mtodo de
estimacin de los Mnimos Cuadrados Generalizados (MCG).

La existencia de autocorrelacin en los residuos es fcilmente identificable obteniendo las


funciones de autocorrelacin (acf) y autocorrelacin parcial (acp) de los errores mnimo-
cuadrticos obtenidos en la estimacin. Si dichas funciones corresponden a un ruido blanco, se
constatar la ausencia de correlacin entre los residuos. Sin embargo, el mero examen visual de
las funciones anteriores puede resultar confuso y poco objetivo, por lo que en la prctica
economtrica se utilizan diversos contrastes para la autocorrelacin, siendo el ms utilizado el
de Durbin-Watson (1950), que pasamos a ver seguidamente.

2.3.1. Contraste de Durbin-Watson

Si se sospecha que el trmino de error del modelo economtrico tiene una estructura como la
siguiente:

et et 1 u t

entonces el contraste de Durbin-Watson permite contrastar la hiptesis nula de ausencia de


autocorrelacin. Dicho contraste se basa en el clculo del estadstico d, utilizando para ello los
errores mnimo-cuadrticos resultantes de la estimacin:

30
n

(e
t 2
t et 1 ) 2
d n

e
t 1
2
t

El valor del estadstico d oscila entre 0 y 4, siendo los valores cercanos a 2 los indicativos de
ausencia de autocorrelacin de primer orden. La interpretacin exacta del test resulta compleja,
ya que los valores crticos apropiados para contrastar la hiptesis nula de no autocorrelacin
requieren del conocimiento de la distribucin de probabilidad bajo el supuesto de cumplimiento
de dicha hiptesis nula, y dicha distribucin depende a su vez de los valores de las variables
explicativas, por lo que habra que calcularla en cada aplicacin. Para facilitar la interpretacin
del test Durbin y Watson derivaron dos distribuciones: dU y dD, que no dependen de las
variables explicativas y entre las cuales se encuentra la verdadera distribucin de d, de forma
que a partir de un determinado nivel de significacin, se adopta la siguiente regla de decisin:

1. Si d dD rechazamos la hiptesis nula de no autocorrelacin frente a la hiptesis


alternativa de autocorrelacin positiva.

2. Si d 4 dD rechazamos la hiptesis nula de no autocorrelacin frente a la hiptesis


alternativa de autocorrelacin negativa.

3. Si dU d 4- dU aceptamos la hiptesis nula de no autocorrelacin.

El estadstico d de Durbin-Watson es aproximadamente igual a 21 1 en donde 1 es el


coeficiente de autocorrelacin simple muestral del retardo 1.
n n

(e i et 1 ) 2 e e t t 1
d t 2
n
22 t 1
n
21 1
e
t 1
2
t et 1
2
t

Ejemplo 2.2.

En el siguiente ejercicio planteamos una regresin lineal entre el consumo de energa elctrica
en Espaa y el PIB a precios de mercado valorado en moneda constante (millones de euros).

En R, el test de Durbin-Watson se encuentra en el Package-R: lmtest, y su sintaxis es:

> dwtest(formula)

Realizar el ejercicio anterior requiere del siguiente programa R:

> install.package(bgtest)
> library(bgtest)
> datos <- read.table(file="libro1.txt",header=T)
> datos
Aos CEnEl PIB
1 1987 9427 355312
2 1988 9876 373412
3 1989 10410 391443
4 1990 10974 406252

31
5 1991 11372 416582
6 1992 11488 420462
7 1993 11569 416126
8 1994 11999 426041
9 1995 12462 437787
10 1996 12827 448457
11 1997 13331 466513
12 1998 14290 486785
13 1999 15364 507346
14 2000 16309 528714
15 2001 17282 543746
16 2002 17756 554852

> dwtest(datos$PIB ~ datos$CEnEl)

Durbin-Watson test
data: datos$PIB ~ datos$CEnEl
DW = 0.628, p-value = 0.0001192
alternative hypothesis: true autocorrelation is greater than 0

2.3.2. Contraste de Breush-Godfrey

El test de correlacin serial de BreuschGodfrey es un test de autocorrelacin en los errores y


residuos estadsticos en un modelo de regresin. Hace uso de los errores generados en el modelo
de regresin y un test de hiptesis derivado de ste. La hiptesis nula es que no exista
correlacin serial de cualquier orden de .

El test es ms general que el de DurbinWatson, que solo es vlido para regresores no-
estocsticos y para testear la posibilidad de un modelo autoregresivo de primer orden para los
errrores de regresin. El test BreuschGodfrey no tiene estas restricciones, y es estadsticamente
ms poderoso que el estadstico d .

Los pasos para realizar el contraste son los siguientes:


1. Estimar el modelo original y obtener la serie de residuos estimados
2. Estimar la ecuacin de regresin auxiliar:
et 1X1 ...k Xk 1et1 ...petp t
3. Al aumentar el tamao muestral, el producto n p R (donde n es el nmero de
2

observaciones, p , el nmero de retardos del error utilizados en la regresin


auxiliar y R2 es el coeficiente de determinacin de dicha regresin) sigue una
distribucin Chi-cuadrado con p grados de libertad, donde p es el nmero de
variables exgenas utilizadas en la segunda regresin. Se aceptar la hiptesis de
existencia de autocorrelacin cuando el valor del estadstico supere el valor
crtico de la distribucin Chi-cuadrado (c) al nivel de significacin estadstica
fijado n p R 2 c ).

Ejemplo 2.3.

El test de BreuschGodfrey tambien se realiza con la librera-R: lmtest, y se programa para


p 3 del siguiente modo:
> install.package(bgtest)
> library(gbtest)
> bgtest(datos$PIB ~ datos$CEnEl,order=3)

32
Breusch-Godfrey test for serial correlation of order up to 3
data: datos$PIB ~ datos$CEnEl
LM test = 5.3733, df = 3, p-value = 0.1464

En este ejemplo el valor del estadstico n p R 2 5,37 , dado que el valor de la distribucin
Chi-cuadrado terica para el nivel de significacin 0,05 da un valor crtico c 7,81
habra que rechazar la hiptesis de existencia de autocorrelacin. El p-value es la probabilidad
asociada al estadstico calculado, al ser de 0,1454 y por tanto mayor que 0,05, situara al
estadstico en la zona de aceptacin de la H 0 , la que constituyen los valores del estadstico
inferiores al valor crtico.

2.3. DEFICIENCIAS MUESTRALES: MULTICOLINEALIDAD


El fenmeno de la multicolinealidad aparece cuando las variables exgenas de un modelo
economtrico estn correlacionadas entre s, lo que tiene consecuencias negativas para la
estimacin por MCO, ya que la existencia de una relacin lineal entre las variables exgenas,
implica que la matriz ( X ' X ) va a tener determinante cero, es decir ser una matriz singular y
por tanto no ser invertible. Dado que ( X ' X ) 1 X ' Y , no ser posible calcular la
estimacin mnimo cuadrtica de los parmetros del modelo ni, lgicamente, la varianza de los
mismos. Esto es lo que se conoce por el nombre de multicolinealidad exacta.

Consideremos por ejemplo la relacin lineal:

Yi 0 1 X 1i 2 X 2i u i

Supongamos que las variables independientes presentan relacin lineal exacta:

X 2i cX 1i

La matriz (XX) quedara:

n X 1 X 2
X ' X X 1 X 1
2
X X 1

2
X 2 X X X 2
1 2 2

sustituyendo X 2i por cX 1i tenemos:


n X 1 c X 1
X ' X X 1 X 1
2
c X 12

c X 1 c X 2
c 2 X 12
1

Como el valor de un determinante no se altera si se resta de una fila o columna un mltiplo


constante de cualquier otra fila o columna. Si multiplicamos la segunda fila de (XX) por c y
restamos el resultado de la tercera fila tenemos:

33
n

X 1 c X 1

A X 1 X 1
2
c X 12
0 0 0

puesto que X ' X A 0 , la matriz (XX) es singular y por tanto no invertible.

Sin embargo, en la prctica no nos encontraremos con un caso tan extremo como el que
acabamos de exponer, sino que generalmente nos encontraremos ante lo que se conoce como
multicolinealidad aproximada, siendo una de las columnas de la matriz ( X ' X ) ,
aproximadamente, una combinacin lineal del resto por lo que ser una matriz
aproximadamente singular. Al no ser el determinante de ( X ' X ) igual a cero, existir inversa y
podrn estimarse los parmetros pero con las siguientes consecuencias:

1. Por un lado, pequeas variaciones muestrales producidas al incorporar o sustraer un


nmero reducido de observaciones muestrales podran generar importantes cambios
en los parmetros estimados.

2. Por otro lado, la matriz de covarianzas del estimador MCO, S S e2 X ' X , al


1

1
ser un mltiplo de ( X ' X ) , ser muy grande por ser el determinante de ( X ' X )
muy pequeo por lo que la estimacin realizada ser muy poco precisa al ser la
desviacin tpica de cada parmetro muy elevada.

Las soluciones propuestas para resolver el problema de la multicolinealidad son variadas, si


bien en general resultan poco satisfactorias:

1. Una posibilidad, sugerida por Johnston (1984), consiste en excluir aquella variable
exgena que puede estar muy correlacionada con el resto y posteriormente estimar el
coeficiente asociado a dicha variable mediante otro procedimiento para incluirlo en el
modelo.

2. Otra posibilidad es la que se conoce como regresin cresta, introduciendo una


constante c en la matriz ( X ' X ) de tal forma que el estimador de MCO quedara como
( X ' X cI k ) 1 X ' Y , evitando as la singularidad de la matriz. Evidentemente, los
coeficientes estimados estarn sesgados pero la matriz de covarianzas de los mismos
ser, seguramente, menor que la que obtendramos sin introducir la constante por lo que
probablemente la menor varianza compense en parte el sesgo introducido. Otra cuestin
no menos trivial es la seleccin del valor de c, para lo que no existe un mtodo definido;
una posibilidad, sugerida por Hoerl y Kennard (1970) es comenzar con un valor muy
pequeo de c e ir aumentndolo hasta que observemos que las estimaciones comienzan
a estabilizarse.

3. Tambin se ha sugerido la posibilidad de reformular el modelo, convirtindolo en un


modelo de varias ecuaciones (estimacin por tramos).

4. Finalmente, cuando la multicolinealidad se debe a la presencia como variables


explicativas de varios retardos de una misma variable, puede especificarse una relacin
entre sus coeficientes para eliminar alguno de los retardos del modelo.

34
2.4. ERRORES DE ESPECIFICACIN
Los errores de especificacin hacen referencia a un conjunto de errores asociados a la
especificacin de un modelo economtrico. En concreto cabe referirse a:

Omisin de variables relevantes


Inclusin de variables innecesarias
Adopcin de formas funcionales equivocadas

En Economa la teora no suele concretar la forma funcional de las relaciones que estudia. As,
por ejemplo, cuando se analiza la demanda se seala que la cantidad demandada es
inversamente proporcional al precio; cuando se estudia el consumo agregado se apunta que la
propensin marginal a consumir (relacin entre renta y/o consumo) es mayor que cero y menor
que uno. Por otro lado es frecuente utilizar la condicin ceteris paribus para aislar la
informacin de otras variables relevantes que influyen y/o modifican la relacin estudiada. Por
esta razn, la existencia de errores de especificacin en la relacin estimada es un factor a
considerar y a resolver en el proceso de la estimacin economtrica.

Con independencia de la naturaleza de los errores de especificacin, dado que el proceso de


estimacin MCO deben de cumplirse determinadas hiptesis bsicas, que los estimadores MCO
deben de ser insesgados, eficientes y consistentes, y que el estimador de la varianza del trmino
de error ha de ser insesgado, debemos preguntarnos: qu ocurrira con estas propiedades ante
errores de especificacin?

Para responder a esta cuestin, partimos del modelo de regresin lineal cuya especificacin
general es:

Yi = o+ 1 X1i ++ k Xki + ei

Con las propiedades habituales:

Media cero : E(ei) = 0 i=1,,n


Varianza constante : Var(ei) = 2I i=1,,n
Residuos incorrelacionados : Cov(ei,ej) = 0
No existencia de relacin lineal exacta entre dos o ms variables independientes

2.4.1. Omisin de una variable relevante

Para analizar las consecuencias de la omisin de una variable relevante, vamos a partir del
siguiente modelo verdadero:

Yi = 0 + 1 X1i + 2 X2i + ei (2.1)

Sin embargo, por algn motivo, se ha procedido estimar el siguiente modelo:

Yi = 0 + 1 X1i + vi (2.2)

Dado que la variable excluida X2i est relacionada con la variable dependiente Yi, entonces se
deduce que:

vi= 2 X2i + ei.

Estimando la pendiente 2 por MCO en el modelo (2.2), se obtiene:

35
1
X 1i X 1 y i
X X1
2
1i

siendo y i Yi Y , de forma que al sustituir yi por su expresin en el modelo verdadero (2.1)


quedara:

X X 1 1 x1i 2 x 2i ei X X 1 1 X 1i X 1 X 2i X 2 2 X 1i X 1 ei
2
1i 1i
1
X X1 X X1
2 2
1i 1i

Al tomar esperanzas condicionales con respecto a los valores de las variables independientes y
dado que E(e| x1, x2, , xk) = 0, se obtiene que:

E 1 1 2
X X X X
1i 1 2i 2

X X
2
1i 1

lo que implica que E ( 1 ) no ser igual a 1, por lo que estar sesgado siendo su sesgo:

2
X X X X
1i 1 2i 2

X X
2
1i 1

Expresin cuyo signo viene determinado por el signo del coeficiente 2 y por el sentido de la
correlacin entre las variables X1 y X2.

Con respecto a la varianza, dado que de la estimacin MCO resulta que:

Var 1 e2
X 1i
X 1 1 r12, 2
2

donde r21,2 es el R2 resultante de regresar X1 sobre X2.

Y adems:

v2
Var 1
X X1
2
1i

entonces Var (1 ) ser diferente de Var ( 1 ) , y por lo general ser mas pequea ya que
0<r21,2<1; pero an en el caso en que r21,2=0, que implicara que X1 y X2 no estn
correlacionadas, y aunque el estimador MCO de 1 no fuera insesgado (ya que el sesgo de las
variables omitidas se anulara porque el termino 1i
X X 1 X 2i X 2 sera cero), las
X 1i X 1
2

varianzas seran ya de por s diferentes debido en la estimacin de la ecuacin (2.1) y en la de la


ecuacin (3.2).

36
2.4.2. Inclusin de una variable innecesaria

Supngase ahora que el modelo verdadero es:

Yi = 0 + 1 X1i + ei

Pero se especifica el siguiente modelo:

Yi = o + 1 X1i + 2 X2i + vi (2.3)

Los estimadores MCO de (2.3) son ahora sesgados y consistentes, ya que


E ( 0 ) 0 , E (1 ) 1 y E ( 2 ) 0 ; a este respecto hay que tener presente que al ser X2 una
variable innecesaria el parmetro estimado no ser significativamente distinto de cero.

Pero como desde el punto de vista de las varianzas ahora resulta que:


Var 1
e2
X X1
2
1i

v2
Var 1
X X 1 1 r12, 2
2
1i

Puesto que 0< r21,2<1, se cumplira que Var (1 ) Var ( 1 ) , es decir, la varianza de la
estimacin MCO de 1 sera mayor que la estimacin MCO de 1.

2.4.3. Especificacin funcional incorrecta

Si especificamos la forma funcional de una relacin (ya sea lineal, cuadrtica, cbica,
exponencial, logartmica, etc.) y la verdadera relacin presenta una forma diferente a la
especificada tiene, en algunos casos, las mismas consecuencias que la omisin de variables
relevantes, es decir, proporciona estimadores sesgados e inconsistentes. En general, una
especificacin funcional incorrecta lleva a obtener perturbaciones heteroscedsticas y/o
autocorrelacionadas, o alejadas de los parmetros de la distribucin del trmino de error del
modelo correctamente especificado.

2.4.4. Contraste de errores de especificacin

Para constatar la presencia de errores de especificacin en los modelos se utiliza la prueba


general de errores de especificacin de Ramsey. Dicha prueba, en su versin ms sencilla, se
realiza mediante los siguientes pasos:

1. A partir del modelo especificado, obtenemos Yi estimada, es decir Yi .

2. Se efecta una nueva regresin incluyendo Yi en alguna forma, con uno o varios
regresores adicionales, por ejemplo:

Yi 0 1 X i 2Yi 2 3Yi 3 ei

37
2
3. Considerando el R2 obtenido en el modelo inicialmente especificado, RA , y el R2
2
obtenido en la segunda regresin, RB , se construye el siguiente estadstico:

R 2
B RA2
F l
1 RB2
(n k )

El cual se distribuye segn una F de Snedecor con l, nk grados de libertad, siendo l


el nmero de regresores nuevos incluidos en el segundo modelo y n k el nmero
de observaciones menos el numero de parmetros del segundo modelo.

4. Si el valor F calculado es significativo al nivel deseado, Fexp Ftco se puede


aceptar la hiptesis de que el modelo est mal especificado.

2.5. MTODOS DE SELECCIN DE VARIABLES EN EL MODELO DE


REGRESIN LINEAL

Una de las cuestiones ms importantes a la hora de encontrar el modelo de ajuste ms adecuado


cuando se dispone de un amplio conjunto de variables explicativas, es la correcta especificacin
del modelo terico, ya que como se ha visto la inclusin de una variable innecesaria o la
omisin de una variable relevante, condiciona los estadsticos que resultan en la estimacin
MCO del modelo, por otro lado, en un elevado nmero de explicativas no cabe descartar la
existencia de correlaciones que originen un problema de multicolinealidad aproximada, y en
estos casos hay que determinar cual de ellas cabe incluir en la especificacin del modelo.

En otras palabras, ante un conjunto elevado de explicativas debemos seleccionar de entre todas,
un subconjunto de ellas que garanticen que el modelo est lo mejor especificado posible. Este
anlisis cabe hacerlo estudiando las caractersticas y propiedades de cada una de las variables
independientes, a partir, por ejemplo, de los coeficientes de correlacin de cada una de ellas y la
dependiente, y de cada explicativa con las restantes, seleccionando modelos alternativos y
observando los resultados estadsticos de la estimacin MCO de cada uno de ellos. Sin
embargo, en la prctica, la seleccin del subconjunto de variables explicativas de los modelos de
regresin se deja en manos de procedimientos ms o menos automticos.

Los procedimientos ms usuales son los siguientes:

Mtodo backward: se comienza por considerar incluidas en el modelo terico a todas las
variables disponibles y se van eliminando del modelo de una en una segn su capacidad
explicativa. En concreto, la primera variable que se elimina es aquella que presenta un
menor coeficiente de correlacin parcial con la variable dependiente-o lo que es
equivalente, un menor valor del estadstico t y as sucesivamente hasta llegar a una
situacin en la que la eliminacin de una variable ms suponga un descenso demasiado
acusado en el coeficiente de determinacin.
Mtodo forward: se comienza por un modelo que no contiene ninguna variable
explicativa y se aade como primera de ellas a la que presente un mayor coeficiente de
correlacin -en valor absoluto- con la variable dependiente. En los pasos sucesivos se va
incorporando al modelo aquella variable que presenta un mayor coeficiente de
correlacin parcial con la variable dependiente dadas las independientes ya incluidas en

38
el modelo. El procedimiento se detiene cuando el incremento en el coeficiente de
determinacin debido a la inclusin de una nueva variable explicativa en el modelo ya
no es importante.
Mtodo stepwise: es uno de los ms empleados y consiste en una combinacin de los
dos anteriores. En el primer paso se procede como en el mtodo forward pero a
diferencia de ste, en el que cuando una variable entra en el modelo ya no vuelve a salir,
en el procedimiento stepwise es posible que la inclusin de una nueva variable haga que
otra que ya estaba en el modelo resulte redundante.

El modelo de ajuste al que se llega partiendo del mismo conjunto de variables explicativas es
distinto segn cul sea el mtodo de seleccin de variables elegido, por lo que la utilizacin de
un procedimiento automtico de seleccin de variables no significa que con l se llegue a
obtener el mejor de los modelos a que da lugar el conjunto de datos con el que se trabaja.

Ejemplo 2.4.

Utilizando los microdatos de la EPF, vamos a completar un modelo explicativo de los gastos
por hogar, para ellos seleccionamos como posibles variables explicativas, adems de los
ingresos corrientes del hogar, las siguientes variables:

Nmiemb (Nmero de miembros del hogar)


nmiem10 (Nmero de miembros del hogar de 25 a 34 aos)
nmiem11 (Nmero de miembros del hogar de 35 a 64 aos)
nmiem12 (Nmero de miembros del hogar de 65 a 84 aos)
nmiem13 (Nmero de miembros del hogar de 85 o ms aos)
numacti (Nmero de miembros activos en el hogar)
numinacti (Nmero de miembros no activos en el hogar)
numocu (Nmero de miembros ocupados en el hogar)
numnocu (Nmero de miembros no ocupados en el hogar)
numestu (Nmero de estudiantes en el hogar)
numnoestu (Nmero de no estudiantes en el hogar)
tiphogar1 (Tipo de hogar -primera clasificacin-)
situocuhog (Situacin del hogar respecto a la ocupacin)
situacthog (Situacin del hogar respecto a la actividad)

Todas las variables excepto las tres ltimas son numricas, las dos ltimas son variables
cualitativas (factores).

Las categoras de tiphogar12 son:

Hogar de un solo adulto


1 Una persona de 65 o ms aos
2 Una persona de 30 a 64 aos
3 Una persona de menos de 30 aos
4 Un adulto con nios menores de 16 aos

2
Las categoras 07 a 11 se refieren exclusivamente a hogares formados por padres e hijos, incluyendo
los adoptados y los que son hijos slo de un miembro de la pareja. En el caso en que haya otras personas
en el hogar, ste se clasificara en 12.Otros hogares. Se considera adulto a toda persona de 16 o ms
aos

39
Pareja sin hijos
5 Pareja sin hijos teniendo al menos uno de los miembros 65 aos o ms
6 Pareja sin hijos teniendo los dos miembros menos de 65 aos

Pareja con hijos menores de 16 aos


7 Pareja con un hijo menor de 16 aos
8 Pareja con dos hijos menores de 16 aos
9 Pareja con tres o ms hijos menores de 16 aos

Otras familias nucleares

10 Padre o madre solo, con al menos un hijo de 16 o ms aos


11 Pareja con al menos un hijo de 16 o ms aos
12 Otros hogares
Las categoras de situocuhog son:

1 El sustentador principal y el cnyuge ocupados, al menos otro de los miembros tambin


ocupado
2 El sustentador principal y el cnyuge ocupados, ninguno de los otros miembros ocupados (si
es que los hay)
3 El sustentador principal o el cnyuge ocupado, otro de los miembros ocupado
4 El sustentador principal o el cnyuge ocupado, al menos otros dos miembros ocupados
5 El sustentador principal o el cnyuge ocupado, ninguno de los otros miembros ocupado (si es
que los hay)
6 Ni el sustentador principal ni su cnyuge ocupado, otro miembro ocupado
7 Ni el sustentador principal ni su cnyuge ocupados, al menos otros dos miembros ocupados
8 Ningn ocupado en el hogar
-9 No consta

En tanto que las categoras de situacthog son:


1 El sustentador principal y el cnyuge activos, al menos otro de los miembros tambin activo
2 El sustentador principal y el cnyuge activos, ninguno de los otros miembros activos (si es
que los hay)
3 El sustentador principal o el cnyuge activo, otro de los miembros tambin activo
4 El sustentador principal o el cnyuge activo, al menos otros dos miembros activos
5 El sustentador principal o el cnyuge activo, ninguno de los otros miembros activos (si es que
los hay)
6 Ni el sustentador principal ni su cnyuge activos, otro miembro activo
7 Ni el sustentador principal ni su cnyuge activos, al menos otros dos miembros activos
8 Ningn activo en el hogar
-9 No consta

Para realizar la seleccin de un modelo por el mtodo forward necesitamos instalar la librera-
R: leaps, una vez instalada ejecutamos el siguiente Chunk:

```{r, echo=FALSE}
datos <-
data.frame(ecpf2014[,11],ecpf2014[,25:34],ecpf2014[,41],ecpf2014[,52:5
3],ecpf2014$impexac)
str(datos)
library(leaps)

40
regfit.fwd=regsubsets(y~.,data=datos,method="forward")
plot(regfit.fwd)
coef(regfit.fwd,9)
```

El modelo seleccionado incluye como explicativas:

##(Intercept)
##2199.60830
##nmiemb
##68.89259
##nmiem11
##150.39439
##nmiem13
##207.45699
##numinacti
##245.64795
##tiphogar1:Unapersonade30a64aos.
##340.29367
##tiphogar1:Parejaconunhijomenorde16aos.
##193.07523
##situocuhog:Ningnocupadoenelhogar.
##962.83813
##situacthog: El sustentador principal o el cnyuge activo, otro de
losmiembrostambinactivo.
##261.19099
##numnoestu
##27.50668

41
3. MODELOS CON VARIABLES CUALITATIVAS

3.1. MODELOS CON VARIABLES CUANTITATIVAS Y CUALITATIVAS COMO


REGRESORES

En un modelo economtrico, las variables representan a los conceptos u operaciones


econmicas que queremos analizar. Normalmente utilizamos variables cuantitativas, es decir,
aquellas cuyos valores vienen expresados de forma numrica; sin embargo, tambin existe la
posibilidad de incluir en el modelo economtrico informacin cualitativa, siempre que esta
pueda expresarse de esa forma.

Las variables cualitativas expresan cualidades o atributos de los agentes o individuos (sexo,
religin, nacionalidad, nivel de estudios, etc.) y tambin recogen acontecimientos
extraordinarios como guerras, terremotos, climatologas adversas, huelgas, cambios polticos
etc.

No cabe duda de que una forma de recoger factores de este tipo sera la utilizacin de variables
proxy o aproximadas a las variables utilizadas. Por ejemplo, si quiero utilizar una variable que
mida el nivel cultural de un pas (variable cualitativa) puedo utilizar como variable proxy el
nmero de bibliotecas existentes en un pas, o representa una climatologa adversa a partir de las
temperaturas medias o precipitaciones. Sin embargo, no siempre es posible encontrar este tipo
de variables y, en cualquier caso, debemos de ser conscientes de la posible existencia de errores
en la definicin de la variable.

Puesto que las variables cualitativas normalmente recogen aspectos de la presencia o no de


determinado atributo (ser hombre o mujer, tener estudios universitarios o no tenerlos, etc.) se
utilizan variables construidas artificialmente, llamadas tambin ficticias o dummy, que
generalmente toman dos valores, 1 0, segn se d o no cierta cualidad o atributo.
Habitualmente a la variable ficticia se le asigna el valor 1 en presencia de la cualidad y 0 en
caso contrario. Las variables que toman valores 1 y 0, tambin reciben el nombre de variables
dicotmicas o binarias.

Las variables dicotmicas pueden combinarse para caracterizar variables definidas por su
pertenencia o no a un grupo. Si incluyo una variable cualitativa que me define la pertenencia o
no de un pas a un grupo, por ejemplo renta alta, media y baja, introducir tres variables
cualitativas en el modelo asociadas a la pertenencia o no a cada grupo; la primera caracterizara
a los individuos con renta alta, la segunda a los individuos con renta media, y la tercera a los
individuos con renta baja.

Los modelos que utilizan variables cualitativas como regresores se diferencian en dos grupos,
los modelos de Anlisis de la Varianza o modelos ANOVA, que nicamente incluyen variables
cualitativas como regresores; y los modelos de Anlisis de la Covarianza o modelos ANCOVA
que incluyen tanto variables cualitativas como cuantitativas. Los modelos ANOVA son muy
utilizados en Sociologa, Psicologa, Educacin, etc.; en Economa son ms comunes los
modelos ANCOVA.

42
3.2. MODELOS ANOVA
Un problema estadstico clsico es la comparacin de medias de dos distribuciones normales.
Supongamos que las observaciones de la variable Yi , provienen de dos distribuciones normales
con medias 1 y 2 y varianza comn 2 . El tamao de la primera distribucin se circunscribe
a las n1 primeras observaciones, y el de la segunda las n n1 restantes observaciones.
Queremos constrastar la hiptesis H o : 1 2 frente a la alternativa H o : 1 2 al nivel de
significacin de .

Este contraste de igualdad de medias cabe formularlo en el marco del modelo lineal general.
As, bajo H o tenemos el siguiente modelo de regresin mltiple utilizando variables Dummy:
Yi 1 D1i 2 D 2i ei

Siendo:
1 si i 1,..., n1 0 si i 1,..., n1
D1i D2i
0 si i n1 1,..., n 1 si i n1 1,..., n

El estimador mnimo cuadrtico del modelo planteado sera:


1
n n
n
D1i2 D1i D 2 i D1i Yi

1 i 1 i 1
n i 1

1 D1 D 2 n
n

i D 2 i Yi
2
i D2i
i 1 i 1 i 1

n n n
Teniendo presente que D1
i 1
2
i n1 , D2
i 1
2
i n n1 n2 , D1 D2
i 1
i i 0,
n n1 n n

D1i Yi Yi y D2i Yi
i 1 i 1 i 1
Y , el estimador mnimo cuadrtico quedara:
i n1 1
i

n1
1 Yi
1 n1 0 i 1 Y1

1 0 n2 n Y
Yi 2
i n1 1

Para contrastar la hiptesis H o : 1 2 0 frente a la alternativa H o : 1 2 0 ,


1 2 Y1 Y2
construiramos el estadstico experimental t exp , en donde
S 1 2 2 2

n1 n2
n

e 2
i
2 i 1
.
n2
La hiptesis H o : 1 2 0 se rechaza con el estadstico terico ttco t n2 ( / 2) si
texp ttco .

43
El anlisis anterior se extiende a la comparacin de medias con tres o ms distribuciones
normales. Suponemos ahora que las n observaciones proceden de tres distribuciones normales
con medias 1 , 2 y 3 y varianza comn 2 , correspondientes a tres muestras que contienen
las n1 primeras observaciones, n2 siguientes y 3 n n1 n2 ultimas observaciones.

El modelo lineal utilizando variables Dummy quedara:


Yi 1 d1i 2 d 2i d 3i ei
Donde las variables binarias se definen:
1 si i en el grupo J
DJ i
0 si i en el grupo J
El estimador mnimo cuadrtico del vector de parmetros es:
n1
Yi
1 n1 0 0 in1 Y1
1

2

2 0 n 2 0 Yi Y2
0 0 n in1 1 Y
3 3 n 3
i Y
i n2 1
Para contrastar la hiptesis H o : 1 2 3 , se utiliza el contraste de significacin global,
R2
para el que construimos es estadstico experimental Fexp 2 , siendo el estadstico
(1 R 2 )
n3
terico Ftco F (2, n 3) , la hiptesis se rechazara con la regla de decisin Fexp Ftco .

Ejemplo 3.1.

Partiendo de la base de datos ecpf2014 preparamos un Chunk en el que construimos la tabla


anova con la funcin aov, para los gastos por hogar y la variable categrica situacthog, y
estimamos un modelo ANOVA con la funcin model.tables.
```{r, echo=FALSE}
str(ecpf2014$situacthog)
mod1 <- aov(ecpf2014$GAST ~ecpf2014$situacthog)
summary(mod1)
model.tables(mod1)
```

##Nmnl.itemw/8labelsfor1,2,3,...num[1:22146]998252
8522...

##DfSumSqMeanSqFvaluePr(>F)

##ecpf2014$situacthog12.002e+08200217093103.2<2e16***

##Residuals221444.295e+101939679

##

44

##Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1
## Warning in replications(paste("~", xx), data = mf): nonfactors
ignored:

##ecpf2014$situacthog
##Tablesofeffects.

##ecpf2014$situacthog

##ecpf2014$situacthog

##9

##174.61

##Elsustentadorprincipalyelcnyugeactivos,almenosotrodelos
miembrostambinactivo.
##11.93

##Elsustentadorprincipalyelcnyugeactivos,ningunodelosotros
miembrosactivos(siesqueloshay)
##4.34

##El sustentador principal o el cnyuge activo, otro de los miembros


tambinactivo
##20.61

##El sustentador principal o el cnyuge activo, al menos otros dos


miembrosactivos
##36.88

##Elsustentadorprincipaloelcnyugeactivo,ningunodelosotros
miembrosactivos(siesqueloshay)
##53.14

##Ni el sustentador principal ni su cnyuge activos, otro miembro


activo

##69.41

##Ni el sustentador principal ni su cnyuge activos, al menos otros


dosmiembrosactivos
##85.68

##Ningnactivoenelhogar
##101.95

El estadstico F al ser mayor que el valor terico permite rechazar la hiptesis


H o : 1 2 ... 9 por lo que cabe admitir que las diferentes categoras de situacin de
hogar tienen influencia en el gato en consumo de los hogares. De hecho el cdigo *** nos
muestra que la variable es significativa a un muy bajo.

45
Utilizando la funcin lm, e incluyendo un trmino constante.

```{r, echo=FALSE}
mod2 <- lm(ecpf2014$GAST ~ as.factor(ecpf2014$situacthog))
anova (mod2)
```
##AnalysisofVarianceTable
##
##Response:ecpf2014$GAST
##DfSumSqMeanSqFvalue
##as.factor(ecpf2014$situacthog)73.1069e+09443837987235.76
##Residuals177633.3440e+101882556

##Pr(>F)
##as.factor(ecpf2014$situacthog)<2.2e16***

##Residuals
##
##Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1

Este modelo es ms fcil de interpretar, ya que considerando un consumo promedio por hogar
de 2962.27, los hogares en donde el sustentador principal y el cnyuge estn activos, y ninguno
de los otros miembros est activos (si es que los hay) , consumiran al mes 175.84 euros que el
hogar medio, en tanto que ni el sustentador principal ni su cnyuge activos, pero al menos otros
dos miembros est activos, consumira 44.69 euros ms al mes que el hogar medio.

3.3. MODELOS ANCOVA


Para ilustrar la utilizacin de un modelo ANCOVA vamos a suponer que estamos modelizando
la relacin que existe entre el dinero que ahorra un grupo n de individuos, Yi, y la renta que
declara cada uno de ellos, Xi:

Yi=0+1Xi+ei , siendo i=1..n

De este grupo de individuos conocemos algunas otras caractersticas que pueden ser
transcendentes a la hora de nuestro anlisis, por ejemplo si estn o no estn casados. Utilizando
dicha informacin creamos las siguientes variables dummy:

1, si i est casado 1, si i no est casado


D1i D 2i (1 D1i )
0, si i no est casado 0, si i est casado

Si por ejemplo la muestra de individuos que tenemos es de n=10, de los cuales cuatro de ellos
estn casados, las variables dummy tendran la siguiente estructura:

46
1 0
0 1
0 1

1 0
0 1
D1 0 D 2 1
0 1

0 1

1 0
1 0

De cara a estudiar los efectos del estado civil sobre el ahorro podemos estar interesados en saber
si los casados parten de un nivel de ahorro diferente de los solteros, o bien si las diferencias
entre solteros y casados derivan en que unos y otros tienen una diferente propensin marginal a
ahorrar. En el primer caso se trata de conocer si 0 es diferente entre los dos grupos de
individuos, y en el segundo, si lo es 1.

El planteamiento del problema para observar las diferencias de cada grupo respecto a 0 se
puede realizar a travs de las siguientes especificaciones del modelo ANCOVA:

Yi=0+1D1i+1Xi+ei (3.1)
Yi=0+2D2i+1Xi+ei (3.2)
Yi=1D1i+2D2i +1Xi+ei (3.3)

En este caso:

Si se utiliza la especificacin del modelo (3.1), el trmino independiente de los casados


vendr dado por la suma (0+1), y para los solteros por 0. Si queremos analizar la
igualdad en el nivel de ahorro de ambos grupos, habra que contrastar la hiptesis nula H0:
1=0

Si se utiliza la especificacin del modelo (3.2), el trmino independiente de los solteros


vendr dado por la suma (0+2), y para los casados por 0. Si queremos analizar la
igualdad en el nivel de ahorro de ambos grupos, habra que contrastar la hiptesis nula H0:
2=0

Si se utiliza la especificacin del modelo (3.3) el trmino independiente de los casados


vendr dado por el coeficiente 1, y para los solteros por 2. Si queremos analizar la
igualdad en el nivel de ahorro de ambos grupos, habra que contrastar la hiptesis nula H0:
1=2

Las tres especificaciones son equivalentes, y hay que tener presente que en la especificacin del
modelo (3.3) se prescinde del trmino constante ya que de no hacerlo as tendramos un
problema de multicolinealidad exacta entre el trmino constante y las dos variables dummy.

Si planteamos el modelo (3.3) de la siguiente forma:

Yi = 0+1D1i+2D2i +1Xi+ei

La matriz X quedara:

47
1 1 0 X1
1 0 1 X 2

1 0 1 X3

1 1 0 X4
1 0 1 X5
X
1 0 1 X6
1 0 1 X7

1 0 1 X8
1 1 0 X9

1 1 0 X 10

En la que se aprecia que la suma de las columnas 2 y 3 da como resultado la primera columna,
lo que provoca que la matriz (XX) sea no singular.

Para el anlisis del comportamiento de cada grupo respecto a la pendiente, aqu propensin
marginal a ahorrar, podemos plantear las siguientes especificaciones del modelo ANCOVA:

Yi=0+1Xi+1(D1i Xi)+ei (3.4)


Yi=0+1Xi+2(D2i Xi)+ei (3.5)
Yi=0+1(D1i Xi)+ +2(D2i Xi)+ei (3.6)

En este caso:

Si se utiliza la especificacin del modelo (5.4), la propensin marginal de los individuos


casados vendr dado por la suma (1+1), y la de los solteros por 1. Si queremos analizar
la igualdad en la propensin marginal del ahorro en ambos grupos, habra que contrastar la
hiptesis nula H0: 1=0

Si se utiliza la especificacin del modelo (5.5), la propensin marginal de los individuos


solteros vendr dado por la suma (1+2), y la de los casados por 1. Si queremos analizar
la igualdad en la propensin marginal del ahorro en ambos grupos, habra que contrastar la
hiptesis nula H0: 2=0.

Si se utiliza la especificacin del modelo (5.6), la propensin marginal de los individuos


casados vendr dado por 1, y la de los solteros por 2. Si queremos analizar la igualdad en
la propensin marginal del ahorro en ambos grupos, habra que contrastar la hiptesis nula
H0: 1=2

Si queremos incluir en modelo otra caracterstica de los individuos como sera por ejemplo la
profesin y distinguimos entre tres profesiones: agricultores, asalariados y empresarios, habra
que crear tres nueva variables dummy:

48
1, si i es agricultor
E1i
0, si i no es agricultor
1, si i es asalariado
E 2i
0, si i no es asalariado
1, si i es empresario
E 3i
0, si i no es empresario

Si bien a la hora de especificar el modelo hay que evitar los problemas de multicolinealidad
entre todas las variables dummy incluidas y el trmino constante. Una forma de evitar los
problemas es no incluir alguna de las categoras en forma de variable dummy, y dejar que la
constante recoja el efecto de la categora no incluida. Una especificacin posible de un modelo
ANCOVA sera entonces:

Yi = 0+1D1i+1E1i+2E2i +1Xi+ei

Las variables cualitativas tambin pueden corresponder a hechos que concurren en un periodo
de tiempo y tener la forma de serie temporal. Este tipo de variables se utilizan para observar los
efectos que sobre el modelo provocan sucesos extraordinarios como son las huelgas, una
climatologa adversa, cambios polticos e incluso cambios en la metodologa estadstica de
elaboracin de los datos.

Supongamos que tenemos el siguiente modelo:

Yt=0+1Xt+et siendo t=1,.,T1, T1+1T

En el periodo T1 sabemos de la existencia de un suceso extraordinario que afecta a la evolucin


de la variable dependiente durante un periodo determinado de tiempo, y queremos lgicamente
saber el efecto que causa dicho suceso extraordinario sobre la ecuacin a estimar.

Para ello definimos las siguientes variables dummy:

1 si t T1 0 si t T1
D1t D 2t (1 D1t )
0 si t T1 1 si t T1

La estructura de ambas variables sera la siguiente:

1 0
. .
. .

1 0
D1 D 2
0 1
. .

. .
0 1

D1 tienen tantos unos como observaciones hay hasta T1 y D2 tiene tantos unos como
observaciones hay entre T1 y T.

El anlisis del efecto del suceso extraordinario sobre la regresin puede realizarse de forma
separada para cada periodo de 1 a T1 y T1 a T, o conjuntamente para todo el periodo, bien sobre
el termino constante 0 o sobre la pendiente 1.

49
Para el anlisis de los efectos sobre el trmino constante tendremos que plantear los siguientes
modelos de regresin:

Yt=0+1D1t+1Xt+et (3.7)
Yt=0+2D2t+1Xt+et (3.8)
Yt=1D1t+2D2t +1Xt+et (3.9)

En este caso:

Si se utiliza la especificacin del modelo (3.7) el anlisis de la invariabilidad de 0


exige contrastar la hiptesis nula H0: 1=0

Si se utiliza la especificacin del modelo (3.8) el anlisis de la invariabilidad de 0


exige contrastar la hiptesis nula H0: 2=0

Si se utiliza la especificacin del modelo (3.9) el anlisis de la invariabilidad de 0


exige contrastar la hiptesis nula H0: 1=2

Si queremos analizar el efecto del acontecimiento extraordinario sobre la pendiente del modelo,
plantearemos las siguientes ecuaciones de regresin:

Yt=0+1Xt+1(D1t Xt)+et (3.10)


Yt=0+1Xt+2(D2t Xt)+et (3.11)
Yt=0+1(D1t Xt)+ +2(D2t Xt)+et (3.12)

En cuyo caso:

Si se utiliza la especificacin del modelo (3.10), el anlisis de la invariabilidad de 1 exige


contrastar la hiptesis nula H0: 1=0

Si se utiliza la especificacin del modelo (3.11), el anlisis de la invariabilidad de 1 exige


contrastar la hiptesis nula H0: 2=0

Si se utiliza la especificacin del modelo (3.12), el anlisis de la invariabilidad de 1 exige


contrastar la hiptesis nula H0: 1=2

Para tomar una decisin acerca de que modelo ANCOVA seleccionar entre las varias
especificaciones que utilizan variables cualitativas, hay utilizar el contraste de errores de
especificacin descrito en el apartado 3.5.4.

Ejemplo 3.2.

Partiendo de la base de datos ecpf2014 preparamos un Chunk, con la funcin lm, utilizando
ahora como explicativas la iteracin situacthog e ingresos del hogar:

```{r, echo=FALSE}
mod3 <- lm(ecpf2014$GAST ~ as.factor(ecpf2014$situacthog)* ecpf2014$
impexac)
anova (mod3)
##AnalysisofVarianceTable

50
##
##Response:ecpf2014$GAST
##DfSumSq
## as.factor(ecpf2014$situacthog) 7 3.1069e+09
##ecpf2014$impexac11.2390e+10
##as.factor(ecpf2014$situacthog):ecpf2014$impexac75.0244e+07
##Residuals177552.0999e+10
##MeanSqF
Value
##as.factor(ecpf2014$situacthog)4.4384e+08
375.2692
##ecpf2014$impexac1.2390e+10
10476.2225
##as.factor(ecpf2014$situacthog):ecpf2014$impexac7.1777e+06
6.0688
##Residuals1.1827e+06

##Pr(>F)
##as.factor(ecpf2014$situacthog)<2.2e16***
##ecpf2014$impexac<2.2e16***
##as.factor(ecpf2014$situacthog):ecpf2014$impexac4.283e07***
##Residuals
##

##Signif.codes:0'***'0.001'**'0.01'*'0.05'.'0.1''1

51
4. MODELO LINEAL GENERALIZADO.

Los modelos lineales (regresin, ANOVA, ANCOVA), se basan en los siguientes supuestos:
1. Los errores se distribuyen normalmente.
2. La varianza es constante.
3. La variable dependiente se relaciona linealmente con las variables independientes.

de manera analtica tendramos:


Yi 1 X 1i 2 X 2i ... k X ki ei , i=1,2,, n
donde ei esta distribuida de cmo una normal de media cero, varianza constante
(homocedstica), 2 , y donde la covarianza entre ei y ej es nula para i j , E(eiej) = 0
(ausencia de autocorrelacib). Es decir, ei N (0, 2 ) .
Estos supuestos llevan implcito que la distribucin de la variable dependiente Yi sea tambin
una normal Yi N ( , 2 ) , donde:

E (Yi ) 1 X 1i 2 X 2i ... k X ki

En muchas ocasiones, sin embargo, nos encontramos con que uno o varios de estos supuestos no
se cumplen por la naturaleza de la informacin. En algunos casos, estos problemas se pueden
llegar a solucionar mediante la transformacin de la variable respuesta (por ejemplo tomando
logaritmos). Sin embargo estas transformaciones no siempre consiguen corregir la falta de
normalidad, la heterocedasticidad (varianza no constante) o la no linealidad de nuestros datos.

Una alternativa a la transformacin de la variable dependiente/respuesta y a la falta de


normalidad es el uso de los modelos lineales generalizados (MLG).

Los MLG fueron formulados por John Nelder y Robert Wedderburn (1989) como una manera
de unificar varios modelos estadsticos, incluyendo la regresin lineal, regresin logstica y
regresin de Poisson, bajo un solo marco terico.

Los MLG son, por tanto, una extensin de los modelos lineales que permiten utilizar
distribuciones no normales de los errores (binomiales, Poisson, gamma, etc) y varianzas no
constantes.

Los MLG permiten especificar distintos tipos de distribucin de errores, Cayuela (2010) expone
los siguientes ejemplos:
Poisson, muy tiles para conteos de acontecimientos, por ejemplo: nmero de heridos
por accidentes de trfico; nmero de hogares asegurados que dan parte de siniestro al
da.
Binomiales, de gran utilidad para proporciones y datos de presencia/ausencia, por
ejemplo: tasas de mortalidad; tasas de infeccin; porcentaje de siniestros mortales.
Gamma, muy tiles con datos que muestran un coeficiente de variacin constante, esto
es, en donde la varianza aumenta segn aumenta la media de la muestra de manera
constante, por ejemplo : nmero de heridos en funcin del nmero de siniestros
Exponencial, muy tiles para los anlisis de supervivencia.

52
Otra razn por la que un modelo lineal puede no ser adecuado para describir un fenmeno
determinado es que la relacin entre la variable respuesta y las variables independientes no es
siempre lineal.

La funcin de vnculo se encarga de linealizar la relacin entre la variable dependiente y las


variables independientes mediante la transformacin de la variable respuesta:

Tabla 4.1 Las funciones de ligadura/vnculo mas utilizadas

Fuente: Cayuela L. (2010)

En la siguiente tabla se muestran algunas de las combinaciones ms comunes de variables


respuestas y variables explicativas con distintos tipos de funciones de vnculo y distribuciones
de errores.
Tabla 4.2. Modelos MLG ms comunes

Fuente: Cayuela L. (2010)


La estimacin de los parmetros , se realiza por mximo verosimilitud3, y os ajustes de i ,

se calculan como g 1 xi' , una vez estimados los parmetros del vector .

3
Si bien el mtodo de MCO es el ms frecuentemente usado para calcular los parmetros del modelo de
regresin, hay mtodos alternativos. Uno de ellos es el mtodo de Mxima Verosimilitud (Maximum
Likelihood). Para utilizar el mtodo debemos conocer la distribucin de probabilidad del trmino
aleatorio t .

53
Para valorar el ajuste de los MLG se utiliza el estadstico chi-cuadrado, que se define como el
doble de la diferencia entre el mximo del logaritmo de la verosimilitud que se podra conseguir
con la mnima (o mxima) parametrizacin y el valor del mximo del logaritmo de la
verosimilitud que se consigue con el modelo a evaluar, y el estadstico AIC (Akaike Information
Criterion), formulado por Akaike (1974):
l k
AIC 2 2
N N
donde l es el valor en el ptimo del logaritmo de la funcin de verosimilitud con k parmetros
estimados y N las observaciones. Siguiendo estos criterios, se seleccionar aquel modelo para el
que se obtenga un AIC ms bajo.

La especificacin de un MLG se realiza en tres partes:

La componente aleatoria correspondiente a la variable Yi que sigue una distribucin de


la familia exponencial (normal, log-normal, poisson, gamma,)
La componente sistemtica, o predictor, que se denota y corresponde al vector de n
k
componentes i 1 X 1i 2 X 2i ... k X ki
j 1
j X ji xi' .

La funcin de ligadura (o funcin link g ()) que relaciona la esperanza matemtica de


la variable con el predictor lineal, i g ( i ) , la funcin de ligadura debe de ser
montona y diferenciable.

Si suponemos que t se distribuyen como una N(0, 2 ), la funcin explcita de probabilidad (PDF) para
Yt se puede escribir como:

f (Yt ) 2
2
1 2
e ( 1 / 2 )(Yt X t )
2

Si se selecciona una muestra aleatoria de n Yt s :

Y1 , Y2 , , Yn
La funcin de probabilidad (likelihood function) de las Yt s (o la funcin de verosimilitud de la muestra)
es:

l f (Y1 , Y2 , , Yn )
Podemos escribir ahora:

l 2 e

2
1
( 1 / 2 2 )(Y1 X1 ) 2
2 e 2

1
( 1 / 2 2 )(Yn X n ) 2

l 2
2
n
e
( 1 / 2 2 ) (Yt X t )2

El enfoque Mximo Verosmil para calcular y (y 2 ) es obtener las expresiones para estos
parmetros que maximizan la funcin de probabilidad de las Yt s en la ecuacin anterior.

54
Ejemplo 4.1.

Utilizando la seleccin de variables del Ejemplo 2.4, vamos a estimar un modelo utilizando la
distribucin de poisson y un tipo de funcin vinculo logartmica, para ello ejecutamos el
siguiente Chunk:

```{r, eval=FALSE ,echo=FALSE}


est2 <- glm(ecpf2014$GAS ~ nmiemb + nmiem11 + nmiem13 + numinacti +
tiphogar1 + situocuhog + situacthog + numnoestu,
data=datos,family=poisson (link = "log"))
coef(est2)
```
##(Intercept)
##7.76140959
##nmiemb
##0.01817353
##nmiem11
##0.08073017
##nmiem13
##0.08513973
##numinacti
##0.13156124
##tiphogar1Unapersonade30a64aos
##0.05661690
##tiphogar1Unapersonademenosde30aos
##0.32218572
##tiphogar1Unadultoconniosmenoresde16aos
##0.03567650
##tiphogar1Pareja sin hijos teniendo al menos uno de los miembros 65
aosoms
##0.36168938
##hijosteniendolosdosmiembrosmenosde65aos
##0.19834610
##tiphogar1Parejaconunhijomenorde16aos

##0.20112720
##tiphogar1Parejacondoshijosmenoresde16aos

##0.32211129
##tiphogar1Parejacontresomshijosmenoresde16aos
##0.39427650
##tiphogar1Padre omadresolo, con al menos un hijode16 o msaos
##0.18283275
##tiphogar1Pareja con al menos un hijo de 16 o ms aos
##0.26667065
##tiphogar1Otroshogares
##0.21708985
##situocuhogElsustentadorprincipalyelcnyugeocupados,ningunode
losotrosmiembrosocupados(siesqueloshay)
##0.17773513
##situocuhogElsustentadorprincipaloelcnyugeocupado,otrodelos
miembrosocupado

55
##0.33215745
##situocuhogEl sustentador principal o el cnyugeocupado, al menos
otrosdosmiembrosocupados
##0.15920869
##situocuhogEl sustentador principal o el cnyugeocupado, ninguno de
losotrosmiembrosocupado(siesqueloshay)
##0.50866957
##situocuhogNi el sustentador principal ni su cnyuge ocupado, otro
miembroocupado
##0.62731322
##situocuhogNi el sustentador principal ni su cnyuge ocupados, al
menosotrosdosmiembrosocupados
##0.34452462
##situocuhogNingnocupadoenelhogar
##0.88982151
##situacthogElsustentadorprincipalyelcnyugeactivos,ningunode
losotrosmiembrosactivos(siesqueloshay)
##0.06184096
##situacthogElsustentadorprincipaloelcnyugeactivo,otrodelos
miembrostambinactivo
##0.05059284
##situacthogEl sustentador principal o el cnyuge activo, al menos
otrosdosmiembrosactivos
##0.02530061
##situacthogEl sustentador principal o el cnyuge activo, ninguno de
losotrosmiembrosactivos(siesqueloshay)

##0.09094561
##situacthogNi el sustentador principal ni su cnyuge activos, otro
miembroactivo
##0.19433718
##situacthogNi el sustentador principal ni su cnyuge activos, al
menosotrosdosmiembrosactivos
##0.14390236
##situacthogNingnactivoenelhogar
##0.21091117
##numnoestu
##0.01565029

4.1. EL MODELO PROBABILSTICO LINEAL

El modelo de probabilidad lineal se caracteriza por tener la variable endgena Y dicotmica o


binaria, es decir toma el valor Y=1 si un determinado suceso ocurre y el valor Y=0 en caso
contrario. Estos modelos estn muy extendidos en el anlisis estadstico pero encuentran una
difcil aplicacin en Economa debido a las dificultades de interpretacin econmica de los
resultados que ofrecen este tipo de investigaciones. A este respecto, hay que considerar que
estos modelos lo que realmente investigan es la probabilidad de que se d una opcin (valores
Y=1) o no se d (Y=0).

A pesar del carcter dicotmico de la variable endgena, el modelo de probabilidad lineal se


especifica de la forma habitual, teniendo presente que las variables exgenas no son dicotmicas
sino continuas:

56
Yi=0+1Xi+ei siendo i=1,N (4.1)

De acuerdo con la expresin (4.1), el hecho de que la variable endgena tome valores discretos
(1 0), el trmino de perturbacin ei, puede tomar tambin dos valores nicamente:

Si Yi=0 ei = -0- 1Xi con probabilidad p.

Si Yi=1 ei = 1-0- 1Xi con probabilidad (1-p).

Dado que la esperanza del trmino de error ha de ser nula E(ei)=0, entonces se demuestra que
p= 1-0-1Xi y (1-p) = 0+1Xi, lo que permite evaluar la probabilidad de que la variable
endgena tome el valor correspondiente:

Prob (Yi=0) = Prob (ei = -0 - 1Xi ) = p = 1-0- 1Xi.

Prob (Yi=1) = Prob (ei = 1-0 - 1Xi ) = (1-p) = 0+ 1Xi .

A su vez la varianza del trmino de perturbacin, se calculara a partir de p:

Var (ei ) (1 0 1 X i )( 0 1 X i ) p (1 p)

Una problemtica inherente a los estimadores MCO de estos modelos, son los siguientes:

La perturbacin aleatoria (ei) no sigue una distribucin Normal. Es sencillo observar


este hecho ya que el carcter binario (1 0) de la variable endgena afecta a la
distribucin de la perturbacin, teniendo sta una distribucin Binomial4. Este
problema se atena cuando se utilizan tamaos de muestra (N) grandes en donde la
distribucin Binomial es susceptible de aproximarse a una Normal.

La perturbacin aleatoria no tiene una varianza constante (es heteroscedstica), lo cual


supone una falta de eficiencia. Para solucionarlo habra que realizar transformaciones
que nos diesen una perturbacin homocedstica; esta transformacin consiste en
multiplicar todas las variables por una cierta cantidad que elimine el problema de la
heteroscedasticidad. Dicha cantidad es:

1

( 0 1 X i )(1 0 1 X i )

siendo o y 1 los estimaciones MCO del modelo.

No obstante, el mayor problema que plantean estos modelos es que las predicciones
realizadas sobre la variable endgena no siempre se encuentran en el intervalo [0,1], ya
que pueden ser mayores que cero y menores que uno. Este problema tiene dos
soluciones, una es tomar como valor cero todas las estimaciones de la variable
endgena con valores negativos, y uno cuando estas resulten mayores que uno; la
segunda, solucin es utilizar funciones de distribucin que estn acotadas entre cero y
uno como son la Logstica y la Normal; de stas se derivan los modelos Logit y Probit
que pasamos a ver a continuacin.

4
La distribucin binomial se basa en una prueba conocida como experimento de Bernouilli o problema
de las pruebas repetidas, que consiste en averiguar la probabilidad de que en n extracciones o pruebas
se hayan conseguido X valores de 1 y/o (n-X) valores de 0.

57
4.2. EL MODELO LOGIT
El problema que presentan los modelos probabilsticos lineales en cuanto a la existencia de
predicciones establecidas fuera rango (negativas o mayores que uno), es debido a que utilizan
una funcin de probabilidad que depende linealmente de las variables explicativas (X), que se
resolveran acotando dicha distribucin de probabilidad. El modelo Logit en concreto utiliza,
para ello, la funcin de distribucin logstica:

Figura 4.1. Curva Logstica

Debido a que la funcin de distribucin logstica no tiene forma lineal, el modelo Logit se
estima de forma diferente, as en vez de minimizar las sumas de las diferencias al cuadrado
entre los valores observados y los estimados por el modelo, el carcter no lineal de los modelos
Logit requiere la utilizacin del mtodo de Mxima Verosimilitud para ser estimado,
maximizando la verosimilitud de que un suceso tenga lugar, aunque se podra estimar por MCO
mediante una transformacin logartmica de los datos (Gujarati, 1997).

La probabilidad de que Yi=0 (p) se define ahora mediante la siguiente expresin:


1
p
(1 e z )

donde Z = 0 + 1X1 + 2X2 + + kXk, siendo i son los coeficientes a estimar y Xi es el


vector de variables independientes

La probabilidad de que Yi=1 (1-p) sera:

1
(1 p)
(1 e z )

En consecuencia, la razn entre ambas ser igual a:

p (1 e z )
ez
(1 p ) (1 e z )

58
Tomando el logaritmo natural de la expresin anterior se obtiene

pi
Li ln ln(e ) 0 1 X i
z
(4.2)
(1 p )
i

Donde Li es el denominado Logit.

Los coeficientes indican el cambio en el Logit causado por el cambio en una unidad en el
valor de Xi, mientras que los e definen el cambio en la razn de probabilidades
p
(1 p )
causado por el cambio en una unidad en el valor de Xi. Si es positivo, e ser mayor que 1, es
decir, se incrementar; si es negativo, e ser menor que 1, es decir, p
p
(1 p ) (1 p )
disminuir. Adicionalmente, puede demostrarse que el cambio en la probabilidad (p) causado
por el cambio en una unidad en el valor de Xi es , es decir, depende no slo del
p
(1 p )
coeficiente, sino tambin del nivel de probabilidad a partir del cual se mide el cambio.

A la hora de estimar un modelo Logit, hay que tener presente que para estimar el modelo
adems de los valores Xi, se necesitan los valores del Logit (Li). Por otro lado, sealar que la
estimacin de los coeficientes de modelo (4.2) se realiza utilizando el mtodo de Mxima
Verosimilitud, es decir, eligiendo como estimadores de los coeficientes a aquellos que
1
maximizan la funcin de verosimilitud, construida sobre la base de p . Pero si
(1 e z )
tenemos la posibilidad de agrupar los datos individuales, entonces podra estimarse el modelo
por MCO.

Ejemplo 4.1.

En la base de datos datos definimos como pobres, aquellos hogares que tienen un ingreso per
cpita inferior al 60% de la mediana.

```{r, echo=FALSE}
datos$ingpc=datos$ecpf2014.impexac/datos$nmiemb
datos$pobre=ifelse(datos$ingpc<0.6*median(datos$ingpc),1,0)
str(datos)
table(datos$pobre)
```
## 'data.frame': 22146 obs. of 17 variables:
## $ nmiemb : num 3 2 2 5 5 3 2 3 3 3 ...
## $ nmiem10 : num 1 1 0 0 0 0 0 0 2 0 ...
## $ nmiem11 : num 2 1 1 2 2 2 0 2 0 2 ...
## $ nmiem12 : num 0 0 1 0 0 0 2 0 0 1 ...
## $ nmiem13 : num 0 0 0 0 0 0 0 0 0 0 ...
## $ numacti : num 1 2 0 2 1 2 0 1 2 2 ...
## $ numinacti : num 2 0 2 2 3 0 2 1 0 1 ...
## $ numocu : num 1 2 0 2 1 2 0 1 2 2 ...
## $ numnocu : num 2 0 2 2 3 0 2 1 0 1 ...
## $ numestu : num 0 0 0 2 2 0 0 0 0 0 ...

59
## $ numnoestu : num 3 2 2 2 2 2 2 2 2 3 ...
##$tiphogar1:Factorw/12levels"Unapersonade65oms
aos",..:111051111757712...

##$situocuhog:Factorw/8levels"Elsustentadorprincipaly
elcnyugeocupados,almenosotrodelosmiembrostambinocupado",..:
NANA82528522...

##$situacthog:Factorw/8levels"Elsustentadorprincipaly
elcnyugeactivos,almenosotrodelosmiembrostambinactivo",..:
NANA82528522...

##$ecpf2014.impexac:num21912702116751671100...

##$ingpc:num73013515841033220...

##$pobre:num0000101000...
##
##
0 1
##171674979

Seleccionamos el mejor modelo explicativo del ingreso per capita con regsubset por el
mtodo exhaustivo (paso por paso):

```{r}
regfit.exh=regsubsets(datos$ingpc~.,data=datos[,1:15],method="exhausti
ve")
plot(regfit.exh)
coef(regfit.exh,9)

```

##(Intercept)
##1085.7566205
##nmiemb
##202.4482883
##nmiem11

60
##59.8275149
##nmiem12
##96.5363080
##numacti
##101.0224460
##numocu
##262.9822263
##tiphogar1Parejacontresomshijosmenoresde16aos
##97.1311348
##tiphogar1Padreomadresolo,conalmenosunhijode16omsaos
##0.7449329
##situocuhogElsustentadorprincipalyelcnyugeocupados,ningunode
losotrosmiembrosocupados(siesqueloshay)
##76.1584450
##situocuhogEl sustentador principal o el cnyugeocupado, al menos
otrosdosmiembrosocupados
##18.3472987

Estimamos un modelo logit con glm utilizando las variables antes seleccionadas, y realizamos
un conteo para ver los resultados obtenidos.

```{r}

# Regresion logistica
est3 <- glm(datos$pobre ~ nmiemb + nmiem11 + numinacti + numocu +
tiphogar1 + situocuhog, data=datos,family=binomial)
est3.probs=predict(est3,type="response")
est3.pred=ifelse(est3.probs>0.5,1,0)
table(est3.pred,est3$y)
mean(est3.pred==est3$y)

```

##
##est3.pred01

##0134802374

##19302098
##[1]0.8250185

El modelo predictivo acierta en el 82% de los casos.

61
4.3. MODELO PROBIT
Mientras que el modelo Logit utiliza la funcin de distribucin logstica para acotar la
distribucin de probabilidad en el modelo de probabilidad lineal, el modelo Probit utiliza la
funcin de distribucin Normal.

Figura 4.2. Funcin de densidad (izq.) y de distribucin (dcha.) de una Normal (0,1)

Las funciones de distribucin normal y logstica son muy semejantes: la diferencia principal es
que la funcin de distribucin normal se acerca ms rpidamente a los ejes que la logstica
(figura 4.3).

Figura. 4.3.

Para entender la filosofa del modelo Probit, vamos a suponer que existe una variable
desconocida s que cumple lo siguiente:

Si Ii=0+1Xi s entonces Yi=1


Si Ii=0+1Xi <s entonces Yi=0

Dado el supuesto de normalidad en un suceso, la probabilidad de que este sea menor o igual al
valor (s), se calcula a partir de la funcin de distribucin acumulada de una distribucin Normal
estandarizada, esto es, con esperanza cero y desviacin tpica uno.

1 o 1 X i t dt
pi pr (Y 1) pr ( 0 1 X i s )
2

e 2
(4.3)

62
Lo anterior equivale a que la relacin entre la endgena y las explicativas venga dada por la
siguiente expresin:

1 o 1 X i t dt u
yi ( 0 1 X i ) ui e 2 i
(4.4)
2

Donde:

(0+1Xi) es la funcin de distribucin normal


ui es el trmino de perturbacin que se distribuye como una normal N(0,2).

Dado que (4.4) es una relacin no lineal en los parmetros no puede estimarse por MCO. No
obstante, hay una forma sencilla de asignar valores a las probabilidades que aparecen en la
expresin (4.3). Esta forma consiste en obtener informacin acerca de Ii y de los parmetros a
partir de la inversa de (4.3):

I F I F p
* 1 1
i i i 0 1 X i

donde F-1 es la inversa de la funcin de distribucin Normal.

Donde Ii es negativa siempre que pi<0.5; en la prctica se agrega el nmero 5 a Ii y a su


resultado se le denomina Probit. Es decir, Probit=5+Ii

Ahora, para estimar los parmetros se regresa:

*
I i
0 1 X i u i

El trmino de la perturbacin es no obstante heteroscedstico. Gujarati (1999) sugiere que se


realice la transformacin comentada en el caso del modelo Logit, para que el modelo
transformado sea homocedstico.

Ejemplo 4.3

La estimacin en R del modelo probit estimado en el ejemplo 4.3, se programa:

```{r,echo=FALSE}
# Regresion probit
est4 <- glm(datos$pobre ~ nmiemb + nmiem11 + numinacti + numocu +
tiphogar1 + situocuhog, data=datos,family=binomial(link=probit))
est4.probs=predict(est4,type="response")
est4.pred=ifelse(est4.probs>0.5,1,0)
table(est4.pred,est4$y)
mean(est4.pred==est4$y)
```
##
##est4.pred01
##0134952441

##19152031
##[1]0.8222646

63
5. MODELOS CON DATOS DE PANEL

5.1. INTRODUCCIN

Un modelo de datos de panel es, segn la definicin ms extendida, un modelo que utiliza
muestras recogidas a individuos a lo largo de instantes de tiempo. Los modelos de datos de
panel incluyen as informacin de una muestra de agentes econmicos (individuos, empresas,
bancos, ciudades, pases, etc.) durante un perodo determinado de tiempo, combinando, por
tanto, la dimensin temporal y estructural de los datos.

Los modelos de datos de panel se aplican a conjuntos o bases de datos de series de tiempo
agregadas para los mismos individuos; stos conjuntos de datos suelen tener un nmero
relativamente grande de individuos y pocas observaciones en el tiempo, o por el contrario
podemos tener datos para un nmero grande de periodos pero para un nmero pequeo de
individuos. Un ejemplo de este tipo de bases de datos es el panel de hogares de la Unin
Europea (70.000 hogares en la UE), las encuestas de opiniones empresariales del Ministerio de
Industria (3.000 empresas), los ndices Nielsen (5.000 hogares en Espaa) para medir la
audiencia televisiva, etc. Estos conjuntos de datos que son conocidos como datos de panel o
datos longitudinales hay que diferenciarlos de las encuestas transversales que son repetidas en el
tiempo pero no a los mismos individuos (por ejemplo, la Encuesta de Poblacin Activa)5.

El principal objetivo que se persigue al agrupar y estudiar los datos en panel es capturar la
heterogeneidad no observable entre los agentes econmicos como entre periodos temporales.
Dado que esta heterogeneidad no se puede detectar exclusivamente con estudios de series
temporales, ni tampoco con estudios de corte transversal, hay que realizar un anlisis ms
dinmico incorporando a los estudios de corte transversal la dimensin temporal de los datos.
Esta modalidad de analizar la informacin es muy usual en estudios de naturaleza empresarial,
ya que los efectos individuales especficos de cada empresa y los efectos temporales del
medio son determinantes cuando se trabaja con este tipo de informacin.

Los efectos individuales especficos se definen como aquellos que afectan de manera desigual a
cada uno de los agentes de estudio contenidos en la muestra (individuos, empresas, bancos).
Estos efectos son invariables en el tiempo y se supone que afectan de manera directa a las
decisiones que toman dichas unidades. Usualmente, se identifica este tipo de efectos con
cuestiones de capacidad empresarial, eficiencia operativa, el saber-hacer (Know-how), acceso
a la tecnologa, etc.

Por su parte, los efectos temporales son aquellos que afectan por igual a todas las unidades
individuales del estudio y que, adems, varan en el tiempo. Este tipo de efectos suele asociarse,
por ejemplo, a shocks macroeconmicos que afectan por igual a todas las empresas o unidades
de estudio (una subida de los tipos de inters, un incremento de los precios de la energa, un
aumento de la inflacin, etc.), o a cambios en la regulacin de mercados (ampliacin de la
Unin Europea, reduccin de tarifas arancelarias, aumento de la imposicin indirecta, etc.).

5
En los paneles de datos a veces tambin hay que sustituir individuos por falta de respuesta, pero no es el
caso de las encuestas transversales en donde la muestra se renueva de forma sistemtica, de manera que a
un periodo de tiempo determinado, por ejemplo un ao, los hogares de la muestra sean diferentes a los del
periodo anterior. La falta de respuesta en los datos de panel como en otro tipo de encuesta a la hora de los
anlisis estadsticos deben de depurarse, bien eliminando todos los datos del individuo con falta de
respuesta o eliminando nicamente los individuos con falta de respuesta en cada variable analizada.

64
5.2. ESPECIFICACIN GENERAL DE UN MODELO DE DATOS DE PANEL

La especificacin general de un modelo de regresin con datos de panel es la siguiente:

K
Yit it X itj j uit
j 1

donde i = 1,......N se refiere al individuo o a la unidad de estudio (corte transversal), t = 1,...T a


la dimensin en el tiempo, Yit sera la variable a explicar correspondiente a cada unidad de
estudio, es un escalar con N parmetros que recoge los efectos especficos del i-simo
individuo, es un vector de K parmetros que se asocian a las j=1,.K variables explicativas
X itj .

A partir del modelo general, y con base en ciertos supuestos y restricciones acerca del valor de
algunos de los parmetros, se derivan las diferentes variantes de modelos de datos de panel que
resumimos a continuacin en la siguiente tabla.

Tabla 5.1. MODELOS ALTERNATIVOS PARA COMBINAR DATOS DE SERIES DE TIEMPO


Y DE CORTE TRANSVERSAL
TIPO DE MODELO EXPRESIN CARACTERSTICAS
Modelo Lineal K
Yit it X itj i j eit
j 1
Modelo Esttico de Datos de K
Panel. Yit it X itj j eit
j 1
Modelo Esttico de Datos de K
it i
Panel de una Va (one-way) (A) Yit it X itj j eit
j 1
Modelo Esttico de Efectos Fijos K i es un vector de variables
con variable dummy (los Yit i i X itj j eit cualitativas y i es un vector de
coeficientes constantes se j 1 coeficientes constantes.
estiman a partir de variables
cualitativas) (B)
Modelo Esttico de Datos de K
it i t
Panel de Doble Va (two-ways) Yit it X itj j eit
(C) j 1
Modelo de Regresiones K
it i
Aparentemente No Relacionadas Yit it X itj i j eit
(SUR)6 j 1
Modelo Dinmico de Datos de K
Yit it Yi ,t 1 X itj j eit it i t
Panel j 1

En un modelo de datos de panel, las variables explicativas pueden ser de tres tipos:

Una variable por cada individuo, sin que exista referencia temporal en dicha
variable: las variables son las mismas para cada unidad de corte transversal y se
refieren a atributos del individuo o agente, por ejemplo, el tipo de empresa, su
tamao, la forma gerencial; el sexo de un trabajador, el nivel de formacin, la
profesin y otras caractersticas sociales de los individuos.

Una variable por periodo, pero sin que existan diferencias en el valor que toma la
variable en cada individuo: las variables toman distintos valores en cada periodo

6
Siglas de Seemingly Unrelated Regression.

65
temporal pero no varan entre los individuos. Como ejemplo de este tipo de
variables cabe citar a la tasa de inflacin, los tipos de inters, etc.

Una variable que cambia en el tiempo y por individuo: se trata de variables que
cambian entre individuos en un momento del tiempo, y que adems cambian a lo
largo del tiempo. Como ejemplo de estas variables se pueden mencionar los
ingresos totales, el nivel de beneficios, el stock de capital o el nivel de
endeudamiento, entre otras.
Los modelos de datos de panel se interpretan a travs de sus componentes de error.
Considerando la notacin matricial abreviada de un modelo general de datos de panel:

Yit X it' uit

El trmino de error uit incluido en la ecuacin anterior, puede descomponerse de la siguiente


manera:

uit i t eit

donde i representa los efectos no observables que difieren entre las unidades de estudio pero no
en el tiempo (capacidad empresarial, eficiencia de cada unidad, etc.); t identifica los efectos
no cuantificables que varan en el tiempo pero no entre las unidades de estudio; y eit se refiere al
trmino de error puramente aleatorio.

La mayora de los anlisis realizados con datos de panel utilizan el modelo de componente de
error conocido como one way para el cual t =0 (modelo A). Las diferentes variantes para el
modelo one way de componentes de errores surgen de los distintos supuestos que se hacen
acerca del trmino i, pudindose presentar tres posibilidades:

El caso ms sencillo es el que considera i 0 ; es decir, la no existencia de


heterogeneidad no observable entre los individuos o empresas.

La segunda posibilidad consiste en suponer a i un efecto fijo y distinto para


cada individuo o empresa. En este caso, la heterogeneidad no observable se
incorpora a la constante del modelo ( i ).

Finalmente, la tercera alternativa es tratar a i como una variable aleatoria no


observable que vara entre individuos/empresas pero no en el tiempo.

Bajo la primera especificacin, los it satisfacen todos los supuestos del modelo lineal general y,
por tanto, se emplea como mtodo de estimacin MCO, obteniendo estimadores lineales e
insesgados y con la ventaja de ganar grados de libertad.

Ahora bien, en los casos en que se rechaza el supuesto de homogeneidad en un sistema de datos
de panel, es decir, que existe heterogeneidad no observable ya sea a travs del tiempo, entre
unidades de estudio (individuos) o en ambos sentidos, debe buscarse una especificacin que la
capture de forma apropiada con el fin de evitar que los estimadores de los parmetros de las
variables explicativas estn sesgados.

66
5.3. VENTAJAS Y DESVENTAJAS DE LOS MODELOS DE DATOS DE
PANEL

Los modelos de datos de panel presentan una serie de ventajas y desventajas en comparacin
con los modelos de series temporales y de corte transversal. Las ms relevantes son las
siguientes:

Ventajas

La tcnica permite al investigador econmico disponer de un mayor nmero de


observaciones, incrementando los grados de libertad, reduciendo la multicolinealidad
entre las variables explicativas y, en ltima instancia, mejorando la eficiencia de las
estimaciones economtricas.

Tal y como se mencion anteriormente, la tcnica permite capturar la heterogeneidad no


observable ya sea entre unidades individuales de estudio como en el tiempo. Con base
en lo anterior, la tcnica de datos de panel permite aplicar una serie de contrastes para
confirmar o rechazar dicha heterogeneidad y determinar cmo capturarla.

Los datos de panel suponen, e incorporan al anlisis, el hecho de que los individuos o
agentes econmicos (consumidores, empresas, regiones, pases, etc.) son
heterogneos. Los anlisis de series de tiempo y de corte transversal no incorporan esta
heterogeneidad corriendo as el riesgo de obtener resultados sesgados.

Permiten estudiar mejor la dinmica de los procesos de ajuste, ya que a travs de ellos
se pueden analizar los cambios en el tiempo de las distribuciones transversales.

Permiten elaborar y probar modelos relativamente complejos de comportamiento en


comparacin con los anlisis de series temporales y de corte transversal. Un ejemplo
claro de este tipo de modelos es aquel que trata de medir niveles de eficiencia tcnica
por parte de unidades econmicas individuales.

Finalmente, puesto que las unidades transversales de un panel de datos normalmente se


refieren a individuos, familias o empresas, se evitan los sesgos que aparecen cuando se
trabaja con variables agregadas.

Desventajas

En trminos generales, las desventajas asociadas a la tcnica de datos de panel se


relacionan con los procesos para la obtencin y el procesamiento de la informacin
estadstica sobre las unidades individuales de estudio; es decir cuando sta se obtiene
por medio de encuestas, entrevistas o utilizando algn otro medio de inferencia
estadstica de los datos. Ejemplos de este tipo de limitaciones son los problemas de
seleccin no aleatoria de la muestra, de recogida de datos con inadecuadas tasas de
cobertura de la poblacin, porcentajes de no respuesta, preguntas confusas, distorsin
deliberada de las respuestas, etc.

Asimismo, una escasa dimensin temporal puede invalidar alguno de los elementos
tericos de los modelos de datos de panel.

Por ultimo, algunas investigaciones han demostrado que la utilizacin de modelos de


efectos fijos produce resultados significativamente diferentes al los modelos con efectos
aleatorios cuando se estima una ecuacin usando una muestra de muchas unidades de

67
corte transversal con pocos periodos de tiempo (700 individuos con 5 periodos, por
ejemplo).

5.4. MODELO DE EFECTOS FIJOS


Como ya se mencion, los modelos de datos de panel permiten contemplar la existencia de
efectos individuales especficos a cada unidad, invariables en el tiempo, que determinan la
manera en que cada unidad de corte transversal toma sus decisiones.

Estos modelos asumen que los efectos de las variables omitidas, ya sean especficas a cada
individuo y/o que cambian en el tiempo, no son importantes en forma individual, pero s en
conjunto.

Por otro lado, dado que el efecto de las variables omitidas se supone constante en el tiempo para
cada individuo, o que no vara en todos los individuos en un determinado momento en el
tiempo, o una combinacin de ambos, se pueden capturar en el trmino constante de un modelo
de regresin como un promedio que toma en cuenta explcitamente la heterogeneidad entre
individuos y/o en el tiempo contenida en los datos.

Segn la forma de incorporar la heterogeneidad no observada, se pueden diferenciar los


modelos de efectos fijos y modelos de efectos aleatorios. Los modelos de efectos fijos se
conocen tambin como modelos mnimos cuadrticos con variables ficticias.

Los modelos de datos de panel de efectos fijos tienen la siguiente expresin general:
K
Yit i X itj j eit
j 1

donde Yit es la variable dependiente, it , es un escalar que recoge los efectos especficos del i
simo individuo y se supone constante en el tiempo, y X itj , es el vector de las k variables
explicativas y j , de los K parmetros que recogen los efectos de las variables explicativas; uit
es el trmino de error que se suponen aleatorios distribuidos con media cero y varianza
constante de valor u2 . El panel de datos corresponde a i = 1,2..., N unidades o individuos de
corte transversal, observados para los perodos t = 1,2..., T.

Por tanto, lo que se pretende resolver es un sistema de regresiones especficas con N ecuaciones
de corte transversal: Yi ti X it1 1 X it2 2 ... X itj j eit y T observaciones.

Su notacin matricial abreviada es:

Yit i X it ' eit

Agrupando las observaciones temporales, para cada unidad transversal se llega al siguiente
modelo:

Yit i X it ' eit

que en el supuesto de una nica variable explicativa tendra la siguiente expresin:

68
Y11 X 11 e11
Y X e
21 21 21
. . .
YN 1 X N1 eN 1
i 0 ... 0 1
. . .
. 0 i ... 0 2 . .
. . ... . .
. . .
Y 0 0 ... i N X e
1T 1T 1T
Y2T X 2T e2 T
. . .

YNT X NT e NT

Con este modelo se considera que las variables explicativas afectan por igual a las unidades de
corte transversal y que stas se diferencian por caractersticas propias de cada una de ellas,
medidas por medio de la intercepcin en el origen. Es por ello que las N intercepciones se
asocian con variables dummy con coeficientes especficos para cada unidad, los cuales se deben
estimar.

La estimacin de i y se realiza por MCO, si bien hay que tener presente que este modelo
presenta una prdida importante de grados de libertad. Un test til en este tipo de modelos es
realizar la prueba F, para comprobar si i para cualquier i. Por otro lado, cabe sealar que
cuando se quiera incluir un trmino constante hay que introducir nicamente N-1 variables
ficticias.

Otra manera de plantear este modelo es especificndolo en desviaciones respecto a la media, es


decir, restando a cada variable la media en el periodo para cada unidad i-esima. El estimador a
utilizar en este caso tiene la siguiente expresin:

1
N T N T
X it X i X it X i ' X it X i Yit Yi '
i 1 t 1 i 1 t 1

donde Yi , X i son las medias muestrales del individuo i-simo.

El estimador de la varianza de es:

2
N T
Var e X it X i X it X i '

i 1 t 1

e'e
donde e2 es la varianza residual, calculada como u
2
, donde ee es la suma de
NT N K
los residuos del modelo al cuadrado.

En general, el estimador de mnimos cuadrados ordinarios (MCO) es apropiado cuando los


residuos son incorrelados en el tiempo y homocedsticos en los cortes transversales.

Los efectos fijos se estiman en un segundo paso a travs de la siguiente ecuacin:

69
Y X
T

i
'
it
i Yi X
i
' t 1
T

El modelo anterior puede extenderse al modelo de efectos fijos de doble va, en el que aparecen
tambin los efectos no observables temporales, tal que:

Yit i t X it ' uite

Expresin que equivale a introducir dos conjuntos de variables ficticias, unas individuales y
otras temporales; en este caso el estimador MCO tendra las mismas propiedades del modelo
anterior.
El estimador a utilizar tendra la siguiente expresin:
1
N T N T
X it X i X t X X it X i X t X ' X it X i X t X Yit Yi Yt Y '
i1 t1 i1 t1
donde Yi , X i , son las medias muestrales del individuo i-simo, Yt , X t las medias muestrales del
periodo t, y Y , X las medias muestrales de las variables para todos los N individuos y T
periodos.

Los efectos fijos se estiman en un segundo paso a travs de las siguientes relaciones:

i Yi Y X i X
'

t Yt Y X t X
'

5.5. MODELO DE EFECTOS ALEATORIOS


A diferencia del modelo de efectos fijos, el modelo de efectos aleatorios considera que los
efectos individuales no son independientes entre s, sino que estn distribuidos aleatoriamente
alrededor de un valor dado. Una prctica comn en el anlisis de regresin es asumir que el gran
nmero de factores que afectan al valor de la variable dependiente pero que no han sido
incluidas explcitamente como variables independientes del modelo, puede resumirse
apropiadamente en la perturbacin aleatoria.

As, en este modelo se considera que tanto el impacto de las variables explicativas como las
caractersticas propias de cada unidad son diferentes.

El modelo de efectos aleatorios o modelo de componentes de la varianza asume que el trmino


it es la suma de una constante comn , una variable aleatoria especfica de corte transversal
e invariante en el tiempo i asociada a cada individuo e incorrelada con el residuo eit , y otro
asociado al tiempo t, tambin incorrelacionado con el residuo eit .

En lugar de tratar i como una constante fija, esta especificacin asume que i N (0, 2 )
independiente e igualmente distribuida, e incorrelada con eit y X it .

70
A su vez el modelo tambin requiere que t est incorrelado en el tiempo tal que E (t , s ) 0 ,
y adems est incorrelada con i , eit y X it .

Si suponemos que t 0 , la especificacin del modelo entonces se convierte en:

j
Yit X itj j u it , u it i eit
i 1

La estimacin de este modelo exige de la utilizacin de Mnimos Cuadrados Generalizados pues


los residuos del modelo estn correlacionados entre s al estar i incluido tanto en eit como en
eis , para t s.

El estimador apropiado de este modelo expresado en desviaciones a la media es, por tanto:
1
1 N N
1 N N

MCG X i'QX i X it X i ' X it X i X i'QYi X it X i X it Yi '
T i 1 i 1 T i 1 i 1
donde:

2 T 2
1
Q IT e e'
T

Generalmente las varianzas (varianza entre grupos) y u2 no son conocidas y, por tanto,
2

habr que estimar un valor para . Para estimar dicho valor un camino sera utilizar las
estimaciones de las varianzas de los residuos obtenidas en la solucin MCO del modelo.

5.6. ELECCIN DE MODELO DE EFECTOS O EFECTOS ALEATORIOS


La decisin acerca de la estructura apropiada para el anlisis, es decir, efectos fijos vs efectos
aleatorios, depender de los objetivos que se persigan.

As, Hausman (1978) aconseja utilizar el modelo de efectos fijos para realizar inferencias sobre
la muestra utilizada, mientras que el de efectos aleatorios resulta ms til para realizar
inferencias sobre la poblacin.

Adicionalmente, si el inters del estudio particular est puesto en los coeficientes de las
pendientes de los parmetros, y no tanto en las diferencias individuales, se deber elegir un
mtodo que relegue estas diferencias y trate la heterogeneidad no observable como aleatoria.

El contexto de los datos, es decir, cmo fueron obtenidos y el entorno de donde provienen,
determinan tambin la eleccin del modelo. Con el modelo de efectos fijos la heterogeneidad no
observable se incorpora en la ordenada al origen del modelo y con el de efectos aleatorios, como
ya se mencion, se incorpora en el trmino de error, modificndose la varianza del modelo.
Asimismo, emplear un modelo de efectos fijos o aleatorios genera diferencias en las
estimaciones de los parmetros en los casos en que se cuenta con T pequeo y N grande. En
estos casos debe hacerse el uso ms eficiente de la informacin para estimar esa parte de la

71
relacin de comportamiento contenida en las variables que difieren sustancialmente de un
individuo a otro.

En principio, el enfoque de efectos fijos es ms atractivo, ya que no requiere realizar supuestos


paramtricos sobre la distribucin condicional de la heterogeneidad inobservable. Sin embargo,
su desventaja es que solo puede utilizarse en ciertas distribuciones y requiere hacer supuestos
muy restrictivos sobre la distribucin del trmino de error como lo son las hiptesis que exige el
mtodo MCO.

A este respecto hay que tener presente que el modelo de efectos fijos asume la existencia de
diferencias entre unidades que se capturan en forma de movimientos de la curva de regresin.
(Fig. 5.1).

Figura 5.1.

El modelo de efectos fijos, si se estima utilizando variables dummy no identifica directamente la


causa de la variacin en el tiempo y los individuos, e implica un alto coste informativo en
trminos de grados de libertad. En cuyo caso deben realizarse algunas consideraciones con
respecto a la estructura de los datos, dado que si N es grande y T pequeo, podra darse el caso
en que el nmero de parmetros en el modelo de efectos fijos sea muy grande en relacin con el
nmero de datos disponibles, lo que dara lugar a parmetros poco significativos y una
estimacin ineficiente.

Para elegir entre los estimadores del modelo fijo y aleatorio puede utilizarse el test de Hausman,
que compara directamente ambos estimadores. El contraste se basa en el hecho de que bajo la

hiptesis de que E i X it 0 el estimador del modelo de efectos aleatorios EA es
asintticamente ms eficiente que el estimador MCO del modelo de efectos fijos ; sin
EF


embargo, si E i X it 0 , el estimador MCO mantendr la consistencia, mientras que el
estimador MCG ser sesgado e inconsistente.

El estadstico propuesto por Hausman es:

m q ' Var (q ) q
1

72
donde q EA EF , y la matriz diagonal Var (q ) Var ( EA ) Var ( EF ) . Bajo la hiptesis

nula H 0 E i X it 0 el estadstico m se distribuye como una variable k2 .

Ejemplo 5.1.
La librera plm ofrece recursos en R para estimar modelos data panel.
> install.packages("plm")

En esta librera tenemos un conjunto de datos panel relativos a 10 empresas para las que
disponemos de las siguientes cifras: ao, invesin bruta, valor de la empresa y capital. El
conjunto de datos es para el periodo de 1935 a 1954.
> data("Grunfeld", package="plm")
> str(Grunfeld)

'data.frame': 200 obs. of 5 variables:


$ firm : int 1 1 1 1 1 1 1 1 1 1 ...
$ year : int 1935 1936 1937 1938 1939 1940 1941 1942 1943 1944 ...
$ inv : num 318 392 411 258 331 ...
$ value : num 3078 4662 5387 2792 4313 ...
$ capital: num 2.8 52.6 156.9 209.2 203.4 ...

En el conjunto de datos los campos identificativos de las empresas y aos deben de ser ndices.
Para estimar un modelo de data panel de efectos fijos que relacione la inversin realizada por la
empresa con su valor contable y su capital, se requiere la siguiente sentencia R:

> grun.fe <- plm(inv~value+capital,data=Grunfeld,model="within")

> summary(grun.fe)
Oneway (individual) effect Within Model
Call:
plm(formula = inv ~ value + capital, data = Grunfeld, model =
"within")
Balanced Panel: n=10, T=20, N=200
Residuals :
Min. 1st Qu. Median 3rd Qu. Max.
-184.000 -17.600 0.563 19.200 251.000
Coefficients :
Estimate Std. Error t-value Pr(>|t|)
value 0.110124 0.011857 9.2879 < 2.2e-16 ***
capital 0.310065 0.017355 17.8666 < 2.2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Total Sum of Squares: 2244400
Residual Sum of Squares: 523480
R-Squared : 0.76676
Adj. R-Squared : 0.72075
F-statistic: 309.014 on 2 and 188 DF, p-value: < 2.22e-16

Para estimar un modelo con efectos aleatorios:


> grun.re <- plm(inv~value+capital,data=Grunfeld,model="random")
> summary(grun.re)
Oneway (individual) effect Random Effect Model
(Swamy-Arora's transformation)
Call:
plm(formula = inv ~ value + capital, data = Grunfeld, model =
"random")

73
Balanced Panel: n=10, T=20, N=200
Effects:
var std.dev share
idiosyncratic 2784.46 52.77 0.282
individual 7089.80 84.20 0.718
theta: 0.8612
Residuals :
Min. 1st Qu. Median 3rd Qu. Max.
-178.00 -19.70 4.69 19.50 253.00
Coefficients :
Estimate Std. Error t-value Pr(>|t|)
(Intercept) -57.834415 28.898935 -2.0013 0.04674 *
value 0.109781 0.010493 10.4627 < 2e-16 ***
capital 0.308113 0.017180 17.9339 < 2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Total Sum of Squares: 2381400
Residual Sum of Squares: 548900
R-Squared : 0.7695
Adj. R-Squared : 0.75796
F-statistic: 328.837 on 2 and 197 DF, p-value: < 2.22e-16

Los efectos fijos se extraen con la function fixef.


> summary(fixef(grun.fe, type = 'dmean'))
Estimate Std. Error t-value Pr(>|t|)
1 -11.5528 49.7080 -0.2324 0.816217
2 160.6498 24.9383 6.4419 1.180e-10 ***
3 -176.8279 24.4316 -7.2377 4.565e-13 ***
4 30.9346 14.0778 2.1974 0.027991 *
5 -55.8729 14.1654 -3.9443 8.003e-05 ***
6 35.5826 12.6687 2.8087 0.004974 **
7 -7.8095 12.8430 -0.6081 0.543136
8 1.1983 13.9931 0.0856 0.931758
9 -28.4783 12.8919 -2.2090 0.027174 *
10 52.1761 11.8269 4.4116 1.026e-05 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

74
6. MTODOS DE ESTIMACIN NO PARAMTRICOS

6.1. INTRODUCCIN

Se dice que se ajusta el modelo paramtrico cuando se estiman sus parmetros a partir de un
conjunto de observaciones que siguen dicho modelo, de manera que pueden hacerse
predicciones de nuevos valores de Y conocido el valor de X, y tener informacin precisa acerca
de la incertidumbre asociada a la estimacin y a la prediccin. Sin embargo, si el modelo
paramtrico no es el adecuado al anlisis de datos que estamos realizando, pueden llevar a
conclusiones que queden muy alejadas de la realidad, dado que el modelo paramtrico conlleva
un grado de exactitud en las afirmaciones que de l se derivan y que son adecuadas siempre y
cuando se cumplan los supuestos bsicos sobre los que se apoya su construccin terica. De
hecho, los modelos paramtricos presentan una estructura terica tan rgida que no pueden
adaptarse a muchos conjuntos de datos de los que hoy da se disponen para el anlisis
econmico.

La econometra no paramtrica aparece como consecuencia de intentos por solucionar


problemas que existen en la econometra paramtrica como, por ejemplo, la consistencia entre
los datos y los principios de maximizacin, homocedasticidad, o la necesidad de asumir una
determinada relacin, por lo general de forma lineal entre las variables de inters. Esta
preocupacin llev a una serie de investigadores a utilizar formas funcionales flexibles para
aproximarse a relaciones desconocidas entre las variables. El plantear formas funcionales
flexibles requiere el conocimiento del valor esperado de la variable Y, condicional en las otras,
X. Esto conlleva la necesidad de estimar la funcin de densidad de Y condicional en X. La
econometra no paramtrica no parte de supuestos sobre la distribucin de probabilidad de las
variables bajo estudio, sino que trata de estimar dicha distribucin para encontrar la media
condicional y los momentos de orden superior (por ejemplo, la varianza) de la variable de
inters. Una de las desventajas de este mtodo es, sin embargo, la necesidad de contar con
muestras muy grandes si es que se desea estimar la funcin de relacin entre ambas variables de
manera precisa. Adems el tamao de la muestra debe aumentar considerablemente conforme
aumenta el nmero de variables involucradas en la relacin.

Los modelos de regresin paramtricos suponen que los datos observados provienen de
variables aleatorias cuya distribucin es conocida, salvo por la presencia de algunos parmetros
cuyo valor se desconoce.

yi 0 1 xi i , con i N 0, 2
Este es un modelo estadstico con tres parmetros desconocidos: 0 ; 1 y 2 .

Una formulacin general de un modelo de regresin paramtrico es la siguiente:


yi m( xi ; ) i , i 1,..., n , p
Donde m( xi ; ) es una funcin conocida de x y de , que es desconocido, 1... n es una
variable aleatoria idnticamente distribuida con E i 0 y V i 2 . El modelo de
regresin lineal simple sera un caso particular con o , 1 y m( xi ; o , 1 ) o 1 xi .

Se supone que se observan n pares de datos xi , yi que provienen del siguiente modelo de
regresin no paramtrico:
yi m( xi ) i

75
Donde 1... n es una variable aleatoria idnticamente distribuida con E i 0 y V i 2 ,
y los valores de la variable explicativa x1...xn son conocidos, por lo que se dice que el modelo
tiene diseo fijo, y dado que la varianza de los errores es constante el modelo es
Homocedstico.

Considerando X , Y una variable aleatoria bivariante con densidad conjunta f x, y , cabe


definir la funcin de regresin como m( x) E (Y / X x) , es decir el valor esperado de Y
cuando X toma el valor conocido x . Entonces E (Y / X ) m( X ) , y definiendo
Y m( X ) , se tiene que:
Y m( X ) , E ( / X ) 0 , V ( / X ) 2
Sean X i , Yi , i=1n, una muestra aleatoria simple de X , Y . Estos datos siguen el modelo de
regresin no paramtrico:
Yi m( X i ) i , i=1n.

Una vez establecido el modelo, el paso siguiente consiste en estimarlo (o ajustarlo) a partir de
( x) de la funcin de
las n observaciones disponibles. Es decir hay que construir un estimador m
regresin y un estimador 2 de la varianza del error. Los procedimientos de estimacin de
m( x) se conocen como mtodos de suavizado.

El abanico de tcnicas disponibles para estimar no paramtricamente la funcin de regresin es


amplsimo e incluye, entre otras, las siguientes:

Ajuste local de modelos paramtricos. Se basa en hacer varios (o incluso infinitos,


desde un punto de vista terico) ajustes paramtricos teniendo en cuenta nicamente los
datos cercanos al punto donde se desea estimar la funcin.
Suavizado mediante splines. Se plantea el problema de buscar la funcin m ( x) que
minimiza la suma de los cuadrados de los errores ( ei yi m
( xi ) ) ms un trmino que
penaliza la falta de suavidad de las funciones ( m ( x) ) candidatas (en trminos de la
integral del cuadrado de su derivada segunda).
Mtodos basados en series ortogonales de funciones. Se elige una base ortonormal del
espacio vectorial de funciones y se estiman los coeficientes del desarrollo en esa base de
la funcin de regresin. Los ajustes por series de Fourier y mediante wavelets son los
dos enfoques ms utilizados.
Tcnicas de aprendizaje supervisado. Las redes neuronales, los k vecinos ms cercanos
y los rboles de regresin se usan habitualmente para estimar m( x) .

6.2. FUNCIN NCLEO


Los histogramas son siempre, por naturaleza, funciones discontinuas; sin embargo, en muchos
casos es razonable suponer que la funcin de densidad de la variable que se est estimando es
continua. En este sentido, los histogramas son estimadores insatisfactorios. Los histogramas
tampoco son adecuados para estimar las modas, a lo sumo, pueden proporcionar intervalos
modales", y al ser funciones constantes a trozos, su primera derivada es cero en casi todo punto,
lo que les hace completamente inadecuados para estimar la derivada de la funcin de densidad.

Los estimadores de tipo ncleo (o kernel) fueron diseados para superar estas dificultades. La
idea original es bastante antigua y se remonta a los trabajos de Rosenblatt y Parzen en los aos

76
50 y primeros 60. Los estimadores kernel son, sin duda, los ms utilizados y mejor estudiados
en la teora no paramtrica.

Dada una m.a.s. X 1... X n con densidad f , estimamos dicha densidad en un punto t por medio
del estimador

f t 1
n
t Xi
K
nh i 1 h

donde h es una sucesin de parmetros de suavizado, llamados ventanas o amplitudes de banda


(windows, bandwidths) que deben tender a cero lentamente" ( h 0 , nh ) para poder
asegurar que f tiende a la verdadera densidad f de las variables X i y K es una funcin que
cumple K 1 . Por ejemplo:
Ncleo gaussiano
u2
1 2
e
2
Ncleo Epanechnikov7
3
4

1 u 2 I u 1
donde I u 1 es la funcin que vale 1 si u 1 y 0 si u 1

Ncleo Triangular
1 u I u 1

Ncleo Uniforme
1
I
2 u 1
Ncleo Biweight
15
16

1 u 2 I u 1
Ncleo Triweight
35
32

1 u 2 I u 1

Para elegir la ventana h puede seguirse la siguiente regla8


7
Otra expresin alternativa de la funcin ncleo de Epanechnikov es:

3 1 2
1 u I
4 5 u 5

1
donde I u 5
es la funcin que vale si u 5 y 0 si u 5
5

8
Por lo general, los programas informticos eligen el ancho de ventana siguiendo criterios de
optimizacin (error cuadrtico medio).

77
3 1 1
h K 10 sn n 5
8
Donde
n es el tamao de la muestra
1
1 n 2
2
sn X i X
n i1
K depende del ncleo K, y se calcula como:
1

K t dt
2 5

K

u 2 K t dt


2


Por ejemplo:
1
1 10
Si K es el ncleo gaussiano, entonces K
4
Si K es el ncleo Epanechnikov, entonces K 15
1
5

Ejemplo 6.1

En R la estimacin de una funcin de densidad kernel se realiza con la funcin density, con
los datos del vector x hay que realizar el siguiente programa:
> x <- c(2.1,2.6,1.9,4.5,0.7,4.6,5.4,2.9,5.4,0.2)

> density(x,kernel="epanechnikov")
Call:
density.default(x = x, kernel = "epanechnikov")
Data: x (10 obs.); Bandwidth 'bw' = 1.065

x y
Min. :-2.99424 Min. :0.00000
1st Qu.:-0.09712 1st Qu.:0.02366
Median : 2.80000 Median :0.09427
Mean : 2.80000 Mean :0.08621
3rd Qu.: 5.69712 3rd Qu.:0.15245
Max. : 8.59424 Max. :0.16948
> plot(density(x,kernel="epanechnikov"))

78
6.3. ESTIMADORES DE FUNCIN NCLEO Y POLINOMIOS LOCALES
La alternativa no paramtrica a los modelos de regresin, supone que
Y m( X ) e
donde m es una funcin que no se supone confinada" dentro de una familia paramtrica. Se
trata de estimar m a partir de una muestra X 1 , Y1 ; X n , Yn .

Los estimadores ncleo establecen que el peso de X i , Yi en la estimacin de m es

1 t Xi
K
h h
Wi (t , X i )
f (t )

donde K(t) es una funcin de densidad simtrica (por ejemplo, la normal estndar) y
f (t ) es un estimador kernel de la densidad como el definido en el apartado anterior.

Wi (t , X i ) es, para cada i, una funcin de ponderacin que da mayor importancia" a los valores
X i de la variable auxiliar que estn cercanos a t.

Una expresin alternativa para Wi (t , X i )


t Xi
K
h
Wi (t , X i ) n
t Xi
j 1
K
h

79
A partir de los pesos Wi puede resolverse el problema de mnimos cuadrados ponderados
siguiente:
n
min Wi Yi a bt X i
2
a ,b
i 1

los parmetros as obtenidos dependen de t, porque los pesos Wi tambin dependen de t, la recta
de regresin localmente ajustada alrededor de t sera :
lt ( X ) a(t ) b(t )(t X )
Y la estimacin de la funcin en el punto en donde X t
m (t ) lt (t ) a(t )
Las funciones ncleo usadas en la estimacin no paramtrica de la regresin son las mismas que
en la densidad.

Si se generaliza al ajuste local de regresiones polinmicas de mayor grado, es decir si


pretendemos estimar una forma lineal del tipo:
0 1 X 2 X 2 ... q X q
con la salvedad de que en vez del valor X i en la regresin lineal mltiple se utiliza el valor
t X i .
El estimador de polinomios locales de grado q asignado los pesos Wi obtenidos
mediante la funcin ncleo se resuelve el siguiente problema de regresin polinmica
ponderada:


n
min Wi Yi 0 1 t X i ... q t X i
q 2

0 .. q
i 1

Los parmetros j j t dependen del punto t en donde se realiza la estimacin, y el


polinomio ajustado localmente alrededor de t sera:
q
Pq ,t t X j t X
j

j 0

Siendo m(t ) el valor de dicho polinomio estimado en el punto en donde X t :


m q t Pq ,t 0 o t .
En el caso particular del ajuste de un polinomio de grado cero, se obtiene el estimador de
Nadaraya Watson, o estimador ncleo de la regresin:

t Xi
n

K
h
Yi n
m K (t ) n
i 1
W t , X i Yi
t Xi
i 1
K
h


i 1

Definida la matriz
1

t X 1 ... t X 1 q
. . ...
Xt
. . ...
1 t X n ... t X n
q

80


Y definidos los vectores Y Y1...Yn , 1... n , 0 ... q . Se calcula la matriz de
pesos Wt

W1 X 1 , t 0 ... 0

0. W2 X 2 , t ... 0
Wt
. . ... 0

0 0 ... Wn X n , t

Habra que estimar por mnimos cuadrados generalizados el modelo Y X , cuya


solucin es:
(t ) X t'Wt X t X t'WtY
1

Pueden tomar los pesos:


t Xi
K
h
Wi (t , X i ) n
t Xi
j 1
K
h

o
t Xi
Wi (t , X i ) K
h

El estimador del parmetro de suavizado h tiene una importancia crucial en el aspecto y


propiedades del estimador de funcin de regresin. Valores pequeos de h dan mayor
flexibilidad al estimador y le permiten acercarse a todos los datos observados, pero originan
altos errores de prediccin (sobre-estimacin), valores mas altos de h ofrecern un menor grado
de ajustes a los datos pero predicican mejor, pero si h es demasiado elevado tendremos una falta
de ajuste a los datos (sub-estimacin).

Ejemplo 6.2

Utilizando la base de datos cars de R, que contine las variables dist (distancia de parada) y
speed (velocidad), vamos a realizar la representacin grfica de la regresin kernel realizada
con el estimador de NadarayaWatson con diferentes parmetros de suavizado.
> data(cars)
> plot(cars$speed, cars$dist)
> lines(ksmooth(cars$speed, cars$dist, "normal", bandwidth = 2), col =
2)
> lines(ksmooth(cars$speed, cars$dist, "normal", bandwidth = 5), col =
3)

81
Si la cantidad de datos de que disponemos lo permite, lo habitual es obtener dos muestras una
para la estimacin del modelo (muestra de entrenamiento) y otra muestra para predecir (muestra
de test). En este caso una medida de calidad del parametro h de suavizado es el error cuadrtico
medio de la poblacin de la muestra de test:

nt

Y m X i ,t
1 2
ECMPtest (h) i ,t
nt i 1

Donde X i ,t , Yi ,t , i 1...nt , es la muestra test y m X es el estimador no paramtrico


construido con la muestra de entrenamiento. El valor h que minimice dicho error sera el
parmetro de suavizacin elegido.

Si no de puede disponer de una muestra de test, la alternativa consiste en sacar de la muestra


consecutivamente cada una de las observaciones X i , y estimar el modelo con los restantes
datos y predecir el dato ausente con el estimador obtenido, para despus calcular el error de
prediccin. Se construye entonces la siguiente medida del error de prediccin (validacin
cruzada) para cada h:
1 n
ECMPCV (h) Yi m i X i 2
n i 1
Donde m i X es el estimador obtenido al excluir la observacin i-esima.
El valor h que minimice dicho error de validacin cruzada sera el parmetro de suavizacin
elegido.
Teniendo presente que el valor que predecimos Yi no deja de ser una combinacin lineal de los
valores observados:

Y X X t X t'Wt X t
1
X t'WtY SY
Siendo S X t X t'Wt X t
1
X t'Wt , matriz que se denomina de suavizado cuyo elemento i, j se
nombra sij .
Dado que:
2
1 n Y Y
ECMPCV (h) i i
n i1 1 sii

82
no es necesario ajustar las n regresiones no paramtricas, sino que vasta con evaluar todos los
datos y anotar los valores de la diagonal principal de la matriz S .

Una modificacin de la funcin anterior (Validacin cruzada generalizada) permite obtener un


estimador de la varianza de los errores del modelo:
2
1 Yi Yi n
ECMPGCV (h)
n i1 1 v
n
n
Donde v Traza S s ii
i 1
Entonces:
n 2
ECMPGCV (h)
nv
y

2
1 n

Yi Yi
n v i1
2

6.4. REGRESIN POR SPLINES

Para poder estimar la funcin f de la forma ms sencilla posible, deberamos poder representar
f de forma que Yi f ( xi ) ei , ei 1,2...., n se convierta en un modelo lineal.
Y esto se puede hacer eligiendo una base de funciones de dimensin q que genere un
subespacio de funciones que incluya a f como elemento y que pueda expresarse como:
q
f ( x) j s j x
j 1

Siendo j un parmetro desconocido, asociado al elemento j , s j (x) de dicha base de


funciones.
De manera que:
q
Yi j s j x ei , ei 1,2...., n
j 1
Se convierte en un modelo lineal de dimensin q .
La regresin con funciones base polinmicas es la propuesta ms sencilla para este tipo de
estimaciones.

Supongamos que f es un polinomio de grado 4 de forma que el espacio de polinomios de


grado 4 contiene a f . Una base de este subespacio es:
s1 ( x) 1

s 2 ( x) x

s 3 ( x) x
2

s 4 ( x) x
3

s 5 ( x) x 4

Con lo que el modelo (10.1) se convierte en:

83
Yi 1 2 xi 3 xi2 4 xi3 5 xi4 ei

Un spline es una curva diferenciable definida en porciones mediante polinomios, que se utiliza
como bases de funciones para aproximar curvas con formas complicadas.
Las bases de spilines ms populares:
Bases de polinomios truncados.
Bases de splines cbicos.
Bases de B-splines.
Bases de thin plate splines.
Una funcin spline est formada por varios polinomios, cada uno definido sobre un
subintervalo, que se unen entre s obedeciendo a ciertas condiciones de continuidad.
Supongamos que se ha fijado un entero q 0 , de manera que disponemos de q+1 puntos, a
los que denominaremos nodos, tales que t0 t1 t 2 .... t q , en los que troceamos nuestro
conjunto de. Decimos entonces que una funcin spline de grado q con nodos en t1 , t 2 ,...., t q es
una funcin S que satisface las condiciones:

(i) en cada intervalo t j 1 , t j , S es un polinomio de grado menor o igual a q .
(ii) S tiene una derivada de orden (q-1) continua en to , t q .
Los splines de grado 0 son funciones constantes por zonas. La expresin matemtica de un
spline de grado 0 es la siguiente:

So ( x) co x t0 , t1


S ( x)S j ( x) c j x t j , t j 1

..



S q1 ( x) cq1 x t q1 , t q

En la figura 6.1 se muestran las grficas correspondientes a los splines de grado cero.

Figura 6.1.

Los splines de grado 0, se define en un solo tramo de nudo y ni siquiera es continua en los
nudos. Equivale a realizar una regresin por tramos.

Yi o c0 xi 1c1 xi .... q1cq1 xi ei

84
siendo


1 x t j , t j 1
cj
0 resto

Un spline de grado 1 o lineal se puede definir por:



So ( x) ao x bo x t0 , t1


S ( x)S j ( x) a j x b j x t j , t j 1

..



S ( x) aq1 x bq 1 x t q1 , t q
q 1
La representacin grfica de un spline lineal aparece en la figura 6.2:

Figura 6.2.

Las funciones de spilines ms comnmente utilizadas son las de grado 3 cbicas. Son
polinomios de grado tres a trozos, que son continuos en los nodos al igual que su primera y
segunda derivada, proporcionando un excelente ajuste a los puntos tabulados y a travs de
clculo que no es excesivamente complejo.

Sobre cada intervalo to , t1 , t1 , t 2 ,..., t q 1 , t q , S est definido por un polinomio cbico

diferente. Si el polinomio cbico que representa a b en el intervalo t j , t j 1 , por tanto:


S o ( x) ao x bo x co x d o x t0 , t1
3 3


3 2

S ( x)S j ( x) a j x b j x c j x d j x t j , t j 1
..

3 3

S q1 ( x) aq1 x bq1 x cq1 x d q1 x t q1 , t q

Los polinomios S j 1 y S j interpolan el mismo valor en el punto t j , es decir, se cumple:

S j 1 xi yi S j xi

85
por lo que se garantiza que S es continuo en todo el intervalo. Adems, se supone que S' y S''
son continuas, condicin que se emplea en la deduccin de una expresin para la funcin del
spline cbico.
Aplicando las condiciones de continuidad del spline S y de las derivadas primera S' y
segunda S'', es posible encontrar la expresin analtica del spline.

Una de las bases de splines cbicos ms utilizadas basadas en q 2 nodos interiores, x *j ,


j 1,..., q 2 , es:
S o ( x) 1

S ( x)S1 ( x) x

S j 2 ( x ) R ( x, x j )
*

Siendo

4

2

12 2

12 24
2
4

2
2

R ( x, z ) 1 z 1 1 x 1 1 1 x z 1 1 x z 1 7
2 2 2

240

Con esta base de splines definimos f a travs de un modelo lineal con matriz de regresores X
con n filas y q columnas cuya i_esima fila es:


X i 1, xi , R xi , x1* , R xi , x2* ,..., R xi , xk*2

Los elementos de una base de splines cbicos son polinomios de grado 3. Un Spline cbico se
representa en la figura 6.3:

Figura 6.3.

Un tema importante es la eleccin del grado de suavizacin del spline. Una de las posibilidades
es a travs del contraste de hiptesis, valorar la posibilidad de utilizar uno o ms nodos. Pero lo
aconsejado es mantener fija la base de splines y controlar el grado de suavizacin aadiendo una
penalizacin a la funcin objetivo de mnimos cuadrados:
' S
Donde S es una matriz de orden q q con coeficientes conocidos que dependen de la base
elegida y un parmetro de suavizado .
La solucin del modelo de regresin lineal penalizado en donde la matriz de regresores est
ahora definida por la base de splines y la penalizacin sera:
penal X ' X S 1 X ' y
El modelo de regresin lineal con spilines penalizados es equivalente al siguiente modelo de
regresin lineal:

86
Y' X ' e
En donde Y ' (Y ,0,0...0)' es un vector de dimensin (n q ) 1 , es decir el vector Y seguido
de tantos ceros como nodos se han utilizado en la base de splines.
X
La matriz de regresores X ' tiene ahora orden (n q) q , siendo B una matriz que
B
cumple S B' B y que se obtiene a travs de la descomposicin de Cholesky y el parmetro
de suavizado y e un vector de (n q ) 1 errores aleatorios.

El parmetro de suavizacin, , es a priori desconocido y hay que determinarlo, si es muy alto


suaviza los datos en exceso, un criterio utilizado para elegir el parmetro es del valor que
minimiza el estadstico general de validacin cruzada:

vg

n y X X ' X S X ' y ' y X X ' X S X ' y
1 1


traza I X X ' X S X '
1

La regresin por splines puede realizarse con mltiples variables explicativas, si tenemos ahora
dos explicativas, xi y zi , y queremos estimar el siguiente modelo aditivo:
yi f1 ( xi ) f 2 ( zi ) ei

Representaramos cada una de estas dos funciones a travs de una base de splines penalizados,
que tomando la base cbica quedara:
q 2

f1 ( x) 1 2 xi R xi , x*j
j 1
y
q 2

f 2 ( z ) 1 2 zi R zi , z *j
j 1

Ejemplo 6.3

Partiendo de la base de datos cars utilizada en el ejemplo 6.4, la funcin R smooth.spline


realiza la regresin por splines utilizando una base de splinee cbicos penalizados:
> plot(speed, dist, main = "data(cars) & smoothing splines")
> cars.spl1 <- smooth.spline(speed, dist)
> cars.spl1
Call:
smooth.spline(x = speed, y = dist)
Smoothing Parameter spar= 0.7801305 lambda= 0.1112206 (11
iterations)
Equivalent Degrees of Freedom (Df): 2.635278
Penalized Criterion: 4187.776
GCV: 244.1044

En la funcin smooth.spline el parmetro de suavizado es un valor generalmente entre 0 y 1,


en tanto que el coeficiente que denomina se obtiene en el criterio de aceptacin (logaritmo de
verosimilitud penalizado). En el ejercicio el programa elige un spar 0,7801305 . Si se desea
un funcin menos suavizada habr que elegir un parmetro de suavizado ms bajo, en lnea roja
se representa en el grfico la regresin por splines que se obtendra con un parmetro de
suavizado de valor 0,10.

87
> cars.spl2 <- smooth.spline(speed, dist,spar=0.10)
> lines(cars.spl1, col = "blue")
> lines(cars.spl2, col = "red")

6.5. APROXIMACIN POR SERIES DE FOURIER

La forma de Fourier permite aproximar arbitrariamente cerca tanto a la funcin como a sus
derivadas sobre todo el dominio de definicin de las mismas. La idea que subyace en este tipo
de aproximaciones (que podran denominarse semi-no-paramtricas) es ampliar el orden de la
base de expansin, cuando el tamao de la muestra aumenta, hasta conseguir la convergencia
asinttica de la funcin aproximante a la verdadera funcin generadora de los datos y a sus
derivadas (Gallant, A.R.; 1981, 1984).

Un polinomio de Fourier viene dado por la expresin:

u j cos jwo t v j sin jwo t


a k
2 j 1
Donde k es el nmero de ciclos tericos o armnicos que consideramos, siendo el mximo n/2.
2
w0 es la frecuencia fundamental (tambin denominada frecuencia angular fundamental).
n
t toma los valores enteros comprendidos entre 1 y n (es decir, t = 1, 2, 3, ...n).

Los coeficientes de los armnicos vienen dados por las expresiones:


a 2 n 2 n 2 n
y i , u j y i cosw0 t i j , v j y i sin wo t i j
2 n i 1 n i 1 n i 1
La aproximacin a una funcin no peridica g (x) por una serie de expansin de Fourier se
escribe como:
J
g x / a u j cos jx v j s sin jx
j 1

El vector de parmetros es a, u1v1 ,..., u J , v J de longitud K 1 2 J .

88
Suponiendo que los datos siguieran el modelo yi g ( xi ) ei para i=1,2,,n estimaramos
por mnimos cuadrados, minimizando
n y g
n
s n 1 i K xi / 2
i 1

Dado que la variable exgena xi no esta expresada en forma peridica, debe de transformase o
normalizarse en un intervalo de longitud menor que 2 , 0,2 .

Ejemplo 6.5

En este ejemplo vamos a utilizar la base de datos de la Agencia Espaola de Meteorolgica


(Aemet) desde el R-package fda.usc. La base de datos contiene mediciones diarias de
temperatura, velocidad del viento y precipitaciones de 73 diferentes estaciones meteorolgicas
de Espaa para los aos 1980 a 2009. En este ejemplo vamos a analizar las temperaturas medias
diarias de Santander que representamos grficamente en R, con la siguiente programacin:

> library(fda)
> library(fda.usc)
> data(aemet,package = "fda.usc")
> tt = aemet$temp$argvals
> temp = as.data.frame(aemet$temp$data,row.names=F)
> range.tt = aemet$temp$rangeval
> inv.temp = data.frame(t(aemet$temp$data)) # 365 x 73 matrix
> names(inv.temp) = aemet$df$name
> plot(ts(inv.temp[,21]),main="Temperaturas medias diarias Santander
1980-2009")

Temperaturas medias diarias Santander 1980-2009


20
18
ts(inv.temp[, 21])

16
14
12
10

0 100 200 300

Time

A continuacin se van a suavizar estas temperaturas diarias utilizando funciones peridicas de


Fourier, en concreto vamos a utilizar las funciones de base igual a 5. Es decir, los armnicos que
se obtendran con:

89
u cos jwo t v j sin jwo t
5

j
j 1

> Santander5 = create.fourier.basis(rangeval = range(tt),nbasis = 5)


> plot(Santander5)
0.05
0.00
-0.05

0 100 200 300

La funcin: smooth.basis(argvals=1:n, y, fdParobj), del R-package fda, donde argvals es el


dominio, y es el conjunto de valores a suavizar, y fdParobj, la funcin base utilizada como
regresores:

> Santanderfourier5.fd = smooth.basis(argvals = tt, y =


inv.temp[,21],fdParobj = Santander5)
> plot(ts(inv.temp[,21]),main="Temperaturas medias diarias Santander
1980-2009")
> lines(Santanderfourier5.fd,col="red")

90
Temperaturas medias diarias Santander 1980-2009

20
18
ts(inv.temp[, 21])

16
14
12
10

0 100 200 300

Time

91
7. REGRESIN EN EL DOMINIO DE LA FRECUENCIA

7.1. INTRODUCCIN

Nerlove (1964) y Granger (1969) fueron los primeros investigadores en aplicar el Anlisis
espectral a las series de tiempo en economa. El uso del anlisis espectral requiere un cambio en
el modo de ver las series econmicas, al pasar de la perspectiva del tiempo al dominio de la
frecuencia. El anlisis espectral parte de la suposicin de que cualquier serie X t , puede ser
transformada en ciclos formados con senos u csenos:
n
ft ft
xt a j cos 2 b j seno 2 (7.1)
j 1 n n

donde es la media de la serie, a j y b j son su amplitud, f son las frecuencias que del
conjunto de las n observaciones, t es un ndice de tiempo que va de 1 a N , siendo N el
nmero de periodos para los cuales tenemos observaciones en el conjunto de datos, el cociente
ft
convierte cada valor de t en escala de tiempo en proporciones de 2n y rango j desde 1
n
N
hasta n siendo n (es decir, 0,5 ciclos por intervalo de tiempo). La dinmica de las altas
2
frecuencias (los valores ms altos de f ) corresponden a los ciclos cortos en tanto que la
dinmica de la bajas frecuencias (pequeos valores de f ) van a corresponder con los ciclos
f
largos. Si nosotros hacemos que la ecuacin (7.1) quedara, as:
n

xt a j cos j t b j seno j t
n
(7.2)
j 1

El anlisis espectral puede utilizarse para identificar y cuantificar en procesos aparentemente a


aperidicos, sucesiones de ciclos de periodo de corto y largo plazo. Una serie dada xt puede
contener diversos ciclos de diferentes frecuencias y amplitudes, y esa combinacin de
frecuencias y amplitudes de carcter cclico la hace aparecer como una serie no peridica e
irregular. De hecho la ecuacin (7.2), muestra que cada observacin t de una serie de tiempo,
es el resultado sumar los valores en t que resultan de N ciclos de diferente longitud y
amplitud, a los que habra que aadir si cabe un termino de error.

Realizar un anlisis de Fourier a una serie temporal de n datos, equivale a estudiar la


variabilidad de dicha serie en base a los ciclos de diferentes frecuencias a que da lugar:
2 4 2 p
, ,..., . La frecuencia p recibe el nombre de armnico, p . Y los armnicos
n n n
n
p , pueden expresarse de la siguiente forma:
2
a p cos p b p seno p R p cos p t p

bp
donde R p a p b p y p tan 1
a
p

92
nR p2
La representacin grfica de I frente recibe el nombre de periodograma de las
4
serie de datos. Una tendencia produce un pico en la representacin grfica del periodograma en
la frecuencia cero, mientras que las variaciones estacionales procuren "picos" en las frecuencias
estacionales y sus mltiplos enteros, de manera que si un peridograma presenta un "pico" en
alguna frecuencia , presentar tambin "picos" en las frecuencias 2 ,3 ,...

7.2. REGRESIN BAND SPECTRUM

Hannan (1963) fue quien propuso la regresin en dominio de la frecuencia (regresin band
spectrum). Engle (1974), demostr que dicha regresin no alteraba los supuestos bsicos de la
regresin clsica, cuyos estimadores eran Estimadores Lineales Insesgados y ptimos (ELIO).

En Engel (1974) el periodograma de la explicativa , x , es definido como:

fx k wk x
2

siendo wk el vector fila:



wk 1, eik , e 2i k ,..., e (T 1)ik
wx
donde k 2k ; y t=0;1;;T-1; k sera el elemento k-simo de la transformada finita
T T
de Fourier del vector columna de xt .

El cross-periodograma entre las series xt e y t


fxy k wk x wk y

donde * es la compleja conjugada de la transpuesta.

El periodograma es un estimador insesgado del espectro, sin embargo es asintticamente


insesgado e inconsistente con la varianza de cada estimador espectral a medida que la muestra
tiende a infinito. Esta inconsistencia que obligara al uso de ventanas en el periodograma con el
fin de obtener estimaciones del espectro, no anula las propiedades de la regresin realizada con
el periodograma.

Haciendo
w0

w1
W w2

.
w
t 1
Se cumple que WW ' I W 'W debido a las ortogonalidad de los productos de senos y
csenos.

Y obteniendo el vector ~ x como la transformada de Fourier de x en T periodos, podemos


transformar el modelo de regresin mltiple:
y x u (7.3)
En
~
y~
x u~

93
Se trata de una regresin con variables aleatorias complejas pero que no afecta a los supuestos
bsicos del modelo de regresin clsico. Las propiedades del error u~ :

var(u~ ) E (u~u~ ' ) E (Wuu 'W ' ) WE (uu ' )W ' u2WW '
Si I , entonces var(u~ ) u2 I .

Asumiendo que x es independiente de u , el teorema de Gauss-Markov implicara que

~x ' ~x 1 ~x ' ~y
es un estimador ELIO con la siguiente matriz de varianza y covarianzas: var( ) u2 ( ~
x'~
x ) 1

El estimador mnimo-cuadrtico en trminos del periodograma se formulara:

1 T 1
T 1
fxx k f xy k
k 0 k 0

fxx k fxy k
donde es la matriz de cross-periodogramas de cada frecuencia e es el vector del
x y
cross-periodograma de t e t .

La transformacin de los datos originales del dominio del tiempo al dominio de la frecuencia
utilizando series finitas de senos y csenos en la regresin band spectrium, se realiza a travs de
la matriz ortogonal A, con el elemento (j,t)th (Harvey, 1978) :
1

1 2
j 1
T
1
2 2 j t 1
T cos T j 2,4,6,..., (T 2) /(T 1)
a j ,t 1
2 2 j 1t 1
sin
T T j 3,5,7,..., (T 1) / T

1

1 2 t 1
(1) j T
T (7.4)

De esta forma los problemas derivados del uso de la transformada compleja de Fourier pueden
ser eludidos. Asimismo afirma que el vector de residuos definido en (7.3) da lugar a un vector
de residuos del modelo transformado a travs de A:

v A y X Au

de forma que :

94
T
p j v2 j v2 j 1 , j 1,..., 2 1 si T par
2 2


p v 2 v 2 , j 1,..., T 1 si T impar
pj j 2j 2 j 1
2
T
p j 2v 22 j , j y T impar
2
p o 2v12

Puede ser utilizado de forma consistente como estimador del periodograma de u . Al ser un
estimador MCO de , puede utilizarse el test del periodograma acumulado de Durbin (Durbin,
1969).

Tan H.B and Ashley R (1999), sealan que el procedimiento de elaboracin del cross-
periodograma consta de tres etapas:

1.- Transformar los datos originales del dominio del tiempo al dominio de la frecuencia
utilizando series finitas de senos y cosenos. Implicara premultiplicar los datos originales por
una matriz ortogonal, A, sugerida por Harvey (1978).

2.- Permitir la variacin de k a travs de m bandas de frecuencia usando variables Dummy


( D 1j ...D mj ) . Estas variables se elaboran a partir de submuestras de las T observaciones del
dominio de frecuencias, de esta forma D s ~ j x si la observacin j est en la banda de
jk

frecuencias s y D 0 , en el resto de los casos. Para obtener las submuestras proponen el


s
j

stabilogram test (Ashley, 1984).

3.- Re-estimar el resultado del modelo de regresin en el dominio del tiempo con las
estimaciones 1... k y los coeficientes de las m variables Dummy. Implicara premultiplicar la
ecuacin de regresin ampliada por las variables Dummy por la transpuesta de A.

Ejemplo 7.1

En la tabla siguiente se recogen las cifras de Consumo de energa final elctrica (TEP) y del PIB
en Millones de euros de Espaa en el periodo 1992 y 2008.

95
Consumo de Energa Final Elctrica (TEP) PIB (Mill euros ao 2000)
1992 11244 484580,9
1993 11237 479583,3
1994 11777 491011,6
1995 12116 515405
1996 12655 527862,4
1997 13672 548283,8
1998 14202 572782
1999 15241 599965,8
2000 16205 630263
2001 17279 653255
2002 17759 670920,4
2003 18916 691694,7
2004 19834 714291,2
2005 20827 740108
2006 22052 769850,2
2007 22548 797366,8
2008 22817 804223,1

Fuente: INE

La regresin Mnimo Cuadrtica en el dominio del tiempo de ambas series ofrece los siguientes
resultados:

>y <-
c(11244,11237,11777,12116,12655,13672,14202,15241,16205,17279,17759,18
916,19834,20827,22052,22548)

>x <-
c(484581,479583,491012,515405,527862,548284,572782,599966,630263,65325
5,670920,691695,714291,740108,769850,797367)

> summary(lm(y~x))
Call:
lm(formula = y ~ x)
Residuals:
Min 1Q Median 3Q Max
-346.73 -195.25 -28.16 194.01 360.10

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -6.689e+03 3.707e+02 -18.04 4.32e-11 ***
x 3.687e-02 5.919e-04 62.30 < 2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 242.6 on 14 degrees of freedom
Multiple R-squared: 0.9964, Adjusted R-squared: 0.9961
F-statistic: 3882 on 1 and 14 DF, p-value: < 2.2e-16

La transformacin de los datos del dominio del tiempo al dominio de la frecuencia se realiza
premultiplicando los datos originales por la matriz ortogonal A definida en (7.4). Para ello nos
auxiliamos de la funcin gdf del package-R: descomponer.

> library(descomponer)
> gdf(y)

96
[,1]
[1,] 64391.0000
[2,] -825.7467
[3,] -12360.5380
[4,] -1588.4091
[5,] -5560.1717
[6,] -2165.7826
[7,] -3392.0696
[8,] -2068.9944
[9,] -2052.7310
[10,] -2276.1742
[11,] -1552.3892
[12,] -1975.4091
[13,] -809.8283
[14,] -1748.2101
[15,] -368.2184
[16,] -1527.0000

> gdf(x)
[,1]
[1,] 2471806.00
[2,] -37363.77
[3,] -330603.45
[4,] -36340.78
[5,] -150333.85
[6,] -57659.89
[7,] -99733.49
[8,] -52172.81
[9,] -64772.04
[10,] -53932.84
[11,] -43070.70
[12,] -53680.28
[13,] -22559.65
[14,] -57068.96
[15,] -10290.24
[16,] -41025.50

Creamos una constante de unos y la transformamos al dominio de la frecuencia:


> Constante <- c(rep(1,16))
> gdf(Constante)
[,1]
[1,] 4.000000e+00
[2,] -3.330669e-16
[3,] -1.387779e-16
[4,] 0.000000e+00
[5,] -3.885781e-16
[6,] -4.440892e-16
[7,] -1.110223e-16
[8,] -2.062983e-15
[9,] 1.110223e-16
[10,] -8.049117e-16
[11,] -7.216450e-16
[12,] -1.415534e-15
[13,] -1.110223e-16
[14,] 1.054712e-15
[15,] -1.054712e-15
[16,] 0.000000e+00

La regresin MCO con los datos en el dominio de la frecuencia da el mismo resultado:

> RBS <- lm(gdf(y)~0+gdf(Constante)+ gdf(x)))


> RBS

97
Call:
lm(formula = gdf(y) ~ 0 + gdf(Constante) + gdf(x))
Residuals:
Min 1Q Median 3Q Max
-287.42 -65.98 2.02 98.26 552.03
Coefficients:
Estimate Std. Error t value Pr(>|t|)
gdf(Constante) -6.689e+03 3.707e+02 -18.04 4.32e-11 ***
gdf(x) 3.687e-02 5.919e-04 62.30 < 2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 242.6 on 14 degrees of freedom
Multiple R-squared: 0.9998, Adjusted R-squared: 0.9998
F-statistic: 3.717e+04 on 2 and 14 DF, p-value: < 2.2e-16

Se crean ahora variables Dummys para separar altas frecuencias de las bajas frecuencias.
> D1 <- c(rep(1,6),rep(0,10))
> D2 <- c(rep(0,6),rep(1,10))
> D1
[1] 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0
> D2
[1] 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1

La siguiente regresin en el dominio de la frecuencia permite observar los efectos de las altas y
bajas frecuencias en la regresin:

> RBSD <- lm(gdf(y)~0+gdf(Constante)+c(gdf(x)*D1)+c(gdf(x)*D2)))

> RBSD

Call:
lm(formula = gdf(y) ~ 0 + gdf(Constante) + c(gdf(x) * D1) + c(gdf(x) *
D2))
Residuals:
Min 1Q Median 3Q Max
-375.80 -82.06 -16.96 58.31 565.38
Coefficients:
Estimate Std. Error t value Pr(>|t|)
gdf(Constante) -6.910e+03 3.975e+02 -17.38 2.21e-10 ***
c(gdf(x) * D1) 3.723e-02 6.361e-04 58.53 < 2e-16 ***
c(gdf(x) * D2) 3.524e-02 1.363e-03 25.86 1.45e-12 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 236.3 on 13 degrees of freedom
Multiple R-squared: 0.9998, Adjusted R-squared: 0.9998
F-statistic: 2.613e+04 on 3 and 13 DF, p-value: < 2.2e-16

La representacin grfica de los resultados obtenidos, requiere transformar los datos ajustados
en el dominio de la frecuencia a datos ajustados en el dominio utilizando la transpuesta de A,
este paso se realiza con la funcin gdt del package-R descomponer.
> plot(ts(y,1992,frequency = 1),main="Consumo de energia electrica en
TEP 1992-2008",col=1)
> lines (ts(gdt(RBS$fitted.values),1992,frequency=1),col=2)

98
> lines (ts(gdt(RBSD$fitted.values),1992,frequency=1),col=3)
> legend("top", ncol=3,c("Y","Estimado RBS","Estimado
RBSD"),cex=0.6,bty="n",fill=c(1,2,3))

7.3. REGRESIN EN EL DOMINIO DE LA FRECUENCIA CON PARAMETROS


DEPENDIENTES DEL TIEMPO

El objetivo es estimar un modelo de tipo Yt t X t u t (7.5) donde X t es un vector de T x 1


observaciones de la variable independiente, t , es un vector de T x 1 parmetros , e Yt es un
vector de T x 1 observaciones de la variable independiente y ut es un vector de T x 1 errores de
media cero y varianza constante, asumiendo que las series X t , t e Yt son transformadas en
series de Fourier:


Yt y a yj cos j b jy sin j
N

j 1

t a j cos j b j sin j
N

j 1


u t u a uj cos j b uj sin j
N

j 1

Pre-multiplicado cada observacin de (7.5) por W T se obtiene:


Y X (7.6)

donde Y AT Yt , X AT X t , y AT t .

99
El sistema (7.6) puede reescribirse como:
Y AX t I N AT AI N AT u (7.6)

Si denominamos, e AI N AT u , se buscara una solucin que minimizara la suma cuadrtica


de los errores: et Ae .

Una vez encontrada la solucin a dicha optimizacin se transformaran las variables y


parmetros al dominio del tiempo para obtener el sistema (7.5).

Para obtener una solucin a la minimizacin de los errores e que ofrezca el mismo resultado
que la regresin lineal por mnimos cuadrados ordinarios, requiere utilizar una matriz de
regresores X cuya primera columna sera el vector de tamao T (1,0,0,...), la segunda columna
sera la primera fila de la matriz AX t I N AT y las columnas, corresponderan las filas de
AX t I N AT correspondientes a las frecuencias de senos o csenos que queremos regresar.

Denominando a nueva esta matriz de tamao N p , X , donde p 2 j , siendo la j


frecuencias de seno y coseno elegidas como explicativas, los coeficientes de la solucin MCO
seran:

X ' X 1 X ' y
donde o ,1 sera el parmetro asociado a la constante, 1,1 el asociado a la pendiente, y 1, j los
asociados a las frecuencias de senos y csenos elegidas.

Ejemplo 7.2

Utilizando los datos del ejemplo 7.1 vamos a plantear la regresin en el dominio de la
frecuencia con parmetros dependientes del tiempo. Para obtener la matriz jjX
X
= AX t I N AT , se
utiliza la funcin cdf del package-R descomponer. Con el siguiente chunk se obtiene la
estimacin MCO:

```{r}
a <- matrix(y, nrow=1)
b <- matrix(x, nrow=1)
cx <- cdf(b)
C <- matrix(c(1,rep(0,15)),nrow=1)
X1 <- rbind(C,cx)
X <- as.matrix(X1[1:2,])
X
cy <- gdf(a)
B1 <- solve(X%*%t(X))%*%(X%*%cy)
Y <- t(X)%*%B1
F <- gdt(Y)
data.frame(y,F,MCO=lm(y~x)$fitted.values)
B1
```

100
X
##[,1][,2][,3][,4][,5][,6]
[,7]
##[1,]1.00.0000.000.0000.000.00
0.00
##[2,]617951.59340.94382650.869085.19537583.4614414.97
24933.37
##[,8][,9][,10][,11][,12][,13]
[,14]
##[1,]0.00.000.000.000.000.000
0.00
##[2,]13043.216193.0113483.2110767.6713420.075639.913
14267.24
##[,15][,16]
##[1,]0.000.00
##[2,]2572.5610256.38
##yFMCO
##11124411179.7511179.75
##21123710995.4610995.46
##31177711416.9011416.90
##41211612316.3812316.38
##51265512775.7312775.73
##61367213528.7813528.78
##71420214432.1414432.14
##81524115434.5415434.54
##91620516551.7316551.73
##101727917399.5617399.56
##111775918050.9518050.95
##121891618817.0218817.02
##131983419650.2419650.24
##142082720602.2320602.23
##152205221698.9621698.96
##162254822713.6422713.64
B1
##[,1]
##[1,]2.675607e+04
##[2,]1.474987e01
Una estimacin utilizando ahora como regresores adems del PIB los ciclos de bajas frecuencias
del PIB, se realizara con el siguiente chunk:
```{r}
a <- matrix(y, nrow=1)
b <- matrix(x, nrow=1)
cx <- cdf(b)
C <- matrix(c(1,rep(0,15)),nrow=1)
X1 <- rbind(C,cx)
X <- as.matrix(X1[1:4,])
X
cy <- gdf(a)
B1 <- solve(X%*%t(X))%*%(X%*%cy)
Y <- t(X)%*%B1
F <- gdt(Y)
data.frame(y,F,MCO=lm(y~x)$fitted.values)

101
B1
# Representaciones grficas
plot(ts(y,1992,frequency = 1),main="Consumo de energia electrica en
TEP 1992-2008",col=1)
lines (ts(F,1992,frequency=1),col=2)
lines (ts(lm(y~x)$fitted.values,1992,frequency=1),col=3)
legend("top", ncol=3,c("Y","Estimado RBS","Estimado
MCO"),cex=0.6,bty="n",fill=c(1,2,3))

```

X
##[,1][,2][,3][,4][,5]
[,6]
##[1,]1.0000.0000.000.0000.000
0.00
##[2,]617951.5009340.94382650.869085.19537583.462
14414.97
##[3,]9340.943611527.29726575.5216797.96976073.542
15647.14
##[4,]82650.86226575.521624375.7040812.4293587.881
15125.33
##[,7][,8][,9][,10][,11]
[,12]
##[1,]0.0000.000.00000.0000.0000
0.000
##[2,]24933.37213043.2016193.010513483.21010767.6749
13420.070
##[3,]38025.70819726.9925244.452618712.36015438.2083
19622.531
##[4,]2798.73510016.66658.85627462.167266.4848
5794.821
##[,13][,14][,15][,16]
##[1,]0.00000.0000.00000.00
##[2,]5639.913114267.2402572.560010256.38
##[3,]9432.970519745.7973988.020814267.24
##[4,]554.39293988.021766.95272572.56

##yFMCO
##11124411455.6911179.75
##21123711207.8010995.46
##31177711537.3811416.90
##41211612325.4812316.38
##51265512698.0312775.73
##61367213374.3913528.78
##71420214225.6414432.14
##81524115209.0815434.54
##91620516341.5716551.73
##101727917248.7917399.56
##111775917986.8718050.95
##121891618840.2418817.02
##131983419746.2719650.24
##142082720739.4520602.23

102
##152205221832.3821698.96
##162254822794.9422713.64
B1
##[,1]
##[1,]2.396021e+04
##[2,]1.428679e01
##[3,]8.053688e04
##[4,]8.870311e04

Consumo de energia electrica en TEP 1992-2008

Y Estimado RBS Estimado MCO


22000
20000
ts(y, 1992, frequency = 1)

18000
16000
14000
12000

1995 2000 2005

Time

Con objeto de comprobar los resultados de la estimacin, se calcula el periodograma de



et XX A' e y su representacin grfica, a travs de las siguientes chunk R:

a) Niveles de significacin para el test de Durbin (1969):

```{r}
X0.1 <- c(0.4 ,0.35044 ,0.35477 ,0.33435 ,0.31556
,0.30244 ,0.28991 ,0.27828 ,0.26794
,0.25884 ,0.25071 ,0.24325 ,0.23639
,0.2301 ,0.2243 ,0.21895 ,0.21397 ,0.20933
,0.20498 ,0.20089 ,0.19705 ,0.19343
,0.19001 ,0.18677 ,0.1837 ,0.18077 ,0.17799 ,0.17037
,0.14466 ,0.14325 ,0.14188 ,0.14055 ,0.13926 ,0.138 ,
,0.12255 ,0.12087 ,0.12087 ,0.11926 ,0.11926 ,0.11771
,0.10835 ,0.10719 ,0.10719 ,0.10607 ,0.10607 ,0.10499

103
X0.05 <-
c(0.45,0.44306,0.41811,0.39075 ,0.37359 ,0.35522 ,0.33905 ,0.32538
,0.22012 ,0.2163 ,0.21268 ,0.20924 ,0.20596
,0.20283 ,0.19985 ,0.197 ,0.19427 ,0.19166 ,0.18915
,0.16058 ,0.15911 ,0.15769 ,0.1563 ,0.15495
,0.15363 ,0.15235 ,0.1511 ,0.14989 ,0.1487
,0.14754 ,0.14641 ,0.1453 ,0.1453 ,0.14361
,0.14361 ,0.14112 ,0.14112 ,0.13916
,0.13916 ,0.13728 ,0.13728 ,0.13548
,0.13548 ,0.13375 ,0.13375 ,0.13208
,0.13208 ,0.13048 ,0.13048 ,0.12894
,0.12894 ,0.12745 ,0.12745 ,0.12601
,0.12601 ,0.12464 ,0.12464 ,0.12327
,0.12327 ,0.12197 ,0.12197 ,0.12071
,0.12071 ,0.11949 ,0.11949 ,0.11831
,0.11831 ,0.11716 ,0.11716 ,0.11604
,0.11604 ,0.11496)

X0.025 <- c(0.475 ,0.50855 ,0.46702 ,0.44641


,0.42174 ,0.40045 ,0.38294 ,0.3697 ,0.35277 ,0.34022
0.30935 ,0.30081 ,0.29296 ,0.2857 ,0.27897 ,0.2727
,0.26685 ,0.26137 ,0.25622 ,0.25136
,0.24679 ,0.24245 ,0.23835 ,0.23445
,0.23074 ,0.22721 ,0.22383 ,0.22061
,0.21752 ,0.21457 ,0.21173 ,0.20901
,0.20639 ,0.20337 ,0.20144 ,0.1991 ,0.19684 ,0.19465
,0.16748 ,0.16613 ,0.16482 ,0.16355 ,0.1623
,0.1623 ,0.1599 ,0.1599 ,0.1576 ,0.1576 ,0.1554 ,0.1554 ,0.15329 ,0.15329
,0.13907 ,0.13907 ,0.13756 ,0.13756 ,0.1361
,0.1361 ,0.13468 ,0.13468 ,0.13331 ,0.13331 ,0.13198

X0.01 <- c( 0.49 ,0.56667 ,0.53456 ,0.50495


,0.47629 ,0.4544 ,0.43337 ,0.41522 ,0.39922 ,0.38481
,0.26866 ,0.26423 ,0.26001 ,0.256 ,0.25217
,0.24851 ,0.24501 ,0.24165 ,0.23843
,0.23534 ,0.23237 ,0.22951 ,0.22676
,0.2241 ,0.22154 ,0.21906 ,0.21667 ,0.21436 ,0.21212
,0.18529 ,0.18385 ,0.18245 ,0.18245 ,0.17973 ,0.17973
,0.16167 ,0.16167 ,0.15978 ,0.15978 ,0.15795 ,0.15795
,0.14533 ,0.14533 ,0.14396)

X0.005 <- c(0.495 ,0.59596 ,0.579 ,0.5421 ,0.51576


,0.48988 ,0.4671 ,0.44819 ,0.43071 ,0.41517 ,0.40122
,0.28472 ,0.28016 ,0.27582 ,0.27168 ,0.26772 ,0.26393
,0.21943 ,0.21753 ,0.21534 ,0.21337 ,0.21146 ,0.20961
,0.18534 ,0.18534 ,0.18288 ,0.18288 ,0.18051 ,0.18051
,0.1644 ,0.1644 ,0.16268 ,0.16268 ,0.16101 ,0.16101 ,0.1594 ,

TestD <- data.frame(X0.1,X0.05,X0.025,X0.01,X0.005)


```
b) Funcin para realizar el test de Durbin

Realiza una prueba estadstica para estudiar la dependencia serial sobre el periodograma
acumulado de la variable y, con una significacin de 0,1(significance=1);
0,05(significance=2); 0,025(significance=3); 0,01(significance=4) y 0,005 (significance=5)
(Durbin; 1969)

```{r}
td <- function(y,significance) {
# Author: Francisco Parra Rodrguez

104
# Some ideas from:
#Harvey, A.C. (1978), Linear Regression in the Frequency Domain,
International Economic Review, 19, 507-512.
# DURBIN, J., "Tests for Serial Correlation in Regression Analysis
based on the Periodogram ofLeast-Squares Residuals," Biometrika, 56,
(No. 1, 1969), 1-15.
# http://econometria.wordpress.com/2013/08/21/estimation-of-time-
varying-regression-coefficients/
per <- periodograma(y)
p <- as.numeric(per$densidad)
n <- length(p)
s <- p[1]
t <- 1:n
for(i in 2:n) {s1 <-p[i]+s[(i-1)]
s <- c(s,s1)
s2 <- s/s[n]
}
while (n > 100) n <- 100
if (significance==1) c<- c(TestD[n,1]) else {if (significance==2) c <-
c(TestD[n,2]) else {if (significance==3) c <- c(TestD[n,3]) else {if
(significance==4) c <- c(TestD[n,4])
c <- c(TestD[n,5])}}}
min <- -c+(t/length(p))
max <- c+(t/length(p))
data.frame(s2,min,max)
}
```
Funcin para presentar grficamente los resultados de la prueba de Durbin (Durbin; 1969):

```{r}
gtd <- function (y,significance) {
S <- td(y,significance)
plot(ts(S), plot.type="single", lty=1:3,main = "Test Durbin",
ylab = "densidad acumulada",
xlab="frecuencia")
}
```
> res <- Y-F

> td(res,3)
s2 min max
1 0.1042583 -0.2447 0.4947
2 0.2230305 -0.1197 0.6197
3 0.3581542 0.0053 0.7447
4 0.4971258 0.1303 0.8697
5 0.6324497 0.2553 0.9947
6 0.7536951 0.3803 1.1197
7 0.8544578 0.5053 1.2447
8 1.0000000 0.6303 1.3697

> gtd(res,3)

105
Test Durbin

1.0
densidad acumulada

0.5
0.0

1 2 3 4 5 6 7 8

frecuencia

7.4. DESESTACIONALIZACIN A TRAVS DE LA REGRESIN


DEPENDIENTE DE LA FRECUENCIA

La regresin en el dominio de la frecuencia puede utilizarse para descomponer una serie


temporal en sus componentes de tendencia, estacionalidad e irregular, de una serie temporal y t
de frecuencia b , o con b datos por intervalo de tiempo. Por ejemplo, una serie de frecuencia 7
sera una serie de datos diarios, y el intervalo temporal la semana, las frecuencias 4 y 12
indicaran series trimestrales y mensuales, en el periodo de tiempo de un ao equivales.


Si la observacin se toma a intervalos de tiempo t , entonces la frecuencia angular es .
t
1
La frecuencia equivalente expresada en ciclos por unidad de tiempo es f t .
2 2
1
Cuando solo hay una observacin por ao, radianes por ao o f ciclos por ao (un
2
ciclo por cada dos aos), variaciones con una oscilacin de un ao tienen una frecuencia de
2 radianes por ao o f 1 ciclos por ao.

Por ejemplo en una serie mensual de n 100 datos, el ciclo estacional o las oscilaciones que
100
ocurren al cabo del ao, tienen una frecuencia de f 8,33 ciclos por cada 100 datos.
12
Una serie mensual que completa 8 ciclos, al ser su menor frecuencia estacional 1 ciclo por ao,
tendr un total de 96 observaciones (8 ciclos), y los mltiplos enteros que tambin destacaran en
n 2n 3n
su periodograma correspondern a las frecuencias f , , ,... ; las oscilaciones de
12 12 12

106
tendencia o de baja frecuencia, las que ocurren con un ciclo inferior al ao correspondern a las
n
frecuencias f .
12

Puede utilizarse (7.6) para estimar los coeficientes de Fourier de la serie temporal y t :
Y AI n AT AI N AT u
o
Y AtI n AT AI N AT u
En (6.9)
1 0 0 ... 0

0 1 0 ... 0
W At I n A 0
T
0 1 ... 0

. . . ... .
0 0 0 ... 1

Si queremos regresar sobre los cuatro primeros coeficientes, entonces:

1 0 0 0 0 ... 0

0 1 0 0 0 ... 0
0 0 1 0 0 ... 0

W * At I n AT 0 0 0 1 0 ... 0
0 0 0 0 0 ... 0

. . . . . ... .

0 0 0 0 0 ... 0
2n
Las 1 primeras filas de la matriz A son utilizadas para estimar los coeficientes de Fourier
12
2n
que corresponden a los ciclos de bajas frecuencias, los ciclos de tendencia, y las filas y
12
2n
1 permiten regresar sobre los coeficientes de Fourier que dan lugar a oscilaciones de un
12
6n 6n 8n
ciclo en cada ao, los mltiplos enteros de dicha frecuencia y 1 , el ...deben de ser
12 12 12
utilizados para obtener la frecuencia estacional.

Ejemplo 7.3

Se realiza un ejercicio de descomponer en tendencia, estacionalidad e irregularidad por


regresin en dominio de frecuencia con coeficientes dependientes del tiempo el IPI base 2009
de Cantabria en R. Este procedimiento requiere cargar la librera descomponer.
> library (descomponer)
El ndice de precios industriales de Cantabria se representa en la figura siguiente.
>data(ipi)

107
La funcin descomponer, requiere indicar la serie, la frecuencia de la serie temporal, el tipo de
ajuste, 1, si se quiere realizar un ajuste utilizando (6.9) o 2 si se desea realizar un ajuste
utilizando (6.10), y el numero de datos a proyectar.

La serie de tendencia y estacionalidad se denomina TDST y se obtiene realizando una regresin


en el dominio de la frecuencia, entre la serie y t y el ndice temporal t , en el que se filtran las
bajas frecuencias y las frecuencias estaciones y sus mltiplos absolutos. TD se calcula
realizando una regresin en el dominio de la frecuencia entre la serie y t y el ndice temporal t
pero dejando pasar solo las bajas frecuencias. La serie estacional ST es TD menos TDST, y la
serie irregular IR resulta de restar TDST de y t (figure 8). El ndice temporal t se obtiene a
travs de un MCO entre el IPI y la lnea de tendencia 1,2,3,...., n ' .
>desc1 <- descomponer(ipi,12,1)
> summary(desc1)
> summary(desc1)
Length Class Mode
datos 5 data.frame list
regresoresTD 14 data.frame list
regresoresST 12 data.frame list
coeficientesTD 14 -none- numeric
coeficientesST 12 -none- numeric

plot(ts(desc1$datos,frequency=12))

Para realizar una representacin grfica del periodograma de los residuos se invoca la funcin
gperiodograma.

> gperiodograma(desc1$datos$IR)

108
Para realizar un test sobre la aleatoriedad de la serie irregular (IR) basado en el periodograma
acumulados puede utilizarse la funcin cpgram.

> cpgram(ts(desc1$datos$IR,frequency=12))

o alternativamente:
> gtd(desc1$datos$IR,3)

109
110
8. MTODOS DE CLASIFICACIN

8.1. INTRODUCCIN

La clasificacin supervisada es una de las tares que ms frecuentemente son llevadas a cabo por
los denominados Sistemas Inteligentes. Por lo tanto, un gran nmero de paradigmas
desarrollados bien por la Estadstica (Regresin Logstica, Anlisis Discriminante) o bien por la
Inteligencia Artificial (Redes Neuronales, Induccin de Reglas, rboles de Decisin, Redes
Bayesianas) son capaces de realizar las tareas propias de la clasificacin.

A lo largo del curso se trataran los mtodos desarrollados por la estadstica: Anlisis
Discriminante y Regresin Logstica y los K vecinos prximos, los Arboles de Decisin y las
Mquinas Soporte Vector desarrollados por la Inteligencia Artificial.

Paso previo a aplicar un mtodo de clasificacin, es la particin del conjunto de datos en dos
conjuntos de datos ms pequeos que sern utilizadas con los siguientes fines: entrenamiento y
test9. El subconjunto de datos de entrenamiento es utilizado para estimar los parmetros del
modelo y el subconjunto de datos de test se emplea para comprobar el comportamiento del
modelo estimado. Cada registro de la base de datos debe de aparecer en uno de los dos
subconjuntos, y para dividir el conjunto de datos en ambos subconjuntos, se utiliza un
procedimiento de muestreo: muestreo aleatorio simple o muestreo estratificado. Lo ideal es
entrenar el modelo con un conjunto de datos independiente de los datos con los que realizamos
el test.

Como resultado de aplicar un mtodo de clasificacin, se cometern dos errores, en el caso de


una variable binaria que toma valores 0 y 1, habr ceros que se clasifiquen incorrectamente
como unos y unos que se clasifiquen incorrectamente como ceros. A partir de este recuento se
puede construir el siguiente cuadro de clasificacin:

Valor real de Yi
Yi 0 Yi 1
Yi Yi 0 P11 P12
Yi 1 P21 P22

Donde P11 y P22 correspondern a predicciones correctas (valores 0 bien predichos en el primer
caso y valores 1 bien predichos en el segundo caso), mientras que P12 y P21 correspondern a
predicciones errneas (valores 1 mal predichos en el primer caso y valores 0 mal predichos en el
segundo caso). A partir de estos valores se pueden definir los ndices que aparecen en el
siguiente cuadro:

9
Pueden considerarse tres conjuntos de datos: entrenamiento, validacin y test. El conjunto de datos de
validacin se utilizara en estos casos para ajustar y/o seleccionar el mejor modelo.

111
Un mtodo para evaluar clasificadores alternativo a la mtrica expuesta es la curva ROC
(Receiver Operating Characteristic). La curva ROC es una representacin grfica del
rendimiento del clasificador que muestra la distribucin de las fracciones de verdaderos
positivos y de falsos positivos. La fraccin de verdaderos positivos se conoce como
sensibilidad, sera la probabilidad de clasificar correctamente a un individuo cuyo estado real
sea definido como positivo. La especificidad es la probabilidad de clasificar correctamente a un
individuo cuyo estado real sea clasificado como negativo. Esto es igual a restar uno de la
fraccin de falsos positivos.

La curva ROC tambin es conocida como la representacin de sensibilidad frente a (1-


especificidad). Cada resultado de prediccin representa un punto en el espacio ROC. El mejor
mtodo posible de prediccin se situara en un punto en la esquina superior izquierda, o
coordenada (0,1) del espacio ROC, representando un 100% de sensibilidad (ningn falso
negativo) y un 100% tambin de especificidad (ningn falso positivo). Una clasificacin
totalmente aleatoria dara un punto a lo largo de la lnea diagonal, que se llama tambin lnea de
no-discriminacin. En definitiva, se considera un modelo intil, cuando la curva ROC recorre la
diagonal positiva del grfico. En tanto que en un test perfecto, la curva ROC recorre los bordes
izquierdo y superior del grfico. La curva ROC permite comparar modelos a travs del rea bajo
su curva (figura 8.1):

112
Figura n 8.1.

En R existe una librera que ayuda a la representacin de la curva ROC: el R-package ROCR.

8.2. ANLISIS DISCRIMINANTE

El Anlisis Discriminante (AD), introducido por Fisher (1936), es una tcnica que se utiliza
para predecir la pertenencia a un grupo (variable dependiente) a partir de un conjunto de
predictores (variables independientes). El objetivo del AD es entender las diferencias de los
grupos y predecir la verosimilitud de que una persona o un objeto pertenezca a una clase o
grupo basndose en los valores que toma en los predictores. Ejemplos de anlisis discriminante
son distinguir entre innovadores y no innovadores de acuerdo a sus perfiles demogrficos y
sociales o el riesgo de impago de un prstamo a travs de predictores econmicos y
sociodemogrficos.

El anlisis discriminante es conceptualmente muy similar al anlisis de varianza multivariante


de un factor. El AD trata de establecer una relacin entre una variable dependiente no mtrica
(dicotmica o multidicotmica) y un conjunto de variables independientes mtricas:

Y1 X 1i X 2i ... X p

El propsito del AD consiste en aprovechar la informacin contenida en las variables


independientes para crear una funcin Z combinacin lineal de las p explicativas, capaz de
diferenciar lo ms posible a los k grupos. La combinacin lineal para el anlisis discriminante,
funcin discriminante, se formula:

Z jk 0 1 X 1k 2 X 2 k ... p X pk

donde,

Z ik es la puntuacin Z discriminante j para el objeto k

113
o trmino constante
i ponderacin discriminante para la variable independiente i

X ik variable independiente i para el objeto k

Una vez hallada la funcin discriminante, el resultado es una nica puntuacin Z discriminante
compuesta para cada individuo en el anlisis. Promediando las puntuaciones discriminantes para
todos los individuos dentro de un grupo particular, obtenemos la media del grupo. Esta media es
conocida como centroide. Cuando el anlisis se realiza con dos grupos tenemos dos centroides,
si es con tres seran tres los centroides, con k objetos tendremos k centroides.

En el caso de dos grupos y dos predictores o variables explicativas, la funcin discriminante es


de la forma:

Z jk 0 1 X 1k 2 X 2 k
Sustituyendo en la funcin discriminante el valor de las medias del grupo 1 en las variables X 1
y X 2 , obtenemos el centroide del grupo 1:

Z 1 0 1 X 11 2 X 21

De igual modo, sustituyendo las medias del grupo 2, obtenemos el centroide del grupo 2:

Z 2 0 1 X 12 2 X 22

La funcin Z debe ser tal que la distancia entre los dos centroides sea mxima, consiguiendo de
esta forma que los grupos estn lo ms distantes posible. Podemos expresar esta distancia de la
siguiente manera:

h Z1 Z 2

Es importante sealar que los grupos deben diferenciarse de antemano en las variables
independientes. El anlisis busca diferenciar los dos grupos al mximo combinando las
variables independientes pero si los grupos no difieren en las variables independientes, no podr
encontrar una dimensin en la que los grupos difieran (figura 8.2). Dicho de otro modo, si el
solapamiento entre los casos de ambos grupos es excesivo, los centroides se encontrarn en la
misma o parecida ubicacin en el espacio p-dimensional y en esas condiciones, no ser posible
encontrar una funcin discriminante til para la clasificacin. Es decir, si los centroides estn
muy prximos, las medias de los grupos en la funcin discriminante sern tan parecidas que no
ser posible distinguir a los sujetos de uno y otro grupo.

114
Figura n 8.2.

La mayor utilidad de una funcin discriminante radica en su capacidad para clasificar nuevos
casos. Ahora bien, la clasificacin de casos es algo muy distinto de la estimacin de la funcin
discriminante. De hecho, una funcin perfectamente estimada puede tener una pobre capacidad
clasificatoria.

Una vez obtenida la funcin discriminate podemos utilizarla, en primer lugar, para efectuar una
clasificacin de los mismos casos utilizados para obtener la funcin: esto permitir comprobar
el grado de eficacia la funcin desde el punto de vista de la clasificacin. Si los resultados son
satisfactorios, la funcin discriminante podr utilizarse, en segundo lugar, para clasificar futuros
casos de los que, conociendo su puntuacin en las variables independientes, se desconozca el
grupo al que pertenecen.

Una manera de clasificar los casos consiste en calcular la distancia existente entre los centroides
Z1 Z 2
de ambos grupos y situar un punto de corte z 0 equidistante de ambos centroides. A
2
partir de ese momento, los casos cuyas puntuaciones discriminantes sean mayores que el punto
de corte z 0 sern asignados al grupo superior y los casos cuyas puntuaciones discriminantes
sean menores que el punto de corte z 0 sern asignados al grupo inferior.

La regla de clasificacin descrita slo permite distinguir entre dos grupos, con lo que es
difcilmente aplicable al caso de ms de dos grupos e incluso a dos grupos con distinto tamao,
con tamaos desiguales es preferible utilizar una regla de clasificacin que desplace el punto de
corte hacia el centroide del grupo de menor tamao buscando igualar los errores de
clasificacin. Para calcular este punto de corte se utiliza una distancia ponderada10:
n1 Z 1 n2 Z 2
z0
n1 n2

El AD solo admite variables cuantitativas como regresores, por lo que si alguna de las variables
independientes es categrica, hay que utilizar otros mtodos alternativos de clasificacin.

10
Fukunaga y Kessell (1973) han propuesto una regla de clasificacin basada en la teora bayesiana. Esta
otra regla permite incorporar fcilmente la informacin relativa al tamao de los grupos y, adems, es
extensible al caso de ms de dos grupos.

115
Ejemplo 8.1

Para realizar una minera de datos con la clasificacin de familias con renta inferior al 60% de la
mediana a partir de las explicativas seleccionadas en el Ejemplo 4.2, para ello se va a dividir la
encuesta en dos muestras una de entrenamiento con el 70% de los datos y una muestra test con
el 30% restante, a fin de no tener problemas en los clculos con los datos ausentes se va a
elaborar un data frame en donde se omitirn los NAs. La funcin R que realiza el Anlisis
Discriminante Lineal es lda. Para los 5 primeros datos, se dan los resultados de la
clasificacin (class), las probabilidades posteriores de pertenecer a la clase cero (posterior.0) o
de pertenecer a la clase 1 (posterior.1), la probabilidad posterior es la probabilidad condicional
que es asignada despus de que la evidencia es tomada en cuenta. Evaluaremos los resultados
con una mtrica de porcentaje de aciertos y la curva ROC.

```{r}
datos1<-na.omit(datos)
explicativas <-
data.frame(datos1$nmiemb,datos1$nmiem11,datos1$nmiem12,datos1$numinact
i,datos1$numocu)
#modelo
x=explicativas
y=datos1$pobre
# divisin de la muestra en entrenamiento y validacion
train=sample(seq(length(y)),length(y)*0.70,replace=FALSE)
# Lineal Discriminat Analisys
lda.tr=lda(y[train]~.,data=x[train,])
#prediccin
probs=predict(lda.tr,newdata=x[-train,],type="prob")
data.frame(probs)[1:5,]
table(probs$class,y[-train])
mean(probs$class==y[-train]) #porcentaje de bien clasificados
#grfica curva ROC
library(ROCR)
predict.rocr <- prediction (probs$posterior[,2],y[-train])
perf.rocr <- performance(predict.rocr,"tpr","fpr") #True y False
postivie.rate
auc <- as.numeric(performance(predict.rocr ,"auc")@y.values)
plot(perf.rocr,type='o', main = paste('Area Bajo la Curva
=',round(auc,2)))
abline(a=0, b= 1)
```
##classposterior.0posterior.1LD1
##100.89475610.105243930.1670454
##700.94168820.058311810.6064807
##1200.89361140.106388600.1587596
##1500.89361140.106388600.1587596
##1900.80197550.198024480.3408693

##
##01

116
##03920629
##1256527

##[1]0.834021

8.3. REGRESIN LOGSTICA

La Regresin Logstica es un mtodo ajuste estadstico cuyo objetivo es obtener una relacin
funcional entre una transformacin -de una variable cualitativa- llamada logit y p variables
predictoras que pueden ser cuantitativas o cualitativas (apartado 4.2). La caracterstica
fundamental de esta regresin es que la variable dependiente es dicotmica.

Si la variable dicotmica a predecir es Y y las p variables predictoras son X1,...,Xp, el objetivo es


determinar los coeficientes 0 , 1 ,..., p para satisfacer la frmula de transformacin de la
variable logit:

pi
Li ln ln(e ) 0 1 X 1i 2 X 2i ... p X pi
z

(1 pi )

La estimacin de los coeficientes es realizada a travs del mtodo de mxima verosimilitud.


Estos coeficientes son interpretados en trminos de odd-ratios, y la seleccin de variables
puede realizarse mediante tres mtodos: forward, backward o stepwise. El mtodo
stepwise es el ms comnmente utilizado (apartado 2.5).

En el caso de una variable explicativa dicotmica, el modelo tiene una formulacin equivalente
dada por:

117
1
p ( o 1 X 1i 2 X 2 i ... p X pi
(1 e )

De manera que el modelo se usa para clasificar nuevos individuos a partir de reglas de la
siguiente forma:

Si p c el individuo i es clasificado como 0, y


en caso contrario es clasificado como 1.

Generalmente, el valor que se asigna a c para determinar si el valor de la prediccin es igual a 1


o a 0 es de 0,5, puesto que parece lgico que la prediccin sea 1 cuando el modelo dice que es
ms probable obtener un 1 que un 0.

Sin embargo, la eleccin de un umbral igual a 0,5 no siempre es la mejor alternativa. En el caso
en que la muestra presente desequilibrios entre el nmero de unos y el de ceros la eleccin de un
umbral igual a 0,5 podra conducir a no predecir ningn uno o ningn cero. El modo de resolver
este problema es tomar un umbral ms pequeo.

Ejemplo 8.2.

Partiendo del modelo estimado en el Ejemplo 4.1, vamos a realizar una minera de datos,
dividiendo la encuesta en dos muestras una de entrenamiento con el 70% de los datos y una
muestra test con el 30% restante, a fin de no tener problemas de clculo con los datos ausentes
se va a elaborar un data frame en donde se omitirn los NAs. Evaluaremos los resultados
con una mtrica de porcentaje de aciertos y la curva ROC.

El chunk que se va a ejecutar es el siguiente:

# Seleccin de variables
datos2=na.omit(datos)
explicativas <-
data.frame(datos2$nmiemb,datos2$nmiem11,datos2$nmiem12,datos2$numinact
i,datos2$numocu,datos2$tiphogar1,datos2$situocuhog)
x=explicativas
y=datos1$pobre
# divisin de la muestra en entrenamiento y validacion
train=sample(seq(length(y)),length(y)*0.70,replace=FALSE)
# Estimacin de modelo probit
glm.tr=glm(y[train]~.,data=x[train,],family=binomial)
#prediccin
probs=predict.glm(glm.tr,newdata=x[-train,],type="response")
pred=ifelse(probs>0.5,1,0)
table(pred,y[-train])
mean(pred==y[-train])
#grfica curva ROC
library(ROCR)
predict.rocr <- prediction (probs,y[-train])
perf.rocr <- performance(predict.rocr,"tpr","fpr") #True y Tasa de
falsos positivos

118
auc <- as.numeric(performance(predict.rocr ,"auc")@y.values)
plot(perf.rocr,type='o', main = paste('Area Bajo la Curva
=',round(auc,2)))
abline(a=0, b= 1)
```
Los resultados obtenidos:

##
##pred01
##03929625
##1246532
##[1]0.8366467

8.4. ALGORITMO K-VECINOS MS CERCANOS

El mtodo K-nn (K nearest neighbors Fix y Hodges, 1951) es un mtodo de clasificacin


supervisada (Aprendizaje, estimacin basada en un conjunto de entrenamiento y prototipos) que
sirve para estimar la funcin de densidad F ( x / C j ) de las predictoras x por cada clase C j .
Este es un mtodo de clasificacin no paramtrico, que estima el valor de la funcin de densidad
de probabilidad o directamente la probabilidad a posteriori de que un elemento x pertenezca a
la clase C j a partir de la informacin proporcionada por el conjunto de prototipos o ejemplos.
En el proceso de aprendizaje no se hace ninguna suposicin acerca de la distribucin de las
variables predictoras.

119
Figura n 8.3

En la figura n 8.3 se ilustra el funcionamiento de este mtodo de clasificacin. En la figura se


encuentran representadas 12 muestras pertenecientes a dos clases distintas: la Clase 1 est
formada por 6 cuadrados de color azul y la Clase 2 formada por 6 crculos de color rojo. En este
ejemplo, se han seleccionado tres vecinos, es decir, (k=3).

De los 3 vecinos ms cercanos a la muestra x , representada en la figura por un aspa, uno de


ellos pertenece a la Clase 1 y los otros dos a la Clase 2. Por tanto, la regla 3-nn asignar la
muestra x a la Clase 2. Es importante sealar que si se hubiese utilizado como regla de
clasificacin k=1, la 1-nn, la muestra x sera asignada a la Clase 1, pues el vecino ms cercano
de la muestra x pertenece a la Clase 1.

Un ejemplo de entrenamiento, xi , es un vector en un espacio caracterstico multidimensional,


que est descrito en trminos de p atributos, y pertenecer a una de las q clases de la
clasificacin. Los valores de los atributos del i-esimo ejemplo se representan por el vector p -
dimensional:

xi x1i , x 2i ,..., x pi X

El espacio es particionado en regiones por localizaciones y etiquetas de clases de los ejemplos


de entrenamiento. Un punto en el espacio es asignado a la clase C j si esta es la clase ms
frecuente entre los k ejemplos de entrenamiento ms cercano. Generalmente se usa la distancia
euclidiana.

x x rj
p
2
d ( xi , x j ) ri
r 1

La fase de entrenamiento del algoritmo consiste en almacenar los vectores caractersticos y las
etiquetas de las clases de los ejemplos de entrenamiento. En la fase de test, la evaluacin del
ejemplo (del que no se conoce su clase) es representada por un vector en el espacio
caracterstico. Se calcula la distancia entre los vectores almacenados y el nuevo vector, y se
seleccionan los k ejemplos ms cercanos. El nuevo ejemplo es clasificado con la clase que ms
se repite en los vectores seleccionados.

El mtodo k-nn supone que los vecinos ms cercanos nos dan la mejor clasificacin y esto se
hace utilizando todos los atributos; el problema de dicha suposicin es que es posible que se

120
tengan muchos atributos irrelevantes que dominen sobre la clasificacin, de manera que los
atributos relevantes perderan peso entre otros veinte irrelevantes.

La mejor eleccin de k depende fundamentalmente de los datos; generalmente, valores grandes


de k reducen el efecto de ruido en la clasificacin, pero crean lmites entre clases parecidas. Un
buen k puede ser seleccionado mediante un procedimiento de optimizacin. El caso especial en
que la clase es predicha para ser la clase ms cercana al ejemplo de entrenamiento (cuando k=1)
es llamada Nearest Neighbor Algorithm, Algoritmo del vecino ms cercano.

Ejemplo 8.2

Partiendo del modelo estimado en el Ejemplo 4.1, vamos a realizar una minera de datos,
dividiendo la encuesta en dos muestras una de entrenamiento con el 70% de los datos y una
muestra test con el 30% restante, se va a realizar el proceso con el primer vecino prximo k=1
(Nearest Neighbor Algorithm), para ello hay que instalar el package-R class, e invocar la
funcin knn1, dentro de esta librera la funcin knn permite elegir el numero de vecinos a
aproximar, en est funcin todas las covariables han de ser numricas por lo que las variables
clasificatorias de tipos de hogares y situacin de ocupacin de hogares son transformadas a
numricas. Evaluaremos los resultados con una mtrica de porcentaje de aciertos.

```{r}
library(class)
# Seleccin de variables
explicativas <-
data.frame(datos1$nmiemb,datos1$nmiem11,datos1$nmiem12,datos1$numinact
i,datos1$numocu)
x=explicativas
y=datos1$pobre
# K-Nearest Neighbors
Pobre=as.factor(y)
train=sample(seq(length(y)),length(y)*0.70,replace=FALSE)
knn.prd=knn1(x[train,1:5],x[-train,1:5],Pobre[train])
table(knn.prd,Pobre[-train])
```
Los resultados obtenidos:

knn.prd01
##03954662
##1223493

8.5. RBOLES DE CLASIFICACIN

Los rboles de decisin o clasificacin tampoco son modelos estadsticos basados en la


estimacin de los parmetros de la ecuacin propuesta, por tanto, no tenemos que estimar un
modelo estadstico formal, son algoritmos para clasificar utilizando particiones sucesivas. Son
apropiados cuando hay un nmero elevado de datos, siendo una de sus ventajas su carcter
descriptivo que permite entender e interpretar fcilmente las decisiones tomadas por el modelo,
revelando formas complejas en la estructura de datos que no se pueden detectar con los mtodos
convencionales de regresin.

Los rboles de decisin o de clasificacin son un modelo surgido en el mbito del aprendizaje
automtico (Machine Learning) y de la Inteligencia Artificial que partiendo de una base de
datos, crea diagramas de construcciones lgicas que nos ayudan a resolver problemas. A esta

121
tcnica tambin se la denomina segmentacin jerrquica. Es una tcnica explicativa y
descomposicional que utiliza un proceso de divisin secuencial, iterativo y descendente que
partiendo de una variable dependiente, forma grupos homogneos definidos especficamente
mediante combinaciones de variables independientes en las que se incluyen la totalidad de los
casos recogidos en la muestra.

Suponemos que se dispone de una muestra de entrenamiento que incluye la informacin del
grupo al que pertenece cada caso y que sirve para construir el criterio de clasificacin. Se
comienza con un nodo inicial y nos preguntamos cmo dividir el conjunto de datos disponibles
en dos partes ms homogneas utilizando una de las variables. Esta variable se escoge de modo
que la particin de datos se haga en dos conjuntos lo ms homogneos posibles. Se elige, por
ejemplo, la variable x1 y se determina un punto de corte, por ejemplo c, de modo que se puedan
separar los datos en dos conjuntos: aquellos con x1 c y los que tienen x1 c . De este nodo
inicial saldrn ahora dos: uno al que llegan las observaciones con x1 c y otro al que llegan las
observaciones con x1 c . En cada uno de estos nodos se vuelve a repetir el proceso de
seleccionar una variable y un punto de corte para dividir la muestra en dos partes ms
homogneas. El proceso termina cuando se hayan clasificado todas las observaciones
correctamente en su grupo.

En los rboles de decisin se encuentran los siguientes componentes: nodos, ramas y hojas. Los
nodos son las variables de entrada, las ramas representan los posibles valores de las variables de
entrada y las hojas son los posibles valores de la variable de salida. Como primer elemento de
un rbol de decisin tenemos el nodo raz que va a representar la variable de mayor relevancia
en el proceso de clasificacin. Todos los algoritmos de aprendizaje de los rboles de decisin
obtienen modelos ms o menos complejos y consistentes respecto a la evidencia, pero si los
datos contienen incoherencias, el modelo se ajustar a estas incoherencias y perjudicar su
comportamiento global en la prediccin, es lo que se conoce como sobreajuste. Para solucionar
este problema hay que limitar el crecimiento del rbol modificando los algoritmos de
aprendizaje para conseguir modelos ms generales. Es lo que se conoce como poda en los
rboles de decisin.

Arbol de decisin y ejemplo de poda.


Figura 8.3

Las reglas de parada tratan de preguntar si merece la pena seguir o detener el proceso de
crecimiento del rbol por la rama actual, se denominan reglas de prepoda ya que reducen el
crecimiento y complejidad del rbol mientras se est construyendo:

122
Pureza de nodo. Si el nodo solo contiene ejemplos o registros de una nica clase se
decide que la construccin del rbol ya ha finalizado.
Cota de profundidad. Previamente a la construccin se fija una cota que nos marque la
profundidad del rbol, cuando se alcanza se detiene el proceso.
Umbral de soporte. Se especifica un nmero de ejemplos mnimo para los nodos, y
cuando se encuentre un nodo con ejemplos por debajo del mnimo se para el proceso, ya
que no consideramos fiable una clasificacin abalada con menos de ese nmero mnimo
de ejemplos.

Existen dos formas de poda muy comunes utilizadas en los diferentes algoritmos: la poda por
coste-complejidad y la poda pesimista. En la poda por coste-complejidad se trata de equilibrar la
precisin y el tamao del rbol. La complejidad est determinada por el nmero de hojas que
posee el rbol (nodos terminales). La poda pesimista utiliza los casos clasificados
incorrectamente y obtiene un error de sustitucin, eliminando los subrboles que no mejoran
significativamente la precisin del clasificador.

Para construir un rbol hay que tomar las siguientes decisiones:


Seleccionar las variables y sus puntos de corte para hacer las divisiones.
Cundo se considera que un nodo es terminal y cundo se contina dividiendo.
La asignacin de las clases a los nodos terminales.

Ejemplo 8.3

Partiendo del modelo estimado en el Ejemplo 4.1, vamos a realizar una minera de datos,
dividiendo la encuesta en dos muestras una de entrenamiento con el 70% de los datos y una
muestra test con el 30% restante, se va ha realizar la clasificacin utilizando arboles de decisin,
para ello hay que instalar el package-R: tree, e invocar la funcin tree. Se realiza una poda por
el procedimiento de coste-complejidad, y mediante un procedimiento de validacin cruzada
elegir el mejor resultado. Para ello hay que invocar la funcin cv.tree con la opcin
FUN=prune.misclas. Evaluaremos los resultados con una mtrica de porcentaje de aciertos.

require(tree)
# Seleccin de variables
explicativas <-
data.frame(datos2$nmiemb,datos2$nmiem11,datos2$nmiem12,datos2$numinact
i,datos2$numocu,datos2$tiphogar1,datos2$situocuhog)
y=as.factor(datos1$pobre)
datos3 <- data.frame(explicativas,y)
# divisin de la muestra en entrenamiento y validacion
train=sample(seq(length(y)),length(y)*0.70,replace=FALSE)
Pobreza.tree = tree(y~.,datos3,subset=train)
summary(Pobreza.tree)
plot(Pobreza.tree);text(Pobreza.tree,pretty=0)
Pobreza.tree
tree.pred=predict(Pobreza.tree,datos3[-train,],type="class")
summary(tree.pred)
with(datos3[-train,],table(tree.pred,y))

# Mediante validacin cruzada se busca el mejor arbol de decision


cv.Pobreza=cv.tree(Pobreza.tree,FUN=prune.misclass)

123
cv.Pobreza
plot(cv.Pobreza)
prune.Pobreza=prune.misclass(Pobreza.tree,best=5)
plot(prune.Pobreza);text(Pobreza.tree,pretty=0)
tree.pred=predict(prune.Pobreza,datos3[-train,],type="class")
with(datos3[-train,],table(tree.pred,y))
```

##
##Classificationtree:
##tree(formula=y~.,data=datos3,subset=train)
##Variablesactuallyusedintreeconstruction:
##[1]"datos1.situocuhog""datos1.nmiemb"
##Numberofterminalnodes:5
##Residualmeandeviance:0.8397=10440/12430
##Misclassificationerrorrate:0.1939=2412/12439

##node),split,n,deviance,yval,(yprob)
##*denotesterminalnode
##
##1)root1243912930.00(0.785590.21441)
##2)datos1.situocuhog:Elsustentadorprincipalyel
cnyugeocupados,almenosotrodelosmiembrostambinocupado,El
sustentadorprincipalyelcnyugeocupados,ningunodelosotros
miembrosocupados(siesqueloshay),Elsustentadorprincipaloel
cnyugeocupado,almenosotrosdosmiembrosocupados,Nielsustentador
principalnisucnyugeocupados,almenosotrosdosmiembrosocupados
39051989.00(0.929580.07042)*
##3)datos1.situocuhog:Elsustentadorprincipaloelcnyuge
ocupado,otrodelosmiembrosocupado,Elsustentadorprincipaloel
cnyugeocupado,ningunodelosotrosmiembrosocupado(siesquelos
hay),Nielsustentadorprincipalnisucnyugeocupado,otromiembro
ocupado,Ningnocupadoenelhogar853410130.00(0.719710.28029)
##6)datos1.nmiemb<2.543683169.00(0.882100.11790)*
##7)datos1.nmiemb>2.541665734.00(0.549450.45055)
##14)datos1.situocuhog:Elsustentadorprincipaloelcnyuge
ocupado,otrodelosmiembrosocupado,Nielsustentadorprincipalni
sucnyugeocupado,otromiembroocupado768738.30(0.81380
0.18620)*
##15)datos1.situocuhog:Elsustentadorprincipaloel
cnyugeocupado,ningunodelosotrosmiembrosocupado(siesquelos
hay),Ningnocupadoenelhogar33984709.01(0.489700.51030)
##30)datos1.nmiemb<4.529514079.00(0.531350.46865)*
##31)datos1.nmiemb>4.5447465.11(0.214770.78523)*

124
Se ha elaborado un arbol con 5 nodos terminales, que considera como pobres todos los hogares
de ms de 4,5 miembros en donde: El sustentador principal o el cnyuge est ocupado, y
ninguno de los otros miembros ocupado (si es que los hay), y en los que no hay ningn ocupado
en el hogar. Este clasificador presenta los siguientes resultados en la muestra de test:

##01
##5130202

##y
##tree.pred01
##041141016
##145157

Se realiza un anlisis de post-poda, cuyos resultados no aconsejan reducir el nmero de nodos


terminales.

##$size
##[1]51
##
##$dev
##[1]24112580
##
##$k
##[1]Inf63.75
##
##$method
##[1]"misclass"
##
##attr(,"class")
##[1]"prune""tree.sequence"

125
8.6. MQUINAS DE SOPORTE VECTOR

Las Mquinas de Soporte Vectorial (Support Vector Machines SVMs) son un conjunto de
algoritmos de aprendizaje supervisados que desarrollan mtodos relacionados con los problemas
de clasificacin y regresin.

Como en la mayora de los mtodos de clasificacin supervisada, los datos de entrada (los
puntos) son vistos como un vector p-dimensional (una lista de p nmeros). Dado un conjunto de
puntos como un subconjunto de un conjunto mayor (espacio), en el que cada uno de ellos
pertenece a una de dos posibles categoras, de manera que un algoritmo basado en SVM
construye un modelo capaz de predecir si un punto nuevo (cuya categora desconocemos)
pertenece a una categora o a la otra.

La SVM, intuitivamente, es un modelo que partiendo de un conjunto de ejemplos de


entrenamiento, podemos etiquetarlos en diferentes clases y representar dichas muestras en

126
puntos en el espacio para tratar de separar las diferentes clases mediante un espacio lo ms
amplio posible, para que cuando las nuevas muestras de los casos de test se pongan en
correspondencia con dicho modelo puedan ser clasificadas correctamente en funcin de su
proximidad.

En ese concepto de "separacin ptima" es donde reside la caracterstica fundamental de las


SVM: este tipo de algoritmos buscan el hiperplano que tenga la mxima distancia (margen) con
los puntos que estn ms cerca de l mismo. Por eso tambin a veces se les conoce a las SVM
como clasificadores de margen mximo. De esta forma, los puntos del vector que son
etiquetados con una categora estarn a un lado del hiperplano y los casos que se encuentren en
la otra categora estarn al otro lado.

Figura 8.4

La manera ms simple de realizar la separacin es mediante una lnea recta, un plano recto o un
hiperplano N-dimensional. Desafortunadamente los universos a estudiar no se suelen presentar
en casos idlicos de dos dimensiones como en el ejemplo anterior, sino que un algoritmo SVM
debe tratar con ms de dos variables predictoras, curvas no lineales de separacin, casos donde
los conjuntos de datos no pueden ser completamente separados, clasificaciones en ms de dos
categoras.

Debido a las limitaciones computacionales de las mquinas de aprendizaje lineal, stas no


pueden ser utilizadas en la mayora de las aplicaciones del mundo real. La representacin por
medio de funciones ncleo Kernel ofrece una solucin a este problema, proyectando la
informacin a un espacio de caractersticas de mayor dimensin el cual aumenta la capacidad
computacional de la mquinas de aprendizaje lineal (ver apartado 6.1).

Ejemplo 8.4.

Partiendo del modelo estimado en el Ejemplo 4.1, vamos a realizar una minera de datos,
dividiendo la encuesta en dos muestras una de entrenamiento con el 70% de los datos y una
muestra test con el 30% restante, se va ha realizar la clasificacin utilizando una mquina de
soporte vector, para ello hay que instalar el package-R: e1017, e invocar la funcin svm. Se
estima un modelo con un lineal y un Kernel de base radial (la funcin permite adems funciones
base polinomiales y sigmoides). Evaluaremos los resultados con una mtrica de porcentaje de
aciertos, y obtenemos la curva ROC para la muestra test con la funcin radial.
```{r}
library(e1071)
# Seleccin de variables

127
explicativas <-
data.frame(datos1$nmiemb,datos1$nmiem11,datos1$nmiem12,datos1$numinact
i,datos1$numocu)
y=as.factor(datos1$pobre)
datos4 <- data.frame(explicativas,y)
# se estima un modelo svm lineal para la muestra de entrenamiento
train=sample(seq(length(y)),length(y)*0.70,replace=FALSE)
svmfit=svm(datos4$y~.,data=datos4,kernel="linear",scale=FALSE,subset=t
rain)
print(svmfit)
plot(svmfit,datos4,datos1.nmiemb~datos1.numocu)
table(datos4$y[train],svmfit$fitted)
# Prediccin para la muestra test
svm.pred=predict(svmfit,datos4[-train,])
summary(svm.pred)
with(datos4[-train,],table(svm.pred,y))
# se estima un modelo svm lineal para la muestra de entrenamiento y se
predice la muestra de test
svmfit2=svm(datos4$y~.,data=datos4,kernel="radial",scale=FALSE,subset=
train,probability=TRUE)
print(svmfit2)
svm.pred=predict(svmfit2,datos4[-train,],probability=TRUE)
summary(svm.pred)
with(datos4[-train,],table(svm.pred,y))
#grfica curva ROC
library(ROCR)
svm.pred=predict(svmfit2,datos4[-train,],probability =TRUE)
prob=svm.pred=predict(svmfit2,datos4[-train,],probability =TRUE)
predict.rocr <- prediction (attr(prob,"probabilities")[,2],y[-train])
perf.rocr <- performance(predict.rocr,"tpr","fpr") #True y Tasa de
falsos positivos
auc <- as.numeric(performance(predict.rocr ,"auc")@y.values)
plot(perf.rocr,type='o', main = paste('Area Bajo la Curva
=',round(auc,2)))
abline(a=0, b= 1)
```
En primer lugar, se estima un Kernel lineal:

##
##Call:
##svm(formula=datos4$y~.,data=datos4,kernel="linear",
##subset=train,scale=FALSE)
##
##
##Parameters:
##SVMType:Cclassification
##SVMKernel:linear

128
##cost:1
##gamma:0.2
##
##NumberofSupportVectors:4582

La mtrica en la muestra de entrenamiento ofrece el siguiente resultado:

##
##01
##09466319
##11715939

La mtrica en la muestra de test ofrece el siguiente resultado:

##y
##svm.pred01
##04017802
##1129384

La estimacin de un Kernel radial da el siguiente resultado:

##
##Call:
##svm(formula=datos4$y~.,data=datos4,kernel="radial",
##probability=TRUE,subset=train,scale=FALSE)
##
##
##Parameters:
##SVMType:Cclassification
##SVMKernel:radial

129
##cost:1
##gamma:0.2
##
##NumberofSupportVectors:4280

##y
##svm.pred01
##03970757
##1176429

8.7. METODOLOGAS COMBINANDO CLASIFICADORES

Recientemente en el rea de la Inteligencia Artificial el concepto de combinacin de


clasificadores ha sido propuesto como una nueva direccin para mejorar el rendimiento de los
clasificadores individuales. Estos clasificadores pueden estar basados en una variedad de
metodologas de clasificacin, y pueden alcanzar diferentes ratios de individuos bien
clasificados. El objetivo de la combinacin de clasificadores individuales es el ser ms certeros,
precisos y exactos. Los mtodos multiclasificadores ms conocidos son el Bagging (Breiman,
1966) y Boosting (Freund y Schapire, 1996).

El mtodo propuesto por Breinan (1966) intenta aunar las caractersticas del Boostrapping11 y la
agregacin incorporando los beneficios de ambos (Boostrap AGGregatiNG). La operativa del
mtodo es la siguiente:
Se generan muestras aleatorias que sern los conjuntos de entrenamiento. Las muestras
se generan a travs de un muestreo aleatorio con reemplazamiento.
Cada subconjunto de entrenamiento aprende un modelo.

11
El bootstrapping (o bootstrap) es un mtodo de remuestreo propuesto por Bradley Efron en 1979. Se
utiliza para aproximar la distribucin en el muestreo de un estadstico.

130
Para clasificar un ejemplo se predice la clase de ese ejemplo para cada clasificador y se
clasifica en la clase con mayor voto.

El mtodo propuesto por Freund y Schapire (1996), est basado en la asignacin de un peso a
cada conjunto de entrenamiento. Cada vez que se itera se aprende un modelo que minimiza la
suma de los pesos de aquellos ejemplos clasificados errneamente. Los errores de cada iteracin
sirven para actualizar los pesos del conjunto de entrenamiento, incrementando el peso de los
mal clasificados y reduciendo el peso de aquellos que han sido correctamente clasficados. La
decisin final para un nuevo patrn de clasificacin viene dada por la votacin mayoritaria
ponderada entre los diferentes conjuntos de entrenamiento.

El package R: ipred opera multiclasificadores por los mtodos bagging y boosting.

131
9. BIBLIOGRAFA

Introduccin a R:
https://www.datacamp.com/courses/introduccion-a-r/?tap_a=5644-
dce66f&tap_s=10907-287229

Achim Zeileis, Torsten Hothorn (2002). Diagnostic Checking in Regression Relationships. R


News 2 (3), 7-10. URL http://CRAN.R-project.org/doc/Rnews/

Albright,R., Lerman,S. y Manski,C. (1977), Development Of An Estimation Program For The


M. Probit Model. Federal Highway Administration

Akaike, H. (1974), A new look at the statistical model identification, IEEE Transactions on
Automatic Control AC-19, pp. 716723.

Amemiya, T. (1978), On A Two-Step Estimation Of A Multivariate Logit Model, Journal Of


Econometrics 8.

Anderson, R. L. (1942), Distribution of the Serial Correlation Coefficient, Annals of


Mathematical Statistics, 1942: 1-13.

Ashley, Richard A. (1984), A Simple Test for Regression Parameter Instability, Economic
Inquiry 22, No. 2, 253-267.

Aznar, A. y Trvez, F. J. (1993), Mtodos de Prediccin en Economa II: Anlisis de Series


Temporales, Ed. Ariel.

Bassmann, R. (1957). A Generalized Classical Method Of Linear Estimation Of Coefficients


In A Structural Equation. Econometrica 25, pp. 77-83

Beltran, Mauricio (2015): Diseo e implementacin de un nuevo clasificador de prstamos


bancarios a travs de minera de datos. Tesis Doctoral. Departamento de Economa Aplicada y
Estadstica. UNED.

Breiman, Leo (1996). "Bagging predictors". Machine Learning 24 (2): 123140.


doi:10.1007/BF00058655. CiteSeerX: 10.1.1.32.9399.
http://link.springer.com/article/10.1007%2FBF00058655

Box, G.E.P., Jenkins, G.M. y Reinsel, G.C. (1994), Time Series Analysis - Forecasting and
Control, 3rd Edition, Prentice Hall.

Cayuela L (2010) Modelos lineales generalizados (GLM). EcoLab, Centro Andaluz de Medio
Ambiente, Universidad de Granada. Junio 2010.

Chateld, Cris (2004). The Analysis of Time Series: An Introduction (6th edn.), 2004. CRC Press

Chow, G.C. (1983), Econometrics, McGraw-Hill, New York.

Christ (1960). Simultaneus Equations Estimation: Any Veredict Yet?. Econometrica 28, pp.
835-845.

132
Cochrane, D. y Orcutt, G. H. (1949a), Application Of Least Squares Regression To
Relationships Containing Autocorrelated Error Terms, Journal of American Statistical
Association 44, pp. 32-61.

Cochrane, D. y Orcutt, G. H. (1949b), A Sampling Study Of The Merits Of Autorregressive


And Reduced Form Transformations In Regression Analysis Journal of American Statistical
Association 44, pp. 356-372.

Dickey, D.A. y W.A. Fuller (1979), Distribution of the Estimators for Autoregressive Time
Series with a Unit Root, Journal of the American Statistical Association, 74, p. 427431.

Durbin, J. y Koopman, S. J. (2001), Time Series Analysis by State Space Models (Oxford
Statistical Science Series, n 24), Oxford University Press.

Durbin, J. y Watson, G. S. (1950), Testing for Serial Correlation Least Squares Regressions,
Biometrika, vol 37. pp. 409-428.

Engle, Robert F. (1974), Band Spectrum Regression,International Economic Review 15,1-11.

Bradley Efron, Elizabeth Halloran, and Susan Holmes (1996). "Bootstrap confidence levels for
phylogenetic trees". PNAS 93 (23): http://www.pnas.org/content/93/23/13429.full.pdf

Fisher, R. A. (1936). "The Use of Multiple Measurements in Taxonomic Problems". Annals of


Eugenics 7 (2): 179188.

Fix, E.; J.L. Hodges (1989) (1951): An Important Contribution to Nonparametric Discriminant
Analysis and Density Estimation: Commentary on Fix and Hodges (1951). International
Statistical Review / Revue Internationale de Statistique 57 (3): 233-238.

Freund, Y; Schapire, R (1997); A Decision-Theoretic Generalization of On-Line Learning and


an Application to Boosting, Journal of Computer and System Sciences, 55(1):119-139.
http://cseweb.ucsd.edu/~yfreund/papers/adaboost.pdf

Fukunaga y Kessell (1973): Nonparametric Bayes error estimation using unclassified


samples. IEEE Transactions on Information Theory (Volume:19 , Issue: 4 ):434-440.

Gallant, A. R.(1981) "On the Bias in Flexible Functional Forms and an Essentially Unbiased
Form." J. Econometrics 15(1981):211-45.

Gallant, A. R.(1984) "The Fourier Flexible Form." Amer. J. Agr. Econ. 66(1984):204-15

Goldfield, S. M. y Quandt, R. E. (1965), Some test for Homocedasticy, Journal of American


Statistical Association. Vol 37. pp 539-547.

Granger, C. W. J. (1969), Investigating causal relations by econometric models and cross-


spectral methods, Econometrica 37, p. 424-438.

Granger, C.W.J.(1981), Some properties of time series data and their use in econometric model
specification, Journal of Econometrics 16, pp. 121-130.

Granger, C.W.J., y Newbold, P. (1974), Spurious regressions in econometrics, Journal of


Econometrics 2, pp. 111-120

133
Greene, W. H. (2000), Anlisis Economtrico, Ed. Prentice Hall

Gujarati, D. (1997), Basic Econometrics, McGraw-Hill

Gujarati, D. (2003), Econometra, Ed. McGraw-Hill

Hannan, E.J. (1963), Regression for Time Series, in Rosenblatt, M. (ed.), Time Series Analysis,
New York, John Wiley.

Hastie, T, Tibshirani R. and Friedman, J. (2008), The Element of Statistical Learning. Data
Minining, Inference and Prediction. Second Edition. Springe.

Harvey, A.C. (1978), Linear Regression in the Frequency Domain, International Economic
Review, 19, 507-512.

Hausman, J.A. (1974), Estimation and Inference in Nonlinear Structural Models, Annals of
Economic and Social Measurement, con Berndt E., Hall R.E. y Hall, B.H. October 1974.

Hausman, J.A. (1974): Full Information Instrumental Variables Estimations of Simultaneas


Equations Systems, Annals of Economic and Social Measurement, Vol 3. n 4. pp. 641-652.

Hausman, J.A. (1978), Specification tests in econometrics, Econometrica, 46, pp. 1251-71.

Hsiao, C. (1986), Analysis of Panel Data. Cambridge University Press.

Johnston, J. (1997), Econometric Methods. McGraw-Hill.

Johnston, J. y Dinardo, J. (2001), Mtodos De Econometra, Ed. Vicens-Vives 3 Ed.

Intriligator, M. D. (1978). Econometrics Models. Techniques And Applications. North-Holland.


New York.

Klein, L. R. (1960). Single Equation Vs. Equation System Methods Of Estimation In


Econometrics. Econometrica 28, pp. 866-871.

Klein, L. R. y Goldberger, A. (1955), An Econometric Model Of United States, 1929-1952.


North-Holland, Amsterdam.

Koopmans, T.C., Rubin, H. y Leipnik, R.B. (1950). Measuring The Equation System Of
Dinamic Economics, en Statistical Inference In Dinamic Economic Models, Cowles
Commision Monografico n 10. John Wiley. Nueva York.

Kuh, L.M. (1959), The Validity Of Cross-Sectionally Estimated Behavior Equations


Econometrica 27.

Liu, T. (1960), Underidentification, Structural Estimation, And Forecasting Econometrica 28,


pp. 855-865.

McFadden, D. (1974), Conditional Logit Analysis Of Qualitative Choice Behaviour, en


Frontiers In Econometrics, Ed. P. Zarembka, Academic Press. Nueva York.

134
McFadden, D. (1976), Quantal Choice Analysis: A Survey, Annals Of Economic And Social
Measurement.

Mood, A. M. (1950), Introduction to the Theory of Statistics, McGraw-Hill.

Muth, J.F. (1961), Rational Expectations And The Theory Of Price Movements,
Econometrica 29, pp. 315-335.

Muoz A., Parra F. (2007): Econometra Aplicada. Ediciones Acadmicas

Nelder, John; Wedderburn, Robert (1972). "Generalized Linear Models". Journal of the Royal
Statistical Society. Series A (General) (Blackwell Publishing) 135 (3): 370384.

Novales, A. (1993), Econometra, 2 Edicin, McGraw-Hill.

Parra, F.(2016): Econometria Aplicada I.


https://econometria.files.wordpress.com/2014/11/parra-econometria-aplicada-i1.pdf

Parra, F.(2016): Econometria Aplicada II.


https://econometria.files.wordpress.com/2015/01/parra-econometria-aplicada-ii5.pdf.

Pindyck, R. S. y Rubinfield, D. L. (1976), Econometric Models and Economic Forecast,


McGraw-Hill.

Pindyck, R. S. y Rubinfield, D. L. (1980), Modelos Economtricos, Ed. Labor.

Pulido, A. (1983), Modelos Economtricos, Ed. Pirmide

Rosenberg, B. (1973), A Survey Of Stochastic Parameter Regression, Annals Of Economic


And Social Measurement 2.

Samuelson, P. A., Koopmans, T. C. y Stone, J. (1954), Report Of The Evaluative Committe


For Econometrica, Econometrica 22, pp. 141-146.

Sargan, J. D. (1958), The Estimation Of Economic Relationships Using Instrumental


Variables, Econometrica 26, pp. 393-415.

Sargent, T.J. (1984), Vector autoregressions, expectations and advice, American Economic
Review 74, pp.408-415

Stewart, M. y Wallis, K. (1984), Introduccin a la Econometra, Alianza Editorial.

Swamy, P. A. y Menhta, J. S. (1977), Estimation Of Linear Models With Time And Cross-
Sectionaly Varying Coefficients, Journal Of The American Statistical Association 72.

Tan, Hui Boon & Ashley, Richard, 1999. "Detection And Modeling Of Regression Parameter
Variation Across Frequencies," Macroeconomic Dynamics, Cambridge University Press, vol.
3(01), pages 69-83, March.

135
Theil, H. (1954), Estimation Of Parameters Of Econometrics Models, Bulletin Of
International Statistics Institute 34, pp.122-128.
Tinbergen, J. (1930), Bestimmung Und Deutung Von Angebotkurven, Zeitschrift Fr
Nationalkonomie 1.

Venables, W. N. y Ripley, B. D. (2002), Modern Applied Statistics with S. 4 Ed., Springer.

White, H. (1980), An Heteroskedastic-Consistent Regression with Independent Observation,


Econometrica 48, pp. 817-838.

Working, E.J. (1927), What Do Statistical Demand Curves Show?, Quarterly Journal Of
Economics 41.

Wright, P.G. (1915), Review Of Economic Cycles By Henry Moore, Quarterly Journal Of
Economics 29.

Wright, P.G. (1928), The Tariff On Animal And Vegetable Oils, New York, The Mcmillan
Company

136
10. ANEXO I

137

S-ar putea să vă placă și