Sunteți pe pagina 1din 10

TEMA 4

PROBLEMÁTICA DEL MODELO ECONOMÉTRICO

- Multicolinealidad

- Observaciones atípicas

- Var(U) matriz no escalar. Mínimos cuadrados generalizados

- Heteroscedasticidad

- Autocorrelación. Esquema autorregresivo de orden uno

- Aplicaciones con SPSS: menú y sintaxis

Este tema aborda distintos problemas que pueden presentarse en la modelización


econométrica. Algunos de estos problemas, como la multicolinealidad aproximada o la
presencia de observaciones influyentes, vienen generados por la muestra. Otros son
problemas del modelo, debido al incumplimiento de hipótesis de la perturbación
aleatoria.
Se analiza la forma de detectar dichos problemas y se desarrollan posibles soluciones.

1
4.1 Multicolinealidad aproximada

Problema de la muestra generado por la existencia de dependencia lineal entre


variables explicativas.

Var ( ˆ ) =  2 ( X ´ X ) 1

1 2
Para ˆ j : Var ( ˆ j ) =  2 ( X ´ X ) jj = 2
NS xx (1  R j )

donde Rj2 es el coeficiente de determinación de la regresión auxiliar con


variable dependiente Xj y explicativas el resto de variables explicativas.
La variabilidad del estimador ˆ j aumenta considerablemente cuando Xj
queda bien explicada por las demás variables.

Consecuencias de una alta variabilidad de los estimadores:


- Signos de coeficientes estimados contrarios a la lógica
- T-ratios pequeños, variables que no muestran capacidad explicativa,
en contra de lo esperado
- Intervalos de confianza muy amplios
- Cambios importantes en los coeficientes estimados ante pequeños
cambios en la muestra
Estas consecuencias sirven a su vez de indicios de multicolinealidad

Confirmación de la presencia de multicolinealidad y grado de la


misma:
- Existencia de correlaciones altas entre pares de variables
- Tolerancias bajas (1 - Rj2), FIV (factor de inflación de varianza,
inverso de tolerancia) altos
- Número de Condición, NC (raíz cuadrada del cociente entre el
mayor y el menor valor propio de la matriz X´X acondicionada) alto

Cierto grado de multicolinealidad es asumible. Un nivel demasiado alto


(multicolinealidad severa) es insostenible. El grado se mide a través del
Número de Condición.
NC menor que 10 no se considera problema

2
NC entre 10 y 20 multicolinealidad moderada (asumible)
NC entre 20 y 30 multicolinealidad fuerte
NC mayor que 30 multicolinealidad severa (no asumible)

Posibles soluciones:
- Aumento del tamaño muestral. Además, si es factible, incorporar
observaciones cuyos valores de las X,s debiliten la relación lineal
entre las variables.
- Eliminación de algunas variables. Puede ocasionar sesgo en los
estimadores, pero el problema del sesgo puede quedar compensado
por una disminución considerable de la variabilidad.
- Transformaciones en las variables, ratios. Puede ocasionar
problemas de otra índole en la perturbación.

4.2 Observaciones atípicas

Podemos detectar observaciones atípicas por:

1) Sus valores en las variables explicativas


2) Su influencia en la estimación
3) Ambas cosas

1) Se detectan a través del leverage. Leverage alto indica que la observación dista
mucho del vector de medias de las variables explicativas.

Para localizar estas observaciones en SPSS tenemos dos opciones : Mahalanobis y


valores de influencia. Son opciones equivalentes (una es proporcional a la otra) y
están relacionadas con el leverage. El orden de menor a mayor que inducen en el
fichero es el mismo que el del leverage.

Como criterio, podemos obtener la media y la desviación típica de la variable


Mahalanobis y localizar las observaciones cuya distancia de mahalanobis supera a
la media + 2S o bien a la media +3S.

Una observación atípica únicamente por esta razón no perjudica a la estimación,


más bien al revés, amplía su campo de acción.

3
2) Estas observaciones alteran la estimación de los betas. La estimación cambia
sensiblemente según estén o no presentes en la muestra.

Para detectarlas en SPSS tenemos la distancia de Cook: es un indicador del cambio


global que se produce en el vector de coeficientes estimados. Una distancia de Cook
alta indica que se produce un cambio importante.

Calculamos la media y la desviación típica de la distancia de Cook y utilizamos el


criterio del apartado 1.

Además de ver qué observaciones alteran más los coeficientes estimados,


globalmente, podemos ver qué observaciones alteran más algún beta en particular.
Para ello están los Dfbetas en SPSS. Por ejemplo el valor de Dfbeta3 para la
observación 5ª, representa la diferencia entre el ˆ3 con las N observaciones y el
ˆ3 sin la observación 5ª. A diferencia de Mahalanobis y Cook, los Dfbetas pueden
tomar valores positivos o negativos.

3) Una observación puede ser atípica por ambas cosas (Mahalanobis y Cook).

La detección de observaciones que alteran sensiblemente la estimación del modelo


(casos 2 y 3) es el paso previo a su eliminación.

4.3 Matriz Var(U) no escalar; Mínimos Cuadrados Generalizados


MCG

Abordamos aquí un problema del modelo: se incumplen hipótesis relativas a varianzas


y/o covarianzas de las perturbaciones aleatorias.

Var (U ) =  2 con 

esta expresión indica que: o bien la varianza no es común, o bien que


existen covarianzas no nulas entre perturbaciones o ambas cosas.

Consecuencias de realizar la estimación MCO:


1) se obtiene un estimador Lineal, Insesgado pero no óptimo, ya que

Var ( ˆMCO ) =  2 [ ( X ´ X ) 1 X´X ( X ´ X ) 1 ] no es la menor posible

2) La expresión SR/N-k , calculada con los residuos de la estimación


MCO, no es una estimación insesgada de  2

4
MÉTODO DE MÍNIMOS CUADRADOS GENERALIZADOS
Consiste en obtener el estimador óptimo (lineal, insesgado y de mínima varianza) a
través de un modelo auxiliar que posee los mismos parámetros que el modelo
original y una perturbación aleatoria que satisface las hipótesis de
homoscedasticidad y ausencia de autocorrelación.

Por tratarse de una matriz simétrica, admite una descomposición en producto de


dos matrices una traspuesta de otra, P P´

Tomando P-1 y multiplicando se tiene: P-1Y = P-1X + P-1 U

Llamando Y* = P-1Y, X* = P-1X, U* = P-1 U, tenemos un modelo auxiliar


Y* = X* + U* con los mismos parámetros que el original pero con la ventaja
de que su perturbación U* verifica las hipótesis:

Var (U*) = Var (P-1 U) = P-1Var (U) (P-1)´ = P-1  2  (P-1)´ =  2 P-1 P P´ (P-1)´ =
= 2I (ya que (P-1)´ = (P´)-1 )

Dado que en este modelo auxiliar la matriz Var (U*) =  2 I, aplicando MCO se
obtendrá el estimador óptimo:
̂ *  ( X *´ X * ) 1 X *´Y * estimador óptimo cuya varianza es:
Var ( ˆ * ) =  2 ( X *´ X * ) 1 la varianza mínima

La estimación insesgada de  2 es: SR*/N-k

El estimador óptimo recibe el nombre de estimador MCG (mínimos


cuadrados generalizados) y se puede expresar en función de las variables
originales:

̂ *  ( X *´ X * ) 1 X *´Y * = ........= (X´ X) X´ Y = ˆG


-1 -1 -1

Var ( ˆ * ) =  2 ( X *´ X * ) 1 = ......=  2 ( X ´ X ) = Var ( ˆG )


1 1

,
uˆ  1uˆG
Estimación insesgada de  : 2
SR*/N-k = ........ = G , siendo uˆ´G = Y - X ˆG
N k

Aclaración: el método MCG no elimina el problema existente en el modelo original. Su


utilidad consiste en proporcionar el estimador óptimo para los parámetros del
modelo en presencia de dicho problema.

Hasta aquí una presentación general del problema Var (U ) =  2 con 
Ahora abordaremos por separado los dos problemas más frecuentes: heteroscedasticidad
y autocorrelación.

5
4.4 Heteroscedasticidad

Es un caso particular de Var (U ) =  2 con Concretamente, es el caso en el


que
es una matriz diagonal pero con elementos distintos en la diagonal. Es la forma de
expresar que la varianza no es común para todas las perturbaciones. Por lo tanto el
modelo posee distinta calidad: hay “zonas” con más dispersión que otras.
Por lo general es un problema que se manifiesta en relación con alguna variable
explicativa del modelo.

w1 0............0 �
� � w1 0............0 �
� � � �
0 w2 ...........0 �
� �
0 w2 ...........0 �
 � P =� �
... ................. � ... .....................
� �
� �
0 ...............w N � � �
� 0 ............... w N
� �


1/ w1 0............0 �
� �
0 1/ w2 ...........0
� �
P-1 = � �
... .....................
� �
� �
0 ...............1/ w N
� �

El modelo auxiliar a partir del cual se obtiene el estimador óptimo es:


�1/ w1 0............0 �� Y �
Y1 / w1 �
� ��1 � � � �
�0 1/ w 2 ...........0 � Y
� � 2
2 �
Y / w 2

Y* = P-1Y = � �� �= � �
�... ..................... ��... ............. �


� ��YN � � �
�0 ...............1/ w N � YN / w N �

X* = P-1X =
�1/ w1 0............0 ��1 x21 x31....xk1 � � 1/ w1 �
x21 / w1 ....xk 1 / w1
� �� � � �
�0 1/ w2 ...........0 ��1 x22 x32 ....xk 2 � � 1/ w2 x22 / w2 ....xk 2 / w2 �
=� �� =� �
�... ..................... ��... ................. � �
... ................. �

� ��1 x2 N x3 N ...xkN � � �
�0 ...............1/ w N � 1/
� w N x2 N / wN ...xkN / wN �

Las variables del modelo auxiliar muestran que las observaciones han sido ponderadas
con coeficientes distintos: mayores en caso de poca dispersión, menores en caso de
dispersión mayor.

yi* = yi/ wi

6
xji* = xji / wi

En la práctica, el estudio de heteroscedasticidad se realiza siguiendo los pasos:

Indicios
Gráficos de residuos MCO frente a variables explicativas con forma de embudo.

En el caso MLS se puede apreciar el ensanchamiento en la propia nube de puntos.

Los gráficos de residuos en valor absoluto muestran la progresiva aparición de residuos


más grandes (o más pequeños)

Confirmación
Test de Goldfeld y Quandt G-Q y test de Spearman

2 2
G-Q: Ho homoscedasticidad (  1   2 )
- se ordena la muestra en función de la variable seleccionada en los gráficos de residuos
- se prescinde de c observaciones centrales (c ≤ N/3) a fin de evidenciar la diferencia
entre sumas residuales si es que la hay.
- se estima por MCO con las (N-c)/2 primeras observaciones y se obtiene la suma
residual
- lo mismo con las (N-c)/2 últimas
- se obtiene el cociente de sumas residuales (en el numerador la mayor SR)
- se compara el resultado con el percentil 95 de la distribución F de grados de libertad
((N-c)/2) - k, ((N-c)/2) - k
- si el cociente de sumas residuales supera dicho percentil, se rechaza la hipótesis y
queda confirmada la heteroscedasticidad.

SPEARMAN: Ho homoscedasticidad (incorrelación entre las ordenaciones de: a) los


residuos en valor absoluto y b) la variable seleccionada en los gráficos de residuos)

- se calcula el coeficiente de correlación de rangos de Spearman:


6 d i
2
rs = 1 -
N3  N

Valores cercanos a +1 indican que las ordenaciones son concordantes


Valores cercanos a -1 indican que las ordenaciones son discordantes
Valores cercanos a 0 indican que las ordenaciones son independientes

rS N  2
- se calcula el estadístico 2
que se distribuye una tN-2
1  rS
- en caso de que el estadístico se ubique en cualquiera de los extremos de la
distribución, fuera del intervalo de aceptación, se rechaza la hipótesis y queda
confirmada la heteroscedasticidad.

ESTIMACIÓN ÓPTIMA en presencia de heteroscedasticidad

7
Una vez confirmada la heteroscedasticidad, se debe aplicar el método MCG (visto en
4.3) para obtener el estimador óptimo.

El problema que surge es el de obtener la matriz 

Dado que el tamaño de los residuos está relacionado con la variable explicativa X j (que
confirma la heteroscedasticidad) y que a su vez los residuos son reflejo del
comportamiento de las perturbaciones aleatorias, se plantean los elementos de la matriz
 wii como función de Xji
En particular, SPSS plantea funciones potenciales wii Xjiy proporciona la potencia
que mejor se adapta a los datos.

4.5 Autocorrelación. Esquema autorregresivo de orden 1


Es un caso particular de Var (U ) =  2 con Concretamente, es el caso en
el que deja de ser una matriz diagonal ya que aparecen covarianzas no nulas entre
perturbaciones.

La autocorrelación va ligada a determinado orden entre las observaciones, orden


vinculante. El caso más representativo es el de datos temporales.

Var (ut ) común t


Cov (ut, ut´)  0 para algún tt´

Principales causas de autocorrelación:


- Un suceso imprevisto que surge en el tiempo t y cuyos efectos se dejan sentir en
t+1, t+2, etc.
- Incorrecta especificación del modelo. Por ejemplo un modelo que debería ser
formulado como dinámico (utilizando como explicativa la variable dependiente
retardada) y se plantea como estático.
- Manipulación de datos, por ejemplo suavizado de la serie temporal a través de
medias móviles.

La autocorrelación se analiza a partir de distintos esquemas, aquellos que se


presentan con más frecuencia en la práctica.

Ejemplo 1 de esquema de autocorrelación


ut = t – 0.3 t-1 con t verificando las hipótesis t

en este tipo de esquema se pueden deducir las características de ut y la


correspondiente matriz 

Ejemplo 2 de esquema de autocorrelación


ut = ut-1 + t -1< con t verificando las hipótesis t

8
en este esquema hace explícita la influencia de ut-1 en ut. Se denomina
Autorregresivo de orden 1, AR(1).

ESQUEMA AUTORREGRESIVO DE ORDEN 1 AR(1)


La matriz es:

En la matriz se puede observar cómo, a medida que aumenta la distancia en el


tiempo, la correlación entre perturbaciones se debilita >2>3...

Significado de las variables del modelo auxiliar:

Y1 1   2 
 
Y2  Y1 
 
-1
Y* = P Y =

............. 
 Y  Y 
 T T 1 
 1  2 x 21 1   2 .... xk 1 1   2 

 1  x22  x 21 .... x k 2  x k 1 
X* = P-1X =  
 .... .... .... .... 
 1  x   x .... x   x 
 2T 2 T 1 kT kT 1 

Las variables del modelo auxiliar muestran que se ha eliminado la influencia del
periodo anterior:

9
yt* = yt – yt-1
xjt* = xjt – xjt-1

En la práctica, el análisis de autocorrelación AR(1) se realiza siguiendo los pasos:

Indicios
Gráfico de residuos con residuos retardados en un periodo: una relación lineal
creciente o decreciente indica que podemos estar ante un esquema AR(1)

Confirmación
Test de Durbin Watson
Ho:  = 0 (no hay autocorrelación AR(1))

�(uˆ t  uˆt 1 ) 2
Estadístico DW = t 2
T
�2(1  rRES ) donde rRES es el coeficiente de
�uˆ
t 2
t
2

correlación lineal entre los residuos y los residuos retardados en un periodo, que se
puede utilizar como valor aproximado del coeficiente  del esquema.

0__________(__¿?_)_____2_____(_¿?__)__________4
rechazar aceptar rechazar

La tabla de Durbin Watson indica las zonas de rechazar Ho, de No Rechazar, así
como las zonas de indecisión.

ESTIMACIÓN ÓPTIMA en presencia de AR(1)


Cuando se rechaza la hipótesis del test de Durbin-Watson queda confirmada la
autocorrelación AR(1) y se procede a aplicar MCG para obtener el estimador
óptimo.

En SPSS, el procedimiento de Cochrane-Orcutt localiza, por pasos sucesivos, el


valor de  más adecuado a los datos y realiza la estimación óptima con dicho valor.

4.6 Aplicaciones con SPSS: menú y sintaxis


        Prácticas de ordenador 9,10, 11 y 12 enunciadas y resueltas

10

S-ar putea să vă placă și