Sunteți pe pagina 1din 38

Tema 5: Regresin con

datos de seccin
cruzada
Universidad Complutense de
Madrid
2013
1
Introduccin (I)
En este tema se trata el incumplimiento de dos hiptesis
del MLG, aparentemente no relacionadas, que son: la
varianza no constante del error (heteroscedasticidad) y
la no normalidad del error. Un tercer problema
relacionado con los dos anteriores, es la presencia de
datos atpicosen la muestra.
Estos problemas estn relacionados por diversos
motivos:
(1) Existen distribuciones no normales que producen
heteroscedasticidad (por ejemplo, las variables log-
normales que no son normales en nivel, pero s en log)
(2) Cuando contrastamos normalidad con datos
heteroscedsticos, frecuentemente se rechaza la nula
2
Introduccin (II)
(3) Muchas veces, la presencia de datos atpicos (outliers)
provoca la presencia de heteroscedasticidad y/o no
normalidad. La solucin aqu es la deteccin y el
tratamiento adecuado de los atpicos.
El esquema a seguir en estos temas es el siguiente:
(a) Cando surgen tpicamente estos problemas?
(b) Cales son sus consecuencias sobre el estimador
MCO y sus propiedades estadsticas?
(c) Qu procedimientos grficos y/o estadsticos existen
para la deteccin?
(d) Cmo se resuelven?
3
No normalidad (I)
Cuando usamos datos econmicos, la no normalidad
surge al modelizar variables que toman valores positivos
(que toman valores muy cerca y muy lejos del cero) Por
ejemplo, variables como salarios, precios, tamaos de
empresas, etc. Si los datos de la variable a explicar no
son normales, es muy difcil que el error se distribuya
como una normal. Las propiedades de linealidad,
insesgadez y eficiencia (en el sentido del Teorema de
Gauss-Markov) se mantienen, pero
Los contrastes de hiptesis habituales, los intervalos de
confianza o la prediccin por intervalo de la variable
endgena dejan de ser vlidos. Esta es la consecuencia
ms importante de que los datos no sean normales.
4
No normalidad (II)
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0 10 20 30 40 50 60 70
D
e
n
s
i
d
a
d
wage
wage
N(6.3067,4.6606)
Estadstico para el contraste de normalidad:
Chi-cuadrado(2) = 1760.382, valor p = 0.00000
Ejemplo: En la figura de la izquierda se
muestra el histograma de la seccin cru-
zada de salarios (wage) en dlares por
hora de 1260 trabajadores americanos.
La lnea de puntos muestra la funcin de
distribucin de una variable estrictamente
Normal con la misma media y varianza
que la variable de salarios.
Se observa que la distribucin de salarios
presenta asimetra a la derecha, ya que
han de ser siempre positivos y tiene ms
apuntamiento que la normal (es decir,
tiene exceso de curtosis). Los residuos de
una regresin que explique esta variable,
frecuentemente no seguirn una normal.
Muchas variables de tamao
presentan este tipo de histograma
5
No normalidad (III)
15
10
5
0
5
10
15
2
9

1
2

8
9
0
9

0
1

9
2
1
2

0
1

9
4
1
9

0
1

9
6
2
6

0
1

9
8
2
7

0
1

0
0
2
8

0
1

0
2
2
9

0
1

0
4
1
8

0
1

0
6
R
e
n
d
i
m
i
e
n
t
o

I
B
E
X
3
5
Da
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
-10 -5 0 5 10
D
e
n
s
i
d
a
d
IBEX_35
IBEX_35
N(0.04447,1.3105)
Estadstico para el contraste de normalidad:
Chi-cuadrado(2) = 2112.697, valor p = 0.00000
A veces, la heteroscedasticidad es una
caracterstica estructural de los datos. Por
ejemplo, el rendimiento de los activos
financieros cuando los observamos con alta
frecuencia (datos diarios, intradiarios)
En la primera figura de la derecha se
muestra la evolucin diaria del rendimiento
porcentual del IBEX-35 y en la figura de
abajo se dibuja su distribucin de frecuencias
frente a la normal.
Lo relevante es observar el alto exceso de
curtosis de los datos financieros, debido
fundamentalmente a la alternancia entre
perodos de alta volatilidad y baja volatilidad
(ver los dos crculos del grfico de arriba).
Esto hace que no podamos hablar de
homoscedasticidad.
6
No normalidad (IV)
0
0.005
0.01
0.015
0.02
0.025
0.03
0.035
150 200 250 300 350
D
e
n
s
i
d
a
d
GESTATION
GESTATION
N(279.1,16.01)
Estadstico para el contraste de normalidad:
Chi-cuadrado(2) = 454.599, valor p = 0.00000
1.5
2
2.5
3
3.5
4
4.5
5
150 200 250 300 350
B
W
T
GESTATION
BWT con respecto a GESTATION (con ajuste mnimo-cuadrtico)
Y = -0.305 + 0.0132X
La presencia de outliers en la muestra crea la
apariencia de heteroscedasticidad y/o no
normalidad.
Por otro lado, los outliers son un problema en s
mismos, ya que unos pocos datos atpicos
pueden cambiar significativamente las
estimaciones y en este sentido, hablamos de
observaciones influyentes.
Los dos grficos de la derecha muestran la
distribucin de los datos de Das de Gestacin
(Gretl Wooldrige) y su relacin con el Peso del
nio recin nacido. Se observan unos valores de
Das de Gestacin sospechosamente muy
pequeos (lo que hace que la distribucin tenga
asimetra a la izquierda). A su vez, esos pocos
datos atpicos en Gestacin pueden tener un
peso importante en la estimacin por MCO. Si
los eliminamos cambia la pendiente de la recta.
7
No normalidad (V)
El contraste ms conocido y utilizado de normalidad es el que
desarrollaron Jarque-Bera (JB), en donde, bajo la hiptesis nula
tenemos normalidad [en concreto, que el coeficiente de asimetra
(CA) es cero y la curtosis (CK) es 3]. Estos momentos de 3 y 4
orden son:
que son combinados en el estadstico de contraste siguiente:
Si el valor del JB para la muestra supera el valor crtico de la
distribucin chi-cuadrado con dos grados de libertad (al nivel de
significacin escogido) se rechaza la nula de normalidad.

n
i x
i
x
X
CA
n
m
s
=

-

3
1
1

n
i x
i
x
X
CK
n
m
s
=

-

4
1
1

( )
H
CA CK
JB n c

-


= +




2 2
2
2
0
3
6 24

8
No normalidad (VI)
La mejor forma de tratar la no normalidad de los datos,
depende de la causa del mismo. As,
(1) Si la variable slo toma valores positivos, la
transformacin logartmica puede inducir normalidad
(2) Si el problema es la heteroscedasticidad, el
tratamiento de la misma es ms complicado y se ver en
las siguientes secciones del tema actual.
(3) Si el problema es la presencia de outliers, la solucin
es detectarlos y, en ocasiones, eliminarlos de la
muestra.
9
Heteroscedasticidad (I)
Si los datos son temporales, las formas ms comunes
de heteroscedasticidad son:
100
200
300
400
500
600
700
1950 1952 1954 1956 1958 1960
A
i
r
l
i
n
e
15
10
5
0
5
10
15
2
9

1
2

8
9
0
9

0
1

9
2
1
2

0
1

9
4
1
9

0
1

9
6
2
6

0
1

9
8
2
7

0
1

0
0
2
8

0
1

0
2
2
9

0
1

0
4
1
8

0
1

0
6
R
e
n
d
i
m
i
e
n
t
o

I
B
E
X
3
5
Da
Ejemplo: N de pasajeros que vuela
mes a mes en una compaa area.
Se observa que la varianza crece a
medida que crece la media de la
serie.
Ejemplo: Rendimiento (en %)
diario del IBEX-35
Se observan das de alta
varianza seguidos de otros de
poca volatilidad
10
Heteroscedasticidad (II)
Con datos de seccin cruzada, la
heteroscedasticidad surge muchas
veces al tratar con unidades de
diferente tamao. Estas unidades
pueden ser familias, empresas, pases,
etc.
Los dos grficos de la derecha
muestran algunos resultados de la
estimacin de la relacin del Gasto
Pblico sanitario y el PIB (GDP) de un
conjunto de pases de la OCDE. Es
importante notar la existencia de pases
grandes y pequeos en esta muestra.
El grfico (X-Y) de los residuos MCO
resultantes de la regresin versus el
PIB muestra cmo la dispersin de los
mismos crece con el PIB (GDP).
0
100
200
300
400
500
600
0 2000 4000 6000 8000 10000
G
a
s
t
o

b
l
i
c
o

S
a
n
i
t
a
r
i
o
GDP(MMillUSD)
-10
-5
0
5
10
15
20
25
30
35
40
0 1000 2000 3000 4000 5000 6000 7000 8000
r
e
s
i
d
u
o
GDP
Residuos de la regresin (= GSAN_PUB observada - estimada)
11
Heteroscedasticidad (III)
Si el error del MLG no tiene varianza constante, el
estimador MCO de los parmetros es lineal e
insesgado, pero no eficiente. Bajo las hiptesis
deseables, escribimos:
y bajo heterocedasticidad
O en trminos matriciales
que sigue siendo una matriz diagonal si no hay
autocorrelacin en los errores, slo heteroscedasticidad.
Y X | c = +
2 2
[ ] , 1,2,...
i
E i n c o = =
2 2
[ ] , 1,2,...,
i i
E i n c o = =
2
1
2
2
2
0 0
[ ] 0 0
0 0
T
n
E
o
cc o
o
| |
|
= O =
|
|
\ .
12
b
Heteroscedasticidad (IV)
El estimador MCO del MLG tiene la expresin:
O bien, y por tanto, es
insesgado bajo heteroscedasticidad. Es decir, la
esperanza del estimador no depende de la matriz de
varianzas del error, slo de la esperanza del error que es
cero por hiptesis. No obstante, la varianza del
estimador ahora es:
que no coincide con
1

( )
T T
X X X Y |

=
1

( )
T T
X X X | | c

= +
1 1

var[ ] ( ) ( )
T T T
X X X X X X |

= O
2 1

var[ ] ( )
T
X X | o

=
13
Heteroscedasticidad (V)
Implicaciones en la estimacin: Si existe heteroscedasticidad,
y por tanto,
En MCO minimizamos
pero si las varianzas de los datos difieren entre s, sera mejor
asignar un peso ms pequeo a las observaciones con mayor
varianza y un peso ms grande a las que tienen menor varianza. Se
puede usar un criterio de estimacin de Mnimos Cuadrados
Ponderados de la forma que el objetivo es minimizar la suma de
cuadrados de residuos ponderados:
donde las ponderaciones decrecen a medida que crece la
varianza del error. Habr que ver la forma ptima de escoger esos
pesos.
2 2
[ ] , 1,2,...,
i i
E i n c o = =
2
var[ ]
i i
y o =
2
1

[ ]
n
T
i i
i
y x |
=

2 2
1

[ ]
n
T
i i i
i
w y x |
=

i
w
14
Heteroscedasticidad (VI)
Posibles modelos de heteroscedasticidad: Una
posibilidad es que la varianza del error est
directamente relacionada (lineal o no linealmente) con
una variable explicativa del modelo. Por ejemplo:
donde suele ser una variable de tamao. En este
caso, es muy fcil saber cmo ponderar el modelo y
aplicar MCO al modelo ponderado ser eficiente. Si el
modelo original es:
El modelo ponderado se construye dividindolo por
trmino a trmino.
2 2 2
1
var[ ] [ ] , 1,2,...,
i i i
E x i n c c o = = =
0 1 1 2 2 i i i i
y x x | | | c = + + +
1 i
x
15
1 i
x
Heteroscedasticidad (VII)
Es decir:
donde el nuevo error tiene esperanza nula
y varianza constante
Aplicar MCO en el modelo ponderado (transformado) es
eficiente. Slo hay que transformar adecuadamente los
datos de la variable endgena y los de las exgenas y
volver a aplicar MCO al nuevo modelo para recuperar la
eficiencia.
Obsrvese que el trmino constante del modelo ponderado
no coincide con el del modelo original.
0 2
1 2
1 1 1 1
i i i
i i i i
y x
x x x x
| c
| | = + + +
1
i
i
i
v
x
c
=
2 2
2
1
2 2
1 1
var[ ]
var[ ]
i i
i
i i
x
v
x x
c o
o = = =
16
Heteroscedasticidad (VIII)
Desviaciones tpicas de White Si la forma funcional de la
heterocedasticidad no es conocida, o tan simple como en el ejemplo
anterior, sabemos que los contrastes habra que llevarlos a cabo
usando una estimacin de la matriz de varianzas-covarianzas
siguiente:
Si suponemos que no hay autocorrelacin en los errores, aunque s
hay heterocedasticidad, la matriz es diagonal con
elementos en la diagonal principal. Entonces, la matriz de varianzas-
covarianzas anterior se puede escribir:
donde es el vector (kx1) de valores de las explicativas en la
observacin i-sima.
1 1

var[ ] ( ) ( )
T T T
X X X X X X |

= O
W , , . . . ,
n
s s s
2 2 2
1 2
1 2 1
1

var[ ] ( ) ( )
n
T T T
i i i
i
X X x x X X | o

=
(
=
(

i
x
17
Heteroscedasticidad (IX)
Un estimador del parmetro es el cuadrado de los residuos
MCO obtenidos como . Por tanto, una estimacin de
esa matriz de varianzas de los estimadores MCO de es:
denominada estimacin de la matriz de varianzas-covarianzas de
White. La raz cuadrada de los elementos de su diagonal principal
se denominan desviaciones tpicas (o errores estndar) de White.
La matriz de varianzas -covarianzas de White es un estimador
consistente de la siguiente matriz:
i
s
2

T
i i i
y x e b = -
b
1 2 1
1


var[ ] ( ) ( )
n
T T T
i i i
i
X X x x X X | c

=
(
=
(

1 2 1
1

var[ ] ( ) ( )
n
T T T
i i i
i
X X x x X X | o

=
(
=
(

18
Heterocedasticidad (X)
Deteccin: Disponemos de procedimientos grficos y
estadsticos de deteccin de heteroscedasticidad.
(A) Grficos: Si los datos son de seccin cruzada, se
pueden dibujar los residuos MCO resultantes del
modelo original versus alguna(s) variable(s)
explicativa(s) (las candidatas a causar el problema)
ordenadas de menor valor a mayor valor. Por ejemplo,
con respecto al tamao de los pases, tamao de las
empresas, poblacin o nivel de renta de las familias.
En estos grficos, lo habitual es ver mayor dispersin
en los residuos a medida que crece el tamao de la
entidad o la renta familiar, etc.
19
Heteroscedasticidad (XI)
(B) Grficos: Si los datos son temporales, un grfico muy
usado es el denominado Rango-Media. En la figura de
abajo se muestra el grfico Rango-Media para la serie
mensual de pasajeros de una compaa area.
Se divide la muestra en submues-
tras de idntico tamao, por ejem-
plo, de 12 meses.Se calcula para
cada una de las submuestras la
media y la desviacin tpica local.
Se observa una asociacin positiva
(a mayor media, mayor dispersin)
40
60
80
100
120
140
160
180
200
220
240
100 150 200 250 300 350 400 450 500
r
a
n
g
o
media
grfico rango-media de Airline con ajuste mnimo-cuadrtico
20
Heteroscedasticidad (XII)
(B) Estadsticos: existen muchos, veremos slo dos
(B.1) Contraste de Breusch-Pagan Est basado en que
la forma de la heteroscedasticidad es del tipo
donde las variables son las que
explican las diferencias que hay en las varianzas de los
errores y h es cualquier funcin (en principio, lineal). La
hiptesis nula de ausencia de heteroscedasticidad se
corresponde con las (p-1) restricciones siguientes:
2 T
i i
h z o
(
=

( )
2
1, ,...,
T
i i ip
z z z
2 3
... 0
p
= = = =
21
Heteroscedasticidad (XIII)
Pasos del contraste:
Paso 1: Se aplica MCO al modelo original
ignorando que existen problemas con el fin de recuperar
los residuos
Paso 2: Se lleva a cabo una regresin auxiliar en donde se
relacionan los residuos MCO al cuadrado en funcin de las
variables z. Es decir, se usa como estimador de la varianza
de los errores los residuos MCO al cuadrado:
Paso 3: Se calcula de la regresin del Paso 2. Este
estadstico sigue una bajo la nula (es asinttico).
Y X| c = +

Y X c | =
2
1 2 2

....
i i p ip i
z z c q = + + + +
1
2
p
_

2
nR
22
Heteroscedasticidad (XIV)
(B.2) Contraste de White. Un problema del test de
Breusch-Pagan, es que deben conocerse las variables z
que hacen que cambie la varianza del error. En el caso de
que estas variables sean desconocidas, White propone
sustituirlas por: (1) todas las variables explicativas del
modelo, (2) sus cuadrados y (3) sus productos cruzados de
segundo orden.
Ejemplo: Sea el modelo
Paso 1: Se estima el modelo anterior por MCO y se
recuperan los residuos,
Paso 2: Se lleva a cabo la regresin auxiliar siguiente:
0 1 1 2 2 i i i i
y x x | | | c = + + +
0 1 1 2 2

i i i i
y x x c | | | =
2 2 2
0 1 1 2 2 3 1 4 2 5 1 2

i i i i i i i i
x x x x x x c q = + + + + + +
23
Heteroscedasticidad (XV)
Paso 3: Se calcula de la regresin auxiliar anterior,
donde, en este caso:
Este test tambin es asinttico, es decir, su distribucin es
cierta si el tamao de la muestra es suficientemente grande.
Los grados de libertad son 5 en este caso, ya que en la
regresin auxiliar hay 5 pendientes.
Intuicin del contraste: Si el R-cuadrado de esa regresin
auxiliar tiende a cero, las variables xs y sus cuadrados, no
explican apenas el cuadrado de los residuos, indicando que
no existe heteroscedasticidad. Si el R-cuadrado tiende a 1,
como n es muy grande, el valor del estadstico es grande y
se rechaza la nula. Es decir, las xs y sus cuadrados (y/o
productos cruzados), explican bien el cuadrado de los
residuos.
2
nR
2 2
5
nR _
24
Datos atpicos e influyentes (I)
-15
-10
-5
0
5
10
15
20
25
30
-5 0 5 10
I
n
f
l
u
e
n
c
e
1
x
Influence1 versus x (with least squares fit)
Y = 2.14 + 1.54X
A
B
C
Una observacin j se dice que es atpica si el
valor de la variable dependiente difiere mucho
del que esperaramos tener viendo el patrn
general que siguen las dems.
Hay tres tipos de observaciones atpicas:
(1) Relaciones atpicas en el eje de ordenadas
(puntos Ay B de la Figura de la derecha)
(2) Relaciones atpicas en el eje de abcisas
(3) Relaciones atpicas en el eje de ordenadas y
de abcisas (punto C de la Figura)
Pueden surgir varios problemas al existir datos
atpicos:
(a) La posible apariencia de no normalidad y/o
heteroscedasticidad.
(b) Se distorsionan los resultados MCO, al ser el
peso de estos datos excesivo en la estimacin.
Usando datos simulados, se
dibuja en el plano X-Y la nube de
puntos junto con los resultados de
la estimacin MCO de un modelo
lineal simple.
25
j
y
Datos atpicos e influyentes (II)
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
-30 -20 -10 0 10 20
D
e
n
s
i
t
y
uhat2
uhat2
N(2.1916e-015,5.9883)
Test statistic for normality:
Chi-square(2) = 65.635 [0.0000]
Como se muestra en la informacin de arriba, la estimacin por MCO del
modelo que relaciona Influence1 sobre x, genera dos residuos muy altos
(uno de signo positivo y otro de signo negativo). Esto genera un exceso de
curtosis en la distribucin de los residuos.
Obsrvese cmo el contraste de normalidad a travs del estadstico de
J arque-Bera rechaza contundentemente la nula de normalidad.
26
Datos atpicos e influyentes (III)
-10
-5
0
5
10
15
-4 -2 0 2 4 6
B
a
s
e
D
a
t
a
x
BaseData versus x (with least squares fit)
Y = 2.19 + 1.59X
-15
-10
-5
0
5
10
15
-4 -2 0 2 4 6
I
n
f
l
u
e
n
c
e
4
x
Influence4 versus x (with least squares fit)
Y = 1.47 + 1.19X
En el primer grfico se muestra la recta de
regresin estimada al usar la variable
Influence1, eliminando los puntos A, B y C de la
muestra. Cabe sealar que:
(1) No se rechaza la hiptesis nula de
normalidad de los residuos (JB =1.35, p-
valor =0.51)
(2) Los coeficientes estimados son muy
similares a los obtenidos cuando se
incluyen los puntos A, B y C. Por tanto, son
datos atpicos pero no influyentes.
En el segundo grfico se muestra la recta de
regresin estimada usando la variable
Influence1, eliminando slo los puntos A y C.
Cabe sealar que:
(1) Se rechaza claramente la normalidad de los
residuos (JB =65.64, p-valor =0.0)
(2) Los coeficientes estimados cambian mucho,
luego B es un dato influyente de la muestra,
cuando se eliminan los puntos Ay C.
27
B
Deteccin (I)
Existen distintos mtodos:
(A)Dibujar el histograma y fijarse en los datos que se alejan
mucho de la media. No obstante, en una distribucin
normal, un 5% de la muestra puede ser atpica (estar en
las colas).
(B)Tambin se puede caracterizar un dato influyenteen la
regresin usando la denominada matriz H, definida
como:
La parte explicada de la Y:
y el elemento j-simo de la diagonal principal de H es:
donde es un vector (1xk) que se corresponde con la fila
j-sima de la matriz X de tamao (nxk).
28
( )
T T
H X X X X
-
=
1

( )
T T
Y X X X X X Y HY b
-
= = =
1
( )
T T
j j j
h x X X x
-
=
1
T
j
x
Deteccin (II)
Al valor se le denomina influencia o apalancamiento
de la observacin j y cumple algunas propiedades como:
(1)
(2)
por lo que la influencia media es k/n. Un valor de por
encima de k/n indica que ese dato es influyente.
Un valor de grande significa que los valores de las
variables explicativas en el instante j son inusuales
comparados con el valor medio de este valor h en toda la
muestra.
j
h
j
h 0 1
n
j
j
h k
=
=

1
j
h
29
j
h
Deteccin (III)
(C)Para contrastar si una observacin jes atpica
puede considerarse el siguiente modelo de
regresin, donde se incluye una variable dummy
para la propia observacin:
siendo y . La hiptesis nula de
que el dato j-simo se ajusta al patrn que gener
el resto de los datos es
30
, , ,...,
T
i i ji i
y x D i n b g e = + + =1 2
jj
D =1 ,
ji
D i j = " 0
: H g =
0
0
Deteccin (IV)
La regresin anterior puede escribirse de forma
matricial como:
donde es un vector (nx1) con elementos
Por ejemplo,
El estimador MCO de en esa regresin tiene la
expresin: donde y son los
residuos MCO.
31
j
Y X D b g e = + +
j
D
, , ,...,
ji
D i n =12
. .
n
D
D
D
D




= =




1 1
1 2
1
1
1
0
0
g

j
j
h
e
g =
- 1

T
j j
D e e =
e
Deteccin (V)
El valor del estadstico t de significacin individual
del parmetro es:
donde , es decir, es la estimacin MCO
de la varianza residual del modelo. La observacin
j-sima es un outlier si el parmetro es
significativo, es decir, si el residuo o el valor
es suficientemente grande. Ese ratio t es llamado
residuo estudentizado,
32
g

j
n k
j
t t
h
e
s
- -
=
-
1
1

SR
n k
s =
- -
2
1
g

j
e
j
h
*

j
t e =
Deteccin (VI)
Ntese que los outliers no siempre se pueden
detectar a partir del grfico de los residuos MCO
Es decir, puede ser pequeo incluso si el
residuo estudentizado es grande. En la regresin
las estimaciones MCO de los parmetros , la
varianza residual y la suma de cuadrados de
residuos son las mismas que obtendramos si
eliminamos la observacin j de la muestra. El R-
cuadrado no coincide ya que la ST con toda la
muestra no es la misma que la ST sin ese dato. 33
e

j
e
, , ,...,
T
i i ji i
y x D i n b g e = + + =1 2
Deteccin (VII)
Influencia sobre los parmetros estimados: La influencia
de las observaciones individuales sobre las estimaciones de
los se puede calcular de la siguiente manera. En el
modelo:
sea el estimador MCO de bajo la restriccin de que
y el vector de residuos resultantes es . Sean y
los estimadores MCO de y con la dummy incluida y
los residuos son denotados por .El estadstico de
contraste es el siguiente:
y es conocido como el estadstico de Cook.
( ) ( )
T
j k n k
j j
D F
k
e
s
-

- -


=
2

,

b b b b
T
X X
34
b
j
Y X D b g e = + +

b b
g = 0
e

( ) j b
g
b
( ) j e
g
Deteccin (VIII)
Influencia sobre los valores ajustados dffits :
La influencia de la observacin j-sima sobre los
valores ajustados de la Y viene dada por la
distancia: donde y
En el instante j-simo es fcil probar que la
distancia:
y como la varianza de es igual a una
medida sin escala de la diferencia en los valores
ajustados se puede calcular como:
35

( ) Y Y j -

Y Xb =

( ) ( ) Y j X j b =

( )
j
j j j
j
h
y y j
h
e - =
- 1

j
y

j
h s
2
*

( )

j j j
j j
j
j
y y j h
dffits
h
h
e
s
-
= =
- 1
Deteccin (IX)
0
0.2
0.4
0.6
0.8
1
5 10 15 20 25
leverage
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
5 10 15 20 25
influence
En la regresin de X sobre Influence1, Gretl muestra algunos resultados de
apalancamiento e influencia. La observacin 23 es detectada como atpica
(leverage alto, h = 0.428). Las observaciones 24 y 25 son influyentes, donde
influence es aunque no son atpicas (leverage bajo, h= 0.075).
36

( )
j
j j j
j
h
y y j
h
e - =
- 1
Resumen (I)
En MCO, las desviaciones de la relacin que se postula
entre la variable dependiente y las variables explicativas,
se penalizan de forma cuadrtica. Esto implica que las
observaciones que se desvan mucho del patrn general
pueden tener una influenciaexcesiva en la estimacin de
los parmetros. Para investigar la existencia de datos
influyentes y reducir su influencia, se pueden hacer varias
cosas:
(1) Inspeccionar el histograma de los residuos MCO y
contrastar su normalidad con el estadstico de J arque-
Bera.
(2) Detectar estos datos calculando la influencia, como se
ha visto antes, en el mtodo de deteccin (C)
37
Resumen (II)
(3) Si hay datos que se alejan del patrn general, se debe
intentar entender las causas. A veces, estos datos se
eliminan, pero puede que sugieran que hay variables
explicativas relevantes que se han omitido o que los
errores siguen otra distribucin diferente a la normal.
(4) A veces, la existencia de datos atpicos y/o influyentes
supone un aspecto relevante de los datos y la solucin no
es eliminarlos, sino limitar su peso o su influencia en la
estimacin del modelo usando mtodos robustos.
38

S-ar putea să vă placă și