Sunteți pe pagina 1din 23

2

El anlisis de regresin tiene por objetivo estimar el valor promedio de una variable,
variable dependiente, con base en los valores de una o ms variables adicionales, variables
explicativas. En este tipo de anlisis, la variable dependiente es estocstica mientras que
las variables explicativas son no estocsticas en su mayor parte
1
. El anlisis de regresin
ha cobrado popularidad debido al gran nmero de paquetes estadsticos que lo incluyen y
por ser un proceso robusto que se adapta a un sinfn de aplicaciones cientficas y
ejecutivas que permite la toma de decisiones (Linne et al. 2000, p. 47, tr.). En este trabajo,
el mejor ajuste de los modelos estar determinado por el anlisis de regresin lineal.
1.1 Modelo de regresin
Considrese la siguiente relacin para explicar el comportamiento de una variable
dependiente (Y) en funcin de n variables dependientes ( ) .
n
X X X , , ,
2 1

n
X X X f Y , , , (
2 1
= )
(1.1.1)
donde ( ) es una forma funcional implcita. En el caso en el cual esta forma funcional
no pueda estimarse, ( ) puede aproximarse mediante:
f
f
_
=
+
+ + =
n
i
i i
X Y
1
1
|
(1.1.2)
1
En el tratamiento avanzado se puede liberar el supuesto de que las variables explicativas no son
estocsticas (Gujarati,1990).
3
para donde las n i , , 2 , 1 = | son parmetros de la funcin y +es el error debido a la
aproximacin lineal de (1.1.1).
En la realidad, la ecuacin (1.1.2) no se cumple estrictamente pues existe tambin
una variacin en la variable dependiente debido a que hay errores de medicin. A esta
variacin inexplicable se le denomina ruido blanco y se denota como q . Por otro lado, no
todas las variables independientes son medibles o se puede tener acceso a la informacin
por lo que slo algunas de ellas se utilizarn finalmente en el modelo.
Supngase se tiene una muestra de m observaciones, m j , , 2 , 1 = e informacin
sobre k variables independientes que determinan en parte el comportamiento de Y. La
ecuacin (1.1.2) puede rescribirse como:
_
=
+
Z + + + + =
k
i
j j j ij i j
X Y
1
1
q |
(1.1.3)
donde es el efecto de las n - k variables (k < n) que no fueron incluidas en el modelo. Z
Sean
t t
+ + = + y
t t
z + Z = Z donde y son las desviaciones con respecto a
las medias de y respectivamente, entonces:
z
+ Z
j kj k j j j
X X X Y c | | | | + + + + + =
+1 2 3 1 2 1

(1.1.4)
donde
+ + Z =
1
| y
j j j j
z q c + + = .
4
La ecuacin (1.1.4) se conoce como la ecuacin de regresin lineal mltiple, donde las |
son los coeficientes de la regresin que necesitan estimarse y las X las variables
independientes.
1.1.1 Coeficientes de regresin
La ecuacin (1.1.4) tiene k parmetros asociados a las variables independientes X.
1 3 2
, , ,
+ k
| | |
i i
X Y
se interpretan como las derivadas parciales de Y con respecto a las X i.e.
| = c c / .
i
| dice qu tanto cambiar Y si ocurre un cambio unitario en
manteniendo todo lo dems constante. Sin embargo, los valores reales de estos coeficientes
son desconocidos y habr que estimarlos mediante algn mtodo.
i
X
1.1.2 Constante de regresin
A diferencia de los otros coeficientes de la ecuacin de regresin,
1
| no mide cambios,
sino que corresponde al efecto medio en la variable dependiente Y que ocasionan tanto las
variables que fueron excluidas en la ecuacin como la aproximacin lineal. A diferencia de
un modelo matemtico donde el trmino constante representa el intercepto con la ordenada,
en un modelo economtrico, la interpretacin de la constante de regresin, como ya se vio,
es distinta. Slo en algunas ocasiones, como en el caso de las funciones de costo donde
existen costos fijos, esta constante s puede interpretarse como el intercepto.
1.1.3 Estimacin de los coeficientes
Hasta ahora se ha hecho referencia a la interpretacin de los coeficientes pero no se
ha hablado sobre el problema de la estimacin. El objetivo del anlisis de regresin ser
5
buscar la mejor estimacin de los parmetros para construir una aproximacin cercana al Y
real.
Supngase que mediante algn procedimiento se obtuvieron las estimaciones de las
| , ( ). El residual e se definir como la diferencia entre el valor observado de Y y la
prediccin Y con base en los valores estimados de las
|

j j
j

| .
kj k j j j
X X Y e
1 1 2 1

+
= | | |
(1.1.5)
donde Y
j kj k j j j
X X X c | | | | + + + + + =
+1 2 3 1 2 1
es la ecuacin de regresin mltiple.
Debido a que el residual es una estimacin de
j
e
j
c , stos deben cumplir con las
mismas propiedades de los errores
j
c :
1: | | 0 =
ij j
X E c .
2: | | 0 =
j i
E c c . (no hay autocorrelacin entre los errores)
3: | |
2
o c =
ij j
X Var . (homocedasticidad)
4: | | 0 , =
ij j
X Cov c .
Ya que diferentes valores de originarn residuales e distintos, se buscar el conjunto
de que produzcan residuales con las caractersticas anteriormente descritas, es decir:
; .
|

, 1 =
j
|

j
e
_
=
=
m
j 1
0
_
=
=
m
j
j ij
e X
1
0 k i i , , 2 ,
6
Cuando la ecuacin de regresin incluye el trmino
1
| , el problema se reduce a
minimizar la suma de cuadrados de los residuales, i.e.
_
y a este procedimiento se le
conoce como Mnimos Cuadrados Ordinarios (MCO).
,
1
2
=
m
j
j
e
La estimacin de las | utilizando MCO lleva consigo la restriccin de que para
obtener una solucin no trivial el nmero de observaciones debe ser mayor al nmero de
parmetros a estimar. La diferencia entre el nmero de observaciones y el nmero de
parmetros a ser estimados se le denomina grados de libertad.
1.2 Estadsticas y pruebas de hiptesis
Una vez que se obtuvieron las estimaciones de los parmetros en una regresin lineal, se
hace uso de estadsticas para juzgar la bondad del modelo, la utilidad de las estimaciones y
la precisin de las mismas. Lo que a continuacin se presenta son las herramientas bsicas
para el anlisis de regresin.
1.2.1 Coeficiente de determinacin
Si todas las observaciones coincidieran con la ecuacin de regresin, se tendra un ajuste
perfecto; sin embargo, rara vez sucede esto. Generalmente habr e positivos y negativos
por lo que se requiere de una medida que establezca qu tan bien la ecuacin de regresin
representa a los datos. El coeficiente de determinacin R
2
es una medida de bondad de
ajuste y se define de la siguiente manera:
i
7
_
_
=
=

=
m
j
j
m
j
j
Y Y
Y Y
R
1
2
1
2
2
) (
)

(
. 1 0
2
s s R
(1.2.1)
Donde el numerador corresponde a la suma de cuadrados debido a la regresin
(SCE) y el denominador a la suma de cuadrados total (SCT). A medida que la SCE
explique en gran parte la variacin de Y ,
j
2
R se acercar a uno. A pesar de que este
coeficiente es una medida de bondad de ajuste no debe abusarse de l, pues
2
R puede
aumentar agregando al modelo variables explicativas adicionales aunque no sean
significativas.
1.2.2 Errores estndar
Dado que los estimadores de mnimos cuadrados estn en funcin de la informacin
muestral, es necesario encontrar la precisin de las La manera convencional de medir la
precisin de un estimador es por medio de su varianza. Entre ms pequea sea la varianza
de un estimador mayor es su precisin, esto significa que los estimadores sern poco
sensibles a los errores que pudieran existir en la muestra de la variable dependiente Y.
.

|
En forma terica la varianza de
i
| para una muestra de m observaciones y k
variables independientes estar dada por la varianza de los errores divida por el elemento
i-simo de la diagonal de la siguiente matriz donde
i ij ij
X X x = .
8
1
1
2
1
2
1
1
1
2
1
2
2
1
1 2
1
1
1
2 1
1
2
1
2

= = =
= = =
= = =
(
(
(
(
(
(
(
(

_ _ _
_ _ _
_ _ _
m
j
kj
m
j
j kj
m
j
j kj
m
j
kj j
m
j
j
m
j
j j
m
j
kj j
m
j
j j
m
j
j
x x x x x
x x x x x
x x x x x

c
o
Sin embargo, es desconocida por lo que se estima mediante:
2
c
o
1

1 2

=
_
=
k m
e
m
j
j
c
o
(1.2.2)
donde m k 1 son los grados de libertad.
Al sustituir (1.2.2) en la matriz anterior se obtiene una estimacin de la varianza de
. El error estndar de se definir como la raz cuadrada de la estimacin de la
varianza de .
i
|

i
|

i
|

1.2.3 Significacin de los coeficientes de regresin


No basta con saber qu tan bien se ajusta la lnea de regresin a los datos ni con conocer los
errores estndar de los parmetros estimados, es tambin muy importante conocer si la
variable dependiente Y est realmente relacionada con la(s) X. Para ello se hace uso de
pruebas de hiptesis donde se evala si los coeficientes relacionados a cada X son distintos
de cero.
9
1.2.3.1 Modelo en dos variables
En el modelo de regresin lineal en dos variables se evala la siguiente hiptesis nula para
saber si la variable X es o no significativa para la prediccin de Y:
H
0
: 0
2
= | para un nivel de significacin de vs H
a
: . 0
2
= |
La estadstica de prueba es:
_
=

=
m
j
j
c
x
t
1
2
2
2

o
|
.
(1.2.3)
(1.2.3) se compara con una t donde m es el nmero total de observaciones. Se rechaza
H
0
si valor P <
) 2 ( m
o
2
. En caso de rechazar H
0
se concluye que hay evidencia suficiente para
afirmar que X est relacionada con Y a un nivel de significacin de .
Si se tienen expectativas previas del signo del coeficiente se establece la hiptesis
alternativa como H
a
: H
a
: . En estos casos, se rechaza H
0
si valor
P <
*
2 2
| | <
*
2 2
| | >
3
.
1.2.3.2 Modelo con k variables
Se evala la siguiente hiptesis nula para saber si las variables independientes son
significativas:
H
0
: 0
1 3 2
= = =
+ k
| | | para un nivel de significacin de vs H
a
: al menos alguna | es
distinta de cero.
2
Valor P = 2 | |
c m
t t P >
) 2 (
.
3
Valor P = | |
c m
t t P s
) 2 (
Valor P = | |
c m
t t P >
) 2 (
segn la hiptesis alternativa planteada.
10
La estadstica de prueba es:
CMR
CME
F =
(1.2.4)
donde CME es el cuadrado medio debido a la regresin y CMR es el cuadrado medio
residual
4
. El resultado se compara con una , (k son el nmero de variables
independientes y m el nmero de observaciones) con un nivel de significacin de para
poder decidir si se rechaza o no la hiptesis nula H
0
:
1 , k m k
F
2
0
1 3
= = =
+ k
| | | .
En el caso de la regresin mltiple no basta con probar que todos los coeficientes
son significativamente distintos de cero, es necesario saber si agregar una variable al
modelo una vez que existen otras incluidas no mejora significativamente la prediccin de la
variable dependiente. Para este caso se realizan pruebas parciales F.
Para probar H
0
: agregar X
*
al modelo que ya tiene variables
independientes no mejora significativamente la prediccin de la variable dependiente con
un nivel de significacin
p
X X X , , ,
2 1

o , la estadstica de prueba es:
) , , , , (
) , , , ( ) , , , , (
) , , , , (
2 1
*
2 1 2 1
*
2 1
*
p
p p
p c
X X X X CMR
X X X SCE X X X X SCE
X X X X F

=
(1.2.5)
4
El cuadrado medio es igual a la suma de cuadrados dividida por los grados de libertad.
11
(1.2.4) se compara con una donde m es el nmero total de observaciones. Se
rechaza H
0
si valor P <
) 2 , 1 ( p m
F
o
5
y se concluye que agregar X
*
al modelo que ya tiene
variables independientes contribuye significativamente a la prediccin de la
variable dependiente
p
X X X , , ,
2 1

6
.
5
Valor P = 2 | |
c p m
F F P >
) 2 (
.
6
La informacin de este captulo se obtuvo de las publicaciones de Rao, M y Miller, R (1971) y Gujarati, D
(1990).
12
ANEXOS
13
Anexo A Prueba d de Durbin-Watson
La prueba d de Durbin-Watson es la prueba ms conocida para detectar la autocorrelacin.
El estadstico d de Durbin-Watson para m observaciones se define como:
_
_
=
=

=
m
j
j
m
j
j j
e
e e
d
1
2
2
2
1
) (
.
(A.1)
Los supuestos en los que se basa este estadstico son:
1. El modelo de regresin incluye el trmino
1
| .
2. Las variables explicativas son no estocsticas.
3. Los trminos de error estocstico
j
c se generan a travs de un esquema
autorregresivo de primer orden, i.e.
j j j
u + =
1
c c , 1 < .
4. El modelo de regresin no es autorregresivo, es decir no es del tipo
j j j
Y Y c | | + + =
1 2 1
.
5. No faltan observaciones en los datos.
Para rechazar o no la hiptesis nula de que no hay autocorrelacin de primer orden
en las perturbaciones
j
c se consideran los lmites inferior d y superior d , encontrados
por Durbin y Watson, tales que si el valor d cae fuera de dichos lmites existe posible
presencia de correlacin. La siguiente figura ilustra los criterios para el rechazo.
L U
14
No rechazar Ho
0 2
L
d
S
d
S
d 4 4
L
d 4
Zona de indecisin
Rechazar H
0
, evidencia Rechazar H
0
, evidencia
de autocorrelacin de autocorrelacin
positiva negativa
Si existe evidencia de autocorrelacin es necesario buscar medidas remediales ya
que aunque los estimadores de los coeficientes de regresin siguen siendo lineales,
insesgados y consistentes bajo la presencia de autocorrelacin, stos no son eficientes (es
decir, no tienen varianza mnima). Por lo tanto si se utiliza la la exactitud del
estimador est inflada y al calcular
)

var(
2
|
)

var(

2
2
B
c
|
= t se estar sobreestimando la
significacin estadstica de .
2

|
Para hacer las correcciones primero es necesario estimar (y esto se puede hacer
mediante el procedimiento iterativo de Cochrane-Orcutt que se explicar ms adelante)
para hacer las siguientes transformaciones:
1
*

=
j j j
Y Y Y
(A.2)
1
*

=
j j j
X X X
(A.3)
15
y correr la regresin Y (Y
* *
2
*
1
*
j j
X | | + =
j j
X
2 1
| | + = es el modelo original). De esta
forma se obtienen y , se prueba la significacin de y se comprueba qu tan
bien se ajustan los datos transformados al nuevo modelo. Una vez hecho esto, es posible
definir el nuevo modelo el cual tendr la forma:
*
1
*
2
| |
*
2
|
j j
X Y
*
2
*
1
1

|
+

= .
(A.4)
Este procedimiento es iterativo, por lo que si el nuevo modelo sigue presentando
autocorrelacin, se hace una segunda regresin, una tercera y as sucesivamente hasta que
los estimadores sucesivos de difieran en menos de 0.01.
16
Anexo B Procedimiento iterativo de Cochrane-Orcutt para estimar
Este procedimiento consiste en obtener a partir del estadstico d de Durbin-Watson. Se
basa en la estimacin de los residuos e para obtener informacin sobre el valor
desconocido de
j
.
Considrese que los trminos de error estocstico
j
c se generan a travs de un
esquema autorregresivo de primer orden, i.e.
j j j
u + =
1
c c . Los pasos a seguir son:
1. Estimar el modelo original y obtener los residuos que son estimaciones de
j
e
j
c .
2. Con los residuos estimados correr la siguiente regresin:
j j j
v e e + =
1
para
obtener y poder hacer la correccin al modelo original.
17
Anexo C Ejemplo de correccin de autocorrelacin: el caso de la zona MEDIA
RESIDENCIAL de la divisin Occidente.
Se corri el modelo Recproco de la Edad para la zona MEDIA RESIDENCIAL. El
tamao de la muestra fue de 19 viviendas y los resultados desplegados por el paquete
estadstico SPSS fueron los siguientes:
Model Summary(b)
Model R
R
Square
Adjusted R
Square
Std. Error of the
Estimate
Durbin-
Watson
1 .739(a) .545 .519 7.8106848916992E-02 1.044
a Predictors: (Constant), Recproco de la edad
b Dependent Variable: MEDIA RESIDENCIAL
Segn las tablas del estadstico d de Durbin-Watson a un nivel de significacin de
0.05 se tiene que para una muestra de tamao 19 180 . 1 =
L
d y . Como
en este ejemplo, existe evidencia de autocorrelacin positiva.
401 . 1 =
U
d
044 . 1 = d
ANOVA(b)
Model Sum of Squares df
Mean
Square
F Sig.
Regression .124 1 .124 20.399 .000(a)
Residual .104 17 6.101E-03
1
Total .228 18
a Predictors: (Constant), Recproco de la edad
b Dependent Variable: MEDIA RESIDENCIAL
18
Coefficients(a)
Unstandardized
Coefficients
Standardized
Coefficients
Model B Std. Error
Beta
t Sig.
(Constant) .782 .044 17.748 .000
1
Recproco de la
edad
-2.313 .512 -.739 -4.516 .000
a Dependent Variable: MEDIA RESIDENCIAL
Se aprecia que los coeficientes son significativos a un nivel de significacin de 0.05
pero es necesario corregir la autocorrelacin pues se desean estimadores con varianza
mnima. Por ello, se realiz el procedimiento iterativo de Cochrane-Orcutt y se estim
utilizando los residuos del modelo original para correr la siguiente regresin:
j j j
v e e + =
1
.
(C.1)
Coefficients(a,b)
Unstandardized
Coefficients
Standardized
Coefficients
Model B Std. Error
Beta
t Sig.
1
residual anterior MEDIA
RESIDENCIAL
.431 .329 .303 1.311 .207
a Dependent Variable: residual MEDIA RESIDENCIAL
b Linear Regression through the Origin
19
Con base en los resultados desplegados por SPSS se obtuvo que 431 . 0 = . Una
vez conocida esta estimacin fue posible calcular las transformaciones:
1
*

=
j j j
D D D
(C.2)
1
*
1

1 1

=
j j
j
X X
X

(C.3)
y correr la regresin
*
*
2
*
1
*
1
j
j
X
D | | + = . Los resultados fueron los siguientes:
Model Summary(b)
Model R
R
Square
Adjusted R
Square
Std. Error of the
Estimate
Durbin-
Watson
1 .427(a) .182 .131 7.531140592192E-02 1.381
a Predictors: (Constant), Recproco de la edad*
b Dependent Variable: MEDIA RESIDENCIAL*
ANOVA(b)
Model Sum of Squares df Mean Square F Sig.
Regression 2.024E-02 1 2.024E-02 3.569 .077(a)
Residual 9.075E-02 16 5.672E-03
1
Total .111 17
a Predictors: (Constant), Recproco de la edad*
b Dependent Variable: MEDIA RESIDENCIAL*
20
Coefficients(a)
Unstandardized
Coefficients
Standardized
Coefficients
Model B Std. Error
Beta
t Sig.
(Constant) .440 .053 8.358 .000
1
Recproco de la
edad*
-2.406 1.274 -.427 -1.889 .077
a Dependent Variable: MEDIA RESIDENCIAL*
El nmero de observaciones se redujo a 18 por lo tanto y 158 . 1 =
L
d 391 . 1 =
U
*
2
|
d .
Como la d de Durbin-Watson result ser 1.381, este valor cae en la zona de indecisin, pero
est muy cercano a la zona en donde se rechaza la presencia de autocorrelacin. Por otro
lado, la estimacin de no cumple exactamente con la condicin de significacin
establecida como 0.05, pero la diferencia no es muy grande y en trminos reales lo que
estara pasando es que se tiene una probabilidad mayor de considerar como
significativa cuando en realidad no lo sea.
*
2
|
Finalmente con estos resultados se obtuvo un nuevo modelo para la zona MEDIA
RESIDENCIAL de la forma:
j
j
X
D
1
1

*
2
*
1
|

|
+

= ; donde 431 . 0 = , ,
, i.e.:
440 . 0
*
1
= |
406 . 2
*
2
= |
773 . 0
406 . 2

=
j
j
X
D .
(C.3)
21
Anexo D Deteccin de la heterovarianza
Una manera simple para detectar la heterocedasticidad o heterovarianza cuando no existe
informacin a priori es obteniendo un diagrama de dispersin de e contra Y para ver
si presentan algn patrn, pero para el caso del modelo de dos variables se pueden graficar
los residuales al cuadrado contra la variable independiente X. A continuacin se muestran
algunos de los patrones que pudieran detectarse.
2
j j

2
e e
2 2
e
(a) X (b) X (c) X
e e
2 2
(d) X (e) X
22
En el diagrama (a) se advierte que no existe un patrn sistemtico entre las variables
lo que sugiere la inexistencia de heterocedasticidad; en cambio, en los otros diagramas s
hay patrones definidos. Por ejemplo, el diagrama (c) sugiere una relacin lineal y el (e) una
relacin cuadrtica entre las variables.
23
Anexo E Prueba de Park
Park propone que es una funcin de la variable independiente . La forma funcional
propuesta es:
2
j
o
j
X
j
v
j j
e X
|
o o
2 2
= .
(E.1)
Si de (E.1) se obtiene el logaritmo natural se tiene:
j j j
v X + + = ) ln( ) ln( ) ln(
2 2
| o o .
(E.2)
Dado que por lo general es desconocida, se propone usar e como una aproximacin y
se realice la siguiente regresin:
2
j
o
2
j
j j j
v X e + + = ) ln( ) ln(
2
| o .
(E.3)
Se prueba la hiptesis nula H
0
: 0 = | . Si se rechaza H
0
, 0 = | y entonces puede ser que
exista heterovarianza.
Una vez que se detect la presencia de heterovarianza es necesario corregirla ya que
de no detectarla y corregirla, la
_
=
=
m
j
j
x
1
2
2
2
)

var(
o
| que es la varianza comn que se obtiene
bajo el supuesto de varianzas iguales, es un estimador sesgado de la verdadera .
Esto implica que dependiendo de la naturaleza de la relacin entre la varianza y los valores
)

var(
2
|
24
que toma la variable independiente, en promedio se estar sobreestimando o subestimando
la verdadera varianza de .
2

|
X
|
Para remediarla, se construye un nuevo modelo con base en la siguiente
transformacin:
2 /
) 2 / 1 (
2
2 /
1
2 / |
|
| |
c
|
|
j
j
j
j j
j
X
X
X
Y
+ + =

(E.4)
donde | es un nmero que simboliza la relacin entre los residuales al cuadrado y X. Por
ejemplo, si la relacin que sugiere el diagrama de dispersin es cuadrtica una buena
suposicin del valor de es 2. No obstante, pudiera ser que 2 = | no corrigiera el
modelo entonces para ese caso deben probarse otros valores cercanos a dos. Si la relacin
sugerida es lineal, entonces 1 = | pudiera corregir la heterovarianza. Una vez que se
construy el nuevo modelo, se corre una regresin sobre ste y se vuelve a realizar al
Prueba de Park.

S-ar putea să vă placă și