Diagramacion Final

UNIVERSIDAD PRIVADA TELESUP
1
Prefacio:
La asignatura es de carácter teórico-práctica. La economía,
perteneciente a las ciencias sociales, trata de explicar el
funcionamiento del sistema económico en sus distintos aspectos,
como producción, consumo, dinero, distribución del ingreso y
todo lo relacionado con los recursos escasos entre distintos
fines posibles. La herramienta básica usada por los
economistas para ello es la construcción de modelos
económicos teóricos y matemáticos que describan el comportamiento de los
agentes económicos. Sin embargo, esos modelos deben contrastarse con los
datos disponibles para saber si éstos tienen capacidad explicativa y predictiva, y
poder en definitiva optar entre unas u otras opciones. La construcción de tales
modelos es la finalidad de la econometría. Tiene como propósito desarrollar en el
alumno la capacidad para emplear métodos estadísticos destinados a estimar las
relaciones económicas, contrastar teorías económicas y evaluar y poner práctica
políticas gubernamentales y de negocios. Haciendo esencial el aprendizaje de
estos temas que se verán a continuación para que el profesional llegue a formarse
con éxito, y además pueda desempeñar un rol más activo en la su empresa.
Comprende cuatro Unidades de Aprendizaje:
Unidad I: El Modelo de Regresión Simple.
Unidad II: Análisis de Regresión Múltiple.
Unidad III: Heteroscedasticidad.
Unidad IV: Autocorrelación.
2
Estructura de los Contenidos
El Modelo de Análisis de Auto-

Heteros-
Regresión Simple Regresión Múltiple Correlación
cedasticidad
Consecuencias de
Características de la Consecuencias de la
Justificación la Autocorrelación
econometría. Heteroscedasticidad
de la regresión para los
para los estimadores
múltiple. estimadores MCO.
MCO.
Método de los
mínimos cuadrados Estimadores del Contraste de
Contrastes de
ordinarios. método de Autocorrelación.
Heteroscedasticidad.
Mínimos
Cuadrados
Bondad de ajuste. El Ordinarios. Solución a la
Estimación de mínimos
coeficiente de autocorrelación
cuadrados ponderados.
correlación. con regresores
Correlación
Múltiple.
Proyecciones de la Heteroscedasticidad
Revisión del modelo
regresión lineal. y Autocorrelación
lineal.
Componentes de en modelos de
las varianzas regresión.
MCO:
multicolinealidad
La competencia que el estudiante debe lograr al final de la asignatura es:
“Comprende los métodos econométricos para contrastar una

teoría económica, así como analizar las relaciones entre variables
que son importantes para la toma de decisiones en los
negocios o para el análisis de políticas. Para lo cual
hará uso de herramientas informáticas que procesen los
datos y genere información “
3
Índice del Contenido
I. PREFACIO 02
II. DESARROLLO DE LOS CONTENIDOS 04 - 163
UNIDAD DE APRENDIZAJE 1: El Modelo de Regresión Simple 05-50
1. Introducción 06
a. Presentación y contextualización 06
b. Competencia 06
c. Capacidades 06
d. Actitudes 06
e. Ideas básicas y contenido 06
2. Desarrollo de los temas 07-44
a. Tema 01: Características de la econometría. 07
b. Tema 02: Método de los Mínimos Cuadrados Ordinarios 12
c. Tema 03: Bondad de Ajuste. El Coeficiente de Correlación 19
d. Tema 04: Proyecciones de la regresión lineal 26
3. Lecturas recomendadas 45
4. Actividades 46
5. Autoevaluación 47
6. Resumen 50
UNIDAD DE APRENDIZAJE 2: Análisis de Regresión Múltiple 51-100
1. Introducción 52
b. Competencia 52
c. Capacidades 52
d. Actitudes 52
a. Tema 01: Justificación de la regresión múltiple: 53
b. Tema 02: Estimadores del método de Mínimos Cuadrados Ordinarios, 57
c. Tema 03: Correlación Múltiple 67
d. Tema 04: Componentes de las varianzas MCO: Multicolinealidad. 77
4. Actividades 96
6. Resumen 100
UNIDAD DE APRENDIZAJE 3: Heteroscedasticidad 101-128
1. Introducción 102
b. Competencia 102
c. Capacidades 102
d. Actitudes 102
a. Tema 01: Consecuencias de la Heteroscedasticidad para los estimadores MCO 103
b. Tema 01: Contrastes de Heteroscedasticidad. 108
c. Tema 01: Estimación de mínimos cuadrados ponderados 114
d. Tema 01: Revisión del modelo lineal 119
4. Actividades 125
6. Resumen 128
UNIDAD DE APRENDIZAJE 4: Autocorrelación 129-159
1. Introducción 130
b. Competencia 130
c. Capacidades 130
d. Actitudes 130
a. Tema 01: Consecuencias de la Autocorrelación para los estimadores MCO. 131
b. Tema 01: Contraste de Autocorrelación 140
c. Tema 01: Solución a la autocorrelación con regresores estrictamente exógenos. 143
d. Tema 01: Heteroscedasticidad y Autocorrelación en modelos de regresión. 147
4. Actividades 155
6. Resumen 159
III. GLOSARIO 160
IV. FUENTES DE INFORMACIÓN 162
V. SOLUCIONARIO 163
4
Introducción
5
Introducción
a) Presentación y contextualización
Los temas que se tratan en la presente unidad temática tienen por finalidad que el
estudiante tome conocimiento de la importancia de los métodos econométricos.
b) Competencia
Identifica los elementos, métodos, procedimientos y técnicas de la
estimación de regresiones lineales; aplicándolos en la toma de negocios
empresariales.
c) Capacidades
1. Explica la naturaleza de la econometría y de los datos econométricos

2. Aplica el método MCO para determinar los parámetros del modelo lineal
general.
3. Calcula e interpreta el coeficiente de correlación.
4. Distingue los métodos, procedimientos y técnicas para la proyección de datos
d) Actitudes
✓ Valora la importancia de la estimación de parámetros de regresión lineal.

✓ Investiga el modelo de regresión lineal para estimar relaciones entre variables
✓ Asume una actitud crítica frente a estimaciones realizadas sin estudios
apropiados.
e) Presentación de Ideas básicas y contenido esenciales de la Unidad:
La Unidad de Aprendizaje 01: El modelo de regresión simple comprende el

desarrollo de los siguientes temas:
TEMA 01: Características de la econometría.

TEMA 02: Método de los mínimos cuadrados ordinarios.
TEMA 03: Bondad de ajuste. El coeficiente de correlación.
TEMA 04: Proyecciones de la regresión lineal.
6
Características
TEMA 1
de la
Econometría
Competencia:
Explicar la naturaleza de la econometría y
de los datos econométricos.
7
Desarrollo de los Temas
Tema 01: Características de La Econometría
1.1 CARACTERÍSTICAS DE LA ECONOMETRÍA
Econometría: este vocablo procede del griego y

significa “m edida de la economía”
Esta definición no caracteriza completamente el
contenido de la materia, pero pone de manifiesto
su carácter necesariamente cuantitativo.
A lo largo del tiempo, la Econometría ha ido
ampliando su contenido debido fundamentalmente
a 4 aspectos:
 El desarrollo de la Teoría Económica
 Los avances en la Teoría Estadística
 El desarrollo de la Informática y
 la creciente disponibilidad y fácil acceso a grandes bases de datos (tanto
a nivel macro como micro).
Por tanto, el continuo avance de esta disciplina hace que no

haya una definición generalmente aceptada.
Se define Econometría como aquella rama de la Economía que
se ocupa de medir desde el punto de vista empírico cualquier
relación entre variables económicas.
De acuerdo con esta definición, los dos ingredientes básicos de la Econometría son:
1) La Teoría Económica y 2) Los datos.
La característica fundamental de esta disciplina es que debe saber conjugar
perfectamente ambos ingredientes. En otras palabras, la econometría no puede
defender la medición sin teoría, pero tampoco la teoría sin datos.
8
1.1.1. Definiciones Previas
a. La Economía: Es el estudio de cómo las sociedades satisfacen sus

necesidades a partir de recursos escasos.
b. La Estadística: Ciencia que emplea conjuntos de datos para generar
inferencias (proyecciones, supuestos) sobre una población (valores reales)
c. La Econometría: Es la herramienta utilizada por administradores, sociólogos,
mercadólogos, economistas e investigadores en general para respaldar o
comprobar modelos teóricos que relacionan una variable dependiente (o
explicada) por una o más variables independientes (o explicativas)
La teoría económica implica resultados cualitativos por ejemplo:

“cuando el precio aumenta, el consumo de helados disminuye”
Por el contrario la econometría implica resultados cuantitativos, por

ejemplo: “cuando el precio de los helados aumenta el 10%, el
consumo de helados disminuye en 15%
El problema estadístico es encontrar la mejor proyección para un valor real

desconocido por el investigador.
La econometría emplea datos de la realidad (muestra) para determinar si esos
datos tienen un comportamiento de acuerdo a como pronostica la Teoría.
La econometría no puede concluir si la Teoría Económica es correcta o no.
1.1.2. ¿Por qué estudiar Econometría?
 No es raro que en la economía (y en

muchas otras áreas, que no emplean
laboratorios) deban manejar datos
experimentales
 Necesidad de utilizar datos no experimentales o de observación, para hacer
inferencias
9
 Es importante para ser capaz de aplicar la teoría económica a los datos del
mundo real
 Un análisis empírico utiliza datos para probar una teoría o para estimar una
relación
 Un modelo formal de la economía puede ser comprobado
 La teoría puede ser ambigua en cuanto al efecto de algún cambio en la
política; entonces puede utilizar la econometría para evaluar el programa
1.1.3. Tipos de datos
A. Tipos de datos - Secciones transversales

Los datos transversales
representan una muestra
aleatoria
Cada observación es un
nuevo individuo, una
empresa, etc., con la
información en un punto en el tiempo
Si los datos no son una muestra aleatoria, tenemos un problema de selección
de la muestra
B. Tipos de datos - Series de tiempo

Los datos de series de
tiempo tienen una
observación por
separado para cada
período de tiempo - por
ejemplo, precios de las
acciones
Siempre se sigue la misma unidad en el tiempo.
Los intervalos de tiempo son constantes (semanas, meses, años, etc.)
Dado que no es una muestra aleatoria, debe tenerse en cuenta los diferentes
problemas
Las tendencias y estacionalidad serán importantes
10
C. Tipos de datos: Panel

Son secciones transversales con
selección al azar y se tratan en
forma similar a una sección
transversal normal. Sólo tendrá
que dar cuenta de las diferencias
de tiempo.
Puede seguir las mismas
observaciones individuales al
azar en el tiempo - conocido como panel de datos o datos longitudinales
1.1.4. La cuestión de la causalidad

Establecer una relación simple entre las variables rara vez es
suficiente
Necesitamos saber el efecto de una relación de
causalidad.
Si hemos controlado verdaderamente para
suficientes otras variables, entonces el efecto
ceteris paribus estimado, a menudo puede ser
considerado como causal.
Puede ser difícil establecer la causalidad
Ejemplo: Retornos de la Educación
Un modelo de inversión en capital humano implica
cada vez más que la educación debe conducir a
mayores ingresos
En el caso más simple, esto implica una ecuación como
Ingresos  0  1educación  e
La estimación de β1, es el ingreso por educación, ¿pero puede ser una
relación de causalidad?
La regresión sólo indica el grado de intensidad de relación entre las
variables, más no indica causal
Si bien el término de error, e, incluye otros factores que afectan los
ingresos, debemos controlarlos lo más posible
Algunas cosas todavía no son observadas, lo cual puede ser problemático.
11
Método
de los TEMA 2
Mínimos
Cuadrados
Ordinarios
Competencia:
Aplicar el método MCO para determinar los
parámetros del modelo lineal general.
12
Tema 02: Método de los Mínimos Cuadrados

Ordinarios
1.2 Método de los Mínimos Cuadrados Ordinarios
1.2.1. El Modelo de Regresión Simple
Este modelo tiene como ecuación

y = b0 + b1x + ε
Un poco de terminología:
En el modelo de regresión lineal simple, donde y = b0 +
b1x + ε, por lo general se refieren a la variable Y como la
 Variable dependiente, o
 variable del Lado Izquierdo, o
 variable endógena, o
 Variable explicada
En la regresión lineal simple de y sobre x, por lo general se refieren a la

variable X como
❖ Variable independiente, o
❖ Variable del Lado Derecho, o
❖ Variable explicativa, o
❖ Regresor, o
❖ Variable exógena, o
❖ Covariable, o
❖ Variables de control
1.2.2. Una simple suposición
El valor promedio de ε, el término de error, en la población es 0. Esto es,

E (ε) = 0
Esto no es un supuesto restrictivo, ya que siempre se puede utilizar βo para
normalizar E(ε) a 0
Tenemos que hacer una suposición crucial sobre la forma como ε y X están
relacionados
13
Queremos que sea el caso de que saber algo acerca de x no nos da ninguna
información sobre ε, de modo que no tienen ninguna relación. Es decir, que
E (ε | x) = E (ε) = 0, lo que implica
E (y | x) = β0 + β1x
E (y | x) como una función lineal de x, donde para cualquier x la distribución de
y está centrada sobre E (y | x)
1.2.3. Mínimos Cuadrados Ordinarios (MCO)
La idea básica de la regresión consiste en estimar los parámetros

poblacionales de una muestra
Sea {(xi, yi): i = 1, ..., n} que denota una muestra aleatoria de tamaño n de la
población
Para cada observación en esta muestra, que será el caso de que
yi = b0 + b1xi + εi
Línea de regresión poblacional, puntos de los datos de la muestra y los
términos de error asociados
14
A. Derivar las estimaciones MCO
Para obtener las estimaciones de MCO tenemos que darnos cuenta que
nuestra hipótesis principal de E (ε | x) = E (ε) = 0 implica también que
Cov (x, ε) = E (xε) = 0
¿Por qué? Recuerde por probabilidad básica que Cov (X, Y) = E (XY) - E (X) E
(Y)
Podemos escribir nuestras 2 restricciones sólo en términos de x, y, β0 y β1,
ya que ε = y - β0 - β1x
E (y - β0 - β1 x) = 0
E [x (y - β0 - β1x)] = 0
Estos se denominan restricciones momento
El método de momentos de aproximación a la estimación implica la imposición de

las restricciones de momentos de la población en los momentos de la muestra
¿Qué significa esto? Recordemos que para E (X), la media de una distribución de
la población, un estimador de la muestra de E (X) es simplemente la media
aritmética de la muestra
Queremos elegir los valores de los parámetros que garanticen que las versiones
de muestra de las restricciones momento son verdaderas
Las versiones de la muestra son como sigue:
 y  ˆ  ˆ1 xi   0
n
1
n i 0
i 1
 x y  ˆ  ˆ1 xi   0
n
1
n i i 0
i 1
Dada la definición de una media muestral, y las propiedades de la suma, podemos

volver a escribir la primera condición de la siguiente manera
15
y  ˆ0  ˆ1 x ,
o
ˆ0  y  ˆ1 x
 x y  y  ˆ x   ˆ x   0
n
i i 1 1 i
i 1
n n
 xi  yi  y   ˆ1  xi xi  x 
i 1 i 1
n n
 xi  x  yi  y   ˆ1  xi  x 

2
i 1 i 1
Así que la pendiente estimada es
 x  x  y
i i  y
ˆ1  i 1
n
 x  x 
2
i
i 1
n
siempre que  xi  x   0
2
i 1
1.2.4. Resumen de la estimación de la pendiente
La pendiente estimada es la covarianza muestral entre x e y dividida por la

varianza de la muestra de x
Si x e y están positivamente correlacionados, la pendiente será positiva
Si x e y tienen una correlación negativa, la pendiente será negativa
Sólo es necesario x para variar en la muestra
Intuitivamente, MCO está ajustando una línea a través de los puntos de la
muestra, tales que la suma de los cuadrados es tan pequeño como sea
posible, por lo tanto los mínimos cuadrados son mínimos.
El residual ê, es una estimación del término de error, ε, y es la diferencia entre
la línea ajustada (función de regresión muestral) y el punto de la muestra
16
Ejemplo de línea de regresión, datos de los puntos de la muestra y los términos

asociados estimados de error
1.2.5. Enfoque alternativo a la derivación
Teniendo en cuenta la idea intuitiva de ajustar una línea, podemos crear un

problema de minimización formal
Es decir, queremos elegir a nuestros parámetros de tal manera que se minimiza
lo siguiente:
 ê    y  ˆ  ˆ1 xi 
n n
2 2
i i 0
i 1 i 1
Si se utiliza el cálculo para resolver el problema de minimización de los dos

parámetros se obtienen las siguientes condiciones de primer orden, que son los
mismos que hemos obtenido antes, multiplicado por n.
 y  ˆ  ˆ1 xi   0
n
i 0
i 1
 x y  ˆ  ˆ1 xi   0
n
i i 0
i 1
17
1.2.6. Propiedades algebraicas de MCO
La suma de los residuos MCO es cero

Así, el promedio de la muestra de los residuos MCO es cero, así
La covarianza muestral entre los regresores y los residuos MCO es cero
La línea de regresión por mínimos cuadrados siempre pasa a través de la media
de la muestra
Propiedades algebraicas (precisa)
n ê i
ê
i 1
i  0 por tanto, i 1
n
0
n
xê
i 1
i i 0
y  ˆ0  ˆ1 x
18
Bondad de
Ajuste TEMA 3
El Coeficiente
De Correlación
Competencia:
Calcular e interpreta el coeficiente de
correlación.
19
Tema 03: Bondad de Ajuste. El Coeficiente

de Correlación
1.3 Bondad de Ajuste
El propósito es medir el grado de ajuste entre las variables. Una técnica es el

coeficiente de correlación o Coeficiente de Pearson.
1.3.1. El Coeficiente de Correlación

Una terminología más
Podemos entender que cada observació n tiene una parte explicada y una parte no explicada,
yi  yˆ i  uî definimos lo siguiente :
  y  y  es la suma total de cuadrados (SST)
2
i
  yˆ  y  es la suma de lo explicado al cuadrado (SSE)

2
i
 ê es la suma de los residuos al cuadrado (SSR)

2
i
Entonces SST  SSE  SSR
La prueba de que SST = SSE + SSR
  y  y     y  yˆ    yˆ  y 
2 2
i i i i
  ê   yˆ  y 
2
i i
  ê  2 ê  yˆ  y     yˆ  y 
2 2
i i i i
 SSR  2 ê  yˆ  y   SSE
i i
y sabemos que  ê  yˆ  y   0 i i
Entonces SST = SSR +2(0) + SSE = SSR + SSE
¿Cómo podemos pensar en lo bien que nuestra línea de regresión de la muestra

se ajusta a nuestros datos de la muestra?
Dado que SST = SSE + SSR entonces SSE = SST – SSR
Podemos calcular la proporción de la suma total de cuadrados (SST), que se
explica por el modelo, llamamos a esto el R cuadrado de la regresión
R2 = SSE / SST = (SST- SSR)/SST = SST/SST –SSR/SST = 1 - SSR / SST
20
La correlación o coeficiente de determinación r2 mide la proporción de variación en

la variable dependiente explicada por la variación en la o las variables
independientes, es decir mide el grado de intensidad lineal de vinculación de las
variables, a partir de las variaciones observadas de los valores proyectados y de
los valores reales comparadas con la media aritmética.
Este coeficiente es útil por cuanto permite establecer el grado de intensidad en
que una variable dependiente se encuentra explicada por la o las variables
independientes dentro de un modelo.
También facilita el estudio de variables cuantitativas en la medida que podemos
explicar un fenómeno por el grado en que una variable influye en otra, es decir nos
permite efectuar afirmaciones de carácter social, económico y físico.
Esta herramienta estadística se mide por un coeficiente que puede tomar un valor
que puede oscilar entre -1 y 1, si el valor es cercano a 1 se dice que existe una
relación directa entre las variables estudiadas, una mayor cantidad en una implica
que la otra aumentara también, en la medida que se acerca a 0 se dice que el
nivel de correlación es mínimo o simplemente no existe correlación y por lo tanto
la variación de una variable no explica el comportamiento de otra, finalmente si es
cercano a -1 la relación es inversa, si aumenta la variable independiente,
disminuye el valor de la dependiente.
La siguiente gráfica muestra las posibles formas de correlación, vinculando el
valor del coeficiente con su expresión gráfica.
21
1.3.2. TIPOS DE CORRELACIÓN
La correlación puede clasificarse en dos tipos dependiendo de la cantidad de

variables analizadas y por el tipo de relación lineal:
Clasificación por el número de variables estudiadas:
1. Correlación simple: se estudia la dependencia únicamente entre dos

variables
2. Correlación múltiple: se estudia la dependencia entre más de 2 variables
3. Correlación parcial: cuando se incluye la influencia de variables
exógenas no consideradas en el cálculo de los coeficientes.
Dependiendo del tipo de relación lineal el coeficiente relaciona:
1. Relación directa entre las variables: un aumento en la variable

independiente implica un aumento en la variable dependiente.
2. Relación inversa entre las variables: un aumento en la variable
independiente implica una disminución en la variable dependiente.
A partir de ello la ecuación puede mejorar su

correlación si se hace pruebas para determinar si se
ajusta más a una recta, una curva exponencial o
parabólica.
1.3.3. Insesgamiento de MCO
Suponga que el modelo de la población es lineal en los parámetros y = β0 +

β1x + ε
Supongamos que se puede utilizar una muestra aleatoria de tamaño n, {(xi, yi):
i = 1, 2, ..., n}, desde el modelo de la población. Por lo tanto, podemos escribir
el modelo de la muestra yi = β0 + β1xi + εi
Supongamos que E (ε | x) = 0 y por lo tanto E (εi | xi) = 0
Suponga que hay una variación en xi
Con el fin de pensar acerca de insesgadez, es necesario volver a escribir
nuestro estimador en términos del parámetro de la población
22
Comienza con una reescritura simple de la fórmula como
xi  x yi
ˆ1   , donde
s x2
s x2   xi  x 
2
 x  x y  x  x    x    
i i i 0 1 i i
 x  x    x  x  x
i 0 i 1 i
  x  x  
i i
  x  x     x  x x
0 i 1 i i
  x  x 
i i
 x  x   0,
i
 x  x x   x  x 
2
i i i
entonces , el numerador puede ser reescrito como

1s x2   xi  x  i , por tanto
xi  x  i
ˆ1  1  
s x2
haciendo d i  xi  x , de modo que
 
î  1   1 2  d i i , entonces
 sx 
 
E ˆ1   1   1 2  d i E  i   1
 sx 
1.3.4. Varianza de los estimadores MCO

Ahora sabemos que la distribución muestral de nuestra estimación se centra
alrededor del verdadero parámetro
¿Quieres que pensar en cómo se reparte esta distribución?
Mucho más fácil que pensar en esta variación es asumir un supuesto
adicional, por lo que supongamos que Var (ε | x) = σ2 (homocedasticidad)
Varianza de MCO (cont.)
Var (ε | x) = E (ε2 | x) - [E (ε | x)] 2
E (ε | x) = 0, por lo que σ2= E (ε2 | x) = E (ε2) = Var (ε)
23
Así σ2 es también la varianza incondicional, llama la varianza del error

σ, la raíz cuadrada de la varianza de error se llama la desviación estándar del error
Se puede decir: E (y|x) = β0 + β1x y Var (y|x) = σ2
Caso homocedasticidad
Caso heterocedasticidad
24
  1  
Var ˆ1   Var 
 1   s 2  d i  i 

  x  
2 2
2  Var  d i  i   
 1   1 
 2  d i
2
Var  i 
 s x   sx 
2 2
   
 1 2
 sx 
d i
2
 2
  1 2
2
 sx 
d i
2

2
 
  1 2  s x2    Var ˆ1 
2 2
 sx  s x2
1.3.5. Resumen de la varianza de MCO
Cuanto mayor sea el error de varianza, σ2, cuanto mayor sea la variación de la
estimación de la pendiente. Cuanto mayor sea la variabilidad en la xi, menor
será la variación de la estimación de la pendiente
Como resultado, un mayor tamaño de muestra debe disminuir la variación de
la estimación de la pendiente. Hay un problema: la varianza del error es
desconocido
1.3.6. Estimación de la varianza del error
No sabemos cuál es la varianza del error, σ2, es decir, porque no observamos

los errores, Lo que observamos son los residuos, εi
Podemos utilizar los residuos para formar una estimación de la varianza del
error
êi  yi  ˆ0  ˆ1 xi
  0  1 xi   i   ˆ0  ˆ1 xi
  i  ˆ0   0   ˆ1  1 
Entonces, un estimador insesgado de  2 es
êi2  SSR / n  2 
1
ˆ 2 
n  2 
ˆ  ˆ 2  Error estándar de regresión
podemos llamarlo sdˆ   
sx
si sustituimos ˆ por  entonces tendremos
el error estándar de ˆ1 ,
seˆ1   ˆ /  x  x  
i
2
1
2
25
Proyecciones
de la
TEMA 4
Regresión
Lineal
Competencia:
Distinguir los métodos, procedimientos y
técnicas para la proyección de datos.
26
Tema 04: Proyecciones de La Regresión

Lineal
1.4 PROYECCIÓN DE DATOS
Cuando se han recolectado los datos y si

estos cumplen con el teorema de límite
central (información que se ajusta a una
curva normal) se procede a presentar la
información bajo un esquema bidimensional
que no es más que plantearla en términos del
plano cartesiano.
Que bien puede representar la función de oferta, donde

“Y” seria la cantidad de productos ofertados, “a” el
intercepto y “b” la elasticidad precio de la oferta; ahora la
siguiente tabla muestra que la cantidad de kilos de carne
de cerdo ofrecidas a los precios de mercado.
Cantidades
Y 2 2.5 3 4 3.5 3.5 4.5 5 5.5 5.5 6 7 7.5 9 8.5
Precio X 3.3 4.4 3.3 5.5 4.4 5.5 6.6 6.6 7.2 7.7 7.7 8.8 8.8 11 9.9
27
La forma gráfica queda entonces
Y
10
9
8
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10 11 12
El grafico anterior muestra una relación directa, como la función de oferta se

supone es lineal su forma funcional así se expresa, no obstante esta puede ser
una curva semejante a una parábola o a una exponencial (todo depende el caso) y
por lo tanto se puede optar por la mejor forma, en este caso para efectos de
simplificación se muestra una lineal.
1.4.1. DESARROLLO
La ecuación de la línea recta es Y(x) = a+ bXi ,

donde :
“a” es el intercepto o el valor que adquiere “Y” cuando “X” es igual a cero,
“b” representa la pendiente o elasticidad de la ecuación (por el cambio en una
unidad adicional de x el valor total de Y cambia en la proporción de b).
28
1.4.2. CÁLCULO DE LA REGRESIÓN LINEAL
Para obtener los valores de los coeficientes se tiene en primer lugar efectuar los
productos encontrar sus sumatorias y luego simultanear la ecuación y
despejando en cada caso el valor que se requiera:
Precio X Cantidades Y (X)(Y)
3.3 2 6.6 10.89
4.4 2.5 11 19.36
3.3 3 9.9 10.89
5.5 4 22 30.25
4.4 3.5 15.4 19.36
5.5 3.5 19.25 30.25
29
6.6 4.5 29.7 43.56

6.6 5 33 43.56
7.15 5.5 39.325 51.1225
7.7 5.5 42.35 59.29

7.7 6 46.2 59.29
8.8 7 61.6 77.44
8.8 7.5 66 77.44
11 9 99 121
9.9 8.5 84.15 98.01
TOTAL 100.65 77 585.475 751.7125
30
Con el coeficiente encontrado se procede a sustituir en cualquiera de las dos

funciones originales para despejar el valor de a por lo que se obtiene
585.475 = (a) 100.65+ (b) 751.7125
585.475 = (a) 100.65+ 0.901166978) 751.7125
585.475-667.7418482 = (a) 100.65
-91.94348195/100.65= a
a = -0.913497088
De manera tal que la ecuación queda:
Y(X) = 0.9012 X- 0.9135
A un precio de 0, según esa ecuación, la producción seria -0.91 unidades, la

elasticidad precio de la oferta como es de esperarse es positiva en la medida que
cambie el precio de la producción este tendrá un impacto en el cambio de oferta
a un mayor precio se ofrecerá una mayor cantidad de producto.
Para efectos simplificadores se puede usar de manera general
a = (∑X*∑Y-∑XY) / (n*∑X^2 – (∑X)^2)
b=(n*∑XY - ∑Y*∑X) / (n*∑X^2 – (∑X)^2)
1.4.3 .COEFICIENTE DE CORRELACIÓN INTERPRETACIÓN ESTADÍSTICA
Como ya se ha planteado el grado de correlación mide la intensidad de

relación lineal, ya sea directa, inversa o inexistente entre dos variables, se dice
que es directa si tiene signo positivo, inversa de signo negativo y nula cuando
el valor sea aproximadamente igual a cero.
31
Existen diferentes métodos para calcular el grado de correlación en este curso

explicaremos el método en términos de variaciones y simplificado de Karl Pearson.
El método de variaciones consiste en comparar el grado de desviación que se

presenta entre los valores observados, los proyectados y la media aritmética; el de
Karl Pearson lo resume en una ecuación determinada.
La idea central radica en que si existe relación entre los valores de “Y” observados
con los valores de X, el grado de variación de la media aritmética respecto a los
“Y” estimados y los observados es mínima. En términos concretos se compara el
porcentaje de la variación explicada (que se origina entre los valores proyectados
y la media), y la variación total (la variación observada y la variación explicada) en
cuyo caso refleja un coeficiente que se encuentra entre el valor de -1 y 1.
De manera funcional se mide:
Variación total = variación no explicada + variación explicada
(Y observada -media de Y) = (Y observada - Y estimada) + (Y estimada - media

de Y)
El valor de la media se representa por la variable Ψ y se obtiene de la suma del

valor observado dividido entre el total de observaciones, = ∑ Y / n.
Para evitar valores negativos se debe llevar al cuadrado cada expresión, para
totalizar ese cálculo se realiza para cada uno de los puntos y luego se procede a
la suma en consecuencia
Como el coeficiente de correlación es un porcentaje que explica el comportamiento de

la relación entre lo variación explicada y la variación total se calcula mediante
32
Con esta ecuación se puede apreciar que en la medida que el valor de observado
sea igual al valor proyectado, el nivel de variación con la media será el mismo, es
decir que Y observado = Y estimado, si eso se cumple para cada uno de los
puntos las variaciones son inexistentes y por lo tanto
El método de Pearson no es más que aplicar la siguiente ecuación
1.4.4. CALCULO DEL COEFICIENTE DE CORRELACIÓN

Cantidade
s Y Y (X)
Precio observada estimad (Y- (Y(X ) -
X s (X)(Y) X*X Y*Y as Y(X))2 Ψ)2 (Y - Ψ)2
3.3 2.0 6.6 10.89 4.0 2.060 0.004 9.443 9.818
4.4 2.5 11.0 19.36 6.25 3.052 0.304 4.333 6.934
3.3 3.0 9.9 10.89 9.0 2.060 0.883 9.443 4.551
5.5 4.0 22.0 30.25 16.0 4.043 0.002 1.189 1.284
4.4 3.5 15.4 19.36 12.25 3.052 0.201 4.333 2.668
33
5.5 3.5 19.25 30.25 12.25 4.043 0.295 1.189 2.668

6.6 4.5 29.7 43.56 20.25 5.034 0.285 0.010 0.401
6.6 5.0 33.0 43.56 25.00 5.034 0.001 0.010 0.018
7.15 5.5 39.325 51.123 30.25 5.530 0.001 0.157 0.134

7.7 5.5 42.35 59.29 30.25 6.025 0.276 0.796 0.134
7.7 6.0 46.2 59.29 36.00 6.025 0.001 0.796 0.751
8.8 7.0 61.6 77.44 49.00 7.017 0.000 3.547 3.484
8.8 7.5 66.0 77.44 56.25 7.017 0.234 3.547 5.601
11.0 9.0 99.0 121.0 81.00 8.999 0.000 14.946 14.951
9.9 8.5 84.15 98.01 72.25 8.008 0.242 8.264 11.334
100.65 77.0 585.475 751.713 460.0 77.000 2.729 62.005 64.733
n = 15
La media entonces es:
= ∑ Y / n.
= 77/ 15
= 5.13
r2 = ∑ (Y estimada - )2 / ∑ (Y observada - )2
r2 = 62/64.73
r2 = 0.9578
34
Mediante el segundo método se tiene:
r = (n*∑xy –(∑x)* (∑y) )/ √ ((n*(∑ x2)*-(∑ x)2 )*(n*(∑y2)- (∑y)2)
r = ((15)*(585.48)- (100.65)* 77)/ √ ((15* 751.71)-(100.65)2)*(15*( 460 )- (77.00)2)
r = (8782.12 - 7750.05) / √ ((1145.265) *(971))
r= 1032.08 / √ (1,112,052.31)
r = 0.9787
(r)2=(0.9787)2
r2=0.9578
Como se puede apreciar indistintamente de método que se decida utilizar se llega

al mismo valor, entre más cercano se encuentre el valor de 1 se puede asegurar
que es más estrecha la relación lineal entre la variable dependiente y la
independiente.
1.4.5. DESVIACIÓN ESTÁNDAR
La desviación estándar de la función de regresión indica el grado de dispersión entre

las variaciones de los valores observados “Y” respecto a los estimados con ese valor
se puede determinar con cierta certeza si un modelo es confiable, en la medida que
dicho coeficiente sea mayor se puede apreciar que la estimación de los coeficientes no
es lo suficientemente confiables. Y(X) , la fórmula queda:
35
CÁLCULO DE LA DESVIACIÓN ESTÁNDAR.
De acuerdo con los datos recopilados se puede decir que la desviación es
Por el segundo método
La diferencia se debe a los decimales utilizados
1.4.6. INTERPRETACIÓN DE VARIABLES
Los valores obtenidos como “a” y “b” son estimadores de los parámetros
reales, porque se dicen estimadores porque son encontrados a partir de una
muestra, su representación en econometría son los valores ß, el caso de “a” se
está tratando con el intercepto y con “b” con la elasticidad, si “b” está siendo
afectado por un logaritmo ese coeficiente es una tasa de crecimiento.
En la medida que el valor de r o r2 tienda a uno o a -1 se está tratando de una

fuerte correlación, los investigadores prefieren trabajar con un coeficiente de
correlación cercano a 0.90 y 0.95, si es 0.99 nos encontramos en la posibilidad
de presentar auto correlación entre las variables y por tanto no aproximarnos a
los valores reales.
36
Ejemplo 1. Se tiene 1388 datos sobre nacimientos en Estados Unidos en un

período determinado. Las dos variables son la variable dependiente del peso de
los bebés al nacer medido en onzas (peso) y una variable explicativa, el
promedio de cigarrillos que la madre fumó al día durante el embarazo (cig). La
siguiente regresión simple ha sido estimada.
peso = 119.77 – 0.514 cig

Solución
Nota: Una onza equivale a 28.35 gramos, por ende 125 onzas es
aproximadamente 3.54 kilogramos.
a) ¿Cuál es el peso predicho cuando cig=0?
peso = 119.77 – 0.514 cig = 119.77 – 0.514 (0) = 119.77
¿y cuándo cig=20?
peso = 119.77 – 0.514 cig = 119.77 – 0.514 (20) = 119.77 – 10.28 = 109.49
b) ¿Implica necesariamente esta regresión simple que existe una relación causal
entre el peso del bebé al nacer y el hábito de fumar de la madre?
No, la regresión sólo indica que existe una relación inversa entre el peso del
bebé y el promedio de cigarrillo que la madre fumó por día.
c) Para predecir un peso de 125 onzas ¿a que tendría que ser igual cig?
peso = 119.77 – 0.514 cig
125 = 119.77 – 0.514 cig
0.514 cig = 119.77 – 125 = -5.23
Cig = -5.23 / 0.514 = -10.18
37
Ejemplo 2: En la función de consumo lineal consumo = βo+ β1*ingreso

La propensión marginal al consumo (PMC) (estimada) del ingreso es simplemente la
pendiente, β1,
Empleando observaciones de 100 familias sobre sus ingresos y consumos anuales
(ambos medidos en dólares), obtenemos la siguiente ecuación:
Consumo = −124,84 + 0,853*ingreso
n = 100, R2 = 0,692
i. Interpretar la pendiente en dicha ecuación y comentar su signo y magnitud.

Pendiente = 0.853 relación directa
Indica que las familias destinan 0.853 dólares por
cada dólar del ingreso al consumo
ii. ¿Cuál es el consumo predicho cuando el ingreso
de la familia es de 30000 $?
Consumo = −124,84 + 0,853*ingreso
Consumo = −124,84 + 0,853*(30000)
Consumo = −124,84 + 25590 = 25.465,
iii. Interpretar la correlación
El valor R2=0.692 nos indica que la regresión explica el 69.2% de los datos
proyectados
1.4.7. PROYECCIONES
Las proyecciones de los modelos como se ha planteado

son en dos momentos el Corto Plazo CP y el Largo
Plazo LP, este último se utiliza solamente la ecuación
calculada por mínimos cuadrados ordinarios, en el caso
de CP sea hace una regresión utilizando las
desviaciones típicas de cada valor u observación para
estimar su relación de variabilidad con la función
econométrica a partir de ello se aplica a las observaciones un método de
diferencias para determinar su variación para cada año y a partir de los
coeficientes que refleje se puede hacer estimaciones para no más de 5 o 6
observaciones a futuro, con la condición de proyectar las variables
independientes.
38
El método de proyecciones de CP no será presentado por tratarse de un método

que requiere otros elementos de análisis como la estacionariedad de la serie y su
cointegración, así como métodos de proyección y utilización de paquetes
computacionales; por tal motivo estamos en la posición de hacer proyecciones a
LP, para ello se toma la ecuación calculada y se procede a sustituir valores de la
variable independiente que se encuentren dentro del rango o dominio de la
variable X.
Finalmente para efectuar una proyección de CP, el modelo debe poseer un

coeficiente de correlación cercano a 1 o a -1, una mínima desviación estándar y
poseer significancía estadística, solo de esta manera una proyección es confiable,
en la medida que los el r2 sea cercano a cero o inferior a 0.75, una desviación
grande y con coeficientes no representativos la estimación se dice no confiable o
espuria.
Para el ejercicio de la función lineal tenemos una ecuación construida para un

domino que va desde 3.3 a 11, el cual representa el precio.
Con esa información podemos decir que si el mercado espera en ese periodo un
precio de 5 unidades monetarias el valor de la cantidad ofertada será de
Y(X)=0.9012 (5)- 0.9135, Y(X)= 3.59, en consecuencia los productores ofrecerían
una 3.6 kilos de carne aproximadamente, la misma mecánica se aplica para las
demás ecuaciones calculadas, la interpretación variará dependiendo de las
variables utilizadas.
En el caso de utilizar el Excel solo es necesario aplicar la formula tal como se

presenta en la siguiente grafica, el
valor variable es la columna de los
precios esperados B y por tanto se
deja la ecuación idéntica excepto ese
valor que nos sirve para estimar, para
encontrar los valores posteriores
simplemente es necesario copiar y
hacia abajo.
39
40
Nótese que el valor de 15 no fue estimado por no encontrarse dentro del rango,
lo mismo se aplica para casos que están por debajo de 3.3.
1.4.8. ALGUNOS CÁLCULOS MEDIANTE EXCEL
Como es de esperarse existen diferentes programas que facilitan el análisis

econométrico, dentro de ellos se puede mencionar SPSS y Econometrics
Views, son programas especializados para ello, no obstante, office de Windows
mediante Excel ofrece herramientas que facilitan ciertos cálculos como la
estimación de la educación y el valor de r2.. En primer lugar debemos introducir
los datos de manera vertical tal como se muestra
41
Luego marcamos las dos columnas para graficar las relaciones
Nótese que se señalo el gráfico de dispersión, se aplica siguiente hasta el punto en

que se solicita la ubicación, se recomienda que se envíe a una hoja aparte, no en la
misma hoja. Se da clic derecho en la línea de dispersión para seleccionar línea de
tendencia
42
Como se puede apreciar existen diferentes tendencias, uno mismo puede hacer las
pruebas en que el coeficiente de correlación y la forma funcional se ajuste más.
Además en la viñeta de opciones de la misma venta se puede seleccionar que

muestre la ecuación y el valor de r2. Quedando de esta manera
43
Nótese que son los mismos valores calculados para el ejemplo 1 de línea de regresión
lineal.
44
Lecturas Recomendadas
❖ SOFTWARE GRATUITO EASYREG INTERNATIONAL
http://www.icesi.edu.co/~jcalonso/ER/index.php
❖ MÉTODO DE LOS MÍNIMOS CUADRADOS ORDINARIOS.

http://catarina.udlap.mx/u_dl_a/tales/documentos/lad/mercado_g_ja/apendiceC.pdf
❖ REGRESIÓN LINEAL EN EXCEL

http://youtu.be/PndSTMwA-dA
Actividades y Ejercicios
1. Ingresa al link “Regresión Lineal” lee atentamente las

indicaciones, desarróllalo y envíalo por el mismo medio.
El siguiente cuadro contiene los resultados de la prueba de

aptitud para el acceso a la universidad en Estados Unidos (ACT,
American College Testing) y el promedio de notas en la
universidad (GPA, Grade Point Average) de 8 alumnos
universitarios. Es decir la nota de ingreso y el rendimiento
actual. El GPA se basa en una escala de 4 puntos
45
Alumno GPA ACT

1 2.8 21
2 3.4 24
3 3.0 26
4 3.5 27
5 3.6 29
6 3.0 25
7 2.7 25
8 3.7 30
• Estimar la relación entre GPA y ACT empleando MCO; es decir, obtener los valores
estimados del término constante y de la pendiente en la ecuación
GPA = a + b*ACT
Comentar la dirección de la relación e interpretar los parámetros
• Calcular los valores ajustados y los residuos para cada observación y comprobar que
los residuos suman cero (aproximadamente)
• Estimar el valor predicho para GPA cuando ACT=20
• Interpretar el coeficiente de correlación
2. Ingresa al link “Ajuste Lineal Simple” lee atentamente las indicaciones, desarróllalo
y envíalo por el mismo medio.
Las estaturas y pesos de 10 jugadores de baloncesto de un equipo son:
Estatura
186 189 190 192 193 193 198 201 203 205
(X)
Pesos
85 85 86 90 87 91 93 103 100 101
(Y)
Calcular e interpretar el coeficiente de correlación.
46
Autoevaluaciones
1) ¿Cuál de las siguientes oraciones NO es verdadera?
a. El punto X barra, Ybarra siempre se encuentra en la recta de regresión
b. La suma de los residuos es siempre cero
c. La media de los valores ajustados de Y es el mismo que los valores
observados de Y
d. Siempre hay tantos puntos por encima de la línea de ajuste, como los que hay
debajo de ella
e. La línea de regresión minimiza la suma de los cuadrados de los residuos
2) La pendiente de una línea se puede calcular por:

a. Recogiendo un punto a lo largo de la línea, y el cálculo de la coordenada Y de
ese punto, dividido por la coordenada X de ese punto.
b. Recogiendo dos puntos cualesquiera a lo largo de la línea y calculando la
diferencia en las coordenadas X dividida por la diferencia en las coordenadas Y
c. Escoger cualquiera de los dos puntos a lo largo de la línea y calcular la
pendiente.
d. Escoger cualquiera de los dos puntos a lo largo de la línea y calcular el
promedio
e. Escoger dos puntos cualquiera y calcular la desviación estándar
3) En un modelo de regresión lineal simple el coeficiente de la pendiente mide

a. La elasticidad de Y con respecto a X
b. El cambio en Y que el modelo predice para una unidad de cambio en X
c. El cambio en X que el modelo predice para una unidad de cambio en Y
d. El ratio de Y / X
e. El valor de Y para cualquier valor dado de X.
4) Para la función de regresión de dos variables de la población,

a. El valor esperado condicional de Y dado X, se supone que yacen a lo largo de
una línea recta dada por la fórmula Y = B1 + B2 * X
b. El valor marginal esperado de Y se supone que se encuentran a lo largo de una
línea recta dada por la fórmula Y = B1 + B2 * X
c. El valor real de Y, dado X, se supone que se encuentran a lo largo de una línea
recta dada por la fórmula Y = B1 + B2 * X
d. La varianza de Y alrededor de su valor esperado se supone que es cero
47
e. El valor real de Y, dado X, se supone que son los puntos de la línea recta
estimada por la fórmula X=B1 + B2*Y.
5) Para cualquier observación, la cantidad de Y en un valor dado de X, por

ejemplo X0, se compone de:
a. Una cantidad de la sumatoria de Y que está siempre presente,
independientemente de la magnitud de X (es decir, la intersección, o el término
constante)
b. Una cierta cantidad de Y que es incluido por la magnitud de X (igual a la
pendiente del coeficiente de la cantidad de X en ese punto)
c. Una cierta cantidad de Y que representa la suma aleatoria, y se diferencia al
azar de una observación
d. La pendiente es inconstante a lo largo de la línea recta
e. Una cantidad de base de Y que está siempre presente, independientemente de
la magnitud de X (es decir, la intersección, o el término constante).
6) El modelo de regresión incluye un error aleatorio o término de error para una

variedad de razones. ¿Cuál de los siguientes NO es uno de ellos?
a. Errores de medición en las variables observadas
b. Influencias omitidas en Y (que no sea X)
c. Forma funcional lineal es sólo una aproximación
d. Las variables observables no corresponden exactamente con sus contrapartes
teóricas
e. Puede haber errores de aproximación en el cálculo de las estimaciones de
mínimos cuadrados
7) ¿Cuál de los siguientes supuestos sobre el término de error no es parte de

la llamada "supuestos clásicos"?
a. Que tiene una media de cero
b. Tiene una varianza constante
c. Su valor para cualquier observación es independiente de su valor para
cualquier otra observación
d. Es independiente del valor de X
e. Que tiene una distribución normal
8) El cambio de las unidades de medida de la variable Y afectará a todos, pero

menos uno de los siguientes
a. El parámetro de intersección estimado
48
b. El parámetro de pendiente estimado

c. La suma total de cuadrados de la regresión
d. R cuadrado de la regresión
e. Los errores estándar estimados
9) Una ecuación de regresión ajustada viene dada por Y = 20 + 0.75X. Lo que es

el valor del residuo en el punto X = 100, Y = 90?
a. X
b. -5
c. 0
d. 15
e. -5
10) R2 mide
a. La suma de los cuadrados se explica como un porcentaje de la suma total de
cuadrados
b. La correlación entre X e Y
c. La cantidad de variación en Y
d. La covarianza entre X e Y
e. La suma residual de los cuadrados como proporción de la suma total de
cuadrados
49
Resumen
UNIDAD DE APRENDIZAJE I:
Econometría: este vocablo procede del griego y significa “medida de la economía”

Se define Econometría como aquella rama de la Economía que se ocupa de medir
desde el punto de vista empírico cualquier relación entre variables económicas.
La econometría emplea datos de la realidad (muestra) para determinar si esos datos
tienen un comportamiento de acuerdo a como pronostica la Teoría. La econometría no
puede concluir si la Teoría Económica es correcta o no. La pendiente estimada es la
covarianza muestral entre x e y dividida por la varianza de la muestra de x
Si x e y están positivamente correlacionados, la pendiente será positiva
Si x e y tienen una correlación negativa, la pendiente será negativa.
La idea básica de la regresión consiste en estimar los parámetros poblacionales de

una muestra Sea {(xi, yi): i = 1,..., n} que denota una muestra aleatoria de tamaño n
de la población Para cada observación en esta muestra, que será el caso de que
yi = b0 + b1xi + εi Línea de regresión poblacional, puntos de los datos de la muestra y
los términos de error asociados Las estimaciones MCO de β1 y β0 son imparciales
La prueba de insesgadez depende de 4 supuestos; si cualquier supuesto falla,
entonces MCO no es necesariamente imparcial Recuerde que el insesgamiento es
una descripción del estimador; en una muestra dada que puede estar "cerca" o "lejos"
del verdadero parámetro.
La medida más representativa para evaluar la relación existente entre dos variables
continuas es la correlación. Este término implica un tipo de asociación en que la
relación es monotónica, es decir, va en una sola dirección e implica que cuanto crece
un factor, crece el otro, o inversamente, decrece. La correlación lineal evalúa en qué
medida la relación puede ser resumida en una línea recta. Los coeficientes de
correlación no paramétricos, como el coeficiente de correlación de rango de
Spearman, evalúan en qué medida dos factores están correlacionados pero sin tener
en cuenta la magnitud del cambio en uno que acompaña el cambio en el otro, sólo
considera la dirección del cambio.
El método de variaciones consiste en comparar el grado de desviación que se

presenta entre los valores observados, los proyectados y la media aritmética; el de
Karl Pearson lo resume en una ecuación determinada. La idea central radica en que si
existe relación entre los valores de “Y” observados con los valores de X, el grado de
variación de la media aritmética respecto a los “Y” estimados y los observados es
mínima. En términos concretos se compara el porcentaje de la variación explicada
(que se origina entre los valores proyectados y la media), y la variación total (la
variación observada y la variación explicada) en cuyo caso refleja un coeficiente que
se encuentra entre el valor de -1 y 1.
50
51
Introducción
estudiante conozca el análisis de regresión múltiple; este tipo se presenta cuando
dos o más variables independientes influyen sobre una variable dependiente.
b) Competencia
Reconoce las técnicas de regresión múltiple más apropiadas para analizar un
conjunto de datos con múltiples relaciones.
c) Capacidades
1. Identifica a la regresión múltiple como un sistema de ecuaciones.

2. Analiza el modelo de regresión múltiple para estimar los coeficientes de
regresión.
3. Explica la medida que establece un grado de asociación en correlación múltiple.
4. Conoce los problemas que se pueden presentar en la multicolinealidad.
d) Actitudes
✓ Toma conciencia de la importancia de las relaciones múltiple entre variables.

✓ Considera importante la regresión múltiple para analizar modelos cuantitativos.
✓ Valora la importancia de la correlación múltiple.
✓ Asume una actitud crítica frente al problema de l a multicolinealidad.
e) Presentación de ideas básicas y contenidos esenciales de la Unidad:
La Unidad de Aprendizaje 02: Análisis de Regresión Múltiple, comprende el

desarrollo de los siguientes temas:
TEMA 01: Justificación de la regresión múltiple.

TEMA 02: Estimadores del método de mínimos cuadrados ordinarios.
TEMA 03: Correlación Múltiple.
TEMA 04: Componentes de las varianzas MCO: multicolinealidad.
52
Justificación
TEMA 1
de la
Regresión
Múltiple
Competencia:
Identificar a la regresión múltiple como un
sistema de ecuaciones.
53
Tema 01: Justificación de la Regresión Múltiple
Muchos problemas de regresión involucran más de una variable regresiva. Tales

modelos se denominan de regresión múltiple. La regresión múltiple es una de las
técnicas estadísticas más ampliamente utilizadas. Este capítulo presenta las
técnicas básicas de la estimación de parámetros, de la estimación del intervalo de
confianza y de la verificación de la suficiencia del modelo para la regresión
múltiple. Presentamos también algunos problemas encontrados con frecuencia en
el uso práctico de la regresión múltiple, incluyendo la construcción del modelo y la
selección de variables, la autocorrelación en los errores, y la multicolinearidad y la
dependencia casi lineal entre los regresores.
Como la Estadística Inferencial nos permite trabajar con

una variable a nivel de intervalo o razón, así también se
puede comprender la relación de dos o más variables y nos
permitirá relacionar mediante ecuaciones, una variable en
relación de la otra variable llamándose Regresión Lineal y
una variable en relación a otras variables llamándose Regresión múltiple.
REGRESIÓN:
Se define como un procedimiento mediante el cual se trata de determinar si existe

o no relación de dependencia entre dos o más variables. Es decir, conociendo los
valores de una variable independiente, se trata de estimar los valores, de una o
más variables dependientes.
Modelo de Regresión múltiple
El modelo de regresión que involucra más de un variable

regresadora se llama modelo de regresión múltiple. Como
un ejemplo, supóngase la vida eficaz de una herramienta
de corte depende de la velocidad y del ángulo de corte. Un
modelo de regresión múltiple que podrá describir estas relaciones.
54
Y= vida de la herramienta
X1= rapidez de corte
X2=ánulo de corte
Modelo Lineal General (MLG)
La información asociada a la variable endógena se almacena en un vector, columna

Y de tamaño n1 :
 y1 
 
Y= .
 
y 
 n
La información asociada a las variables explicativas se recoge en una matriz

llamada X de tamaño n  k :
 x11 . x1k 

X= . . .

 
x 
 n1 . xnk 
Las perturbaciones en un vector  de tamaño n1 y los parámetros en

un vector  de tamaño k 1 :
 1   1 
 =  .  ;  =  . 
   
 n  k
55
El modelo lineal general (MLG) escrito en forma matricial o compacta es:
 y1   x11 . x1k   1    1 
  =    
 .   . . .   .  + . 
 y  x    
 n   n1 . xnk    k    n 
o bien, Y =X  +  . Este es un sistema de n ecuaciones que se corresponde con

la forma compacta de escribir el MLG.
Las hipótesis sobre las pertubaciones en notación matricial son:
E(  ) = 0 ; var (  ) = E(   ) =  2 I, donde I es la matriz identidad

T
56
Estimadores TEMA 2
del Método
de Mínimos
Cuadrados Ordinarios
Competencia:
Analizar el modelo de regresión múltiple
para estimar los coeficientes de regresión.
57
Tema 02: Estimadores del Método de Mínimos

Cuadrados Ordinarios
1. MODELO LINEAL GENERAL (MLG)

1.1 Estimación del modelo lineal general (MLG):
Dada la formulación matricial del MLG, Y =X

 +  , el objetivo es, de nuevo, obtener la
expresión analítica del estimador MCO de .
Para ello, se define el vector de residuos ˆ
de tamaño n1 que una vez conseguida una
estimación del vector  , se calculará como:
ˆ  Y  X ˆ La función objetivo sigue siendo minimizar la suma de cuadrados de
los residuos con respecto a los k parámetros del modelo que puede escribirse
n
como: min  ˆ
t 1
t
2
 min ˆT ˆ  min(Y  X ˆ )T (Y  X ˆ )
Operando:
min(Y T  ˆ T X T )(Y  X ˆ )  min(Y T Y  2ˆ T X T Y T  ˆ T X T X ˆ )

Condiciones de primer orden:
ˆT ˆ
 2 X T Y  2 X T X ˆ  0
ˆ
Donde se han tenido en cuenta los siguientes resultados sobre derivadas

matriciales:
z T w zT Az
w ;  2 Az
z z
siendo z y w dos vectores de tamaño compatible y A una matriz cuadrada. La
solución analítica a las condiciones de primer orden es:
X T X ˆ  X T Y
58
Este es un sistema de k ecuaciones con k incógnitas ( ˆ1 , ˆ2 ,..., ˆk ), llamado
sistema de ecuaciones normales. El estimador ˆ que satisface este sistema

se llama estimador por MCO. La forma más sencilla de resolver este sistema es
premultiplicar el mismo por la inversa de la matriz X T X de tamaño ( k  k ),
teniendo que:
ˆ  ( X T X )1 X T Y
1.2. Propiedades estadísticas del estimador MCO de  :
a) Linealidad: El estimador MCO de  es

lineal. La linealidad consiste en poder
escribir el estimador como una combinación
lineal fija de los valores de la variable
endógena.
1
Prueba: Denotando por W  ( X X ) X ,
T T
el estimador MCO de  se puede escribir como ˆ  WY , donde por la

hipótesis de regresores fijos sabemos que cada estimador se puede
escribir como una combinación lineal fija de los valores de la variable
endógena Y .
b) Insesgadez: El estimador MCO de  es insesgado. Es decir, la media de la
distribución muestral de ˆ coincide con el verdadero  . Si la E ( ˆ )   , las

estimaciones que conseguimos con el estimador no son iguales al verdadero
vector de parámetros ni siquiera en media. A la diferencia E ( ˆ )   se le

denomina sesgo. La insesgadez es una propiedad deseable, pero no a toda
costa. Por ejemplo, podemos tener dos estimadores alternativos de  , uno
insesgado y otro sesgado. Si los valores que toma el estimador sesgado oscilan
menos alrededor de  que el insesgado, el primero tendría menos varianza que
el segundo. Es decir, a veces un pequeño sesgo compensa por la menor
varianza.
59
c) Prueba: La expresión del estimador MCO de  , ˆ  ( X T X )1 X T Y , se
puede escribir como ˆ    ( X X ) X  , sin más que sustituir el valor de

T 1 T
Y por el modelo Y  X    . Por tanto:
E (ˆ )  E[  ( X T X )1 X T  ]  E ( )  E[( X T X )1 X T  ]    ( X T X )1 X T E ( )  
donde se han usado las hipótesis de (1) parámetros constantes, (2)

regresores fijos e independientes linealmente y (3) esperanza nula del
término de error .
d) Eficiencia: El estimador MCO de  es eficiente. Es decir, tiene varianza
mínima dentro de la familia de estimadores lineales e insesgados de  . Esto

es lo que demuestra el Teorema de Gauss-Markov. Pero antes, hay que
derivar la expresión de la matriz de varianzas-covarianzas del estimador MCO
de .
var( ˆ )  E[( ˆ   )( ˆ   )T ]  E[( X T X ) 1 X T  T X ( X ´T X ) 1 ]
Sabiendo que por hipótesis los regresores son fijos:
var(ˆ )  ( X T X )1 X T E ( T ) X ( X T X )1

y, finalmente, aplicando las hipótesis de que las pertubaciones tienen
esperanza nula, varianza constante y ausencia de autocorrelación:
var(ˆ )   2 ( X T X )1
Esta es la expresión de la mínima varianza de un estimador lineal e insesgado
de 
1.3. Estimador MCO de la varianza residual 

2
Dada una muestra de Y y X , con la expresión del estimador MCO, es posible

calcular una estimación puntual de los parámetros, pero no es posible calcular una
medida de la incertidumbre asociada a dicha estimación (varianza), porque  2 es

constante pero desconocido.
60
Un estimador intuitivo de la varianza de las perturbaciones consiste en dividir la

suma de cuadrados de los residuos MCO por n. No obstante, para que dicho
estimador sea insesgado, hay que ponderar la suma de cuadrados de los residuos
por los grados de libertad. Es decir:
n
 ˆ t
2
ˆT ˆ
ˆ 
2 t 1

nk nk
Este estimador es insesgado, es decir, la E (ˆ )   , ya que la

2 2
E (ˆT ˆ)  (n  k ) 2 .
Prueba: El vector de residuos MCO se puede escribir como:
ˆ  Y  Yˆ  Y  X ˆ  Y  X ( X T X )1 X T Y  [ I  X ( X T X )1 X T ]Y  MY
donde la matriz M de tamaño (n  n) es la llamada matriz de proyección que tiene
propiedades importantes: (1) es simétrica, (2)
idempotente ,(3) no tiene inversa y (4) es
ortogonal a la matriz X , es decir, MX  0 .
A partir de la relación anterior y de las
propiedades de la matriz M , se obtiene:
ˆ  MY  M ( X    )  M  . Por tanto,
siempre que se desee la suma de cuadrados de los residuos se puede escribir
como una forma cuadrática:
ˆT ˆ   T M 
Finalmente, la esperanza de esa suma es igual a:
E (ˆT ˆ)  E ( T M  )  E[tr ( T M  )]  E[tr ( M  T )] 

 tr[ E ( M  T )]  tr[ ME ( T )]  tr[ M  2 ]   2tr[ M ]
y la traza de la matriz M :
tr (M )  tr[ I  X ( X T X )1 X T ]  n  tr[ X ( X T X )1 X T ]  n  tr[( X T X )1 X T X ]  n  k
61
ya que la matriz M es cuadrada y de dimensión n y ( X T X )1 de tamaño (k  k ) .

De hecho, la prueba de que esta matriz no tiene inversa es inmediata, ya que el
rango de una matriz idempotente coincide con su traza.
Una vez obtenido un estimador insesgado de la varianza residual, dada cualquier
muestra de Y y X en el MLG, los pasos en la estimación MCO son:
(1) ˆ  ( X X ) X Y
T 1 T
ˆT ˆ
(2) ˆ 2 
nk
ˆ ˆ )  ˆ ( X X )
(3) var(
2 T 1
Ejercicio numérico 1: Dada la siguiente muestra temporal de las variables yt y xt :
yt 8.04 6.95 7.58 8.81 8.33 9.96 7.24 4.26 10.84 4.82 5.68
xt 10 8 13 9 11 14 6 4 12 7 5
Obtener la estimación MCO de los parámetros del modelo yt  1  2 xt   t , así
como una estimación insesgada de la varianza residual y de la matriz de
varianzas-covarianzas del estimador de 1 y  2 .

Solución:
i X2 Y2
1 8.04 10 80.4 100 6464.16
2 6.95 8 55.6 64 3091.36
3 7.58 13 98.54 169 9710.1316
4 8.81 9 79.29 81 6286.9041
5 8.33 11 91.63 121 8396.0569
6 9.96 14 139.44 196 19443.5136
7 7.24 6 43.44 36 1887.0336
8 4.26 4 17.04 16 290.3616
9 10.84 12 130.08 144 16920.8064
10 4.82 7 33.74 49 1138.3876
11 5.68 5 28.4 25 806.56
Suma 74.47 99 797.60 1001 74435.28
62
El cálculo de la expresión ˆ  ( X X ) X Y para esta muestra es:

T 1 T
 n
XT X  
 x   11
t 99 
 xt  x  99
2
t 1001
  yt   82.51 
X TY    
  yt xt  797.60
 ˆ1  11 99  1  82.51  1 1001 99  82.51   3 
ˆ
   
      
 ˆ2  99 1001 797.60 1210  99 11  797.60 0.5
El modelo estimado se escribe yˆt  3  0.5 xt . La estimación de la varianza residual
por MCO exige calcular la suma de cuadrados de residuos:

ˆ1  y1  yˆ1  8.04  8  0.04;...; ˆ11  y11  yˆ11  5.68  5.5  0.18
11
11  ˆ t
2
14
SR   ˆt2  14; ˆ 2  t 1
  1.55
t 1 nk 11  2
Por último, la estimación de la matriz de varianzas y covarianzas del estimador
MCO de 1 y  2 es:
ˆ ˆ1 ) cov(
 var( ˆ ˆ1ˆ2 )  1.55 1001 99  1.27 0.13
ˆ ˆ )  ˆ 2 ( X T X )1  
var(    
ˆ ˆ2 )  1210  99 11   0.13 0.014 
ˆ ˆ1ˆ2 ) var(
cov(
1.4. Propiedades algebraicas del criterio de estimación MCO
Hay que distinguir las propiedades algebraicas del criterio MCO dependiendo de si
el modelo incorpora o no un término constante. El sistema de ecuaciones normales
para un modelo con término constante tiene la siguiente estructura:
X T X ˆ  X T Y
o bien:
1 1 . 1  1 x12 . x1k   ˆ1   1 1 . 1   y1 

x  
 12 x22 . xn 2  1 x22 . x2 k   ˆ2   x12 x22 . xn 2   y2 

 . . . .  . . . .  .   . . . .  . 
      
 x1k x2 k . xnk  1 xn 2 . xnk   ˆ   x1k x2 k . xnk   yn 
 k
63
Donde la primera columna de la matriz X es determinista y vale siempre uno (es

el llamado término constante del modelo). Operando en el sistema anterior, se
obtiene:
n x x x   ˆ1    yt 
 ˆ  
t2 t3 tk
 
. x 2
t2 x x
t2 t3 x x t 2 tk    2 
   xt 2 yt 
. . . .  .   . 
    
 . . .  xtk2   ˆk    xtk yt 
La primera ecuación del sistema de ecuaciones normales de un modelo con
término constante es:
nˆ1   xt 2 ˆ2  ...   xtk ˆk   yt
o bien, en términos matriciales:
iT X ˆ  iT Y
donde i
T
es un vector fila unitario de tamaño n ; iT  1 1 . 1 . A partir de esta
primera ecuación que cumple el criterio MCO es fácil derivar algunas propiedades
algebraicas:
Propiedad 1. En el MLG con término constante estimado por MCO, la media
muestral de los residuos es nula, es decir, ˆ  0 .

Prueba: A partir de la primera ecuación normal de un modelo con constante:
iT X ˆ  iT Y  iT (Y  X ˆ )  0  iT (Y  Yˆ )  0  iT ˆ  0   ˆt  0
Propiedad 2. En el MLG con término constante estimado por MCO, la media

muestral de la variable endógena coincide con la media muestral de la variable
ajustada por el modelo, es decir: Y  Yˆ .

Prueba: A partir de la primera ecuación normal de un modelo con constante:
iT X ˆ  iT Y  iT Yˆ  iT Y   yˆt   yt
Propiedad 3. En el MLG con o sin término constante estimado por MCO, los
residuos son ortogonales a las variables explicativas, es decir:
n
X T ˆ  0 . En términos escalares,  x ˆ
t 1
ti t  0, i  1, 2,..., k .
64
Prueba: A partir del sistema de ecuaciones normales MCO:
X T X ˆ  X T Y  X T (Y  X ˆ )  0  X T ˆ  0
Propiedad 4. En el MLG con o sin término constante estimado por MCO, los
residuos son ortogonales a la variable endógena ajustada, es decir: Yˆ T ˆ  0 . En

n
términos escalares,  yˆ ˆ
t 1
t t  0.
Prueba: A partir de la misma condición de ortogonalidad:
Yˆ T ˆ  0  ( X ˆ )T ˆ  0  ˆ T X T ˆ  0
teniendo en cuenta la propiedad 3 de ortogonalidad entre los residuos y los
regresores.
Propiedad 5. En el MLG con o sin término constante estimado por MCO, la suma
de cuadrados de la variable endógena real es igual a la suma de cuadrados de la
variable ajustada más la suma de cuadrados de residuos, es decir:
Y T Y  Yˆ T Yˆ  ˆT ˆ . O bien, escrita en términos escalares,

n n n
 y   yˆ   ˆ
t 1
2
t
t 1
2
t
t 1
t
2
.
Prueba: La suma de cuadrados de residuos MCO se puede escribir como:
ˆT ˆ  (Y  X ˆ )T (Y  X ˆ )  Y T Y  2ˆ T X T Y  ˆ T X T X ˆ
Sustituyendo en el último sumando la expresión analítica del estimador MCO de 
:
ˆT ˆ  Y T Y  2ˆ T X T Y  ˆ T X T X ( X T X )1 X T Y  Y T Y  ˆ T X T Y

Finalmente: Yˆ Yˆ  ˆ X X ˆ  ˆ X Y
T T T T T
Propiedad 6. En el MLG con término constante estimado por MCO, la propiedad 5

se cumple cuando las variables se expresan en desviaciones con respecto a sus
medias, es decir:
(Y  iY )T (Y  iY )  (Yˆ  iYˆ )T (Yˆ  iYˆ )  (ˆ  iˆ )T (ˆ  iˆ )

donde i es una columna unitaria de tamaño n.
65
Prueba: Aplicando las propiedades algebraicas 1 y 2, la expresión anterior en

términos escalares queda reducida a:
 ( y  y )   ( yˆ  y )  ˆ
t
2
t
2
t
2
y operando  y  ny   yˆ  ny   ˆ
2 2 2 2 2
t t t , que se corresponde con la propiedad
5.A la suma de cuadrados de los valores de la endógena alrededor de su media se

le llama ST (Suma Total); a la suma de cuadrados de la variable ajustada en
desviaciones SE (Suma Explicada) y a la suma de cuadrados de residuos se le
denomina SR (Suma Residual). Por tanto, esta última propiedad se expresa como
ST  SE  SR . La interpretación de esta igualdad es una descomposición de
varianzas.
Es decir, dividiendo por n , indica que de toda la variabilidad que hay que explicar
de la endógena (ST), hay una parte captada por el modelo (SE) y otra parte que no
puede ser explicada (SR). Si el modelo ajusta perfectamente la SR=0 y la ST=SE.
Si el modelo no explica nada, la SE  0 y la ST  SR .
66
Correlación TEMA 3
Múltiple
Competencia:
Explicar la medida que establece un grado
de asociación en correlación múltiple.
67
Tema 03: Correlación Múltiple
CORRELACIÓN MÚLTIPLE
La SR puede ser una medida de bondad de ajuste. No obstante, no es buena

medida, ya que los residuos tienen escala y esta suma cambia ante un simple de
escala en los datos de la endógena.
Además, la SR como mínimo es nula, pero su valor máximo no está acotado. Si
queremos una medida adimensional y acotada, se puede definir un ratio de sumas.
La medida de ajuste más conocida es el llamado coeficiente de determinación o

R 2 del modelo definido como:
SE SR
R2   1
ST ST
en donde se ha usado la propiedad de que la ST  SR  SE , por lo que la
expresión dada se corresponde con una medida de bondad sólo válida si el modelo
tiene término constante.
El valor del R 2 (multiplicado por 100) se interpreta como el porcentaje de la

varianza de la endógena que queda explicada por el modelo. Además, está
acotado entre cero y uno. Si el R  0 , el ajuste es nulo, ya que la SE  0 . Si el

2
R 2  1 , el ajuste es perfecto, ya que la SE  ST , o bien, la SR  0 . Ajustes

intermedios darían lugar a un R  0.5 .
2
El R 2 es muy fácil de calcular y muy usado, pero hay que tener en cuenta que
tiene problemas.
68
Problemas del R 2 .
En primer lugar, puede ser engañoso mirar sólo el R 2 sin mirar los datos.
Muchas veces, el R 2 es muy alto en relaciones espúreas. El ejemplo más
famoso en la literatura econométrica es la relación entre el Nº de nacimientos
en un año en los EEUU y el Nº de cigueñas en ese mismo año y estados. La
estimación del modelo que explica el Nº de nacimientos en función del Nº de
cigueñas proporciona un R 2 muy elevado y esto sabemos que es espúreo.
La razón es que en ese año la correlación muestral entre ambas variables
fue muy alta y aunque no hay ninguna relación causal entre ambas, el
coeficiente de determinación es bueno, pero engañoso.
En relaciones donde tiene sentido relacionar determinadas variables

(Consumo y Renta), el coeficiente de determinación puede ser
excesivamente alto si en el período muestral considerado ambas variables
evolucionan de forma muy parecida o presentan una tendencia común.
Otro problema distinto del R 2 convencional es que nunca empeora cuando
en el modelo introducimos variables explicativas adicionales. Es decir,
aunque una nueva variable no sea muy relevante, su incorporación hace
que, en el peor de los casos, el R 2 no cambie, o bien, con un poco de suerte,
aumente.
Introducir un nuevo regresor en el modelo tiene dos efectos: (1) disminuyen

los grados de libertad y éste es negativo y (2) disminuye la suma residual y
éste es positivo. Si el peso del efecto negativo es mayor que la mejora en el
ajuste, no compensará introducir esta nueva variable y a la inversa.
La solución a éste último problema es utilizar el llamado R 2 ajustado o
corregido de grados de libertad ( R 2 ) que se calcula como:
n 1
R2  1 (1  R 2 )
nk
69
En esta formulación del R 2 se tienen en cuenta dos efectos:

(1) Si aumenta el número de regresores en el modelo, disminuyen los grados de
n 1
libertad y esto se penaliza, es decir:  k  n  k   R 2 y
nk
(2) Esos nuevos regresores pueden mejorar el modelo en términos de ajuste, es
decir:  k  SR  R  R . Si el efecto de penalización es menor que

2 2
el efecto de mejora en el ajuste, el R 2 aumentará e indicará que compensa

la introducción de esas nuevas variables y a la inversa.
Como ejemplo, supongamos que se han estimado dos funciones de consumo

alternativas:
ˆ  ˆ ; R 2  0.80
Ct  aˆ  bYt t
ˆ  ci
Ct  aˆ  bY ˆ t ˆt ; R 2  0.87
t
donde it es una Tasa de interés. Ambos modelos están
anidados ya que se quiere explicar el Consumo en

función de la Renta (en el primero) o bien, introducir
un nuevo regresor (Tasa de interés) en el modelo más
sencillo. El hecho de que el R 2 sea mayor en el modelo
más complicado indica que la Tasa de interés es una
variable que compensa introducir (en términos de ajuste)
a pesar de que los grados de libertad hayan disminuido.
Derivación del R 2 :
Se obtiene a partir del R 2 convencional
SR SR / n
R2  1   1
ST ST / n
donde dividiendo por n la Suma Residual y la Suma Total, esta medida se puede
interpretar como un ratio de varianzas. Implantando la restricción de que los
estimadores de las varianzas residual y de la variable endógena sean insesgados,
se obtiene el R 2 corregido de los grados de libertad:
SR / n  k n 1
R2  1  1 (1  R 2 )
ST / n  1 nk
70
Modelo de regresión con datos en desviaciones con respecto a las

medias
Es una de las transformaciones más usadas en la práctica, sobre todo, cuando
no se dispone de software. El resultado más importante es que si el modelo
original tiene término constante, al trabajar en desviaciones con respecto a las
medias, no cambia ningún resultado MCO y se ahorra cálculo ya que hay que
T
invertir una matriz ( X X ) de dimensión menor.
Dado un MRL con término constante y escrito en un instante de tiempo
concreto:
yt  0  1 xt1  2 xt 2  ...  k xtk   t (1)
La estimación por MCO de todos los parámetros hace que podamos recuperar
el valor real de yt como:
yt  yˆt  ˆt  ˆ0  ˆ1 xt1  ˆ2 xt 2  ...  ˆk xtk  ˆt (2)
Tomando sumatorios desde t  1 hasta t  n en ambos lados de la expresión

anterior, se tiene que:
n n n n n
y
t 1
t  nˆ0  ˆ1  xt1  ˆ2  xt 2  ...  ˆk  xtk   ˆt
t 1 t 1 t 1 t 1
(3)
y dividiendo por n todos los términos de la ecuación anterior:

y  ˆ0  ˆ1 x1  ˆ2 x2  ...  ˆk xk (4)
donde la barra denota la media muestral de cada variable y se ha tenido en

cuenta que la suma de los residuos MCO es nula si el modelo tiene término
constante.
Restando término a término las relaciones (1) y (2), se obtiene:
yt  y  ˆ1 ( xt1  x1 )  ˆ2 ( xt 2  x2 )  ...  ˆk ( xtk  xk )  ˆt

que es el modelo transformado. En él, todas las variables están desviadas de
sus medias, el término constante ha desaparecido por construcción, las
estimaciones de las pendientes del modelo transformado son las mismas
que las del modelo original y los residuos tampoco han cambiado. Lo único
que hay que recuperar es la estimación de la constante. Pero, usando (2), se
obtiene que:
ˆ0  y  ˆ1 x1  ˆ2 x2  ...  ˆk xk
71
Es decir, antes de recuperar la estimación del término constante, hay

que estimar todas las pendientes del modelo. Por tanto, lo primero
que hay que hacer es estimar por MCO el modelo dado en (3),
donde los datos de todas las variables han sido transformados y
donde la matriz X no tiene una primera columna de unos. Esto hace
que la matriz X T X sea de una dimensión menor y su inversa será más
fácil de calcular. Todos los resultados conocidos del criterio MCO se
pueden usar para el modelo dado en (3) y finalmente, podemos recuperar
la estimación del término constante a partir de (4).
Ejemplo numérico: A partir del modelo yt  0  1 xt1  2 xt 2   t y con
la muestra siguiente:
t 1 2 3 4 5 6 7 8
yt 10 25 32 43 58 62 67 71
xt1 1 3 4 5 7 8 10 10
xt 2 0 -1 0 1 -1 0 -1 2
Se pide:
a) Estimar por MCO el modelo usando datos en desviaciones con respecto a la
media.
b) Calcular la matriz de varianzas del estimador MCO de las pendientes del
modelo.
c) Calcular el coeficiente de determinación del modelo.
d) Comprobar que todos los resultados coinciden con los que se hubieran
obtenido usando datos originales.
Solución a los apartados a-c):
a) El modelo en desviaciones es: yt  y  1 ( xt1  x1 )  2 ( xt 2  x2 )   t . La

estimación MCO de estas dos pendientes es:
1
 ˆ1   ( xt1  x1 )2
 
 ( x  x )( x  x )    ( y  y )( x
t1 1 t2 2 t t1  x1 ) 

 ˆ2   .  ( x  x )   ( y  y )( x
t2 2
2
t t 2  x2 ) 
72
Las medias muestrales de las variables son: y  46 , x1  6 y x2  0 .
Calculando los sumatorios de términos cuadrados y cruzados, se tiene:

t Yt Xt1 Xt2 (Xt1-M1)^2 (Xt2-M2)^2 (Xt1-M1)(Xt2-M2)
1 10 1 0 =(1-6)^2=25 =(0-0)^2=0 =(1-6)*(0-0)=0
2 25 3 -1 =(3-6)^2=9 =(-1-0)^2=1 =(3-6)*(-1-0)=3
3 32 4 0 =(4-6)^2=4 =(0-0)^2=0 =(4-6)*(0-0)=0
4 43 5 1 1 1 -1
5 58 7 -1 1 1 -1
6 62 8 0 4 0 0
7 67 10 -1 16 1 -4
8 71 10 2 16 4 8
Suma 368 48 0 76 8 5
Media 46 M1=6 M2=0
 ˆ1  76 5 1 502 1  8 5 502 6.60

       5 76   35   0.26
ˆ         
 2  5 8 35 583
y la constante ˆ0  y  ˆ1 x1  ˆ2 x2  46  (6  6.60)  (0  0.26)  6.4 .
b) La estimación de la matriz de varianzas-covarianzas de las pendientes del modelo

es:
1
2   ( x  x )( x  x )
 ˆ1   ( xt1  x1 ) 2
var     
ˆ ˆ t1 1 t2 2
ˆ
  2   .  (x  x ) 
t2 2
2
donde:
  ( yt  y )( xt1  x1 ) 
( y  y) 2
  ˆ1 ˆ2   
  ( yt  y )( xt 2  x2 )   17.14 .
t
ˆ 2 
nk
Por tanto:
 ˆ  17.14  8 5  0.23 0.15
varˆ  1     
  2  583  5 76   0.15 2.23 
ˆ
73
c) El coeficiente de determinación de este modelo (con término constante) es:
R  1
2  ˆ t
2
 1
85.7
 0.975
(y t  y) 2
3408
Obsérvese que cuando los datos están en desviaciones, la Suma Total (ST)
del modelo es directamente la suma de cuadrados de los valores de la
endógena.
ERRORES DE ESPECIFICACIÓN EN EL MLG
Hasta ahora, el análisis de un modelo de regresión se ha basado en el

supuesto de que el modelo está correctamente especificado.
Y  X 
No obstante, existen muchos errores de especificación, aunque los más
comunes son la omisión de variables explicativas relevantes y la inclusión de
variables irrelevantes.
1) Omisión de variables relevantes.

Supongamos que el modelo correctamente especificado es:
 
Y  X      X1 X 2   1     X 11  X 2  2  
 2 
donde las dos partes de la matriz X tienen k1 y k 2 columnas, respectivamente. Si
omitimos los regresores contenidos en X 2 , el modelo incorrecto es:
Y  X11  V donde V  X 2 2  
El estimador MCO de los parámetros asociados a las variables incluidas es:
ˆ1  ( X1T X1 )1 X1T Y  1  ( X1T X1 )1 X1T X 2 2  ( X1T X1 )1 X1T 
y tomando esperanzas, se observa
que es un estimador sesgado, a no
ser que X1T X 2  0 (ortogonalidad

entre los regresores incluidos y los
omitidos). Es decir:
E (ˆ1 )  1  ( X1T X1 )1 X1T X 2 2
74
Ejemplo de variable omitida: Supongamos que se estima una función de demanda

omitiendo una variable relevante como es la renta. Entonces, la elasticidad demanda-
precio estará sesgada y si se denota por ˆ1 :
cov( precio, renta)

E ( ˆ1 )  1  2
var( precio)
donde  2 es el coeficiente asociado a la renta. Con datos agregados, no está claro

cúal es el signo de esa covarianza. Sin embargo, el signo del sesgo debe ser el mismo
que el de la covarianza, porque la varianza del precio y el parámetro  2 serán

positivos.
En este desarrollo, es fácil saber el signo del sesgo

cuando hay una única variable incluida y una variable
omitida. Si embargo, es importante notar que cuando
hay más de una variable incluida, en la fórmula del
sesgo aparecen coeficientes de regresión múltiples
que tienen el signo de correlaciones parciales entre
las variables.
Aunque ˆ1 es un estimador sesgado, tiene una varianza más pequeña que este
estimador en el modelo correctamente especificado. La razón es que se está

incorporando un conjunto de restricciones falsas y esto provoca un sesgo en el
estimador del modelo restringido (incorrectamente especificado), pero la varianza de
este estimador es más pequeña que la del estimador MCO en el modelo no restringido
(correctamente especificado).
La conclusión es que si omitimos variables relevantes, los estimadores de 1 y de  2

son sesgados. Como caso particular, si los regresores incluidos y excluidos
son ortogonales ( X1 X 2  0 ) no habría sesgo en la

T
estimación de 1 . Pero sigue habiendo sesgo al

estimar  2 , por lo que tampoco sería válida la inferencia
sobre 1 . Además, es muy improbable que en la práctica los
regresores incluidos y los omitidos sean perfectamente
ortogonales.
75
2) Inclusión de variables irrelevantes.
Si el modelo de regresión correctamente especificado es:

Y  X11  
y estimamos el siguiente modelo creyendo que es el correcto:
Y  X11  X 2 2  V
Estamos incluyendo variables irrelevantes. Aunque pueda parecer que los

problemas van a ser los mismos que al omitir variables, esto no es así. De hecho,
ahora el modelo restringido es el correctamente especificado, en el que se ha
incorporado la restricción cierta de que 2  0 . El modelo no restringido es el
incorrecto en el que no se ha incorporado esa hipótesis cierta. No obstante, el
estimador MCO de 1 en el modelo incorrecto es insesgado, aunque con una

varianza mayor que la del estimador MCO en el modelo correcto (o restringido).
Por la misma razón, el estimador de la varianza de las perturbaciones en el
modelo incorrecto es también insesgado:
 ˆT ˆ 
 
2
E
 n  k1  k2 
Entonces, puede parecer que una estrategia adecuada es siempre sobreajustar el

modelo incluyendo regresores superfluos. Pero el problema es que se pierde
precisión al estimar el modelo más amplio.
76
Componentes
TEMA 4
de las
Varianzas MCO:
Multicolinealidad
Competencia:
Conocer los problemas que se pueden
presentar en la multicolinealidad.
77
Tema 04: Componentes de las Varianzas

MCO: Multicolinealidad
MULTICOLINEALIDAD EN EL MLG
La multicolinealidad es un problema que surge cuando las variables explicativas del

modelo están correlacionadas entre sí. Este es un problema complejo, porque en
cualquier regresión las variables explicativas van a presentar algún grado de
correlación.
Matemáticamente, existe multicolinealidad cuando tenemos problemas a la hora de
invertir la matriz X T X . De hecho, si el X T X 0 se dice que hay multicolinealidad no
estricta o de grado. Si el X T X  0 , hay multicolinealidad estricta o perfecta. En este
último caso, alguna variable explicativa es combinación lineal de otras y el sistema de

ecuaciones normales tiene infinitas soluciones.
Ejemplo de multicolinealidad estricta: Sea un
modelo de regresión yt  1  2 xt 2  3 xt 3   t
donde xt 2   xt 3 y  es un parámetro constante y
conocido. Al introducir esta dependencia lineal

entre las variables explicativas en el modelo
original, se tiene que yt  1  (2  3 ) xt 3   t .
Es decir, es posible estimar por MCO
individualmente 1 , pero habrá infinitas soluciones para  2 y  3 . Esta estimación no

está bien definida en el sentido de que la relación lineal entre las variables no está
identificada de forma única. No es posible encontrar el efecto separado de cada
variable exógena sobre la endógena.
El problema de multicolinealidad es un problema de grado. Es decir, si X T X 0 , este
determinante numéricamente es distinto de cero y por tanto, existe una única solución
para las ecuaciones normales. No obstante, la multicolinealidad de grado tiene una
serie de efectos perniciosos sobre las estimaciones MCO de los parámetros:
78
1) Las varianzas y covarianzas de los estimadores de los parámetros se hacen

muy grandes conforme aumenta el grado de colinealidad. Es decir:
Adj ( X T X )
ˆ ˆMCO )  ˆ 2 ( X T X )1  ˆ 2
var(
XT X
y al ser el determinante cercano a cero, esto infla las varianzas y

covarianzas de los parámetros estimados. Ello implica que la precisión
de la estimación disminuye a medida que aumenta la multicolinealidad.
2) Dado que la varianza de los estimadores está sesgada al alza, los

estadísticos t de significación individual estarán sesgados a la baja.
Esto hará que tendamos a no rechazar la H 0 : i  0 más

frecuentemente de lo que se debiera si no existiese colinealidad alta:
î
t tn  k
ˆ î )
var(
3) El contraste de significación global de las pendientes del modelo no se verá

afectado ante la presencia de multicolinealidad. Esto es así, porque el R 2
tampoco se ve afectado por el problema, ya que la bondad del ajuste seguirá
siendo parecida ante la presencia de variables explicativas superfluas. Por
tanto, un síntoma claro de multicolinealidad de grado es que los parámetros no
sean individualmente significativos, pero sí de manera conjunta.
R2 / k 1
F
(1  R 2 ) / n  k
4) Otro síntoma de multicolinealidad de grado es que ligeros cambios en las

matrices de datos X e Y (por ejemplo, añadiendo o suprimiendo unas pocas
observaciones) pueden llevar a grandes cambios en los parámetros
estimados. Esto nos puede llevar erróneamente a considerar la posibilidad de
cambio estructural, cuando en realidad se trata de otro problema.
79
Causas de la multicolinealidad: Algunas de las causas más importantes

de este problema son:
A) El empleo en la regresión de variables explicativas que tienen una
tendencia común y evolucionan de forma muy parecida en el tiempo.
Transformar los datos para eliminar esta tendencia común puede resolver
el problema. No obstante, nunca se resuelve si existe una dependencia
lineal exacta entre las variables.
B) Incurrir en un error de especificación consistente en la inclusión de
variables irrelevantes. La información que contienen estas variables ya
estaría incluida en otras y no añaden nada nuevo para explicar el
comportamiento de la endógena.
C) A veces, la multicolinealidad puede provenir de un problema de escala de
los datos de las exógenas. Esto es así, porque el X T X depende de las
unidades de las x y por ello, es conveniente homogeneizar las unidades de

medida de las variables antes de estimar.
D) Otra causa de la multicolinealidad es la inclusión de variables explicativas
retardadas, porque los valores de una variable explicativa en distintos
instantes de tiempo suelen estar correlacionados entre sí, al ser variables
con mucha inercia.
Detección de la multicolinealidad. Para detectar este problema se pueden usar

dos tipos de métodos:
a) Métodos basados en la correlación entre variables explicativas

b) Métodos basados en medir el tamaño de la matriz X T X
a) Métodos basados en la correlación entre variables explicativas: El más
inmediato consiste en calcular la correlación lineal simple existente entre
pares de variables explicativas. Denotamos por rij al coeficiente de
correlación simple entre xti y xtj . Si hacemos esto para los k regresores del
modelo, obtenemos una matriz R con la forma:
 1 r12 . r1k 
r 1 . r2 k 
R  21
. . 1 . 
 
 rk1 rk 2 . 1 
80
Inspeccionando los valores de una triangular de la matriz R es posible detectar

colinealidad del tipo xti   xtj .(Recordar que el coeficiente de correlación simple
entre dos variables está acotado entre –1 y 1. Si este coeficiente es cercano a

cero, no son colineales y si es cercano a uno, en valor absoluto, son variables muy
colineales). Sin embargo, pueden existir dependencias lineales más complicadas
entre las exógenas, por ejemplo, del tipo: xt1   xt 2   xt 3 y esto nunca lo
detectaríamos calculando sólo coeficientes de correlación simples entre todas las

variables. En este caso, se pueden realizar una serie de regresiones donde en
cada una se regresa una variable explicativa en función de las k  1 restantes.
Otra posibilidad es calcular los coeficientes de

correlación parcial denotados por ryx2 j xi . Miden la
correlación existente entre la variable y y la x j , una vez
que la y ha sido depurada de los efectos de la xi . La forma
de calcular estos coeficientes es sencilla: primero, se regresa y sobre x j y se
recuperan los residuos resultantes. En segundo lugar, se regresan los residuos
sobre xi y el R 2 de esta estimación es el coeficiente de correlación parcial. Por

2 2
ejemplo, si en un modelo con tres regresores, los coeficientes ryx1 , x3 y ryx2 , x3 son
bajos, esto significa que la variable x3 es colineal, ya que no aporta nada a la
endógena una vez que ésta ha sido explicada por la x1 y la x2 .
b) Métodos basados en el tamaño de la matriz X T X . Como sabemos, cuando

hay multicolinealidad tenemos un problema numérico. Desde este punto de
vista, podría ser útil medir de alguna forma el tamaño de X T X .
Una primera solución sería calcular el valor numérico del determinante de

X T X . El problema es que este determinante depende de las unidades de
medida que tengan las variables explicativas.
81
Una segunda solución consiste en usar la

propiedad de que el determinante de una matriz
simétrica es igual al producto de sus autovalores.
Así, X T X  1  2  ...  k y si alguno de estos
autovalores es cercano a cero, el determinante

también lo será. El problema de este procedimiento
es que los autovalores de una matriz tampoco son adimensionales. La tercera
solución es medir o examinar el tamaño relativo de los autovalores. De esta forma
se elimina el problema de las unidades de medida. En concreto, se calcula el
número de condición de la matriz X T X como la raíz cuadrada del cociente entre
el autovalor más grande y el más pequeño.
max
 N º de condicion
min
No hay una regla analítica para decidir a partir de qué número de condición
empezamos a tener problemas graves de multicolinealidad. Existen reglas
heurísticas como que un número de condición mayor que 20 ó 25, ya sugiere la
presencia de alta colinealidad.
2.1.1. Soluciones a la multicolinealidad: Existen muchas, aunque todas poco

satisfactorias.
1) Suprimir variables. Consiste en excluir

variables que estén altamente
correlacionadas con las demás. Cuando la
multicolinealidad es exacta, esta solución es
perfecta. Cuando la multicolinealidad es de
grado, se incurre en un riesgo al usar esta
solución. El riesgo es que las varianzas de
los estimadores estarán infladas, con lo que
la mayoría de los parámetros son individualmente no significativos y por
tanto, pueden suprimirse las variables que no sean las causantes del
problema.
82
2) Transformar las variables. Si las variables explicativas tienen una tendencia

común en el tiempo y por ello están altamente correlacionadas, existen
transformaciones en los datos que eliminan esta tendencia común. Una
transformación habitual es trabajar con tasas de variación en lugar de con
datos en nivel.
3) Incorporar nuevos datos. Si para una muestra dada tenemos una columna de
la matriz X casi linealmente dependiente con otra(s), es probable que
aumentando la muestra se arregle la colinealidad. Si la relación entre las
variables exacta, por mucho que aumentemos la muestra no se va a arreglar
el problema.
4) Estimar sistemas de ecuaciones. Se formulan relaciones existentes entre las

variables explicativas y se estiman simultáneamente éstas con la regresión
original (que relaciona la endógena con las explicativas).
5) 5) Eliminar retardos de las variables explicativas. Si la multicolinealidad se
debe a la existencia de retardos de una misma variable explicativa como
regresores, puede suponerse una relación funcional entre los parámetros o
suprimir algún retardo:
yt  0  1 xt  2 xt 1  3 xt 2   t
2.4.4. EJERCICIOS
1) El director de una agencia de viajes quiere estudiar

el sector turístico en España. Para ello dispone de
información relativa al grado de ocupación hotelera
(Y), número medio de turistas (X2), medido en
miles de turistas, y estancia media (X3), medida en
días. Los datos disponibles son de corte
transversal y pertenecen a cada una de las 17
Comunidades Autónomas.
83
El modelo teórico a estimar con la información disponible es el siguiente:
Yi = 1 + 2 X2i + 3 X3i + ui
del que se conocen los siguientes resultados:
 50,772 
b2 =   X '
2 C X 2C1  4,245 0,031
  
0,009 
 3,257  
Y = 32,3772 X2 = 0,121 X3 = 3,054 SCR = 689,903

Var (Y) = 173,651 Var (X2) = 0,015 Var (X3) = 6,994
Se pide:
a) Estimar el modelo propuesto por MCO. Interpretar los resultados
obtenidos.
b) Obtener una medida de la bondad del ajuste
c) ¿Considera usted relevante el número medio de turistas en la explicación
del grado de ocupación hotelera?
d) Un estudio alternativo plantea la posibilidad de explicar el grado de
ocupación hotelera incluyendo además dos nuevas variables explicativas:
nivel medio de renta de las comunidades autónomas (X4) y una variable
de localización geográfica (X5). De esta estimación se conocen los
siguientes resultados:
Ŷ i = -181,576 + 58,249 X2i + 3,283 X3i + 1,697 X4i – 2,771 X5i

SCR = 635,916
¿Considera usted que estas dos variables son conjuntamente

significativas en la explicación del grado de ocupación hotelera?
¿Cuál será el grado de ocupación hotelera si el número de medio de
turistas es de 125 y la estancia media es de 4 días? ¿Entre que niveles
se situará este grado de ocupación?
Solución Ejercicio 1
a) Ŷi = 16.28691 + 50.772 X2i + 3.257 X3i
• 16.28691 representa el nivel autónomo del grado de ocupación hotelera

• 50.772 indica el efecto, sobre el grado de ocupación hotelera, de las
variaciones unitarias del número medio de turistas
84
• 3.257 mide la variación que se produciría en el grado de ocupación hotelera si

la estancia media aumentara en una unidad.
b) R2 = 0.7663
c) H0: 2 = 0 texp= 3.5104 ttco: t14 = 2.144 Se rechaza la hipótesis nula
S b2  209.188 S2 = 49.2787
d) H0: 4 = 5 = 0 Fexp= 0.5093 Ftco: F2,12 = 3.8853 No se rechaza

la hipótesis nula
SCE=SCEII-SCEI = 2316.152-2262.165 = 53.987
SCEI = SCT – SCRI =2952.067 – 689.903 = 2262.165
SCEII = SCT – SCRII =2952.067 – 635.916 = 2316.152
e) Ŷf = 35.66141 IC Yf : 20.11357978; 51.20924022 
2) La función de beneficios de los operadores de telefonía móvil en cierto país

podría corresponder a una función del siguiente tipo:
Yî  0.276  2.091·X 2i  0.63·X 3i i= 1,2, ..., 5
donde : Yi: Beneficios obtenidos en el último trimestre por la compañía i
X2i: Tipos de contratos que ofrece a sus clientes la compañía i
X3i: Precio medio del coste de llamada en la compañía i
En relación con el modelo anterior se conoce la siguiente información:
 5 11 12   14 
   
X'X  ¿? 29  X 'Y   35   y 2  8.8  Y 2  48
 32   37 
  
Con los datos anteriores y para conocer mejor el comportamiento del sector, analice
las siguientes cuestiones:
a) Significación conjunta del modelo.

b) ¿Considera Vd. significativos los tipos de contratos, que cada compañía
ofrece a sus clientes, en la explicación de los beneficios de ésta? Utilice en
su respuesta un cuadro ANOVA y un nivel de significación del 5%.
85
c) Una función de beneficios alternativa, incluiría además una variable relativa

a los gastos de personal (X4). Este ajuste explica el 96% de la variación de
Y; ¿qué modelo escogería Vd. como más adecuado para explicar los
beneficios obtenidos por este tipo de empresas?
a) H0: 2 = 3 = 0 Fexp= 3.424 Ftco: F2,2 = 19

No se rechaza la hipótesis nula. El modelo no es globalmente significativo.
SCE = 6.811 SCT = 8.8 SCR = 1.989 Y  2.8
b) H0: 2 = 0 Fexp= 3.2161890493 Ftco: F1,2 = 18.513

No se rechaza la hipótesis nula
SCE = 3.1985
Fuente de Grados de
Suma de Cuadrados Cuadrados Medios
Variación libertad
~~~
Cte, X 3 SCE(*)  3.6125
r-1=1
X2
~~~
SCE  SCE  SCE  6.811  3.6125  3.1985 s=1 SCE  3.1985
s 1
X SCE  6.811 k-1=2
n  k  
SCR 1.989
Residuos SCR  e' e  1.989 n-k=5-3=2 5  3
Total SCT  8.8 n-1=5-1=4
86
5 1
c) Modelo inicial R 2 = 0.547954 R 2  1 (1  0.773977)  0.547954
53
5 1
d) Modelo alternativo R 2 = 0.84; R 2  1 (1  0.96)  0.84
54
Por tanto la especificación alternativa es preferible a la original
3) Una empresa farmacéutica está interesada en retirar del

mercado uno de sus complejos vitamínicos. La decisión
adoptada consistirá en eliminarlo de su producción si
los beneficios no se ven afectados y mantenerlo en el
caso de que estos varíen de forma significativa. Con el
fin de tomar una decisión se ha elaborado un modelo
econométrico para explicar los Beneficios (Y) a partir de los
costes del complejo vitamínico cuya exclusión se está planteando (X2) y los costes
totales de producción (X3). Acerca de estas variables se conoce la estimación del
siguiente modelo de regresión
Ŷt  1.8  0.32·X2t  0.5·X3t
y la siguiente información: n  10
 
2
 Yt 15   Yt  Y   2.5  Yt X2t  2.8
 Yt X3t  4.1
Suponga que Ud. es el asesor económico del Director de la empresa

farmacéutica y debe aconsejarle acerca de la producción para el año próximo,
para ello debe responder a las siguientes preguntas:
a) ¿Contribuyen globalmente las variables seleccionadas en la explicación de
la variación de la variable beneficios?
b) Con la finalidad de analizar la sensibilidad de los beneficios a los costes del
mencionado complejo (X2) se ha estimado un modelo alternativo en el que
se excluye esta variable. De este modelo se conoce el coeficiente de
bondad de ajuste R  0.97

2
87
a) H0: 2 = 3 = 0 Fexp= 5.74947 Ftco: F2,7 = 4.7374
Se rechaza la hipótesis nula. Modelo globalmente si

gnificativo
SCE = 1.554 SCT = 2.5 SCR = 0.946

0.946 /(10  3)
b) Modelo inicial R 2  1  0.5134
2.5 /(10  1)
0.97 /(10  2)
Modelo alternativo R 2  1   0.5635
2.5 /(10  1)
Por tanto la especificación de beneficios que no incluye como variable explicativa los
costes del complejo vitamínico es preferible a la especificación que sí los incluye.
4) El gerente de un polideportivo municipal ubicado en el interior de una provincia

situada en la costa conoce por experiencia de los 5 años anteriores, que el número
de entradas vendidas al día (Y) depende del número de kilómetros de distancia a
la playa más cercana (X2) y del número de piscinas particulares situadas en la
zona (X3).
Dispone además de la siguiente información:

 0.5625  0.6875 0.4375   20 
   
S bb  1.4375  1.0625 X' Y   59 
 0.8125   88 
  
S 2y  2 R 2  0.95
Dado el modelo:
Yi  1   2  X 2i  3  X 3i  ui
H0 :  3  1  35
a) Contraste la siguiente hipótesis:
2 2  180
b) ¿la suma de los efectos de la variable X2 y X3 es nula?
88
Cálculos previos:
 2.25  2.75 1.75   36.75 

  
X' X 1
 5.75  4.25  b    89.75 
   70.25 
 3.25   
 
S u2  0.25 SCT=10 SCE=9.5 SCR=0.5
H0 :  3  1  35
a) Fexp= 2.581 Ftco: F2,2 =19
2 2  180
No se rechaza la hipótesis nula

  1 0 1  35    1.5   2  3
R    r    Rb  r    RX' X1R'   
 0 2 0   180  0.5    3 23 
b) H0 :  2   3  0 Fexp= 3042 Ftco: F1,2 = 18.513
Se rechaza la hipótesis nula
R  0 1 1 r  0 Rb  r  19.5
2.4.5. Regresión Múltiple en Excel
Y  0  1 X1  2 X 2
El objetivo es ajustar un modelo de la forma estimando los
parámetros correspondientes
 0 , 1 , 2  y calcular el coeficiente de
2
determinación R
Procedimiento:
Primeramente se debe crear una base de

Y , X1 y X 2
datos para las variables de la
siguiente forma:
89
En el menú principal abrir la barra de herramientas y marcar Análisis de datos con el

cursor (si no aparece la opción Análisis de datos se debe activar desde
complementos la opción Herramientas de Análisis) Por una sola vez active con el
ícono de Excel, Opciones (ver siguiente pantalla)
Cuando selecciona Opciones de Excel, haga clic en Complementos y luego el

botón Ir …
90
Note que debe estar activada la casilla de Herramientas para Análisis, luego Aceptar
Después de instalar la Herramientas de Análisis de Datos, en lo sucesivo bastará con
elegir en Datos, el ícono Análisis de Datos que se mostrará a la derecha del menú
91
Después de elegir Análisis de datos se tendrá
Debe elegir la Función de Regresión, y completar las celdas que indica la siguiente
pantalla
92
En una hoja nueva se tendrá los siguientes resultados:
La interpretación sería::
Intercepción =
 0 =-8.894737
Variable X1 =
1 = 0.3684211
Variable X1 =
 2 = 0.7894737
Es decir la ecuación de regresión múltiple ajustada es: Y  8.8947  0.3684 X1  0.7895 X 2
y su coeficiente de determinación es R  0.9784 (97.84%)

2
93
Con el cuadro del Análisis de Varianza (ANOVA) también se puede interpretar
Grados Suma de Promedio de F observado

de cuadrados los cuadrados
libertad
Regresión k-1=2 61,96491228 61,96491228/2= 30,98245614/0,456140351=

30,98245614 67,92307692
Residuo n-k=3 1,368421053 1,368421053/3=

0,456140351
Total n-1=5 63,33333333
Tamaño de la muestra n = 6
Número de variables k=3 (Y, X1, X2)
R2 = 1- (1.368421053 / 63.33333333) = 61.96491228 / 63.33333333 = 0.9784
94
❖ REGRESION MULTIPLE
http://halweb.uc3m.es/esp/Personal/personas/emolanes/esp/archivos/EstII/Reg-
multiple.pdf
❖ REGRESIÓN LINEAL MÚLTIPLE EN EXCEL

http://youtu.be/Bye0ZBdd6iI
1. Ingresa al link “Análisis de Regresión” lee atentamente las

Resolver el problema con las Herramientas para Análisis
Regresión, y obtenga
a) La ecuación de regresión
b) Interpretación de los parámetros
Gráficas en el plano cartesiano
Y X1 X2 X3
Año Demanda Precio Ingreso Subsidio
1 40 9 400 10
2 45 8 500 14
3 50 9 600 12
4 55 8 700 13
5 60 7 800 11
6 70 6 900 15
7 65 6 1000 16
8 65 8 1100 17
9 75 5 1200 22
10 75 5 1300 19
11 80 5 1400 20
12 100 3 1500 23
13 90 4 1600 18
14 95 3 1700 24
15 85 4 1800 21
95
2. Ingresa al link “Correlación Lineal Múltiple” lee atentamente las

Resolver el problema con las Herramientas para Análisis Regresión, y

obtenga
a. La ecuación de regresión
b. Interpretación de los parámetros
c. Coeficiente de Correlación Múltiple. Interpretar
Y X1 X2 X3
Ord Ventas Promoción Competencia Sustitutos
(miles $) (Miles $) (Grado (número
rivalidad) productos)
1 79.3 2.5 10 3
2 200.1 5.5 8 6
3 163.2 6.0 12 9
4 200.1 7.9 7 16
5 146.0 5.2 8 15
6 177.7 7.6 12 9
7 30.9 2.0 12 8
8 291.9 9.0 5 10
9 160.0 4.0 8 4
10 339.4 9.6 5 16
11 159.6 5.5 11 7
12 86.3 3.0 12 6
13 237.5 6.0 6 10
14 107.2 5.0 10 4
15 155.0 3.5 10 4
96
Autoevaluaciones
1) Para una muestra de 10 personas disponemos de información respecto a su
grado de extroversión, y se desea evaluar su posible relación lineal con la
dimensión de personalidad estabilidad emocional. Ambas variables se han
medido con un test y se han obtenido las puntuaciones para cada sujeto en
una escala de 0 a 10. Los valores obtenidos se presentan en la siguiente
tabla:
Sujetos X: Grado de Y:
Extroversión Estabilidad
Emocional
1 5 6
2 10 6
3 4 3
4 7 8
5 6 6
6 5 3
7 4 5
8 4 9
9 4 10
10 3 9
Determine la bondad de ajuste

a. -0.1325
b. 0.0176
c. -0.1596
d. 7.3298
e. -0.1101
2) Se tienen las puntuaciones de 8 sujetos en una prueba de inteligencia X, y el

número de problemas resueltos en un examen de Estadística Y es:
X 95 105 87 98 115 100 99 125
Y 16 10 6 16 17 14 16 18
¿Cuál es la pendiente?
a. 0.2096
b. 0.6137
c. 0.3766
d. -7.4618
e. 1.7968
3) Supongamos que queremos estimar el efecto de los ingresos del hogar en el
gasto en alimentos. El tamaño del hogar también tiene un efecto sobre el
gasto en alimentos, pero omite el tamaño de la ecuación por falta de datos.
Supongamos que tanto el ingreso y el tamaño de tener efectos positivos
97
sobre el gasto en alimentos, y los ingresos y el tamaño están positivamente

correlacionados entre sí. Entonces omitiendo el tamaño hará que el
estimador de mínimos cuadrados del coeficiente de ingresos …
a. Estará sesgado hacia arriba (lejos de cero).
b. Estará sesgado hacia abajo (hacia cero).
c. Será imparcial.
d. No tendrá sesgo
e. No se puede determinar a partir de información dada.
4) Si se estima la siguiente ecuación por mínimos cuadrados ordinarios (MCO):

yi = 1 + 2 xi2, + 3 xi3 + i , Cuando la ecuación tiene que ser
necesariamente, independientemente de los datos?
a. x i2 i y 0
.
b. x i3 i yˆ  0
.
c. x i 2 i3x 0
.
d. x i2 i ˆ  0
.
  yˆ  y     yi  y   î2
2 2
i
e. .
ˆ
5) La varianza del estimador de mínimos cuadrados la pendiente j es menor,
y por lo tanto el verdadero valor de j se calcula con mayor precisión,
a. Cuanto menor sea el tamaño de la muestra.
b. Cuanto menor es la varianza del término de error 2.
c. Cuanto menor sea la variación de los valores Xij alrededor de la media de la
x
muestra j .
d. xij la más estrechamente relacionada está con los otros regresores.
e. Cuanto mayor sea el tamaño de la muestra.
6) La adición de otro regresor a una ecuación de regresión supone

necesariamente un incremento de
a. Los estadísticos t de los regresores.
b. El valor de r2.
c. Valor de r2 ajustado.
d. La suma de los cuadrados de los residuos.
e. Los coeficientes estimados.
7) Si dos regresores xi2 y xi3 están estrechamente pero no perfectamente

correlacionados, entonces los estimadores de mínimos cuadrados de los
coeficientes.
98
a. Estarán sesgadas.
b. Serán inconsistentes.
c. Tendrá grandes errores estándar.
d. Será cero.
e. No se puede calcular.
8) La ecuación
yi = 5.6 + 0.7 xi2 + 1.2 xi3
Implica que, manteniendo xi3 constante, un aumento de una unidad en xi2
hará que yi aumente en alrededor de
a. 5.6 unidades.
b. 0,7 unidades.
c. 1,2 unidades.
d. 6.3 unidades.
e. 1,9 unidades.
9) La ecuación
yi = 2.0 + 1.5 xi2 + 0.3 xi22
Implica que un aumento de una unidad en xi2 hará yi para aumentar en

alrededor de
a. 1,5 unidades.
b. 3,5 unidades.
c. 1,8 unidades.
d. (1,5 + 0.3xi2) unidades.
e. (1,5 + 0.6xi2) unidades.
10) Supongamos que queremos estimar el efecto de los ingresos en la compra

de automóviles a partir de datos sobre ciudades:
yi = 1 + 2 xi + i
Si yi se define como el total de compras de automóviles y Xi se define como
los ingresos totales en la ciudad, entonces debemos sospechar que la
varianza del término de error i puede ser
a. Proporcional a la población de la ciudad.

b. Inversamente proporcional a la población de la ciudad.
c. Constante y sin relación con la población de la ciudad.
d. Cero para todas las observaciones.
e. Infinito.
99
Resumen
UNIDAD DE APRENDIZAJE II:
El análisis de regresión es una técnica estadística que permite investigar la relación

existente entre dos o más variables, y encontrar expresiones que reflejen esta
relación. En el caso de regresión simple trabajamos con dos variables: una variable
independiente, X, y otra dependiente Y. La regresión múltiple nos permitirá analizar la
relación entre una variable (dependiente) Y, y (pero ahora) n variables independientes
X 1 , X 2 ,..., X n .
Definimos una de las variables (sobre la que queremos hacer predicciones) como
dependiente y el resto como independientes. Esta opción calcula la recta de regresión
de Y sobre
X 1 , X 2 ,..., X n . Además de los coeficientes de la recta de regresión,
2
obtenemos el coeficiente de determinación, R y el coeficiente de determinación
ajustado. Al igual que en el caso anterior, se obtienen las estimaciones del modelo y
los contrastes sobre los coeficientes de regresión, además de la tabla de análisis de la
varianza para el modelo.
Al ajustar un modelo de regresión múltiple a una nube de observaciones es importante

disponer de alguna medida que permita medir la bondad del ajuste. Esto se consigue
con los coeficientes de correlación múltiple. El coeficiente de correlación lineal
simple es una medida de la relación lineal existente entre las variables X e Y. En el
caso de correlación múltiple la relación es entre la variable dependiente Y con las
variables 1 2
X , X ,..., X
n
En general cuando se ajusta un modelo estadístico a una nube de puntos, una medida
de la bondad del ajuste es el coeficiente de determinación.
El coeficiente de correlación múltiple R presenta el inconveniente de aumentar siempre

que aumenta el número de variables regresoras, ya que al aumentar k (número de
variables regresoras) disminuye la variabilidad no explicada, algunas veces de forma
artificial lo que puede ocasionar problemas de multicolinealidad. Si el número de
observaciones n es pequeño, el coeficiente R2 es muy sensible a los valores de n y k.
En particular, si n = k + 1 el modelo se ajusta exactamente a las observaciones. Por
ello y con el fin de penalizar el número de variables regresoras que se incluyen en el
modelo de regresión, es conveniente utilizar el coeficiente de determinación corregido
por el número de grados de libertad, 2. Este coeficiente es similar al anterior, pero
utiliza el cociente de varianzas en lugar del cociente de sumas de cuadrados.
100
101
Introducción
Los temas que se tratan en la presente unidad temática tienen por finalidad, que el
estudiante realice la estimación de un modelo lineal con más de una variable
independiente, aplicando el método de mínimos cuadrados ordinarios. Haciendo
esencial el aprendizaje de estos temas que se verán a continuación para que el
profesional llegue a formarse con éxito, y además pueda desempeñar un rol más
activo en la su empresa.
b) Competencia
Comprende el problema de Heteroscedasticidad en el análisis de datos,
proponiendo alternativas de solución.
c) Capacidades
1. Reconoce los métodos y procedimientos adecuados para los estudios de

administración y organización.
2. Identifica la presencia del problema de heteroscedasticidad.
3. Determina el método para reducir el problema de heteroscedasticidad.
4. Conoce los datos de la regresión sin heteroscedasticidad.
d) Actitudes
✓ Asume una actitud crítica frente al problema de varianza en los residuos.
✓ Valora la importancia de la solución del problema de Heteroscedasticidad.
✓ Apoya la investigación de la importancia de una buena proyección de datos en
la estimación de cuadrados ponderado.
e) Presentación de Ideas básicas y contenidos esenciales de la Unidad:

La Unidad de Aprendizaje 03: Heteroscedasticidad, comprende el desarrollo
de los siguientes temas:
TEMA 01: Consecuencias de la Heteroscedasticidad para los estimadores

MCO.
TEMA 02: Contrastes de Heteroscedasticidad.
TEMA 03: Estimación de mínimos cuadrados ponderados.
TEMA 04: Revisión del modelo lineal.
102
Consecuencias
de la TEMA 1
Heteroscedasticidad
para los
Estimadores MCO
Competencia:
Reconocer los métodos y procedimientos
adecuados para los estudios de
administración y organización.
103
Tema 01: Consecuencias de la
Heteroscedasticidad para los Estimadores
MCO
LA NATURALEZA DE LA HETEROSCEDASTICIDAD
Uno de los supuestos importantes del modelo de

regresión lineal es que la varianza de cada
perturbación  es una constante igual a 2.
Este es el supuesto de homoscedasticidad, que en
términos gráficos se puede representar como:
Gráfica 1
Note que para cada valor de x la dispersión de los errores es constante.
En contraste si dicha varianza es no-constante se cumple que E (2) = 2

, = 1, 2, 3, .....n,
donde se observa
que a cada valor de y
se puede tener
varianza diferente,
gráficamente :
Gráfica 2
104
Existen varias razones para que las varianzas de u sean variables, entre las más
importantes destacan:
1. Siguiendo los modelos de aprendizaje por
errores, a medida que la gente aprende, sus
errores en el comportamiento van
disminuyendo en el tiempo, en este caso se
espera que 2 disminuya.
2. A medida que los ingresos aumentan la
gente tiene más ingreso discresional y por lo
tanto más oportunidad para elegir como disponer de sus ingresos. De este modo
2 tiende a aumentar con el ingreso por lo cual, en la región del ahorro contra el
ingreso es muy factible encontrar que 2 aumente con el ingreso, por lo que se
tiene gráfica 2.
CONSECUENCIAS DE LA HETEROSCEDASTICIDAD
Si se usan los estimadores de mínimos cuadrados

ordinarios y se obtiene heteroscedasticidad; es posible
que se declaren estadísticamente significativos
algunos parámetros estimados cuando en realidad no
lo son, debido a que la formula de la varianza puede
subestimar el verdadero valor de la misma.
Por ejemplo suponer que en un caso de heteroscedasticidad el

parámetro b estimado es igual a 20 y la varianza de  estimada
es igual a 25 lo cual genera un error estándar de 5 (25), ello
implica que la t calculada sera igual a /EE() = 20/5 = 4 ,
valor que es relativamente alto y significa que la hipótesis
nula Ho :  = 0, será rechazada, aceptándose con ello el
parámetro. Sin embargo el verdadero valor de la varianza es
400 lo cual genera un error estándar de 20 (400) , y una t
calculada de /EE() = 20/20 = 1, lo cual implica que la
105
hipótesis nula Ho :  = 0 no debe ser rechazada. Es decir debido al problema de

heteroscedasticidad aceptamos un parámetro estimado como “bueno” cuando en
realidad no lo es.
CÓMO DETECTAR LA HETEROSCEDASTICIDAD
Lo más corriente en estudios económicos es tener un valor muestral de Y para cada

valor particular de x y por esto no hay manera de conocer 2 a
partir de una sola observación de Y. Esa es la razón por la cual
en la mayoría e las investigaciones econométricas la
heteroscedasrticidad puede ser motivo de especulación.
Algunos métodos formales e informales para detectar la heteroscedasticidad

son:
1. Naturaleza del problema. Es frecuente que la naturaleza del problema sugiera

cuando exista la heteroscedasticidad. Por ejemplo siguiendo el
trabajo de Paris y Houthakker, sobre los presupuestos
familiares, en los que encontraron que la varianza residual
de la región del consumo contra el ingreso aumentaba
con el ingreso, se supone generalmente ahora, que
en estudios similares se
pueden
esperar diferentes
varianzas en las perturbaciones.
2. Método Gráfico. En la práctica, cuando no existe

información a priori o empírica acerca de la naturaleza
de la heteroscedasticidad, se puede hacer el análisis de
regresión sobre el supuesto de que no existe
heteroscedasticidad y luego hacer un estudio posterior
de los residuos estimados al cuadrado e2, para ver si
presentan un patrón sistemático, los patrones que se
pueden observar al graficar e2 contra Y estimada
pueden ser :
106
Gráfica 3
Un patrón como el que se muestra en las figuras anteriores por

ejemplo en la (c) sugiere que la varianza del término
perturbación está relacionada linealmente con la variable X.
La varianza es heteroscedástica y puede ser
proporcional al valor de la variable independiente.
107
Contrastes TEMA 2
de
Heteroscedasticidad
Competencia:
Identificar la presencia del problema de
heteroscedasticidad.
108
Tema 02: Contrastes de Heteroscedasticidad
PRUEBAS DE HETEOSCEDASTICIDAD
Antes de entrar a enumerar y revisar brevemente los principales procedimientos

deben quedar claras dos cuestiones preliminares:
1. Resultará imposible observar directamente la presencia de heterocedasticidad ya

que, en la mayoría de los análisis econométricos, sólo dispondremos de un valor
de “Y” para cada valor de “X” (y por tanto de un único valor de “U”) por lo que
resulta conceptualmente imposible observar si la varianza de
las “U” para cada valor de “X” es la misma. Por tanto, la
mayor parte de los métodos se apoyarán en los residuos
obtenidos en un modelo previo (estimado generalmente
con MCO); estos residuos, se utilizarán como una
muestra válida de las perturbaciones aleatorias
desconocidas.
2. Antes de la aplicación de métodos técnicos (más o menos informales) debemos

preguntarnos por la existencia de heterocedasticidad desde un punto de vista
teórico considerando la naturaleza del problema analizado, las exógenas
incluidas y, en definitiva, la propensión teórica del modelo hacia la
heterocedasticidad.
A. CONTRASTES GRÁFICOS
A.1) Gráfica del error a través de las distintas observaciones del modelo
Dado que las series económicas presentan casi siempre una

tendencia definida (positiva o negativa), la simple gráfica de
error puede servir para conocer intuitivamente si el mero
transcurso del tiempo da lugar a un
109
incremento/decremento continuado del error, lo que sería significativo de una

relación entre la evolución de las variables del modelo y los valores cada vez
mayores o cada vez menores de éste.
Gráficos del error sintomáticos de presencia de heterocedasticidad.
10 6
4
5
2
0 0
-2
-5
-4
-10 -6
1 3 5 7 9 11 13 15 17 19 1 3 5 7 9 11 13 15 17 19
En ambos, la mera evolución del tiempo está correlacionada con valores cada vez
mayores (izquierda) del error o cada vez menores (derecha), con lo que el cálculo de
la varianza por subperíodos arrojaría valores significativamente diferentes; es decir la
serie del error sería heterocedástica. Evidentemente, este tipo de gráficos SÓLO tiene
sentido si el modelo es temporal ya que, en el caso
del modelo transversal, la ordenación de valores del
eje “X” dependerá del criterio elegido para ordenar
la muestra, un criterio que puede no coincidir con
el patrón de crecimiento o decrecimiento de la
varianza.
A.2) Gráfica del valor cuadrático del error y los valores de “Y” y “X’s”
La representación de los valores del error al cuadrado y la variable endógena o

cada una de las variables exógenas puede revelar la existencia de algún
patrón sistemático en la varianza de la perturbación (se entiende que el error al
cuadrado se asocia con la dispersión del error). Este tipo de gráfico, no sólo
permite obtener una idea preliminar de si existe o no heterocedasticidad sino
también de la o las variables que pudieran estar conectadas con la misma.
B. CONTRASTES NUMÉRICOS
110
Todos los procedimientos presentados aquí tratan de cuantificar la presencia de

heterocedasticidad. Algunos de ellos, no sólo se limitan a cuantificarla sino que,
además, permiten valorar la existencia de heterocedasticidad en términos de
probabilidad recurriendo a distribuciones estadísticas conocidas; este último grupo
de contrates se denominan, por ello, contrastes "paramétricos".
B.1.) Contraste de White (prueba general de heterocedasticidad de

White)
Aunque en apariencia esta prueba es parecida a las mencionadas

anteriormente, parece admitido que algo más robusta al no requerir
supuestos previos como, por ejemplo, la normalidad de las perturbaciones.
Por otro lado, tal y como se verá a continuación, la prueba no exigirá
determinar a priori las variables explicativas de la heterocedasticidad (lo cual
no es necesariamente una virtud) y es por esta razón por lo que se
denomina “prueba general”.
En este contraste la idea subyacente es determinar si las variables
explicativas del modelo, sus cuadrados y todos sus cruces posibles no
repetidos sirven para determinar la evolución del error al cuadrado. Es decir;
si la evolución de las variables explicativas y de sus varianzas y covarianzas
son significativas para determinar el valor de la varianza muestral de los
errores, entendida ésta como una estimación de las varianzas de las
perturbaciones aleatorias.
El proceso a seguir para realizar este contraste sería el siguiente:
1. Estimar el modelo original por MCO, determinando la serie de los errores. Escrito
esto en forma matricial para un modelo con "n" observaciones y "k" variables
explicativas:
Y  X  U
ˆ  X ' X 1 X ' Y
Yˆ  Xˆ
e  Y  Yˆ
111
2. Estimar un modelo en el que la endógena sería los valores al cuadrado de los

errores obtenidos previamente (paso 1) con todas las variables explicativas
del modelo inicial, sus cuadrados y sus combinaciones no repetidas.
ei2   0  1 x1i  ...   k xki   k 1 x12i  ...   k k xki2   k k 1 x1i x2i 

 k k 2 x1i x3i  ...   3k 1 x2i x3i  ...   i
2
3. El valor de la Re de este segundo modelo (paso 2) nos dirá si las variables
elegidas sirven o no para estimar la evolución variante del error al cuadrado,
representativo de la varianza estimada de las perturbaciones aleatorias.
Evidentemente, si la varianza de éstas fuera constante (homocedasticidad), el
carácter no constante de las variables explicativas implicadas en el modelo no
2
serviría para explicar la endógena, luego la Re debiera ser muy pequeña.
2
En principio, la Re , como proporción de la varianza de
la endógena real que queda explicada por la estimada,
debiera ser muy pequeña si la capacidad explicativa de
los regresores considerados también es muy pequeña,
siendo estos regresores, por su construcción,
representativos de varianzas y covarianzas de todas las explicativas del modelo
original. Dicho esto, evidentemente un valor de la R2 suficientemente pequeño servirá
para concluir que no existe heterocedasticidad en el modelo producida por los valores
de las explicativas consideradas en el modelo inicial. Para encontrar el valor crítico en
esa consideración de “suficientemente pequeño” se emplea la expresión deducida por
Breusch y Pagan como producto del coeficiente R2 por el número de datos del modelo,
que se distribuiría del siguiente modo: n·Re2   p 1
2
En definitiva, si obtenemos un valor del producto n·Re mayor que el reflejado por
las tablas de  p2 1 , afirmaremos que existe heterocedasticidad, y viceversa, si
este valor es más pequeño diremos que se mantiene la homocedasticidad (luego

la hipótesis nula de este contraste es la homocedasticidad).
112
Otro modo de contrastar la existencia de heterocedasticidad en el modelo a partir de la

validez o no de los parámetros incluidos en la regresión propuesta por White vendría
dado por el valor del contraste de significación conjunta F. Si dicho
contraste afirmara que, en conjunto, las variables explicitadas tienen
capacidad explicativa sobre la endógena, estaríamos afirmando la
presencia de heterocedasticidad en el modelo.
Formalmente el test se conoce como el test de heteroscedasticidad
de White y está disponible en EViews.
El resultado relevante son los estadísticos de prueba que se presentan para un
ejemplo:
White Heteroskedasticity Test:
F-statistic 8.561240 Probability 0.000675

Obs*R-squared 13.35139 Probability 0.001261
El F-statistic contrasta la hipótesis nula de ausencia de

heteroscedasticidad (todos los regresores de la regresión auxiliar
de prueba son cero –homoscedasticidad-) y se distribuye como una F
con k-1, n-k grados de libertad.
113
Estimación
TEMA 3
de Mínimos
un
Cuadrados
Ponderados
Competencia:
Determinar el método para reducir el
problema de heteroscedasticidad.
114
Tema 03: Estimación de Mínimos Cuadrados

Ponderados
CORRECCIÓN DEL PROBLEMA DE HETEROSCEDASTICIDAD
Puede demostrarse que los estimadores por MCO en

presencia de heteroscedasticidad son insesgados, pero no
serán los mejores estimadores (no tendrán variancia mínima).
Se puede obtener un mejor estimador (con menor variancia).
Este estimador se obtiene incorporando en el proceso de
estimación el valor de las varianzas individuales de los términos de error en cada
punto muestral (o por lo menos una estimación aproximada de estas variancias).
También una consecuencia más seria de la heteroscedasticidad es que si usamos el

estimador insesgado pero ineficiente por MCO, las expresiones usuales de las
varianzas de los estimadores son sesgadas. En otras palabras, los estadísticos t son
incorrectos en presencia de heteroscedasticidad y suministran una base poco fiable
para las inferencias. En la práctica, el problema es cómo calcular las variancias de los
errores en cada punto de muestra.
Existe un método para estimar las varianzas de los errores en cada punto de muestra
y corregir los estimadores por MCO. El método es atribuible a White, y se conoce
como corrección de la matriz de varianzas y covarianzas de White (White’s
heteroscedasticity-corrected variances). El método usa los estimadores (ineficientes)
por MCO pero ajusta las varianzas para que sean válidas en la inferencia. El método
115
genera variancias consistentes de los estimadores cuya confianza aumenta a medida

que se incrementa el tamaño de muestra.
En particular, para el modelo de regresión simple se define:
(Xi  X )
Wi 
 ( X i  X )2
Y la varianza de los estimadores por MCO corregido es:

Var ( ˆ )  Wi 2 ei2
Ejemplo 1
Crea un fichero en SPSS con los datos

correspondientes a Gastos en Transporte e Ingreso de
10 familias, con el fin de estimar un modelo lineal
simple que explique el gasto en transporte en función
de la renta:
Gasto 8 7 3 9 30 24 17 17 42 31
Ingreso 300 250 200 320 650 700 430 500 760 810
a) Estima el modelo por mínimos cuadrados ordinarios y guarda los residuos.

b) Indicios de heteroscedasticidad: gráficos y comentario.
Solución
En el análisis de datos, además del estudio de regresión, se ha añadido el
gráfico de residuos
116
La variable Gasto es la variable dependiente (Y)

La variable Ingreso es la variable independiente (X)
Gráfico de los residuales

10
5
Residuos
0
0 200 400 600 800 1000
-5
-10
Ingreso
La aparición de residuos grandes, cuando aumenta el ingreso, se pone manifiesto

tanto en la nube de puntos (por tratarse de un modelo simple) como en los gráficos de
residuos. Hay indicio de heteroscedasticidad.
117
Curva de regresión ajustada

50
40
30
Gasto
20 Gasto
10 Lineal (Gasto)
0
0 200 400 600 800 1000
Ingreso
Se obtienen los siguientes resultados:
La ecuación de regresión es Gasto = -7.427 + 0.0533*Ingreso

Con un coeficiente de Correlación de 0.945 (94.5%)
118
Se aplica el coeficiente de correlación entre los residuos absolutos ORDENADOS y los

valores del ingreso ORDENADOS. La correlación (rho) en la muestra es muy alta y
positiva 0,9175 (concordancia). Queda confirmada la heteroscedasticidad.
Revisión TEMA 4
del
Modelo
un
Lineal
Competencia:
Conocer los datos de la regresión sin
heteroscedasticidad.
119
Tema 04: Revisión del Modelo Lineal
REVISIÓN DEL MODELO LINEAL
Para testear la presencia de heteroscedasticidad se puede utilizar la prueba de White.
El enfoque es permitir que  i2 pueda estar relacionada con cualquiera de las

variables independientes. En particular, que  i2 está relacionada con el cuadrado de
una o más variables independientes. La prueba hace corriendo la regresión y luego se
obtienen los términos de error. Se obtienen los cuadrados de los términos de error y
luego se corren estos errores al cuadrado contra los valores
estimados de la variable dependiente y los cuadrados de los
valores estimados. Si hubiera alguna tendencia de los
valores absolutos a incrementarse (o disminuir) con el
nivel y los cuadrados de los valores estimados
entonces tendríamos un R 2 significativo y esto podría
sugerir la presencia de heteroscedasticidad.
.
120
Formalmente el test se conoce como el test de heteroscedasticidad de White y

está disponible en EViews (luego de correr la regresión de interés):
View/Residual Tests/White Heteroskedasticity (no cross terms).
El resultado relevante son los estadísticos de prueba que se presentan para un

ejemplo:
White Heteroskedasticity Test:
F-statistic 8.561240 Probability 0.000675
Obs*R-squared 13.35139 Probability 0.001261
El F-statistic contrasta la hipótesis nula de ausencia de

heteroscedasticidad (todos los regresores de la regresión
auxiliar de prueba son cero –homoscedasticidad-) y se
distribuye como una F con k-1, n-k grados de libertad.
El problema de la Autocorrelación serial de los
errores
El problema de autocorrelación existe cuando el supuesto de independencia de los

términos no se cumple:
E( s  t )  0 para todo s  t No
En este caso se dice que los errores están autocorrelacionados.
La naturaleza del problema
La autocorrelación es un problema que existe en modelos de series de tiempo. Por

ejemplo, considere el caso de una compañía productora cuyo nivel del producto en
cualquier punto de tiempo es determinado por la cantidad del trabajo y el nivel capital
usado durante ese período de tiempo (una función de producción simple). Considere la
interpretación del término de error dentro de tal contexto. En cualquier punto de
tiempo, el producto es explicado por el nivel del trabajo y el capital, más cualquier
acontecimiento aleatorio o imprevisible.
121
Suponga que una materia prima importante usada en el proceso de producción está
sujeta a imprevisibilidad en su suministro. El efecto que esto tiene es que cuando la
materia prima es escasa el producto desciende (aunque la firma no cambia trabajo ni
capital) y cuando la materia prima es abundante el producto aumenta. El fabricante se
las arregla con este problema acumulando niveles relativamente grandes del producto
terminado para que la demanda pueda ser cubierta durante los períodos de escasez
de materia prima reduciendo existencias. En los períodos de
abundancia recompone stocks.
La manera que este proceso se refleja en los datos observados es

que mientras el trabajo y el capital se relacionan con el nivel de
producto de largo plazo, el producto está sujeto a un grado de la
fluctuación de corto plazo como consecuencia de la variabilidad de
corto plazo en suministros de materia prima. Esta "perturbación
aleatoria" estará vinculada entre distintos puntos del tiempo. Los
períodos de producto excepcionalmente bajo serían seguidos por períodos de niveles
de producto relativamente alto cuando se recomponen stocks.
Como consecuencia de esta autocorrelación en los términos de error, hay un grado de
previsibilidad en la manera en la que los términos de error se observan en el tiempo.
En particular, los períodos de error negativo (suministros de materia prima bajo) serían
seguidos por períodos positivos. Por lo tanto una especificación de modelo completa
debe incluir este elemento sistemático en los términos de error para asegurar que toda
variación sistemática en la variable dependiente se refleja en la especificación de
modelo.
La descripción sugiere una relación entre el error en momentos sucesivos:
 t  f ( t 1 )
Asumiendo una relación lineal simple:
 t   t 1  ut
7.3
Dónde ; es un parámetro a estimar es un término de error adicional que
suponemos iid
122
Las consecuencias de Autocorrelación
Las consecuencias de la autocorrelación son idénticas a las de la heteroscedasticidad.

Los estimadores por MCO son insesgados pero ineficientes. Estimadores eficientes
pueden ser obtenidos incorporando la estructura específica de la autocorrelación del
error en el proceso de estimación.
Las expresiones convencionales para las variancias de los estimadores por MCO
serán sesgadas y por lo tanto, toda hipótesis de prueba será inválida. En particular la
presencia de autocorrelación serial sesga negativamente las varianzas de los
estimadores, generando estadísticos t artificialmente altos.
Métodos de cálculo alternativos

Los enfoques para el cálculo en presencia de
autocorrelación involucran el cálculo explícito de la
estructura en el término de error, como en la
ecuación presentada, lo que implica una estimación
del parámetro, y su incorporación al
modelo.
Considere el modelo simple:
Yt     X t   t
Dónde:
 t    t 1  ut
Rezagando la ecuación del modelo un período, multiplicando por rho y restándo esta
nueva ecuación de la original tenemos:
Yt   Yt 1   (1   )   ( X t   X t 1 )   t    t 1
Note que:
 t    t 1  ut
A partir del modelo original pueden recuperarse los errores y obtener una estimación
de rho. Esta estimación se utiliza para redefinir las variables:
Wt  Yt   Yt 1 7.14
123
Vt  X t   X t 1
Luego Wt puede ser corrido contra Vt , donde el coeficiente de Vt será una estimación
del  , y también es posible recuperar  a partir de la constante dividida 1   .
El procedimiento conocido como “Cochrane – Orcutt” realiza esto

de manera iterativa para ajustar el valor del rho a partir de sucesivas
regresiones del término de error y recalculando la regresión en
variables transformadas por cada nuevo valor obtenido del
rho. Este proceso iterativo continúa hasta que
las diferencias en el  estimado son mínimas.
La mayoría de los paquetes econométricos para
computadora contienen una rutina para los
estimadores Cochrane – Orcutt.
❖ ECONOMETRÍA
http://es.wikipedia.org/wiki/Econometr%C3%ADa
❖ CRIOMETRÍA
http://es.wikipedia.org/wiki/Cliometr%C3%ADa
1. Ingresa al link “Heteroscedasticidad” lee atentamente las

124
2. Ingresa al link “Prueba de Heteroscedasticidad” lee atentamente las

indicaciones, desarróllalo y envíalo por el mismo medio:
Se desea estimar la regresión de gastos en investigación y desarrollo
sobre las utilidades y se dispone de la siguiente información sobre
gastos de investigación y desarrollo para 18 grupos de industrias en
relación con las utilidades.
Agrupación industrial Gastos en I&D Utilidades

1. Contenedores y empaques 62.5 185.1
2. Industrias financieras no bancarias 92.9 1569.5
3. Industrias de servicios 178.3 276.8
4. Metales y minería 258.4 2828.1
5. Vivienda y construcción 494.7 225.9
6. Manufacturas en general 1083.0 3751.9
7. Ind. Relac. Con descanso y esparcimiento 1620.6 2884.1
8. papel y productos forestales 421.7 4645.7
9. Alimentos 509.2 5036.4
10. Salud 6620.1 13869.9
11. Industria aeroespacial 3918.6 4487.8
12. Productos del consumidor 1595.3 10278.9 125
13. Productos eléctricos y electrónicos 6107.5 8787.3
14. Químicos 4454.1 16438.8
Autoevaluación
1) Resultará imposible observar directamente la presencia de ____________
a. Heterocedasticidad.
b. Multicolinealidad.
c. Los errores de correlación serial.
d. Endogeneidad de regresores.
e. Mínima varianza.
2) En el siguiente gráfico, la línea continua es la línea de regresión poblacional

verdadera y los círculos son las observaciones de la muestra. ¿Qué hipótesis
parece ser violada en esta muestra?
a. E(i|xi1,xi2,…,xiK) = 0.
b. Homoscedasticidad: Var(i) = 2 ,es una constante.
126
c. No autocorrelación: Cov(i,j) = 0 para ij.

d. No autocorrelación: Var(i) = 2 ,es una constante.
e. Homoscedasticidad: Var(i) = 2 , no es una constante.
3) En un estudio de regresión lineal, donde el peso de los pacientes, se estudie

conjuntamente con otras variables, en qué casos lo usarías como variable
dependiente:
a. Al estudiarlo con el nivel del colesterol.
b. Al estudiarlo con la presión sanguínea.
c. Al estudiarlo con la estatura.
d. Al estudiarlo con el género.
e. Al estudiarlo con el grupo sanguíneo.
4) Si el término de error en una regresión presenta heteroscedasticidad, los

estimadores de mínimos cuadrados de los coeficientes serán:
a. Sesgados.
b. Inconsistentes.
c. Mejores estimadores lineales insesgados.
d. Mejores estimadores insesgados.
e. Estadísticos con alta dispersión.
5) ¿Cuál de los siguientes problemas no causa que el término de error se
correlacione con un regresor?
a. Un regresor, que pasa a estar correlacionados con los regresores incluidos,
se omite de la ecuación.
b. Una variable independiente (x) se mide con el error.
c. La variable dependiente (y) se mide con el error.
d. Una variable equivocada se utiliza como la variable dependiente.
e. Ninguna variable tendría error.
6) Señala cual de las siguientes afirmaciones sobre el coeficiente de
determinación es falsa:
a. Es el porcentaje de variabilidad de una variable explicado por la variabilidad
de la otra.
b. Coincide con el valor del coeficiente de correlación r2.
c. Cuanto mayor sea la varianza residual en comparación con la varianza total
de la variable dependiente, el coeficiente estará más cercano a 0.
d. Cuanto mayor sea la varianza residual en comparación con la varianza total
de la variable dependiente, el coeficiente estará más cercano a 1.
e. Se utiliza para medir la bondad del ajuste.
Para las siguientes 4 preguntas, considere la siguiente tabla. Un programa de

regresión ha calculado el siguiente análisis de varianza (ANOVA):
Grados de Suma de Cuadrados
libertad cuadrados medios
(“GL”) (“SC”) (“CM”)
Regresión (o “Modelo” o 4 400 100
“Explicado”)
Residuo (o “Error”) 20 200 10
Total 24 600 25
7) ¿Cuál es el tamaño de la muestra?

a. 20.
b. 24.
127
c. 25.
d. 28.
e. 30.
8) ¿Cuántos coeficientes  se estiman, incluyendo la intercepción?

a. 1.
b. 2.
c. 3.
d. 4.
e. 5.
9) ¿Cuál es la estimación no sesgada de la varianza del término de error?
a. 10.
b. 20.
c. 24.
d. 25.
e. 100.
10) Calcule el valor de R2 (a veces llamado el "coeficiente de determinación").

a. R2 = 200/600= 1/3=0.3333.
b. R2=1-200/600=2/3=0.6667.
c. R2=1-10/100=9/10=0.90.
d. R2=10/100 = 1/10 = 0.10.
e. R2=10/25 = 2/5 = 0.40.
Resumen
UNIDAD DE APRENDIZAJE III:
Recordemos que uno de los supuestos del MCO es que la distribución del término de
error en cada punto de la distribución es idéntica. Típicamente, se supone que la
2
distribución es normal con media cero y varianza constante  . Si este supuesto se
cumple, entonces el término de error se dice homoscedástico. Si la variancia del
término de error cambia entre puntos de la muestra causa el problema de
heteroscedasticidad, y los términos de error serán heteroscedásticos.
Por lo tanto, si los términos de error son heteroscedasticos una de las suposiciones del
modelo de regresión básico es violada, y tenemos que determinar qué implica para
nuestra estimación y para la evaluación de hipótesis.
Resultará imposible observar directamente la presencia de heterocedasticidad ya que,

en la mayoría de los análisis econométricos, sólo dispondremos de un valor de “Y”
para cada valor de “X” (y por tanto de un único valor de “U”) por lo que resulta
conceptualmente imposible observar si la varianza de las “U” para cada valor de “X” es
la misma. Por tanto, la mayor parte de los métodos se apoyarán en los residuos
obtenidos en un modelo previo (estimado generalmente con MCO); estos residuos, se
128
utilizarán como una muestra válida de las perturbaciones aleatorias desconocidas.

Todos los procedimientos presentados aquí tratan de cuantificar la presencia de
heterocedasticidad. Algunos de ellos, no sólo se limitan a cuantificarla sino que,
además, permiten valorar la existencia de heterocedasticidad en términos de
probabilidad recurriendo a distribuciones estadísticas conocidas; este último grupo de
contrates se denominan, por ello, contrastes "paramétricos".
Puede demostrarse que los estimadores por MCO en presencia de

heteroscedasticidad son insesgados, pero no serán los mejores estimadores (no
tendrán variancia mínima). Se puede obtener un mejor estimador (con menor
variancia). Este estimador se obtiene incorporando en el proceso de estimación el
valor de las varianzas individuales de los términos de error en cada punto muestral (o
por lo menos una estimación aproximada de estas variancias).
En particular, para el modelo de regresión simple se define:
(Xi  X )
Wi 
 ( X i  X )2

Y la varianza de los estimadores por MCO corregido es: Var ( ˆ )  Wi 2 ei2
Para testear la presencia de heteroscedasticidad se puede utilizar la prueba de White.

El enfoque es permitir que  i pueda estar relacionada con cualquiera de las
2
variables independientes. En particular, que  i está relacionada con el cuadrado de

2
una o más variables independientes. La autocorrelación es un problema que existe en

modelos de series de tiempo. Por ejemplo, considere el caso de una compañía
productora cuyo nivel del producto en cualquier punto de tiempo es determinado por la
cantidad del trabajo y el nivel capital usado durante ese período de tiempo (una
función de producción simple). Considere la interpretación del término de error dentro
de tal contexto. En cualquier punto de tiempo, el producto es explicado por el nivel del
trabajo y el capital, más cualquier acontecimiento aleatorio o imprevisible.
129
Introducción
estudiante analice la función de autocorrelación, que es la correlación entre
miembros de series de observaciones ordenadas en el tiempo o en el espacio. El
modelo de regresión lineal supone que no debe existir autocorrelación en los
errores, es decir, el término de perturbación relacionado con una observación
cualquiera no debería estar influenciado por el término de perturbación relacionado
con cualquier otra observación.
b) Competencia
Determina los principales procesos de Autocorrelación, planteando
soluciones en el análisis de datos.
130
c) Capacidades
1. Identifica y diferencia los patrones de autocorrelación presentes en un modelo

de estimación lineal.
2. Reconoce la presencia del problema de autocorrelación.
3. Analiza los métodos para reducir los problemas presentados en la
autocorrelación.
4. Conoce y explica si la autocorrelación es positiva o negativa de los residuos.
d) Actitudes
✓ Muestra interés ante el impacto del problema de la Autocorrelación.

✓ Aplica el método para reducir el contraste de autocorrelación.
✓ Valora la importancia de la solución del problema de la Autocorrelación.
e) Presentación de Ideas básicas y contenido esenciales de la Unidad:

La Unidad de Aprendizaje 04: Autocorrelación, comprende el desarrollo de los
siguientes temas:
TEMA 01: Consecuencias de la autocorrelación para los estimadores MCO.

TEMA 02: Contraste de Autocorrelación.
TEMA 03: Solución a la autocorrelación con regresores.
TEMA 04: Heteroscedasticidad y Autocorrelación en modelos de regresión.
Consecuencias
de la
TEMA 1
Autocorrelación
para los
Estimadores MCO
131
Competencia:
Identificar y diferenciar los patrones de
autocorrelación presentes en un modelo de
estimación lineal.

Tema 01: Consecuencias de la Autocorrelación
para los Estimadores MCO
EL PROBLEMA DE LA AUTOCORRELACIÓN SERIAL DE LOS ERRORES
Un supuesto importante del modelo clásico lineal presentado en el inicio del curso es
que no hay autocorrelación o correlación serial entre las perturbaciones i
consideradas dentro de la función de regresión poblacional. En este
apartado, se examinara en forma crítica este supuesto con el fin de
buscar respuestas a las siguientes preguntas:
132
1. ¿Cuál es la naturaleza de la autocorrelación?

2. ¿Cuáles son las consecuencias teóricas y prácticas de la autocorrelación?
3. Puesto que el supuesto de no autocorrelación se relaciona con las perturbaciones
no observables i, como se sabe que hay autocorrelación en cualquier situación
dada?
4. ¿Cómo se puede remediar el problema de la autocorrelación?
El lector encontrara en este apartado, similitudes en muchos aspectos con el apartado

anterior sobre heteroscedasticidad, puesto que en presencia de autocorrelación y de
heteroscedasticidad, los estimadores, de mínimos cuadrados, a pesar de ser
insesgados, dejan de tener mínima varianza entre todos los estimadores lineales
insesgados. En resumen, dejan de ser mejores estimadores lineales insesgados.
NATURALEZA DEL PROBLEMA
El término autocorrelación se puede definir como la correlación

entre miembros de series de observaciones ordenadas en el tiempo
[como en información de series de tiempo] o en el espacio como en
información de corte transversal. En el contexto de regresión, el
modelo clásico de regresión lineal supone que no existe tal autocorrelación en las
perturbaciones i, Simbólicamente, E (i j ) = 0 ij
Expresado en forma sencilla, el modelo clásico supone que el término de perturbación
relacionado con una observación cualquiera no está
influenciado por el término de perturbación relacionado con
cualquier otra observación. Por ejemplo, si sé está tratando
con información trimestral de series de tiempo, para efectuar
una regresión de la producción sobre los insumos trabajo y
capital y si, por ejemplo, hay una huelga laboral que afecta
la producción en un trimestre, no hay razón para pensar que
esta interrupción afectara la producción del trimestre
siguiente. Es decir, si la producción es inferior este trimestre, no hay razón para
esperar que esta sea baja en el siguiente trimestre. En forma similar, si sé está
tratando con información de corte transversal que involucra la regresión del gasto de
consumo familiar sobre el ingreso familiar no se espera que el efecto de un incremento
en el ingreso de una familia sobre su gasto de consumo incida sobre el gasto de
133
consumo de otra. Sin embargo, si tal dependencia existe, se tiene autocorrelación.

Simbólicamente,
E (i j)  0 ij
En esta situación, la interrupción ocasionada por una huelga este trimestre

puede afectar muy fácilmente la producción del siguiente trimestre, o los
incrementos en el gasto de consumo de una familia pueden inducir muy
fácilmente a otra familia a aumentar su gasto de consumo para no quedarse
atrás de la primera.
Antes de encontrar la razón de la existencia de la

autocorrelación, es esencial aclarar algunos aspectos de
terminología. Aunque, hoy en día, es práctica común tratar
como sinónimos los términos autocorrelación y correlación
serial, algunos autores prefieren diferenciar los dos términos.
Por ejemplo se define autocorrelación como (correlación
rezagada de una serie dada consigo misma, rezagada por
un número de unidades de tiempo), mientras que reserva el
término correlación serial para (correlación rezagada entre dos
series diferentes). Aunque la distinción entre los dos términos
puede ser de utilidad, en este apartado se consideraran como sinónimos.
Se pueden visualizar algunos de los patrones razonables de autocorrelación y
de no autocorrelación, los cuales están dados en la siguiente figura.
u,u u,u
4 6
2 4
0 2
0 5 10 15 20
-2
0
-4 0 2 4 6 8 10 12 14 16 18 20
Ilustración 1a) Ilustración 2b)
134
u,u u,u
5 3
4 2
3
1
2
0
1
0 -1 0 2 4 6 8 10 12 14 16 18 20
0 2 4 6 8 10 12 14 16 18 20 -2
Ilustración 3c) Ilustración 4d)
u,u
4
0
0 2 4 6 8 10 12 14 16 18 20
-2
-4
Ilustración 5e)
En las figuras a) a d) se ve que hay un patrón de

distinguible entre las , mientras que en la figura e) no
existe tal patrón, apoyando el supuesto que no hay
autocorrelación.
DETECCION DE LA AUTOCORRELACIÓN
La autocorrelación es potencialmente un problema grave. Por

consiguiente, las medidas remédiales deben ser ciertamente
apropiadas. Por supuesto, antes de hacer algo, es esencial averiguar si
existe autocorrelación en una situación dada. En estos apuntes se
consideraran algunas pruebas de correlación serial usadas comúnmente.
Prueba d de Durbin- Watson
135
La prueba más conocida para detectar correlación serial es la desarrollada por los
estadísticos Durbin y Watson. Es comúnmente conocida como el estadístico d de
Durbin- Watson. El cual se define como:
d = ( ut – u t-1)2 /  u2t
Que es simplemente la razón de la suma de las diferencias al cuadrado de residuales

sucesiva sobre la SCR. Obsérvese que en el numerador d, el número de
observaciones es n -1 porque una observación se pierde al obtener las diferencias
consecutivas. Una gran ventaja del estadístico d es que está basado en los residuales
estimados, que aparecen sistematizados en los análisis de regresión. Debido a esta
ventaja, es frecuente incluir el estadístico d de Durbin-Watson en los informes de
análisis de regresión, junto con otros estadísticos resumen tales como el R2, el R
ajustado, las razones t, etc.
Aunque el estadístico d es utilizado ahora en forma sistematizada,

es importante anotar los supuestos en los cuales este se basa:
1. El modelo de regresión incluye el término de intercepto. Si

dicho término no esta presente, como es el caso de la
regresión a través del origen, es esencial efectuar
nuevamente la regresión incluyendo el término del intercepto
para obtener la SCR.
2. Las variables explicativas, x son no estocásticas, es decir, son
fijas en muestreo repetido.
3. Las perturbaciones t se generan mediante el esquema
autorregresivo de primer orden:
t = t-1 + t
4. El modelo de regresión no incluye valor(es) rezagado(s) de la

variable dependiente como una de las variables explicativas.
Por tanto, la prueba es inaplicable a modelos grandes.
5. No hay observaciones faltantes en los datos. Por tanto, en un ejemplo de
regresión de salarios- productividad para el período 1960-1991 si por alguna
razón faltaran las observaciones, por ejemplo para 1963 y 1972, el estadístico d
no permitiría la ausencia de tales observaciones.
136
El muestreo exacto o la distribución de probabilidad del estadístico d es difícil de

derivar porque, como lo han demostrado Durbin y Watson, depende de forma compleja
de los valores presentes de X en una muestra dada. Esta dificultad puede ser
entendida porque d es calculado a partir de t, los cuales, por supuesto, dependen de
las X dadas. Por consiguiente, a diferencia de las pruebas t, F o 2, no hay un valor
crítico único que lleve al rechazo o a la aceptación de la hipótesis nula de que no hay
correlación serial de primer orden en las perturbaciones i.
Sin embargo, Durbin y Watson tuvieron éxito al encontrar

un límite inferior dL, y un límite superior dU, tales que si el
valor d calculado cae por fuera de estos valores críticos,
puede tomarse una decisión con respecto a la presencia
de correlación serial positiva o negativa. Además, estos
límites solamente dependen del número de
observaciones n y del número de variables explicativas y
no dependen de los valores que adquieren estas variables explicativas. Estos límites
para n, de 6 a 200 y hasta 20 variables explicativas, han sido tabulados por Durbin y
Watson. (hasta 20 variables explicativas). El procedimiento de prueba aplicado puede
explicarse mejor con la ayuda de la siguiente figura 1, la cual muestra que los límites
de d son 0 y 4. Estos pueden establecerse expandiendo la siguiente ecuación, para
obtener:
d = (u2j + u2t-1- 2 utu t-1) / u2t
Puesto que u2t y u2t-1 difieren solo en una observación, estos son aproximadamente
iguales. Por consiguiente, haciendo u2t-1 = u2t
puede escribirse como:
d  2[1 – (utut-1/ u2t)]
Donde  significa aproximadamente.

Se define ahora:
 = (utut-1) / (u2t)
137
Como el coeficiente de autocorrelación muestral de primer orden, un estimador de , 

es posible expresar como:
d  2 (1 – p)
pero puesto que – 1  p  1, implica que, 0  d  4
Estos son los límites de d; cualquier valor d estimado debe caer dentro de estos
límites.
Cuadro 1.
Nota: Ho: No autocorrelación positiva

Ha: No autocorrelación negativa
Es deducible de la ecuación sí p = 0, d = 2; es decir, si no hay

correlación serial (de primer orden), se espera que d este alrededor
de 2. Por consiguiente, como regla práctica, si en una aplicación se
encuentra que d es igual a 2, se puede suponer que no hay
autocorrelación de primer orden, bien sea positiva o negativa.
Si p = + 1, indica una correlación positiva perfecta en los residuales, d 
0. Por consiguiente, entre más cercano este d a 0, mayor será la
evidencia de correlación serial positiva. Esta relación debe ser
evidente de ya que si hay autocorrelación positiva, las t aparecerán
agrupadas y sus diferencias, por consiguiente, tenderán a
ser pequeñas. Como resultado, la suma de cuadrados del
numerador será menor en comparación con la suma de
cuadrados del denominador, el cual es un valor que
permanece fijo para cualquier regresión dada.
138
Si p = p - 1 es decir, hay una correlación negativa perfecta entre los valores

consecutivos de los residuales, d  4. Por tanto, entre mas se acerque d a 4, mayor
será la evidencia de correlación serial negativa. Nuevamente, al analizar esto es
entendible. Pues, si hay autocorrelación negativa, t , positiva tendera a estar seguida
por t, negativo y viceversa, de tal forma que t – t-1será usualmente mayor que
t. Por consiguiente, el numerador de d será comparativamente mayor que el
denominador.
El mecanismo de la prueba de Durbin - Watson es el siguiente, suponiendo que se

cumplen los supuestos sobre los cuales se basa la prueba:
1. Efectuar la regresión con mínimos

cuadrados y obtener los residuales.
2. Calcular d a partir de la ecuación d = ( ut –
u t-1)
2
/  u2t . La mayoría de los programas
de computador incluyen este cálculo.
3. Para un tamaño de muestra dado y un
número de variables explicativas dado, encuéntrense los valores críticos dL y dU
4. Síganse ahora las reglas de decisión dadas en la siguiente cuadro No. 1. Para
facilitar su entendimiento, estas reglas se resumen en el cuadro 2.
Cuadro 2
Hipótesis nula Decisión Sí
139
No autocorrelación + Rechazar 0 < d < dL

No autocorrelación + No tomar decisión dL < d < dU
No correlación - Rechazar 4- dL < d < 4
No correlación - No tomar decisión 4 –dU < d < 4 – dL
No autocorrelación, + o - No rechazar dU < d < 4 - dU
A pesar de ser muy popular, la prueba d tiene una gran desventaja:

cuando cae en la zona de indecisión o región de ignorancia, no se
puede concluir si la autocorrelación existe o no. Para resolver este
problema, diversos autores han propuesto modificaciones a
la prueba d de Durbin - Watson pero son un poco
complicadas y están por fuera del alcance de estos
apuntes.
Contraste TEMA 2
de 140
Autocorrelación
Competencia:
Reconocer la presencia del problema de
autocorrelación.
Tema 02: Contraste de Autocorrelación
PRUEBAS DE AUTOCORRELACIÓN
141
La prueba clásica es el test d de Durbin y Watson, para el cual las hipótesis son:
H 0 : el error es iid.
H 1 : el error está generado por un proceso autorregresivos de primer orden.
El estadístico de prueba:
n
 (e t  et 1 ) 2
d t 2
n
e
t 1
2
t
El valor del d en la población (  ) es:

n
 ( t   t 1 ) 2
  t 2
n

t 1
t
2
Que puede ser reescrito como:

  2(1   )
Entonces si   1 (autocorrelación positiva perfecta),  vale 0.

Si   1 (autocorrelación perfecta negativa) entonces  vale 4.
Si   0 ; (ausencia de autocorrelación)  vale 2.
Para determinar si el valor observado de d es

significativamente diferente de 2 (por lo tanto:
presencia de autocorrelación) debemos referirnos
a las tablas del estadístico DW. Ubicamos el
tamaño de muestra, n y el número de variables independientes, K, para encontrar el
valor crítico del estadístico.
En las tablas hay dos entradas una cota inferior ( d L ) y
una cota superior ( d U ). Si el valor observado de d es
menor a 2 entonces este valor es comparado
142
directamente contra los valores tabulados. Si d es menor que d L (cercano a cero)
entonces H 0 debe ser rechazada. Si d es mayor que d U (cercano a 2) entonces H 0
se acepta
Si d esta en entre d L y d U el resultado es inconclusivo o de duda.
Si el valor observado de d es mayor a 2 se obtienen los valores de

d L y d U de la misma manera pero se deben sustraer de 4.
Si el valor observado del d es mayor que el más alto de los dos
valores recalculados ( d cercano a 4) la H 0 se rechaza
(evidencia de autocorrelación negative).
Si d es menor que el menor valor recalculado

(cercano a 2), entonces H 0 debe ser aceptada (no
hay autocorrelación).
Si d está en un valor intermedio, el resultado es de duda.
En Eviews se reporta el DW en cada regresión.
Solución a la TEMA 3
Autocorrelación 143
con Regresores
Competencia:
Analizar los métodos para reducir los
problemas presentados en la autocorrelación.
Tema 03: Solución a la Autocorrelación con

Regresores
MEDIDAS REMÉDIALES
144
Puesto que en presencia de correlación serial los estimadores de mínimos cuadrados

son ineficientes, es esencial buscar medidas remédiales. El remedio, sin embargo,
depende del conocimiento que se tenga sobre la naturaleza de la interdependencia
entre las perturbaciones. Se distinguen dos situaciones: cuando la estructura de
autocorrelación es conocida y cuando no lo es.
a) Cuando la estructura de la autocorrelación es conocida
Puesto que las perturbaciones i no son

observables, la naturaleza de la correlación serial es
frecuentemente un asunto de especulación o de
exigencias prácticas. En la práctica, usualmente se
supone que las i siguen el esquema autorregresivo
de primer orden, a saber,
t = t-1 + t
Donde I p I < 1 y donde las t siguen los supuestos mínimos cuadrados de valor
esperado cero, varianza constante y no autocorrelación. Si se supone la validez de la
anterior ecuación, el problema de correlación serial puede ser resuelto
satisfactoriamente si se conoce p, el coeficiente de autocorrelación. Para esto se tiene
en cuenta el modelo con dos variables,
Yt =  + xt + t
Si es cierta en el tiempo t, también es cierta en t-1, por tanto,
Yt-1 =  + xt-1 + t-1
Multiplicando por p a ambos lados, se obtiene
pYt-1 = p + pX t-1 + pt-1
Restando esta ecuación de la inicial se tiene
145
(Yt – pYt-1 =  (1 – p) + Xt – pX t-1 + (t – pt-1)

=  (1 – p) +  (Xt – pXt-1) + t
Se puede expresar como
Y*t = * + *X*t + t
Donde * =  (1 – p), Y*t = (Yt – pYt-1) y X*t = (Xt – pXt-1).
Puesto que t satisface todos

los supuestos mínimos
cuadrados, se puede
proceder a aplicar mínimos
cuadrados sobre las
variables transformadas Y* y
X* y obtener estimadores con
todas las propiedades
optimas, es decir, modelo de
estimación lineal insesgado.
En efecto, realizar la
regresión es equivalente a utilizar los mínimos cuadrados generalizados, Pero
obsérvese que la primera expresión (Y1, X1) es excluida. (¿Por qué?).
La regresión, se conoce por el nombre de

ecuación en diferencia generalizada o -
<<cuasi>> -. Esta consiste en regresar Y sobre
X, no en la forma original, sino en forma de
146
diferencia, lo cual se logra restando una proporción (= p) del valor de una variable en
el periodo de tiempo anterior de su valor en el periodo de tiempo actual. En este
procedimiento de diferenciación se pierde una observación, puesto que la primera
observación no tiene precedente. Para evitar esta pérdida de una observación, la
primera observación sobre Y y X es transformada de la siguiente manera: Y1 1– p2 y
X1 1– p2. Esta transformación es conocida como la transformación de Prais - Winsten.
Heteroscedasticidad
y Autocorrección TEMA 4
en
Modelos
de
Regresión 147
Competencia:
Conocer y explicar si la autocorrelación es
positiva o negativa de los residuos.
Tema 04: Heteroscedasticidad y

Autocorrelación en modelos de Regresión
APLICACIÓN EN EXCEL
En este caso se puede identificar si existe autocorrelación

positiva o negativa de los residuos como sigue:
148
Residuos vs tiempo: Autocorrelación positiva
Autocorrelación negativa
Realizando el análisis de datos para las siguientes observaciones
149
La ecuación de regresión es Y = 2627.82 – 37.15*X

Coeficiente de Correlación 94.965%
150
Se obtienen las siguientes gráficas
X Gráfico de los residuales

200
100
Residuos
0
-100 - 5 10 15 20 25 30
-200
-300
X
La línea de regresión estimada
X Curva de regresión ajustada

3,000
2,500
2,000
1,500
Y
1,000
500
-
- 5 10 15 20 25 30
X
Graficando los residuos vs las observaciones
Residuos y Observaciones
150
100
50
0
-50 0 5 10 15 20 25
-100
-150
-200
-250
-300
De acuerdo al gráfico aparentemente existe autocorrelación negativa. Con el

coeficiente Durbin Watson se podrá demostrar si existe autocorrelación.
151
La prueba de DURBIN-WATSON
La prueba revisa si los residuos tienen una dependencia secuencial en la cual cada
uno de los errores (residuos) está correlacionado con los anteriores y los posteriores.
La prueba se enfoca a las diferencias entre residuos sucesivos como sigue, usando el
estadístico de Durbin - Watson:
n n
d   (eu  eu 1 ) /  eu 2 2
u 2 u 2
Donde:
1. 0  d  4
2. Si los residuos sucesivos están
correlacionados positivamente en serie, d será
casi 0.
3. SI los residuos sucesivos están correlacionados
negativamente, d será cercano a 4, de tal forma que
4-d será casi 0.
4. La distribución de d es simétrica alrededor de 2.
La prueba se realiza como sigue: comparar d o 4-d, la que esté más cercano a cero
con dL y dU en la tabla mostrada abajo, si d<dL se concluye que existe una
correlación positiva probable; si d>dU se concluye que no
hay correlación (se aplica el mismo criterio para 4-d).
Si d o 4-d se encuentran entre dL y dU, la prueba
es inconclusa. Si se identifica algún tipo de
correlación, el modelo debe ser reexaminado.
Puntos de significancia de dL y dU para una línea recta de ajuste.
152
1% 2.5% 5%
n dL dU dL dU dL dU
15 0.81 1.07 0.95 1.23 1.08 1.36

20 0.95 1.15 1.08 1.28 1.20 1.41
25 1.05 1.21 1.18 1.34 1.29 1.45
30 1.13 1.26 1.25 1.38 1.35 1.49
40 1.25 1.34 1.35 1.45 1.44 1.54
50 1.32 1.40 1.42 1.50 1.50 1.59
70 1.43 1.49 1.51 1.57 1.58 1.64
100 1.56 1.56 1.59 1.63 1.65 1.69
150 1.61 1.64 1.72 1.75
200 1.66 1.68 1.76 1.78
Prueba de Durbin-Watson.
Las hipótesis son las siguientes:
H0: No hay autocorrelación
H1: Hay autocorrelación
La estadística de trabajo es:

n n
d   (eu  eu 1 ) /  eu
2 2
u 2 u 2
Regla de decisión:
Para los datos anteriores, se tiene los siguientes resultados
153
Observación Pronóstico Y Residuos (eu-eu-1)^2 (eu)^2

1 2,051.9417 106.7583
2 1,745.4246 -67.2746 30,287.4415 4,525.8683
3 2,330.5936 -14.5936 2,775.2817 212.9741
4 1,996.2113 65.0887 6,349.2719 4,236.5372
5 2,423.4776 -215.9776 78,998.2627 46,646.3275
6 1,921.9041 -213.6041 5.6334 45,626.7248
7 1,736.1362 48.5638 68,732.0365 2,358.4450
8 2,534.9384 40.0616 72.2875 1,604.9333
9 2,349.1704 8.7296 981.6971 76.2054
10 2,219.1329 37.5671 831.6053 1,411.2901
11 2,144.8257 20.3743 295.5930 415.1130
12 2,488.4964 -88.9464 11,951.0190 7,911.4608
13 1,698.9826 80.8174 28,819.7504 6,531.4545
14 2,265.5748 71.1752 92.9732 5,065.9024
15 1,810.4434 -45.1434 13,529.9960 2,037.9228
16 1,959.0577 94.4423 19,484.1498 8,919.3439
17 2,404.9008 9.4992 7,215.3288 90.2345
18 2,163.4025 37.0975 761.6684 1,376.2266
19 2,553.5152 100.6848 4,043.3441 10,137.4336
20 1,829.0202 -75.3202 30,977.7518 5,673.1256
SUMA 0.0000 306,205.0920 154,857.5233
Durbin
Watson 1.98 =306,205.0920/154,857.5233
❖ ANALISIS DE AUTOCORRELACION
154
http://www.ciberconta.unizar.es/Leccion/autocorrelacion/analisis%20de%20autoc
orrelacion.PDF
❖ FUNCION DE AUTOCORRELACION
http://www.youtube.com/watch?v=lmMaZ-IyWas
1. Ingresa al link “MCO” lee atentamente las indicaciones, desarróllalo y envíalo por
el mismo medio. Se dispone de la siguiente información acerca de la producción
agraria anual
Año Producción empleados Financia- Maquinaria

Agraria miento Agrícola
1 172,200 1,179 1,636 38,079
2 211,710 1,018 2,142 44,511
3 220,160 909 2,135 52,756
4 222,370 930 3,057 64,143
5 249,610 1,668 4,214 80,191
6 281,670 1,647 5,640 105,390
7 319,760 2,096 69,048 133,490
8 320,110 2,264 62,048 157,980
9 341,030 2,170 73,876 185,180
10 386,330 2,769 84,599 218,230
11 403,540 2,976 99,050 254,800
12 433,630 3,029 124,050 292,210
13 462,300 3,480 144,850 332,450
14 471,830 3,642 158,490 363,680
15 535,650 4,151 176,786 398,770
16 578,840 4,708 196,320 438,290
17 675,400 5,614 235,340 480,110
18 813,020 6,095 281,960 523,490
19
20
917,140
1,016,000
6,660
6,850
319,250
372,840
566,950
606,070
155
Se propone el siguiente modelo para la producción total agraria

yt = 0 + 1 x1t +2 x2t +3 x3t + t
Donde Yt : Producción total agraria (PRODUC)

X1: Volumen de trabajadores agrícolas (EMPLEADOS)
X2: Parque de maquinaria agrícola (MQAGRIC)
X3: Financiamiento público y privado (FINANC)
a) Realice un análisis completo de los resultados obtenidos e indique que

problemas tendría el modelo (heteroscedasticidad y autocorrelación)
b) Si el modelo estimado por MCO proporciona coeficientes, obtener una
predicción puntual e interválica para la producción agrícola total del año
21, si el volumen de empleados fuera de 6860, el parque de maquinaria
agrícola de 701040 y el financiamiento de 381030.
2. Ingresa al link “La Autocorrelación” lee atentamente las indicaciones,

desarróllalo y envíalo por el mismo medio
Se dispone de los siguientes datos de un grupo de consumidores, en un período
determinado.
Y X1 X2
CONSUMO INGRESO GENERO SEXO
18,535 22,550 1 M
11,350 14,035 1 F
12,130 13,040 0 F
15,210 17,500 1 M
8,680 9,430 0 F
16,760 20,635 1 M
13,480 16,470 0 F
9,680 10,720 1 M
17,840 22,350 1 M
11,180 12,200 0 F
14,320 16,810 0 F
19,860 23,000 1 M
Genero = 1 si SEXO
Genero = 0 si SEXO
a) Realice un análisis completo de los resultados obtenidos e indique que
problemas tendría el modelo (heteroscedasticidad y autocorrelación)
b) Aplicar la prueba de Durbin Watson.
Autoevaluaciones
156
1) La versión más simple de la prueba estadística de esta regresión auxiliar es

R2 denominado ________.
a. Coeficiente de correlación.
b. El análisis de regresión.
c. La regresión lineal.
d. Coeficiente de determinación.
e. Varianza.
2) En ________, de auto-correlación se utiliza para estudiar y caracterizar la

distribución espacial de las galaxias en el universo y en múltiples longitudes
de onda de baja masa de observaciones binarias de rayos X.
a. Astrofísica.
b. Astronomía.
c. La relatividad general.
d. La mecánica celeste.
e. Física.
3) En el análisis de regresión con los datos de series de tiempo, autocorrelación

de los residuos ("términos de error", en ________) es un problema.
a. Economía.
b. Econometría.
c. La economía heterodoxa.
d. La historia económica.
e. Autocorrelación.
4) Es una práctica común en algunas disciplinas, distintas de las estadísticas y
________, abandonar la normalización por σ2 y utilizar el término
"autocorrelación" de manera intercambiable con "autocovarianza".
a. Correlograma.
b. Heterocedasticidad.
c. La correlación y dependencia.
d. Series de tiempo.
e. Diagrama de dispersión.
5) La prueba estadística ordinaria de Durbin-Watson no incluye.

a. Es aproximadamente igual a 2 (1-rho), donde rho es la correlación entre los
términos de regresión de la función de error de muestra, y va de 0 a 4, ya que
los rangos de rho son de -1 a 1.
b. Se calcula con mayor rapidez que la prueba estadística exacta de durbin-
watson.
c. A veces, lleva a conclusiones ambiguas sobre la presencia o ausencia de
correlación serial en los errores de regresión.
d. Se deriva bajo el supuesto de que la hipótesis nula - correlación cero error -
es verdad.
e. Cálculo del coeficiente de correlación entre las variables.
6) La ecuación:
Ln (sueldo) = 1,8 + 0,08 educación
157
Implica que si aumenta la educación en una unidad, entonces el sueldo se

incrementará en:
a. $ 0,08.
b. $ 1.80.
c. 8,0 por ciento.
d. $ 8.00.
e. 0,08 por ciento.
7) Supongamos que Q = cantidad demandada, P = precio del bien, y R =
ingresos de los consumidores. ¿En qué caso la especificación 0.6 es igual a
la elasticidad de la demanda?
a. Qi = 208.1 – 0.6 Pi + 0.9 Ri.
b. Qi = 20.5 – 0.6 (Pi/Ri).
c. Ln(Qi) = 0.7 – 0.6 Pi + 0.1 Ri .
d. Qi = 174.3 – 0.6 Ln(Pi) + 3.1 Ln(Ri) .
e. Ln(Qi) = 5.4 - 0.6 Ln(Pi) + 1.1 Ln(Ri) .
8) Si los datos se ven afectados por errores de primer orden correlación serial
(auto-regresivo de primer orden), y que son felizmente inconscientes de este
hecho
a. Las estimaciones puntuales producidas por MCO se inclinan hacia arriba,

haciendo que el efecto de las variables explicativas individuales de y se parece
más grande de lo que realmente son.
b. Los errores estándar producidos por MCO serán incorrectos, ya que se basan
en el supuesto de errores no correlacionados.
c. Los errores estándar siempre será descendente sesgada, ya que los términos
de covarianza en las fórmulas de la varianza se han omitido de los cálculos.
d. Excel le advertirá de que hay un problema con sus datos, para que pueda
tomar las medidas adecuadas para solucionarlo.
e. La varianza será negativa.
9) Es posible arreglar los cálculos de los parámetros MCO de la varianza si

usted sabe los verdaderos valores del parámetro rho. Una vez fijado:
a. Usted tendrá una mejor estimador lineal insesgado.

b. Los errores estándar de los parámetros será más grande que podrían estar
bajo un estimador alternativo, que es otro en la familia de mínimos cuadrados
generalizados (gls).
c. El estimador de mco corregido producirá la estimación de un mismo punto y el
error estándar del estimador gls.
d. No habrá autocorrelación.
e. El estimador no producirá estimación.
10) Se ha estimado por MCO la relación entre el Gasto en comida y la Renta

(Income) para una muestra de 235 individuos (las dos variables están
158
medidas en euros). Los resultados se presentan en la Tabla G1 y el Gráfico

G2 muestra los residuos MCO resultantes en función de la Renta de los
individuos.
Tabla G1
Modelo: MCO, usando las observaciones 1-235
Variable dependiente: Gasto en comida
Coeficiente Desv. típica Estadístico t Valor p
Const 147.475 15.9571 9.2420 <0.00001
Income (Renta) 0.485178 0.0143664 33.7718 <0.00001
Media de la variable depend. 624.1501 D.T. de la var. depend. 276.4570

Suma de cuadrados Residuos D.T. de la regresión 114.1079
3033805
0.829637
R‐cuadrado R‐cuadrado corregido
0.830365
De acuerdo con el Gráfico G2, indique cuál de las siguientes afirmaciones es

CORRECTA:
a. Los residuos son heteroscedásticos.
b. Los residuos son homoscedásticos.
Resumen
c. Los residuos tienen una media muestral igual a -200.
d. Los residuos no presentan dispersión respecto al ingreso o renta.
e. La varianza = 0.
159
UNIDAD DE APRENDIZAJE IV:
Los aspectos fundamentales que se tratan en las consecuencias de autocorrelación

pueden resumir del siguiente modo: en primer lugar, se señala que la hipótesis del
modelo de regresión clásico que establecía la incorrelación entre las perturbaciones
del modelo es una hipótesis que difícilmente se verifica en los modelos econométricos
que trabajan con datos de series de tiempo, siendo lo habitual que exista algún tipo de
dependencia entre las perturbaciones del modelo. Si se viola el supuesto del modelo
clásico de regresión lineal de que los errores o las perturbaciones i consideradas
dentro del modelo de regresión poblacional son aleatorios o no correlacionados, surge
el problema de autocorrelación o de correlación serial.
El contraste de autocorrelación puede surgir por diversas razones, tales como la

inercia o lentitud de las series de tiempo económicas, el sesgo de especificación
resultante de excluir variables importantes del modelo o de utilizar la forma funcional
incorrecta, el fenómeno de la telaraña, el manejo de los datos etc. Para detectar si
existe o no autocorrelación se ha visto que existen distintas alternativas basadas en el
análisis de los residuos MCO de la regresión del modelo. De todos estos contrastes el
más popular es el de Durbin Watson que viene implementado en la mayor parte de los
programas econométricos.
Una vez que se ha detectado la presencia de autocorrelación en el modelo debe

considerarse una solución a la autocorrelación con regresores, ésta afecta a la
estimación, inferencia y predicción del modelo por lo que debe volver a estimarse el
modelo de regresión considerando la estructura de la perturbación. La forma más
simple de incorporar esta información y, la que se utilizará en la práctica informática,
consiste en la estimación mediante el estadístico Durbin Watson y que consiste en la
estimación por MCO incorporando la estructura de la perturbación.
Aunque los estimadores mínimos cuadrados continúan siendo insesgados y

consistentes heteroscedasticidad y autocorrelación en modelos de regresión, estos
dejan de ser eficientes. Como resultado, las pruebas de significancia t y F usuales no
pueden aplicarse legítimamente. Por tanto, se hace necesaria la aplicación de
medidas remediales. El remedio depende de la naturaleza de la interdependencia
Glosario
entre las perturbaciones t. Pero como las t, no son observables, la práctica común
es suponer que estas han sido generadas por algún mecanismo.
160
❖ ACEPTACION, REGION: En bioestadística, es la zona en la cual el espacio

de muestreo tiene todos los valores para los cuales la hipótesis nula no es
rechazada con el valor de significancia o valor-p conferido por el límite
proporcional de significancia o alfa (Sinónimo: región crítica).
❖ AL AZAR O ALEATORIO: Son todos aquellos eventos fortuitos o productos de la
suerte
❖ ALEATORIAMENTE: Actividades o métodos producidos o llevados a cabo
simulando un comportamiento al azar
❖ ANÁLISIS DE REGRESIÓN SIMPLE: Técnica estadística que permite identificar
la variable que afecta directamente al evento estudiado, en un proceso
determinístico en que la linealidad detectada permite predecir el valor de
la variable independiente en un punto de intrapolación o estimar el valor
en un punto de interpolación, siguiendo una relación linear positiva
(proporcional) o negativa (inversamente proporcional).
❖ ANÁLISIS DE REGRESIÓN MULTIPLE: Técnica estadística que permite
identificar variables o la interdependencia de variables que explican los
valores del evento estudiado, cuando éste se ve afectado al mismo tiempo
por más de dos regresores que generalmente son colineares. La relación
linear positiva o negativa se puede presentar entre las variables sin
distinción, aunque no es raro encontrar relaciones cuadráticas.
❖ COEFICIENTE DE DETERMINACIÓN MÚLTIPLE: Porcentaje de la variación de la
variable dependiente que es explicado por la regresión. R2 mide qué tan bien la
regresión múltiple se ajusta a los datos.
❖ COEFICIENTE DE DETERMINACIÓN: Medida de la proporción de variación en Y,
la variable dependiente, que es explicada por la línea de regresión, esto es, por
la relación de y con la variable independiente.
❖ CONFIABILIDAD: Es la capacidad que posee un instrumento de medición o de
recolección de información. Ejemplo: Cuando se aplican test es recomendable
aplicar de nuevo el test (re-test) y comprobar los resultados con el anterior y así
verificar la confiabilidad del instrumento de medición.
❖ COVARIANZA: Media de los productos cruzados de las desviaciones (x,y) de dos
variables.
❖ DESVIACIÓN: Diferencia entre un valor y otro valor medio o típico. (Desviación
Media)
❖ DESVIACIÓN ESTANDAR (TÍPICA): Característica de una muestra o población
que cuantifica su dispersión o variabilidad. Tiene las mismas unidades que la
variable. La desviación típica es invariante con respecto al origen de la
distribución. Su cuadrado es la varianza
❖ DISTRIBUCIÓN NORMAL ESTÁNDAR: Distribución normal de probabilidad con
media cero y una desviación estándar de 1.
❖ ESTADÍSTICO: Descripción resumida de una medida en la muestra seleccionada
❖ ESTIMACIÓN: Valor estadístico para el cálculo del parámetro de la población
muestral.
❖ GRADOS DE LIBERTAD: Número de valores de una muestra que podemos
especificar libremente, después de que ya sabemos algo sobre dicha muestra
❖ HETEROSCEDASTICIDAD: Se presenta cuando los errores o residuos no tienen
una varianza constante a través de un rango completo de valores.
161
❖ INFERENCIA ESTADÍSTICA: Es aplicar resultados de estudios de una muestra a la

poblaciones y emitir juicios o conclusiones sobre esa población en general.
(Estadística)
❖ LÍNEA DE REGRESIÓN: Una línea ajustada a un grupo de puntos para estimar la
relación entre dos variables.
❖ MEDIA ARITMÉTICA: La media de un conjunto de N números, X1, X2, X3, .. XN
❖ MEDIA ARITMÉTICA PONDERADA: A veces asociamos con los números X1, X2,
X3, .. Xk ciertos factores peso (o pesos) W 1, W 2, W 3, .. W K dependientes de la
relevancia asignada a cada número
❖ MEDIDAS DE LA DISPERSIÓN: Normalmente la estadística también se ocupa de
la dispersión de la distribución, es decir, si los datos aparecen sobre todo
alrededor de la media o si están distribuidos por todo el rango. La desviación
típica es otra medida de la dispersión
❖ MULTICOLINEALIDAD: Problema estadístico que se presenta en el análisis de
regresión múltiple, en el que la confiabilidad de los coeficientes de regresión se
ve reducida debido a un alto nivel de correlación entre las variables
independientes
❖ NIVEL DE CONFIANZA: Probabilidad que los estadísticos asocian con una
estimación de intervalo de un parámetro de población. Ésta indica qué tan
seguros están de que la estimación de intervalo incluirá al parámetro de la
población.
❖ PENDIENTE: Constante para cualquier recta dada cuyo valor representa qué
tanto el cambio de unidad de la variable independiente cambia la variable
dependiente
❖ POBLACIÓN DE ENCUESTA: Representa la población de estudio menos la no
respuesta y cobertura deficiente.
❖ POBLACIÓN FINITA: Población que tiene un tamaño establecido o limitado.
❖ POBLACIÓN INFINITA: Población en el que es teóricamente imposible observar
todos los elementos.
❖ PROBABILIDAD: Es el conjunto de posibilidades de que un evento ocurra o no
en un momento y tiempo determinado. Dichos eventos pueden ser medibles a
través de una escala de 0 a 1, donde el evento que no pueda ocurrir tiene una
probabilidad de 0 y uno que ocurra con certeza es de 1.
❖ REGRESIÓN: Proceso general que consiste en predecir una variable a partir de
otra mediante medios estadísticos, utilizando datos anteriores.
❖ SERIE DE TIEMPO: Consiste en datos reunidos, registrados u observados en
incrementos sucesivos de tiempo.
❖ SERIE ESTACIONARIA: Es aquella cuyo valor estacionario no cambia a través del
tiempo.
❖ SERIE TEMPORAL: Información acumulada a intervalos regulares, y métodos
estadísticos utilizados para determinar patrones en dichos datos
Fuentes de Información
❖ VALIDEZ: Importancia predictiva para los propósitos que se persiguen.
162
BIBLIOGRÁFICAS:
GUJARATI, D., 2009, Econometría. Ed. McGraw-Hill, México.

PENA J.B., J. ESTAVILLO, E. GALINDO, M. J. LECETA Y M. M. ZAMORA,
2010, Cien Ejercicios de Econometría. Ed. Pirámide, Madrid.
PÉREZ LÓPEZ, C., 2009, Problemas resueltos de Econometría, Ed. Thomson,
Madrid.
TRÍVEZ, J., 2011, Introducción a la Econometría. Ed. Pirámide, Madrid.
WOOLDRIDGE, J., 2010, Introducción a la Econometría. Ed. Thomson, Madrid.
ELECTRONICAS:
❖ Econometría Básica
http://economiau.freehostia.com/index.php?option=com_content&view=article&id=
90&Itemid=84
❖ Software Gratuito EasyReg International

http://www.icesi.edu.co/~jcalonso/ER/index.php
❖ Regresión en Excel
https://sites.google.com/site/uisekeconometria/classroom-news/regresionenexcel
❖ Autocorrelación
http://www.ciberconta.unizar.es/LECCION/autocorrelacion/
VIDEOS
❖ Regresión Lineal en Excel

http://youtu.be/PndSTMwA-dA
❖ Regresión Lineal Múltiple en Excel

http://youtu.be/Bye0ZBdd6iI
Solucionario
163
UNIDAD DE
UNIDAD DE
APRENDIZAJE 1 APRENDIZAJE 2:
1. D 1. B
2. C 2. A
3. B 3. A
4. A 4. D
5. E 5. B
6. E 6. B
7. E 7. C
8. D 8. B
9. B 9. E
10. A 10. A
UNIDAD DE UNIDAD DE
APRENDIZAJE 3: APRENDIZAJE 4:
1. C 1. D
2. B 2. A
3. C 3. B
4. E 4. D
5. C 5. E
6. C 6. C
7. C 7. E
8. E 8. B
9. A 9. B
10. B 10. A
164

Diagramacion Final

Încărcat de

Informații document

Descriere originală:

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Diagramacion Final

Încărcat de

Drepturi de autor:

Formate disponibile

UNIVERSIDAD PRIVADA TELESUP

Comprende cuatro Unidades de Aprendizaje:

Unidad I: El Modelo de Regresión Simple.

Unidad II: Análisis de Regresión Múltiple.

Unidad III: Heteroscedasticidad.

Unidad IV: Autocorrelación.

Estructura de los Contenidos

El Modelo de Análisis de Auto-

La competencia que el estudiante debe lograr al final de la asignatura es:

“Comprende los métodos econométricos para contrastar una

1. Explica la naturaleza de la econometría y de los datos econométricos

✓ Valora la importancia de la estimación de parámetros de regresión lineal.

e) Presentación de Ideas básicas y contenido esenciales de la Unidad:

La Unidad de Aprendizaje 01: El modelo de regresión simple comprende el

TEMA 01: Características de la econometría.

1.1 CARACTERÍSTICAS DE LA ECONOMETRÍA

Econometría: este vocablo procede del griego y

Por tanto, el continuo avance de esta disciplina hace que no

1.1.1. Definiciones Previas

a. La Economía: Es el estudio de cómo las sociedades satisfacen sus

La teoría económica implica resultados cualitativos por ejemplo:

Por el contrario la econometría implica resultados cuantitativos, por

El problema estadístico es encontrar la mejor proyección para un valor real

1.1.2. ¿Por qué estudiar Econometría?

 No es raro que en la economía (y en

1.1.3. Tipos de datos

A. Tipos de datos - Secciones transversales

B. Tipos de datos - Series de tiempo

C. Tipos de datos: Panel

1.1.4. La cuestión de la causalidad

Tema 02: Método de los Mínimos Cuadrados

Este modelo tiene como ecuación

En la regresión lineal simple de y sobre x, por lo general se refieren a la

1.2.2. Una simple suposición

El valor promedio de ε, el término de error, en la población es 0. Esto es,

1.2.3. Mínimos Cuadrados Ordinarios (MCO)

La idea básica de la regresión consiste en estimar los parámetros

A. Derivar las estimaciones MCO

El método de momentos de aproximación a la estimación implica la imposición de

Dada la definición de una media muestral, y las propiedades de la suma, podemos

 xi  x  yi  y   ˆ1  xi  x 

Así que la pendiente estimada es

1.2.4. Resumen de la estimación de la pendiente

La pendiente estimada es la covarianza muestral entre x e y dividida por la

Ejemplo de línea de regresión, datos de los puntos de la muestra y los términos

1.2.5. Enfoque alternativo a la derivación

Teniendo en cuenta la idea intuitiva de ajustar una línea, podemos crear un

Si se utiliza el cálculo para resolver el problema de minimización de los dos

1.2.6. Propiedades algebraicas de MCO

La suma de los residuos MCO es cero

Tema 03: Bondad de Ajuste. El Coeficiente

El propósito es medir el grado de ajuste entre las variables. Una técnica es el

1.3.1. El Coeficiente de Correlación

  yˆ  y  es la suma de lo explicado al cuadrado (SSE)

 ê es la suma de los residuos al cuadrado (SSR)

Entonces SST  SSE  SSR

La prueba de que SST = SSE + SSR

Entonces SST = SSR +2(0) + SSE = SSR + SSE

¿Cómo podemos pensar en lo bien que nuestra línea de regresión de la muestra

La correlación o coeficiente de determinación r2 mide la proporción de variación en

1.3.2. TIPOS DE CORRELACIÓN

La correlación puede clasificarse en dos tipos dependiendo de la cantidad de

1. Correlación simple: se estudia la dependencia únicamente entre dos

a = (∑X∑Y-∑XY) / (n∑X^2 – (∑X)^2)

b=(n∑XY - ∑Y∑X) / (n*∑X^2 – (∑X)^2)

r = (n∑xy –(∑x) (∑y) )/ √ ((n(∑ x2)-(∑ x)2 )(n(∑y2)- (∑y)2)

r = ((15)(585.48)- (100.65) 77)/ √ ((15* 751.71)-(100.65)2)(15( 460 )- (77.00)2)