Sunteți pe pagina 1din 24

MODELO DE REGRESIN LINEAL

I ntroduccin

En ciencias puras y, sobre todo, en ciencias aplicadas, se denomina modelo al resultado del proceso
de generar una representacin abstracta, conceptual, grfica o visual (ver, por ejemplo: mapa
conceptual), fsica, matemtica, de fenmenos, sistemas o procesos a fin de analizar, describir,
explicar, simular - en general, explorar, controlar y predecir- esos fenmenos o procesos. Se
considera que la creacin de un modelo es una parte esencial de toda actividad cientfica.
A pesar que hay poca teora generalizada acerca del empleo de modelos -la que existe
encontrndose principalmente en la filosofa de la ciencia, teora general de sistemas y el campo,
relativamente nuevo, de visualizacin cientfica - la ciencia moderna ofrece una coleccin creciente
de mtodos, tcnicas y teoras acerca de diversos tipos de modelos. En la prctica, diferentes ramas
o disciplinas cientficas tienen sus propias ideas y normas acerca de tipos especficos de modelos
(ver, por ejemplo: teora de modelos). Sin embargo, y en general, todos siguen los Principios del
modelado
El modelado, o modelizacin, es una tcnica cognitiva que consiste en crear una representacin
ideal de un objeto real mediante un conjunto de simplificaciones y abstracciones, cuya validez se
pretende constatar. La validacin del modelo se lleva a cabo comparando las implicaciones
predichas por el mismo con observaciones.
En otras palabras, se trata crear un modelo ideal que refleje ciertos aspectos de un objeto real, como
al crear una escultura o una pintura.
Un modelo es por tanto una simplificacin de la realidad que recoge aquellos aspectos de
relevancia para las intenciones del modelador. Se modela para comprender mejor o explicar mejor
un proceso o unas observaciones.







MODELO DE REGRESIN LINEAL

Modelos matemticos
Un modelo matemtico es una descripcin, en lenguaje matemtico, de un objeto, que existe en
un universo no matemtico.
Clasificacin de los modelos matemticos.
Existen dos tipos de modelos matemticos: determinsticos y estocsticos. Con un modelo
determinstico se pueden controlar los factores que intervienen en el estudio del proceso o
fenmeno y por tanto se pueden predecir con exactitud sus resultados. En un modelo estocstico
no es posible controlar los factores que intervienen en el estudio del fenmeno y en consecuencia
no produce simples resultados nicos. Cada uno de los resultados posibles se genera con una
funcin de probabilidad que le adjudica una probabilidad a cada uno de stos, por ejemplo un
modelo para predecir el volumen de ventas de combustible en N estaciones de servicio. Para el caso
determinstico se proporciona un valor nico, C, mientras que el modelo estocstico permite la
posibilidad de adjudicar para cada una de las N estaciones de servicio una cierta probabilidad a
cada uno de estos sucesos.

Modelos Estadsticos
Los modelos estadsticos se utilizan en general en el marco de una marcha deductiva. La cuestin
alude a la variabilidad de un fenmeno particular, y se busca comprender los componentes de esta
variabilidad. Si los individuos estadsticos son entidades espaciales, se impone cuestionarse acerca
de una diferenciacin espacial. Si los individuos estadsticos son empresas, cabe plantear la cuestin
sobre las diferenciaciones inter empresas, etc. La marcha consiste en elaborar un cierto nmero de
hiptesis sobre las causas de esta diferenciacin y estas hiptesis son luego verificadas o no segn
el modelo estadstico. El modelo ms clsico es el de regresin mltiple, que se aplica cuando el
conjunto de variables en juego son cuantitativas.
El anlisis estadstico de datos comienza cuando se elige el modelo que represente la relacin
entre las variables involucrados en la investigacin. La formulacin de este modelo depender
principalmente de:
a) Los objetivos de la investigacin,
b) Tipo de variables (cuantitativas o cualitativas), tanto de la respuesta como de las variables
independientes.
MODELO DE REGRESIN LINEAL

c) Tipo de relacin entre las variables (lineal o no lineal),
d) Cumplimiento de los supuestos matemticos que lleva consigo cada uno de los modelos
e) Bagaje de conocimientos que tenga el investigador sobre los diferentes modelos estadsticos.
El algoritmo bsico para ajustar modelos estadsticos, el cual es utilizado con ligeras variantes para
diferentes situaciones es el siguiente:















a) Problema de investigacin

El ajuste de modelos de regresin puede tener varios objetivos:
i) Evaluar el efecto de un conjunto de variables sobre una variable, llamada variable
respuesta.
ii) Predecir el valor futuro de una variable a partir del conocimiento de otras variables
iii) Estudiar el comportamiento (evolucin de una variable) en relacin con el comportamiento
de otras variables.
iv) Clasificar sujetos (u objetos) en poblaciones de acuerdo a su patrn de comportamiento.

Problema de
investigacin
Modelo
vlido?
Obtencin de Datos
Formulacin del modelo
Estimacin de parmetros
No
Si
Datos nuevos
Predice.
Vlidas?
Si
Interpretacin
Fin
No
MODELO DE REGRESIN LINEAL

b) Formulacin del modelo
El anlisis de regresin involucra dos tipos de variables:
i) Una variable dependiente Y denominada variable respuesta o tambin variable
endgenena,
ii) Una o ms variables independientes,

denominadas variables regresoras,


variables explicativas, factores, o variables exgenas.
Tanto la variable dependiente como las independientes pueden haber sido medidas en escalas
nominal, ordinal, de intervalo de razn.
El conjunto de variables independientes se combinan linealmente y dan lugar a una funcin
denominada predictor lineal:
0 1 1
...
k k
X X q | | | = + + +
Esta funcin es lineal en los parmetros.

Modelo de Regresin Lineal
Aunque fueron utilizados inicialmente en astronoma y fsica por Laplace y Gauss, el nombre de
Modelos de regresin proviene de los trabajos de Galton a finales del siglo XIX. Galton, estudi
la dependencia de la estatura de los hijos () respecto a la de sus padres () encontrando lo que
denomin una regresin a la media: Los padres altos tienen, en general, hijos altos, pero en
promedio no tan altos como sus padres; los padres bajos tienen hijos bajos, pero en promedio ms
altos que sus padres. Desde entonces, los modelos estadsticos que explican la dependencia de una
variable Y, con respecto a una o ms variables cuantitativas X se denominan modelos de regresin.
Cuando el conocimiento de una variable determina totalmente el valor de otra, tenemos el caso
extremo de dependencia, entonces diremos que existe una relacin exacta funcional entre estas
variables. En el caso opuesto, el conocimiento de una de ellas no aporta informacin sobre el valor
de la otra, diremos entonces que ambas variables son independientes. Las relaciones que
observamos entre variables biolgicas, sociales, fsicas o econmicas se caracterizan por que el
valor de una ms variables permite predecir en mayor o menor grado (probabilidad) el valor de
una variable de respuesta: diremos entonces que, existe una relacin estadstica estocstica entre

MODELO DE REGRESIN LINEAL

ellas. Los modelos de regresin estudian la construccin de modelos explicativos para este tipo de
relaciones.
En primer lugar es importante destacar que los modelos de regresin lineal han sido desarrollados
para evaluar la relacin lineal entre variables continuas (tanto la respuesta como las variables
independientes).
Supongamos que el conjunto de todos los factores causas (

), que influyen
en la variable respuesta () se relacionan de la manera siguiente:
(

)
Adems supondremos que estos factores causas pueden dividirse en dos trminos:

) (Modelo con error aditivo)


a) El primer trmino,

), contiene variables:

, conocidas al observar
las respuesta, , y que estn relacionados con ella a travs de la funcin g (g puede ser lineal o
no lineal). En el caso particular de la regresin lineal esta funcin es dada por:
1 1 2 0 1 1
( , ,..., ) ...
k k k
h X X X X X | | | = + + +
y es denominada predictor lineal.
b) El segundo trmino,

), incluye un conjunto muy grande de factores (que


pueden ser desconocidos por el investigador, no medibles o puramente aleatorios), cada uno de
ellos influir en la respuesta slo en una pequea magnitud y es denominado perturbacin o
error aleatorio y generalmente es denotado con el smbolo , as:

)
I . Formulacin del modelo

El modelo de regresin lineal est dado por la expresin.



Donde, Y es la variable dependiente denominada tambin variable endgena o respuesta,
1 2
, ,...,
k
X X X son las variables independientes (v. explicativas, v. regresoras, factores, v. exgenas,
etc.),

son constantes desconocidas y constituyen los parmetros del modelo de


MODELO DE REGRESIN LINEAL

regresin, (la linealidad de estos parmetros determina la linealidad del modelo de regresin), c es
el error aleatorio.
El error es una variable aleatoria no observable, por lo que slo podemos establecer algunos
supuestos que debe cumplir para que el modelo de regresin lineal sea vlido.
1. El error tiene esperanza nula (la media de los errores es igual a cero)
()
2. La varianza de los errores es siempre constante (condicin de homocedasticidad).
()


3. Los errores no estn correlacionados
(

) (

)
Adicionalmente se supones que:
1. Los errores, c, se distribuyen de acuerdo a una normal con media cero y varianza o
2
, esto
es:
(

)
Las condiciones antes mencionadas implican que el error no contiene informacin que
ayude a explicar la respuesta.

Las suposiciones establecidas con respecto a los errores del modelo se pueden expresar en trminos
de la variable respuesta.
a) La esperanza de la variable respuesta dado que se conocen los valores de las variables
independientes es:
1 1 2 2 0 1 1 2 2
( / , ,..., ) ...
k k k k
E Y X x X x X x X X X | | | | = = = = + + + +
Recordar que la esperanza de c es igual a cero y que

son constantes desconocidas.


b) La varianza de la variable respuesta dado que se conocen los valores de las variables
independientes es
(

(constante)
c) Las observaciones de la variable respuesta son independientes, esto es la respuesta obtenida en
un sujeto es independiente de la respuesta de otro individuo cualesquiera.
MODELO DE REGRESIN LINEAL
d) Adicionalmente, podemos suponer que la distribucin de la variable respuesta, dado que se
conocen los valores de las variables independientes, es normal con media y varianza dados en
(a) y (b).

)

I I . Estimacin de parmetros

En el contexto del anlisis de regresin se supone que las variables independientes

,
son fijadas y por tanto conocidas antes de observar la respuesta, el error aleatorio es inobservable.
En consecuencia, la variable respuesta, Y, es aleatoria pero observable a partir del conocimiento de
las variables independientes y de mantener controlado el error aleatorio. Pero el modelo tiene un
conjunto de constantes (parmetros) desconocidos

, adems de o
2
que debern ser
estimados.
Nuestro objetivo ahora, es estimar (o ajustar) el modelo de regresin para eso usamos los datos
observados y estimamos los parmetros del modelo.
Existen diferentes mtodos de estimacin de parmetros de regresin tales como:
Mnimos cuadrados ordinarios.- Es el mtodo ms utilizado para la estimacin de parmetros,
su objetivo es encontrar el conjunto de parmetros que haga mnima la distancia euclideana
entre las observaciones y el modelo elegido. Este mtodo no requiere que la distribucin de la
variable respuesta ( el error) sea conocida.

Mxima verosimilitud.- Este mtodo busca maximizar la verosimilitud de que el modelo
elegido haya generado los datos observados. Este mtodo requiere que la distribucin de
probabilidad de la variable respuesta sea conocida.
Mtodos robustos y resistentes.- Estiman los parmetros utilizando mtodos que no requieren
suposiciones muy estrictas para el error (o la variable respuesta). Por ejemplo que no se
verifique la normalidad de los errores y que estos provengan de distribuciones con colas ms
pesadas como laplace, normal contaminada, cauchy, etc.
Mtodos bayesianos.- Utilizan informacin a priori sobre el comportamiento de la variable
respuesta y estiman los parmetros utilizando esta informacin. Son mtodos poco usados y no
todos los programas computacionales lo incorporan dentro de su men de opciones.
En este curso utilizaremos los mtodos de estimacin de mnimos cuadrados y de mxima
verosimilitud.
MODELO DE REGRESIN LINEAL

I I I . Evaluacin del modelo de regresin lineal
Ajustar un modelo a un fenmeno real implica formular un modelo matemtico/estadstico que
represente el fenmeno, por lo tanto este modelo es vlido siempre que se verifiquen los supuestos
bajo los cuales fueron ajustados
La evaluacin del modelo tiene dos partes:
a) Evaluacin de la bondad del ajuste.- La evaluacin de la bondad del ajuste implica evaluar el
modelo global y cada uno de los parmetros estimados. Como los parmetros estn asociados
con variables independientes, al evaluar los primeros estamos evaluando la importancia de las
variables para explicar la respuesta. Se analizarn algunos indicadores y se realizarn pruebas
de hiptesis tales como :
El coeficiente de determinacin (

)
El error estndar de estimacin (
2
o )
El anlisis de varianza
Pruebas t para los parmetros individuales.
b) Evaluacin de la adecuacin del modelo.- Es necesario verificar si se verifica los supuestos
de:
Homocedasticidad, esto es, varianza constante de los errores (()

),
Incorrelacin de errores ((

))
Independencia de las variables regresoras
Distribucin normal de los errores ((

))
La verificacin de estos supuestos se realizar mediante:
- El Anlisis de residuos del ajuste
- El anlisis de influencia.
En caso de que el anlisis indique que alguno de los supuestos no se verifica este problema deber
ser resuelto por que de otro modo, el modelo se invalida y puede tener una pobre performance y en
algunos casos puede llevar a conclusiones erradas.


MODELO DE REGRESIN LINEAL

I V. Evaluacin de la capacidad predictiva del modelo
Si el modelo resulta vlido el siguiente paso ser interpretar los resultados.
En caso que el objetivo de construir el modelo sea utilizarlo para prediccin es importante evaluar
su capacidad predictiva, esto implica utilizar datos nuevos (que no hayan sido utilizados en el ajuste
del modelo) para ver su desempeo en la realidad. En esta etapa se utilizan como indicadores :
- Los residuos PRESS,
- El coeficiente de correlacin PRESS
- El error cuadrtico medio de prediccin , etc.

Anlisis de Regresin Lineal Simple

Sean X e Y dos variables, entre las que se supone que existe una relacin de dependencia
unidireccional de X hacia Y. De esta forma los valores de Y vienen determinados, en mayor o
menor medida, por los valores de X:

( ) Y f X error = +

: X Variable independiente, regresora o exgena.
: Y Variable dependiente, respuesta o endgena.
: f R R : Funcin de regresin.

Si
0 1
( ) f X X | | = + con
0
| y
1
| constantes, estamos ante una regresin lineal simple. Si f adopta
una forma diferente, estamos ante un problema de regresin no lineal simple.

Finalmente el modelo de regresin lineal simple est dado por:


0 1
Y X e | | = + +

A los trminos
0
| y
1
| se les conoce con el nombre de parmetros y son trminos que sern
estimados utilizando el mtodo de mnimos cuadrados.
MODELO DE REGRESIN LINEAL

Ejemplo 1
Cierta empresa est pensando en expandirse a una determinada regin. La directora de planeacin
tiene que presentar un anlisis de la expansin propuesta. Como parte del anlisis debe presentar
informacin sobre la cantidad mensual que gastan en electricidad las personas en esta regin. A la
directora le gustara tambin presentar informacin sobre la relacin entre la cantidad mensual
gastada en electricidad y el ingreso. Los datos se encuentran en el archivo Hogar.xls

Bondad de Ajuste

El coeficiente de correlacin mltiple ( ) R y el coeficiente de determinacin
2
( ) R son indicadores
de la bondad del ajuste del modelo. El
2
R nos expresa la proporcin de varianza de la variable
dependiente que est explicada por la variable independiente, valores cercanos a la unidad implican
que la mayor parte de la variabilidad de Y est explicada por el modelo de regresin.
El estadstico
2
( ) R se debe utilizar con precaucin, porque siempre es posible conseguir que
2
R
sea grande agregando trminos suficientes al modelo. Una alternativa es el
2
Adj
R , coeficiente que no
est afectado por el incremento de variables independientes.

R
2
= 0.8925,
El 89,25% de la variabilidad de la cantidad mensual que se gasta en electricidad se encuentra
explicada por el modelo de regresin.

El error tpico de la estimacin (Root MSE) es la desviacin tpica de los residuos, es decir, la
desviacin tpica de las distancias existentes entre las puntuaciones en la variable dependiente ( )
i
Y
y los pronsticos efectuados con la recta de regresin (

), Representa una medida de la parte de


variabilidad de la variable dependiente que no es explicada por la recta de regresin. En general,
cuanto mejor es el ajuste, ms pequeo es este error tpico.

El error tpico de la estimacin es: 8,23




MODELO DE REGRESIN LINEAL

La tabla de ANOVA nos brinda informacin acerca de si existe o no relacin significativa entre las
variables. El estadstico F permite contrastar la hiptesis nula de que el valor poblacional de R es
cero, lo cual, en el modelo de regresin simple, equivale a contrastar la hiptesis de que la
pendiente de la recta de regresin vale cero. El rechazo de la hiptesis nula implica que existe
relacin lineal entre la variable independiente y la variable dependiente.

F= 315,6259 p=0,000 < 0.05
Se rechaza la hiptesis nula y se concluye que existe una relacin lineal entre las variables.

Ecuacin de regresin.

_ 7, 436652 0.01338* Gasto electricidad ingreso = +
Prueba de Hiptesis de
1
|

0
: H No existe relacin lineal entre el gasto mensual en electricidad y el ingreso mensual
1
: H Existe relacin lineal entre el gasto mensual en electricidad y el ingreso mensual
Como p < 0.05, entonces rechazamos
0
H , y concluimos que existe una posible relacin lineal entre
el gasto mensual en electricidad y el ingreso mensual, con un 95% de confianza.

Interpretacin de
1
|
Por cada unidad en que aumenta el ingreso mensual, el gasto en electricidad aumenta en 0.013338
dlares, con un 95% de confianza.


Ejemplo 2
En el archivo Ejemplo2.xls se muestran los datos registrados de las ventas en millones de euros y de
los gastos incurridos en publicidad, tambin en millones de euros por una empresa industrial que
fabrica sillas para oficina. Realice un anlisis de regresin lineal para estos datos.




MODELO DE REGRESIN LINEAL
Ejemplo 3
En un tipo de espcimen metlico de prueba, la resistencia normal est funcionalmente relacionada
con la resistencia de corte. El siguiente es un conjunto de datos experimentales codificados para las
dos variables:

Resistencia Resistencia
Normal de corte
26,8 26,5
25,4 27,3
28,9 24,2
23,6 27,1
27,7 23,6
23,9 25,9
24,7 26,3
28,1 22,5
26,9 21,7
27,4 21,4
22,6 25,8
25,6 24,9

Ejemplo 4:
Se llev a cabo un estudio acerca de la cantidad de azcar refinada mediante cierto proceso a varias
temperaturas diferentes. Los datos se codificaron y se registraron como sigue:

Temperatura Azcar
(x) Transformada
1,0 8,1
1,1 7,8
1,2 8,5
1,3 9,8
1,4 9,5
1,5 8,9
1,6 8,6
1,7 10,2
1,8 9,3
1,9 9,2
2,0 10,5


MODELO DE REGRESIN LINEAL
Modelo de Regresin Lineal Mltiple

El procedimiento de Regresin Lineal permite utilizar ms de una variable independiente, y, por
tanto, permite llevar a cabo anlisis de regresin mltiple. En este anlisis, la ecuacin de regresin
ya no define una recta en el plano, sino un hiperplano en un espacio multidimensional.

El Modelo de Regresin Lineal Mltiple est dado por:

0 1 1 2 2
...
k K
Y X X X | | | | c = + + + + +

De acuerdo con este modelo o ecuacin, la variable dependiente (Y) se interpreta como una
combinacin lineal de un conjunto de K variables independientes ( )
k
X , cada una de las cuales va
acompaada de un coeficiente ( )
k
| que indica el peso relativo de esa variable en la ecuacin. La
ecuacin incluye adems una constante
0
( ) | y un componente aleatorio (los residuos: c ) que
recoge todo lo que las variables independientes no son capaces de explicar.


La ecuacin de regresin mnimo cuadrtica se construye estimando los valores de los coeficientes
beta del modelo de regresin. Estas estimaciones se obtienen intentando hacer que las diferencias al
cuadrado entre los valores observados (Y) y los pronosticados (

) sean mnimas.



Ejemplo:
Una empresa vende casas en la costa este de Estados Unidos. Una de las preguntas que los posibles
compradores hacen con ms frecuencia es: si adquirimos esta casa, cunto tendremos que pagar
por la calefaccin en invierno? Se le pidi al departamento de investigacin de la compaa que
elabore algunos lineamientos relacionados con los costos de calefaccin para casas unifamiliares.
Se consider que el costo incluye tres variables: la temperatura media en el exterior, el espesor en
pulgadas del material de aislamiento trmico que se coloca en el desvn, y la antigedad del
calefactor. Para realizar esta investigacin, el departamento en cuestin seleccion una muestra de
20 casas vendidas recientemente. Determin el costo de la calefaccin de cada casa en el mes de
enero, la temperatura exterior en la regin, el espesor en pulgadas de material aislante instalado en
el desvn, y la antigedad del calefactor. La informacin se presenta en el archivo Calefaccin.xls
MODELO DE REGRESIN LINEAL
Bondad de Ajuste

R
2
= 0.8041, R
2
Adj
=0.7674
El 76,74% de la variabilidad del costo de la calefaccin se encuentra explicada por el modelo de
regresin.

El error tpico de la estimacin es: 51,0485

La tabla de ANOVA

F= 21,90 p=0,000 < 0.05
Se rechaza la hiptesis nula y se concluye que al menos una de las variables independientes tiene
una relacin lineal con la variable dependiente.


Ecuacin de regresin.

Prueba de Hiptesis de
1
|

0
: H No existe relacin lineal entre el costo de la calefaccin y la temperatura promedio exterior
1
: H Existe relacin lineal entre el costo de la calefaccin y la temperatura promedio exterior

Como p<0.05, entonces rechazamos
0
H , y concluimos que existe una posible relacin lineal entre
el costo de la calefaccin y la temperatura promedio exterior, con un 95% de confianza.

Prueba de Hiptesis de
2
|

0
: H No existe relacin lineal entre el costo de la calefaccin y el aislante trmico en el desvn
1
: H Existe relacin lineal entre el costo de la calefaccin y el aislante trmico en el desvn

Como p<0.05, entonces rechazamos
0
H , y concluimos que existe una posible relacin lineal entre
el costo de la calefaccin y el aislante trmico en el desvn, con un 95% de confianza.
MODELO DE REGRESIN LINEAL

Prueba de Hiptesis de
3
|

0
: H No existe relacin lineal entre el costo de la calefaccin y la antigedad del calefactor
1
: H Existe relacin lineal entre el costo de la calefaccin y la antigedad del calefactor

Como p>0.05, entonces no rechazamos
0
H , y concluimos que no existe una posible relacin lineal
entre el costo de la calefaccin y la antigedad del calefactor, con un 95% de confianza.

Como la variable antigedad del calefactor no aporta al modelo de regresin, entonces se tendr
que retirar del anlisis. Una vez retirada, la ecuacin de regresin ser:



Interpretacin de
1
|
Por cada F en que aumentan la temperatura, el costo de la calefaccin disminuye en 5,1498
dlares, con un 95% de confianza; manteniendo constante las dems variables.


Interpretacin de
2
|
Por cada pulgada en que aumentan el aislante trmico, el costo de la calefaccin disminuye en
14,7181 dlares, con un 95% de confianza; manteniendo constante las dems variables.









Ejemplo 3:
MODELO DE REGRESIN LINEAL
Una muestra aleatoria de 25 enfermeras, seleccionadas de un directorio de enfermeras generales,
produjo la siguiente informacin respecto a la calificacin del examen de colocacin de cada una de
ellas realizado por la direccin estatal de personal (en Estados Unidos) y la calificacin final de
graduacin escolar. Ambas calificaciones se relacionan con el rea de afiliacin de las enfermeras.
Adems, se tuvo informacin de las calificaciones obtenidas por cada enfermera en una prueba de
aptitud, realizada al ingresar a la escuela de enfermera. Los datos completos son los siguientes:


Calificacin de Calificacin Calificacin de la
aprobacin por el estado final prueba de aptitud
(Y ) ( X1) (X2)
440 87 92
480 87 79
535 87 99
460 88 91
525 88 84
480 89 71
510 89 78
530 89 78
545 89 71
600 89 76
495 90 89
545 90 90
575 90 73
525 91 71
575 91 81
600 91 84
490 92 70
510 92 85
575 92 71
540 93 76
595 93 90
525 94 94
545 94 94
600 94 93
625 94 73






Coeficientes de Regresin estandarizados

MODELO DE REGRESIN LINEAL
Los coeficientes Beta estn basados en las puntuaciones tpicas, y por tanto, son directamente
comparables entre s. Indican la cantidad de cambio, en puntuaciones tpicas, que se producir en la
variable dependiente por cada cambio de una unidad en la correspondiente variable independiente
(manteniendo constante el restote variables independientes).
Estos coeficientes proporcionan una pista muy til sobre la importancia relativa de cada variable
independiente en la ecuacin de regresin. En general, una variable tiene tanto ms peso
(importancia) en la ecuacin de regresin cuanto mayor (en valor absoluto) es su coeficiente de
regresin estandarizado.

En nuestro caso, la variable edad es la ms importante.

Anlisis de los Residuos

El anlisis de los residuos es bsico para chequear si se verificar las hiptesis del modelo de
regresin. Estos residuos resultan de ser de suma importancia. Nos informan sobre el grado de
exactitud de los pronsticos: cuanto ms pequeo es el error tpico de los residuos, mejores son los
pronsticos, o lo que es lo mismo, mejor se ajusta la recta de regresin a la nube de puntos.
Para comprobar si se verifican las hiptesis estructurales en el ajuste de un modelo lineal, el anlisis
de residuos juega un papel fundamental.

Tipos de residuos

Residuos Ordinarios:
Se denomina as a las diferencias entre los valores observados y los pronosticados.

, i=1,2,,n

Recordemos que el i-simo residuo

es una variable aleatoria que tiene las siguientes propiedades:


(

) , (

,
Bajo las hiptesis de normalidad se obtiene:

)


Residuos Estandarizados
MODELO DE REGRESIN LINEAL
De la ecuacin anterior, se deduce que

no es constante, lo que hace difcil identificar las


observaciones con residuos grandes. Por ello es usual tipificarlos y se definen los residuos
estandarizados como:

,
Los residuos estandarizados tienen media cero y varianza prxima a 1, esto permite distinguir a los
residuos grandes.

Residuos Estudentizados
Si se utiliza el

como la varianza del i-simo residual

, slo se tendr una aproximacin.


Se puede mejorar el clculo del residual dividiendo

entre la desviacin estndar exacta del i-


simo residual. Se definen los residuos estudentizados como:

)

Siendo

el j-simo elemento de la matriz sombrero ( ()

).
Si n es grande, los residuos estandarizados y estudentizados toman valores prximos.
Bajo la hiptesis de normalidad se verifica que

sigue una distribucin t con n-3 grados de


libertad.

Residuos PRESS
Los residuales estandarizados y estudentizados son efectivos para detectar valores atpicos.
Si se elimina la i-sima observacin, entonces

no puede estar influido por esta observacin, as


que el residual obtenido probablemente indique la presencia del valor atpico.
Si se elimina l-sima observacin, se ajusta el modelo de regresin con las n-1 observaciones
restantes y se calcula el valor predicho

correspondiente a la observacin omitida.



Evaluacin de la adecuacin del modelo.-
Homocedasticidad, esto es, varianza constante de los errores (()

),
La homocedasticidad se verificar a travs de una serie de grficos de los residuos.
- De forma general, en el grfico de residuos (

) frente a las predicciones (

)
- El grfico de residuos (

) frente a una variable explicativa (

), si se
sospecha que la heterocedasticidad es debida a la variable explicativa


MODELO DE REGRESIN LINEAL
Para resolver este problema las alternativas que hay son las siguientes:
- Transformar los datos. En muchos casos es suficiente con tomar logaritmos en la
variable respuesta. Por otra parte, el problema puede estar ligado a otros problemas
como falta de normalidad, falta de linealidad que, normalmente, tambin se
resuelven al hacer la transformacin.
Algunos grficos:

a). Regresin normal:

Los residuos aparecen aleatorios lo que es una buena indicacin de que el modelo de
regresin tiene un buen ajuste.



b). Relacin no lineal:
MODELO DE REGRESIN LINEAL

Se observa un relacin entre y los residuos.



c). Se observa un dato atpico

MODELO DE REGRESIN LINEAL

Cuando hay un dato atpico, se observa un residuo muy alto.


d). Se observa que la recta se encuentra ms cercana a los datos cuando x es ms pequeo.


MODELO DE REGRESIN LINEAL
Los residuos son ms pequeos cuando es pequeo


e). Se observa el efecto de un dato influyente


Se ve el efecto del dato influyente



MODELO DE REGRESIN LINEAL

Colinealidad
Existe colinealidad perfecta cuando una de las variables independientes se relaciona de
forma perfectamente lineal con una o ms del resto de variables independientes. Hablamos
de colinealidad parcial o simplemente colinealidad cuando entre las variables
independientes de una ecuacin existen correlaciones altas.
La colinealidad es un problema, porque en el caso de colinealidad perfecta, no es posible
estimar los coeficientes de regresin y en el caso de colinealidad parcial, aumenta el tamao
de los residuos tipificados y esto produce coeficientes de regresin muy inestables.
Al evaluar la existencia o no de colinealidad, la dificultad estriba en determinar cul es el
grado mximo de relacin permisible entre las variables independientes. No existe un
consenso generalizado acerca de esto, pero puede servirnos de gua la presencia de ciertos
indicios que podemos encontrar en los resultados de un anlisis de regresin:
- El estadstico F que evala el ajuste general de la ecuacin de regresin es
significativo, pero no lo es ninguno de los coeficientes de regresin parcial.
- Los coeficientes de regresin parcial estandarizados (los coeficientes beta) estn
inflados tanto en positivo como en negativo.
- Existen valores de tolerancia pequeos (prximos a 0,01). La tolerancia de una
variable independiente es la proporcin de varianza de esa variable que no est
asociada (no depende) del resto de variables independientes incluidas en la
ecuacin. Una variable con una tolerancia de por ejemplo 0,01 es una variable que
comparte el 99% de su varianza con el resto de variables independientes, lo cual
significa que se trata de una variable redundante casi por completo.
- Los coeficientes de correlacin estimados son muy grandes (por encima de 0,90
en valor absoluto)

Si se detecta la presencia de colinealidad en un conjunto de datos, se puede remediar si:
a) Aumentamos el tamao de la muestra (esta solucin puede resultar til si existen
pocos casos en relacin al nmero de variables)
b) Crear indicadores mltiples combinando variables (promediar variables, aplicando
componentes principales para reducir el nmero de variables y aplicando el anlisis
de regresin sobre estos componentes)
c) Excluir variables redundantes, es decir, excluir variables que correlacionan muy alto
con otras.
MODELO DE REGRESIN LINEAL
d) Utilizar una tcnica de estimacin sesgada tal como la regresin ridge.

Independencia
El estadstico Durbin Watsn proporciona informacin sobre el grado de independencia
existente entre los residuos. Se calcula mediante:

(



El estadstico DW oscila entre 0 y 4 y toma el valor 2 cuando los residuos son
independientes. Valores menores que 2 indican autocorrelacin positiva y los mayores que
2 autocorrelacin negativa. Podemos asumir independencia entre los residuos cuando DW
toma valores entre 1,5 y 2,5.

Distribucin normal de los errores ((

))

S-ar putea să vă placă și