Sunteți pe pagina 1din 18

El modelo de regresin lineal simple / 1

ESTADSTICA E INTR. A LA ECONOMETRA Captulo 16

EL MODELO DE REGRESIN LINEAL SIMPLE

Prof. Mara Dolores Gonzlez Galn

El modelo de regresin lineal simple / 2

NDICE

1. El modelo de regresin lineal simple 2. El estimador de mnimos cuadrados ordinarios. Propiedades 3. Medidas de bondad de ajuste 4. Supuesto de Normalidad. El estimador mximo verosmil 5. Intervalos de confianza y contrastes de hiptesis 6. Validacin del modelo 7. Bibliografa

El modelo de regresin lineal simple / 3

1. El modelo de regresin lineal simple


En este captulo estudiaremos como construir un modelo para representar la relacin o dependencia de una variable respecto a otras. Centrndonos en el estudio de la posible relacin entre una variable que consideramos como respuesta a algn fenmeno o variable dependiente Y, y un conjunto de k variables explicativas o independientes X1,X2,...,Xn, podemos encontrarnos con las siguientes situaciones: 1. Variables que estn relacionadas de forma exacta o funcional, de modo que el conocimiento de una variable determina totalmente el valor de la otra: Y = g ( X 1 , X 2 ,K, X k ) 2.

3.

En el otro extremo se situaran las variables independientes, cuando el conocimiento de una variable no aporta informacin sobre el valor de la otra. Como caso intermedio, relaciones estadsticas o estocsticas, cuando el conocimiento de una variable permite predecir en mayor o menor grado el valor de la otra, lo cual podemos expresar de la forma: Y = g ( X 1 , X 2 ,K, X k ) + , donde g representa la funcin

de regresin y es una perturbacin que recoge el error de observacin. El anlisis de la regresin aborda este ltimo tipo de relaciones, donde la variable dependiente Y presenta una variabilidad intrnseca o aleatoriedad que no puede explicarse por completo, independientemente del nmero de variables explicativas que utilicemos. Si consideramos la inclusin de una variable explicativa, el estudio se conoce como anlisis de regresin simple; mientras que si estamos estudiando la dependencia de una variable en ms de una variable explicativa, recibe el nombre de anlisis de regresin mltiple. En este captulo nos centraremos en el estudio de los modelos de regresin simple.

El modelo de regresin lineal simple / 4

Para comprender mejor el funcionamiento de estos modelos supongamos que disponemos, para una poblacin hipottica, por ejemplo, un centro escolar, de la distribucin de las estaturas de los nios, medida a determinadas edades. Como es natural, no todos los nios de la misma edad tienen la misma estatura; pero, en promedio, sta aumenta con la edad (desde luego hasta una determinada edad). Si queremos hacer una prediccin de la estatura de un nio seleccionado al azar de dicha poblacin y no disponemos de su edad, una posible estimacin sera la estatura media de los nios del centro. Sin embargo, si conocemos su edad, nuestra estimacin mejorara notablemente tomando como estimacin la estatura media de todos los nios de esa edad, es decir, la media de la condicionada. En definitiva, el objetivo del anlisis de la regresin consiste en estimar o predecir el valor medio poblacional de la variable dependiente, con base en los valores fijos o conocidos de la variable explicativa, lo cual podemos expresar a travs de la ecuacin: E (Y / X = xi ) = g ( xi ) (1) Dicha ecuacin se conoce como funcin de regresin poblacional (FRP), donde E(Y/X=xi) representa el valor esperado de la variable aleatoria Y cuando la variable explicativa X toma el valor especfico xi, y g(xi) es una funcin de la variable explicativa X. La FRP muestra cmo el valor medio de Y vara con las X. Ahora bien, qu forma toma la funcin g? En principio, existen multitud de formas funcionales disponibles para describir dicha relacin. Parece sensato comenzar asumiendo una estructura lo ms sencilla posible, de ah que sea razonable asumir un modelo lineal, al menos en el rango de inters. De este modo, como una primera aproximacin, podramos considerar que la esperanza condicional de Y es una funcin lineal1 de xi, y, por tanto, la FRP adopta la forma: E (Y / X = x i ) = 0 + 1 xi (2)
No obstante, conviene precisar algo ms este supuesto de linealidad que hemos considerado. De hecho, no resulta ser tan restrictivo como en principio podra parecer, ya que como veremos en el apartado 7, muchas situaciones en las que la relacin originalmente no es lineal, puede transformarse fcilmente en lineal. Lo que se requiere es que la esperanza condicional sea lineal en los parmetros, sea o no en las variables. El caso concreto presentado en la ecuacin (2) es lineal en los parmetros y en el regresor.
1

El modelo de regresin lineal simple / 5

donde las constantes 0 y 1 son parmetros desconocidos que reciben el nombre de coeficientes de regresin. La ordenada en el origen, 0, representa el valor esperado de la variable dependiente cuando la variable independiente toma el valor cero2; y la pendiente de la recta, 1, representa el incremento esperado de Y para un incremento unitario de X. No obstante, tal como habamos sugerido, la relacin entre ambas variables no es funcional o exacta, de forma el valor observado yi se desviar, casi inevitablemente, de su valor esperado E (Y / X = xi ) . Si representamos dicha desviacin por la variable aleatoria i, podremos expresar la FRP de la forma estocstica: y i = E (Y / X = x i ) + i = 0 + 1 x i + i (3) A la variable aleatoria i, la denominamos perturbacin aleatoria o trmino de error, y engloba multitud de factores, distintos de X, que pueden influir a la hora de explicar el comportamiento de la variable Y. No obstante, estos factores deben ser poco importantes, de forma que no debe existir ninguna variable explicativa relevante omitida en el modelo de regresin. De ser as estaramos incurriendo en lo que se conoce como un error de especificacin del modelo. El trmino de perturbacin tambin recoge los posibles errores de medida de la variable dependiente Y. Sin embargo, la FRP es una construccin terica, ya que en las aplicaciones prcticas lo que se tiene es una muestra de la poblacin. Ser necesario obtener una estimacin de la FRP a partir de los datos disponibles. La funcin de regresin estimada la denominamos funcin de regresin muestral (FRM), que puede escribirse como: ) y i = $0 + $1 x i (4)

No obstante, aunque desde un punto de vista terico dicha interpretacin correcta, debemos tener especial precaucin a la hora de analizarla. Esto debido a que el supuesto de linealidad no podemos extenderlo fuera del rango los valores observados, y por tanto, si no disponemos de observaciones fuera ese rango, tal supuesto no seria respaldado por los datos
2

es es de de

El modelo de regresin lineal simple / 6

) ) siendo 0 y 1 las estimaciones de los correspondientes coeficientes ) de regresin de la FRP, y yi es el valor estimado de la esperanza
condicional con base en el modelo de regresin. La diferencia entre ) el valor observado yi y el correspondiente valor estimado yi se

denomina residuo ei, y puede considerarse una estimacin de i. De esta forma podemos expresar la FRM en su forma estocstica: y i = $0 + $1 x i + ei (5) Nuestro objetivo consiste en estimar la funcin de regresin poblacional con base en la funcin de regresin muestral, para lo cual debemos encontrar un procedimiento que nos permita hallar la recta que mejor se ajuste a la nube de puntos definida por los pares de valores muestrales (xi,yi). Existen varios procedimientos para conseguir dicho objetivo; no obstante, el ms utilizado en el anlisis de regresin es el mtodo de los mnimos cuadrados; ya que, bajo ciertas hiptesis que analizaremos posteriormente, genera estimadores con propiedades estadsticas deseables.

2. Estimadores de mnimos-cuadrados ordinarios


Mtodo de mnimos cuadrados El mtodo de los mnimos cuadrados selecciona como estimacin de la recta de regresin poblacional, aquella para la cual la suma de los cuadrados de los residuos es menor; es decir, tenemos que hallar ) ) los valores de 0 y 1 que hagan mnima esta suma para una muestra dada. Para ello habr que minimizar la siguiente expresin:

e = ( y $
2 i i

$1 xi )

(6)

Calculando las derivadas parciales respecto a 0 y 1 , e igualando a cero se obtiene el siguiente sistema de ecuaciones:

ei = 0 ei x i = 0

(7)

sistema de ecuaciones normales

de donde se obtienen las siguientes igualdades, que se conocen como

El modelo de regresin lineal simple / 7

xi yi = )n)0 + )1 ) y x = x + i i 0 i 1 xi2

(8)

La solucin a este sistema viene dada por la siguiente expresin que determina los estimadores de los coeficientes de regresin:
$0 = y $1 x

$1 =

( yi y )( xi x ) = ( xi x ) 2

(9)
S xy
2 Sx

Los estimadores obtenidos mediante este mtodo se conocen como estimadores de mnimos cuadrados . Supuestos estndar para el modelo de regresin lineal Para llevar a cabo una interpretacin vlida de las estimaciones de la regresin es necesario hacer los siguientes supuestos3:

- La variable X debe ser fija, no estocstica. Esto equivale a suponer que la variable independiente es controlada por el investigador, que puede variar su valor de acuerdo con los objetivos del experimento. No obstante, este supuesto que puede ser adecuado en una situacin experimental, difcilmente se mantiene en estudios econmicos y empresariales donde el analista rara vez analiza datos experimentales. Puede relajarse de manera que, si el regresor es estocstico, el supuesto requiere que est incorrelacionado de forma contempornea con la perturbacin aleatoria. Esto se resume al suponer que Cov ( i , x i ) = 0 No obstante, con fines pedaggicos, es conveniente considerarla como fija, dado que simplifica algunas demostraciones.

Supuestos referidos a la variable explicativa

- El error esperado es cero E ( i ) = 0 . Esto implica que el error no presente un sesgo sistemtico en ninguna direccin determinada. - Homocedasticidad: Var ( i ) = 2 El trmino de error tiene una varianza constante para todas las observaciones. Es decir, no
3

Supuestos referidos a la perturbacin aleatoria

modelo de Gauss

Estos supuestos corresponden al denominado modelo de regresin lineal clsico o

El modelo de regresin lineal simple / 8

esperamos que las magnitudes de los trminos de error sean mayores para unas observaciones que para otras. - Los errores no se hallan correlacionados. Cov ( i , j ) = 0, i j Este supuesto es esperable en situaciones estticas (cuando las observaciones corresponden al mismo perodo temporal), pero no en situaciones dinmicas, donde medimos la variable respuesta a lo largo del tiempo.

- El modelo se halla correctamente especificado: la relacin entre Y y X es lineal y est dada por la ecuacin (3). Por tanto, consideramos que no existen errores de especificacin, tales como omitir variables relevantes de la regresin lineal, agregar variables irrelevantes a la ecuacin, o la eleccin incorrecta de la forma funcional. Estos supuestos implican a su vez los siguientes, referidos a la variable dependiente Y: La variable aleatoria Y tiene un valor esperado 0+1 xi E (Y / x i ) = 0 + 1 x i

Supuestos referidos al modelo:

La variable aleatoria Y tiene un varianza constante


Var (Y / x i ) =
2

Las variables aleatorias yi no estn incorrelacionadas


Cov ( y i , y j ) = 0, i j

Propiedades de los estimadores de mnimos cuadrados Los estimadores de mnimos cuadrados son estimadores puntuales de los coeficientes de regresin. Nos interesa conocer las principales caractersticas de dichas variables: su esperanza y, en especial, su varianza, para medir la precisin de dichos estimadores:
E ($1 ) = 1 2 Var ($1 ) = ( xi x ) 2

E ($0 ) = 0 1 x2 Var ($0 ) = 2 + n 2 ( xi x )

(10)

En consecuencia, podemos deducir las siguientes propiedades para los estimadores de mnimos cuadrados en el modelo clsico:

El modelo de regresin lineal simple / 9

observaciones de la variable endgena. Insesgados: La esperanza del estimador coincide con el parmetro poblacional. ptimos: dentro de los estimadores lineales e insesgados son los de mnima varianza (Teorema de Gauss-Markov). Demostrar este teorema supone encontrar un estimador lineal insesgado, distinto del de mnimos cuadrados, y se demuestra que su varianza es mayor que la de los de MC. Estimador de la varianza de las perturbaciones Adems de los coeficientes 0 y 1 ; en el modelo de regresin existe un tercer parmetro que se debe estimar. Nos referimos a la varianza comn de la perturbacin aleatoria: 2 . Podemos utilizar como estimador la varianza residual, 2 , definida como la suma de residuos al cuadrado dividida por el nmero de grados de libertad4. Tambin se conoce como el Cuadrado Medio del Error.
) 2= )

Lineales: Los obtenemos como una combinacin lineal de las

ei2 = ( yi $0 $1 xi )
n 2 n 2

(11)
)

Bajo las hiptesis del modelo clsico, 2 es un estimador ) insesgado de 2 : E ( 2 ) = 2 A su raz cuadrada se le llama error estndar de estimacin, y es una medida de la bondad de ajuste.
) =

ei2
n 2

(12)

Proporciona una medida cuantificable de qu tan bien se ajusta el modelo a los datos. El error estndar de estimacin, es el mismo concepto que la desviacin estndar, aunque sta mide la dispersin alrededor de la media y el error estndar mide la dispersin alrededor de la lnea de regresin. Refleja la tendencia a desviarse del valor real de Y cuando se utiliza el modelo de regresin para fines predictivos.
4

Se pierden 2 grados al estimar los parmetros desconocidos

) ) 0 y 1.

El modelo de regresin lineal simple / 10

3. Medidas de bondad de ajuste


Coeficiente de determinacin El coeficiente de determinacin es otra medida, quizs ms importante, de bondad de ajuste, y, como tal, nos dice en qu medida la lnea de regresin muestral se ajusta a los datos. A diferencia del error estndar de la estimacin, que viene medido en las mismas unidades de la variable dependiente, el coeficiente de determinacin es una medida libre de unidades cuyo clculo se basa en la idea de que un buen modelo de regresin debera explicar una proporcin grande de la varianza de Y. Es decir, la variable Y presenta cierta variabilidad en la muestra, y tratatamos de determinar qu proporcin de dicha variabilidad puede explicarse por su relacin lineal con X Para su clculo partimos de la siguiente igualdad:
) y i y = ( y i y ) + ei

(13)

que indica que la desviacin observada respecto a la media muestral yi y es igual a la desviacin predicha respecto de la media
) ) muestral ( y i y ) ms un residuo ei = y i y i .

Si elevamos al cuadrado los trminos de ambos lados y sumamos para todas las observaciones i=1, 2, ..., n:

( yi y )

) (y i y) + ei
2

+2

) (y i y )ei

(14)

Puede demostrarse que el ltimo trmino de la ecuacin anterior es cero. La ecuacin se reduce a:

( yi y )

) (y i y) + ei
2

(15)

SCT=SCR+SCE
donde cada uno de estos sumandos representa: Suma de Cuadrados Totales: Mide la variabilidad total en la muestra 2 de la variable dependiente en torno a su media SCT = ( yi y )

El modelo de regresin lineal simple / 11

Suma de Cuadrados de la Regresin: representa la parte de


variabilidad explicada por la regresin SCR =
) (y i y)
2
2

) = 12

( xi x )

Suma de Cuadrados de los Errores: representa la variabilidad que


permanece sin explicar debido al error SCE = e i

El coeficiente de Determinacin R2, se define por la siguiente expresin:


R2 = SCR SCE = 1 SCT SCT

(16)

Mide la proporcin de la variabilidad de la variable dependiente explicada por su relacin lineal con la variable independiente. Presenta las siguientes propiedades: - Es una cantidad no negativa - Los lmites son: 0 R 2 1 , de forma que un R2 igual a 1, denota un ajuste perfecto, y en el otro extremo, un R2 igual a 0 equivale a que no existe relacin lineal entre ambas variables. - Es el cuadrado del coeficiente de correlacin lineal
R =
2

) 12 x i x

( yi y )

)2

( yi y ) ( xi x )
2

( ( x x )( y
i

))

2 2

S xy = S S x y

= r2

(17)

4.Supuesto de normalidad

Con el mtodo de los MCO hemos obtenidos estimadores puntuales de los parmetros desconocidos 0 y 1 . Adems, bajo ciertas hiptesis y en virtud del Teorema de Gauss-Markov, dichos estimadores poseen propiedades estadsticas deseables siendo los estimadores lineales insesgados de mnima varianza. Sin embargo, la estimacin puntual suele ser insuficiente para completar un anlisis de los datos. Para poder hacer inferencias sobre la funcin de regresin poblacional, hemos de aadir a las hiptesis del modelo clsico una nueva hiptesis relativa a la distribucin del trmino de error. En

El modelo de regresin lineal simple / 12

este sentido, asumimos, en virtud del Teorema Central del Lmite5, que los errores siguen una distribucin normal: i N (0, 2 ) , lo que implica que los errores no slo no estn correlacionados, sino que son independientes. En consecuencia, tambin son independientes las variables Y y siguen una distribucin normal de parmetros:
Y / xi N 0 + 1 xi ,

Propiedades de los estimadores de MCO Con la introduccin de la hiptesis de normalidad, los estimadores de mnimos cuadrados poseen las siguientes propiedades adicionales: - Son estimadores eficientes, es decir, insesgados de varianza mnima. - Son estimadores consistentes - Los estimadores 1 de los coeficientes de regresin 0 y estn distribuidos normalmente:
$0 N 0 ,
2

1 n+

2 ( xi x ) x2

$0 0
1 + n

( xi x ) 2
(19)

x2

N (0,1)

(18)

$ 1 2 1 $1 N , 1 ( xi x ) 2

( xi x ) 2 N (0,1)

La suma de los cuadrados de los residuos dividida por la varianza del trmino de error sigue una distribucin 2 con n-2 grados de libertad.

) (n 2) 2

ei2

2 n 2

(20)

Este teorema demuestra que, bajo condiciones muy generales, la suma de variables independientes tiende a seguir una distribucin normal.
5

El modelo de regresin lineal simple / 13

5. Intervalos de confianza y contrastes de hiptesis


Con el supuesto adicional de normalidad, podemos realizar inferencias sobre la funcin de regresin poblacional. El principal resultado a partir del cual se deducen inmediatamente los intervalos de confianza y contrastes de hiptesis sobre los coeficientes de regresin, es la distribucin de los estadsticos siguientes:
$0 0 $0 0 t n 2 = S$0 x2 ) 1 + n ( xi x ) 2

(21)

$1 1 $1 1 = ) S$1

( xi x ) 2 t n 2

(22)

obtenidos al sustituir en las ecuaciones (18) y (19) la desviacin estndar del error por su estimador $ , y donde S$0 y S$1 denotan los errores estndar de los coeficientes estimados 1 . Puede 0 y demostrarse que estas variables siguen una distribucin t de Student con n-2 grados de libertad, ya que representan el cociente entre una normal tipificada y la raz cuadrada de una 2 con n-2 grados de libertad dividida entre sus grados de libertad.

Intervalos de confianza Los intervalos de confianza proporcionan un rango de valores que es probable que contengan los parmetros de la FRP. Se construyen de forma que la probabilidad de que el intervalo contenga el parmetro desconocido sea 1-, donde denota el nivel de significacin y 1- el nivel de confianza. Tambin son tiles para probar hiptesis estadsticas sobre los parmetros de la regresin. De esta forma, los intervalos de confianza del 100(1-)% para los parmetros 0 y 1 pueden obtenerse a partir de la expresin general:

El modelo de regresin lineal simple / 14

P $i t S$i i $i t S$i = 1 ,n 2 ,n 2 2 2
2

(23)

t siendo ,n 2 el valor de una distribucin t de Student con n-2


grados de libertad tal que:

P( t

,n 2

t n 2 t
2

,n 2

) = 1

(24)

El intervalo de confianza vendr dado por:

i $i t S$i , $i + t S$i ,n 2 ,n 2 2 2
o en forma reducida:

(25)

$i t
2

,n 2

S$i

(26)

Prueba t Podemos elaborar fcilmente contrastes sobre los coeficientes del modelo de regresin, basndonos en el estadstico t. Uno de especial inters prctico corresponde a contrastar si la pendiente de la recta de regresin poblacional es cero, lo que implicara que la esperanza condicional de Y no se vera afectada (linealmente) por el valor de la variable independiente. De hecho, dado que los resultados obtenidos se basan en una muestra, es lgico preguntarse si realmente existe alguna relacin a nivel poblacional, ya que podra ser que debido al error de muestreo los parmetros poblacionales fuesen cero. Se trata de comprobar si la estimacin es vlida en el sentido de si es significativa de forma que la variable explicativa X es relevante para explicar el comportamiento de la variable dependiente Y. Es conveniente, por tanto, contrastar si la pendiente de la recta de regresin poblacional es significativamente distinta de cero.

El modelo de regresin lineal simple / 15

Presenta la muestra suficiente evidencia, a un nivel de significacin de , como para rechazar la hiptesis nula sobre la pendiente (H0: pendiente de la recta es cero)? En definitiva, el contraste que estamos planteando consiste en: H 0 : 1 = 0 E (Y / xi ) = 0

H1 : 1 0
siendo el estadstico de prueba: $1 $1 t= = ) ( xi x ) 2 t n 2 S$1

(27)

que bajo la hiptesis nula sigue una distribucin t de Student con n-2 grados de libertad. La regla de decisin consiste en rechazar la hiptesis nula si el estadstico t es mayor, en valor absoluto, al valor crtico t , es decir:
2 ,n 2

Rechazar H0 si

$i > t S$i ,n 2
2

$i < t S$i ,n 2
2

Por lo tanto, si el estadstico de prueba cae en la regin crtica, se rechaza la hiptesis nula y se dice que el estadstico hallado es estadsticamente significativo con un nivel de confianza del 100(1)%. Contraste simultneo de los parmetros de la regresin Finalmente desarrollamos el denominado contraste de la regresin o contraste simultneo de los parmetros de la regresin. Su formulacin est relacionada con el anlisis de la varianza (ANOVA). Parte de la descomposicin de suma de cuadrados que utilizamos en el apartado 3, al definir el coeficiente de determinacin. Tal como se indic, la variabilidad total en la muestra o Suma de Cuadrados Total es igual a la suma de dos componentes: la variabilidad explicada por el modelo o Suma de Cuadrados de la Regresin, y la variabilidad no explicada o Suma de Cuadrados del

El modelo de regresin lineal simple / 16

Error. En el contexto de la regresin, al estudio de los componentes de la STC se conoce como anlisis de la varianza. El procedimiento de ANOVA mide la cantidad de variacin en el modelo de muestreo y puede resumirse en la siguiente tabla. Tabla ANOVA
Fuentes variacin de Suma Cuadrados
SCR =

Regresin Error Total

) (y i y)

de Grados libertad
2

de Cuadrados Medios F
CMR =

1 n-2

) (y i y)
2

F=

CMR CME

SCE =
SCT =

ei

ei CME =

n2

( yi y )

n-1

La razn F es el cociente entre la desviacin promedio al cuadrado que se explica con el modelo y la desviacin promedio al cuadrado que se queda sin explicar. Cuanto mayor sea esta razn, mayor poder explicativa tendr el modelo. El contraste que se plantea supone:

H0 : E (Y / xi ) = 0 H1: E (Y / xi ) = 0 + 1 xi

Bajo la hiptesis nula, puede demostrarse que el estadstico:


CMR

) 12 x i x

)2

12

(28)

sigue una 2 con 1 grado de libertad, al ser una normal estndar al cuadrado. Adems, por (20) sabemos que

2 i

/ 2 sigue una 2 con

cociente de dos 2 , cada una dividida por sus grados de libertad, y por tanto, sigue una distribucin F con 1 y n-2 grados de libertad.
2 )2 xi x CMR 1 F= = F1,n 2 CME ( e 2 ) / (n 2) i

n-2 grados de libertad. En consecuencia, la razn F resulta ser el

(29)

La regla de decisin consiste en: Rechazar H0 si F > F1,n 2 ,

El modelo de regresin lineal simple / 17

siendo F1,n 2 , el valor de una distribucin F con 1 y n-2 grados de libertad tal que:

P( F1,n 2 F1,n 2, ) =

(30)

En el anlisis de regresin simple, las pruebas t y F son anlogas. De hecho, el valor de F es el cuadrado del valor de t. Sin embargo, en el anlisis de regresin mltiple, la prueba F produce una prueba ms general para determinar si alguna de las variables independientes en el modelo tiene poder explicativo. Cada variable se prueba despus por separado con la prueba t para determinar si es una de las variables significativas.

6. Validacin del modelo


En los apartados anteriores hemos estudiado los fundamentos del modelo, as como la forma de llevar a cabo los clculos necesarios para obtener estimadores de los coeficientes de la recta de regresin y valorar la calidad del ajuste obtenido. En todo el proceso damos por supuesto que el modelo es adecuado y que sirve para alcanzar los objetivos planteados. Pero, Qu supone que el modelo sea adecuado? Cmo podemos saber si se cumplen las hiptesis del modelo clsico? Este aspecto es fundamental, ya que el criterio principal para juzgar la validez de un modelo es estudiar si las hiptesis que hemos realizado para construirlo son ciertas. Ello requiere un anlisis cuidadoso de los residuos. El anlisis de los residuos tiene por objeto contrastar a posteriori las hiptesis del modelo lineal. Bsicamente, habr que comprobar lo siguiente: 1. Linealidad en las variables 2. Homocedasticidad 3. Normalidad de los residuos 4. Independencia de los residuos 5. Datos atpicos Por ltimo, es importante resaltar un aspecto relacionado con el significado de la regresin: nos estamos refiriendo al hecho de que

El modelo de regresin lineal simple / 18

independientemente de qu tan fuerte y aparente sea, nunca puede establecer una conexin causal: nuestras ideas de causacin deben provenir de las estadsticas externas, y, en ltimas, de algn tipo de teora que las soporte.

aunque la regresin estudie la dependencia de una variable respecto a otras, dicha relacin no implica necesariamente causalidad., es decir, estos modelos no pueden determinar relaciones causa-efecto. En palabras de Kendall y Stuart: Una relacin estadstica,

7. Referencias
Bibliografa bsica: Canavos, G.C. (1992): Probabilidad y Estadstica: Aplicaciones y Mtodos, McGraw Hill Newbold, P. (1997): Estadstica para los Negocios y la Economa. Prentice Hall. Novales, A. (1996): Estadstica y Econometra. McGraw-Hill. Bibliografa complementaria: DeGroot, M. H. (1988): Probabilidad y Estadstica. AddisonWesley. Greene, W.H. (1998): Anlisis economtrico, Prentice Hall Guisn, M.C. (1997): Econometra. McGraw Hill Gujarati, D. N. (1990): Econometra. McGraw-Hill Novales, A. (1993): Econometra. McGraw-Hill Pea, D. (1995): Estadstica, Modelos y Mtodos, 2. Modelos lineales y series temporales. Alianza Universidad Textos. Uriel, E. Y otros (1993), Econometra. El modelo lineal, AC

S-ar putea să vă placă și