Documente Academic
Documente Profesional
Documente Cultură
J. M. Rojo Abun
Instituto de Economa y Geografa
Madrid, Febrero de 2007
I. INTRODUCCIN .................................................................................................. 3
II. HIPTESIS............................................................................................................. 6
III. COMENTARIOS A LA HIPTESIS..................................................................... 8
IV. ESTIMACIN DE LOS PARMETROS ............................................................. 9
IV.1. Mnimos cuadrados.................................................................................................... 9
IV.2. b Estimacin por mxima verosimilitud.................................................................. 11
V. VARIANZA RESIDUAL ..................................................................................... 12
VI. CONTRASTE DE REGRESIN ......................................................................... 14
VII. COEFICIENTE DE DETERMINACIN R2 ....................................................... 16
VIII. EJEMPLO 1 .......................................................................................................... 18
Resultados de la regresin ...................................................................................... 18
a) Coeficiente de determinacin ........................................................................ 18
b) Contraste de regresin................................................................................... 19
c) Estimacin de los coeficientes....................................................................... 20
IX. EJEMPLO 2: TEMPERATURA DE EBULLICIN ........................................... 22
Resultados del anlisis:........................................................................................... 23
a) Anlisis descriptivo ....................................................................................... 23
b) Grfico de dispersin .................................................................................... 23
c) Matriz de correlaciones ................................................................................. 24
d) Anlisis de regresin propiamente dicho ...................................................... 24
Estatura en Peso en
centmetros kilogramos
X Y
152,00 45,00
155,00 53,00
156,00 52,00
156,00 65,00
158,00 43,00
158,00 50,00
159,00 49,00
161,00 67,00
162,00 68,00
164,00 51,00
164,00 62,00
Cada fila representa los datos de un individuo y en cada columna los valores de una
variable medida sobre dichos individuos.
En este caso se puede observar que existe una relacin creciente, pues a medida que
crece la estatura parece que va creciendo el peso.
Desde un punto de vista algo simplista el anlisis de regresin lineal simple, consiste en
calcular una recta, denominada recta de regresin de forma que pase lo ms cerca posible de
todos los puntos.
Y = a +b X
Siguiendo con el ejemplo anterior, la recta de regresin que deseamos calcular es:
Peso = a + b Estatura
Nota
En general, el coeficiente a suele ser de poco inters, pue,s en general, no estaremos
interesados en el valor pronosticado de la variable dependiente cuando la variable explicativa
vale 0. A pesar de todo, este coeficiente no debe ser eliminado del modelo, pues, en caso
contrario, estamos obligando a que la recta de regresin pase por el origen de coordenadas y
quitando un grado de libertad del modelo.
Es importante observar que el coeficiente b va a tener unidades de medida, en este caso
kilos/centmetro, por lo tanto es importante especificar las unidades de medida de las variables.
En primer lugar vamos a considerar que los datos han sido generados, o son una
muestra aleatoria de una poblacin en que la relacin existente entre las variables es lineal, o
bien que en el intervalo muestreado se comporta de manera lineal.
Y = a + b X +U
Donde
Efecto debido a la variable explicativa estatura (X), de la cual vamos a conocer su valor.
Efecto producido por la perturbacin aleatoria U, la cual recoge un conjunto muy
grande de factores que influyen cada uno de ellos de forma moderada en la variable Y.
Las hiptesis consideradas en un modelo de regresin lineal simple son las siguientes:
a) Linealidad: vamos a considerar que los datos a analizar han sido generados por el
siguiente modelo:
Y = a + b* x + u
La hiptesis de linealidad establece que los todas las observaciones han sido generadas
siguiendo un modelo lineal.
En la realidad ser muy difcil aceptar esta hiptesis, pues raramente ser creble. En nuestro
ejemplo, la relacin del peso con la altura sabemos que no es lineal sino cbica. Sin embargo, es
fcil aceptar que, a grandes rasgos y en el intervalo muestreado, la relacin puede interpretarse
como lineal.
b) Homocedasticidad
Al considerar que los residuos tienen media cero para cualquier valor de X, el valor esperado de
Y para un determinado valor de X va a ser:
E (Y / x ) = E ( a + b * X + U ) = a + b * X + E (U ) = a + b * X
E (Y / x ) = a + b * X
e) Normalidad
- Mnimos cuadrados
- Mxima verosimilitud
Aunque estos mtodos parten de hiptesis muy distintas, los estimadores de los
parmetros van a coincidir.
u2 (Y (a + b X )) 2
Min( 2 ) = Min = Min
n n
Es decir, se calcularn los parmetros de la recta de regresin de forma que dicha recta
pase lo ms cerca posible (en promedio) de todos los puntos.
Derivando respecto de a :
U 2
= 2 ( y a b * x ) = 0
a
y = a + b* x
U 2
= 2 ( y a b * x ) * x = 0
b
( y * x a * x b * x2 ) = 0
y * x = a x + b x 2
y*x x2
n
= a * X + b
n
cov( x, y ) = b * S x2
cov( x, y )
b=
S x2
Tabla resumen
b cov( x, y )
S x2
a cov( x, y )
Y X
S x2
a + b* x cov( x, y ) cov( x, y )
Y 2
X+ *x
Sx S x2
1 1
l ( a , b, 2 , y ) = exp ( y a b * x) 2
2 * 2 *
2
1 1
l (a, b, 2 , Y ) =
n
(2 * ) n exp 2 * 2
( y a b * x) 2
n n 1
L ( a , b, 2 , Y ) =
2
log( 2 ) log(2 * )
2 2 2
( y a b * x) 2
L
= 2 ( y a b * x )(1) = 0
a
L
= 2 ( y a b * x)( x ) = 0
b
Al coincidir estas ecuaciones con las obtenidas por mnimos cuadrados se sigue que los
estimadores calculados por ambos mtodos van a coincidir.
n * y2 = ( yi Y ) 2
) )
( y i y ) 2 = ( yi y ) 2 + ( yi yi ) 2
VT = VE + VNE
VT
SY2 =
n 1
VNE
S R2 =
n2
VE
2
SVE =
2 1
Tabla resumen
VT
( y y) 2 n-1
SY2 =
VT
n 1
VE
( y y ) 2 2-1
SVE2
=
VE
2 1
)
VNE
( y y) 2 n-2
S R2 =
VNE
n2
H 0 b = 0
b=0
Y = a + b * X
Y = a + 0 * X
Y = a a = Y
VT
n21
2
VE
12
2
VNE
n2 2
2
VE
1 VE
= F1,n 2
VNE S R2
n2
Nota
Vamos a construir un coeficiente (estadstico) que mida la bondad del ajuste del
modelo. Si bien la varianza residual ( S R2 ) nos indica cmo estn de cerca las estimaciones
respecto de los puntos, esta varianza est influida por la varianza de la variable dependiente, la
cual, a su vez, est influida por su unidad de medida. Por lo tanto, una medida adecuada es la
proporcin de la varianza explicada (VE) entre la varianza total (VT); por ello, definimos el
coeficiente de determinacin R 2 :
VT = VE + VNE
VT VE VNE
= +
VT VT VT
VE VNE
1= +
VT VT
VE VNE
= 1
VT VT
VE VT VNE VNE
R2 = = = 1
VT VT VT
Por ser cociente de sumas de cuadrados, este coeficiente ser siempre positivo.
Si todos los puntos estn sobre la recta de regresin, la varianza no explicada ser 0, y
por lo tanto:
VE 0
R2 = = 1 =1
VT VT
Este coeficiente es muy importante, pues determina qu porcentaje (en tantos por uno)
de la varianza de la variable dependiente es explicado por el modelo de regresin.
Menor de 0.3 0.3 a 0.4 0.4 a 0.5 0.5 a 0.85 Mayor de 0.85
Los datos mostrados a continuacin contienen las siguientes medidas de una muestra de
27 individuos.
Deseamos realizamos una regresin de la estatura sobre el peso, basado en una muestra
de 27 personas de ambos sexos.
Resultados de la regresin
a) Coeficiente de determinacin
Model Summary
b) Contraste de regresin.
ANOVAb
Sum of
Model Squares df Mean Square F Sig.
1 Regression 2950,497 1 2950,497 56,300 ,000a
Residual 1310,170 25 52,407
Total 4260,667 26
a. Predictors: (Constant), estatura
b. Dependent Variable: peso
VE Regresin
VNE Residual
VT Total
Por lo tanto se concluye que es muy poco probable que estos datos hayan sido extrados
de una poblacin donde b=0.
VE Re gresin 2950
R2 = = = = 0.692
VT Total 4260
Coefficientsa
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) -112,039 23,488 -4,770 ,000
estatura 1,042 ,139 ,832 7,503 ,000
a. Dependent Variable: peso
Se interpreta que por cada centmetro que incrementa una persona su estatura va a
aumentar en 1.042 kilogramos su peso. Por ejemplo, el peso estimado para una persona de 176
cm. de estatura ser:
Los siguientes datos fueron tomados por el fsico escocs Forbes en los Alpes en 1857,
que midi la temperatura de ebullicin del agua en grados Fahrenheit y la presin atmosfrica.
Datos:
PRESION 20.79 22.40 23.15 23.89 24.02 25.14 28.49 29.04 29.88 30.06
TEMP 194.50 197.90 199.40 200.90 201.40 203.60 209.50 210.70 211.90 212.20
Generalmente, las fases de un anlisis de regresin lineal simple son las siguientes:
6. Interpretar los coeficientes del modelo mostrando las medidas de bondad del ajuste y el
contraste de regresin.
a) Anlisis descriptivo
Descriptive Statistics
b) Grfico de dispersin
presion tem T de
presion ebullicion en
atmosferica fahrenheit
presion presion Pearson Correlation 1 ,999**
atmosferica Sig. (2-tailed) ,000
N 10 10
tem T de ebullicion Pearson Correlation ,999** 1
en fahrenheit Sig. (2-tailed) ,000
N 10 10
**. Correlation is significant at the 0.01 level (2-tailed).
Model Summaryb
- Contraste de regresin
ANOVAb
Sum of
Model Squares df Mean Square F Sig.
1 Regression 368,867 1 368,867 4384,568 ,000a
Residual ,673 8 ,084
Total 369,540 9
a. Predictors: (Constant), presion presion atmosferica
b. Dependent Variable: tem T de ebullicion en fahrenheit
Coefficientsa
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 155,670 ,739 210,756 ,000
presion presion
1,889 ,029 ,999 66,216 ,000
atmosferica
a. Dependent Variable: tem T de ebullicion en fahrenheit
Residuals Statisticsa