Documente Academic
Documente Profesional
Documente Cultură
En la regresin lineal mltiple tratamos de determinar la relacin existente entre la variable dependiente
(Y) y dos o ms variables independientes ( X1, X2, X3, ..., XK ) tambin llamadas variables regresoras.
En este caso la variable dependiente se ve afectada por los cambios que se le hagan a las variables
independientes en conjunto.
La relacin entre las variables regresoras y la variable dependiente se establece mediante el modelo
general de regresin lineal mltiple:
Y 0 1 X 1 2 X 2 3 X 3 k X k
donde 0, 1, 2, ..., k son los parmetros del modelo ( se tienen k variables independientes y p
parmetros ).
En este caso 0 representa la ordenada en el origen, es decir, el punto donde el hiperplano corta al aje Y
(al haber ms de dos variables independientes la relacin queda representada por medio de un
hiperplano).
En general i representa la contribucin de cambio esperado en Y por cada incremento unitario en X1
Por comodidad en la simplicidad de las operaciones, emplearemos en esta ocasin slo dos variables
independientes
Al utilizar dos variables independientes, el modelo general de regresin lineal mltiple queda representado
por:
Y 0 1 X 1 2 X 2
donde:
0 representa el punto donde el plano corta al eje Y (ahora la relacin entre las dos variables
independientes y Y est representada por un plano).
1 representa el cambio esperado en Y por cada incremento unitario en X 1, siempre y cuando X2
permanezca constante.
2 representa el cambio esperado en Y por cada incremento unitario en X 2, siempre y cuando X1
permanezca constante.
La figura siguiente muestra la relacin entre las variables independientes y Y.
JorgeSaldarriaga
Y 0 1 X 1 2 X 2
X2
X1
ESTIMACION DE PARAMETROS
Para encontrar los estimadores de los parmetros del modelo, partiremos de una muestra aleatoria de
tamao n para valores de X1, X2 y Y:
X1i
X11
X12
X13
.
.
.
X2i
X21
X22
X23
.
.
.
Yi
Y1
Y2
Y3
.
.
.
X1n
X2n
Yn
Al utilizar una muestra aleatoria para estimar los parmetros, incurriremos en un error en la estimacin.
Debemos agregar dicho error al modelo de regresin lineal mltiple:
Y 0 1 X 1 2 X 2
JorgeSaldarriaga
Y X
donde:
Y1
Y
2
.
.
Yn
1 X11
1 X
12
.
.
.
.
.
.
1 X1n
1
2
.
X 21
X 22
.
0
1
2
.
X 2n
.
n
El mtodo a utilizar en la estimacin de los parmetros del modelo es el mtodo de mnimos cuadrados.
Dicho mtodo consiste en minimizar la funcin de mnimos cuadrados.
La funcin de mnimos cuadrados est dada por la letra L y es igual a la suma de todos los errores
elevados al cuadrado:
n
L i2
i 1
i2
i1
L
ahora bien, si de la ecuacin vectorial del modelo de regresin anterior despejamos el error:
Y X
sustituyndolo en L:
L Y X Y X
JorgeSaldarriaga
e igualando a cero:
Derivando la funcin anterior con respecto de , evaluando para
0
X Y X X
:
despejando
X X 1 X Y
donde:
0
1
2
X1i
i1
n
X X
i1
n
1i
X 2i
i1
X
n
i1
2
1i
X1i X 2i
i1
X1i X 2i
i1
i1
X 2i
i1
n
i1
X Y
X Y
i1
X 22i
1i
X 2i Yi
i1
De esta manera, el modelo de regresin lineal mltiple ajustado queda definido por:
0
1 X1
2 X2
Y
JorgeSaldarriaga
i1
Yi
Syy Yi2
i1
SSR X Y
i 1
Suma de
cuadrados
Grados
de libertad
Regresin
SSR
Error
SSE
np
Total
Syy
n1
Media de
cuadrados
SSR
MSR
k
SSE
MSE
np
Estadstico de
prueba
F0
MSR
MSE
JorgeSaldarriaga
En este caso, si el estadstico de prueba es mayor que el valor de tablas F , k, n p, se rechaza la hiptesis nula;
concluiremos que la variable independiente est relacionada con al menos una de las variables independientes.
Partimosdelashiptesissiguientes:
H0 : j 0
para j = 1, 2, ..., k
Ha : j 0
t0
MSE C jj
X X 1 X1i
i1
n
X 2i
i1
X
i1
n
X
n
i1
1i
2
1i
X1i X 2i
i1
X
n
i1
X X
i1
1i
2i
C 00 C 01 C 02
C10 C11 C12
C 20 C 21 C 22
2i
i1
X 22i
El estadstico de prueba t0 anterior sigue una distribucin t-student con v = n p grados de libertad.
Entonces, si el valor absoluto del estadstico de prueba es mayor que el valor de tablas t /2, n p, se rechaza
la hiptesis nula. Como conclusin diremos que la variable independiente Y s est relacionada con la
variable independiente Xj.
JorgeSaldarriaga
para j = 0, 1, 2, ..., k
En cuanto a las conclusiones de los resultados obtenidos en los intervalos de
confianzaseaplicauncriteriosemejantealempleadoenlaregresinlinealsimple.
Como0 indicaunpuntodondeelplanocortaralejeY,laconclusindelintervalo
correspondientenodebepresentarproblemaalgunoalahoradelplanteamiento.
Algodiferenteresultaalahoradeconcluirlosintervalosdeconfianzapara
losdemsparmetros:
Siempreycuando j 0, lasconclusionesparacualquierintervalodeconfianza,de
acuerdoalresultadoobtenido,sernlassiguientes:
Sielintervalodeconfianzaparaj resulta a j b , concluiremosqueporcada
incrementoenXjlavariabledependientedisminuir,enpromedio,porlomenos
b yalomucho a veces;siempreycuandolasdemsvariablesindependientes
permanezcanconstantes.
Si el intervalo de confianza para j resulta a j b , concluiremos que por cada incremento en Xj la
variable dependiente aumentar, en promedio, por lo menos a y a lo mucho b veces; siempre y cuando las
dems variables independientes permanezcan constantes.
Ahora bien, Si el intervalo de confianza para j resulta a j b , no se puede afirmar que Xj tenga
efecto sobre la variable dependiente.
JorgeSaldarriaga
0
0
1 X1, 0
2 X 2 ,0
Y
En forma matricial:
0 X !0
Y
donde
X0
X1,0
X 2 ,0
Entonces, el intervalo de confianza de (1 ) 100% para el valor esperado de Y est dado por la
expresin:
0 t
Y
,n p
1
0 t
MSE X !0 X X X 0 Y Y
,n p
MSE X !0 X X X 0
1
El intervalo de confianza de (1 a) 100% para una observacin futura de Y est dado por:
0 t
Y
,n p
1
0 t
MSE 1 X !0 X X X 0 Y0 Y
,n p
MSE 1 X !0 X X X 0
1
JorgeSaldarriaga
R2
SSR
Syy
JorgeSaldarriaga
EJERCICIO
A fin de ejemplificar los temas anteriormente vistos, analizaremos el siguiente problema:
70
2
50
40
1
65
100
3
75
80
2
30
30
1
45
100
3
35
6
12
28
300
16500
X1X2 =
Y =
Y2 =
X1Y =
SX2Y =
600
420
33800
970
20850
JorgeSaldarriaga
1
0
X X 1 X Y entonces:
Puesto que
6
12
300
12
28
600
300
600
16500
420
2.833333
0. 5
970
20850
0.033333
0.5
0.25
0
0.033333
.0006666
420
10
970 32.5
20850
0.1
10 32.5 X1 0.1X 2
Y
a partir del modelo anterior, podemos concluir lo siguiente:
Para realizar la prueba de significancia en el inciso 2, calcularemos primero los valores de Syy, SSR y
SSE:
Syy Y
2
n
420 2
Syy 33800
6
Syy 4400
SSR X Y
420
2
420
JorgeSaldarriaga
11
H 0 : 1 2 0
Ha : i 0
Suma de
cuadrados
Grados
de libertad
Regresin
4240
Error
160
Total
4400
Media de cuadrados
4240
2120
2
160
MSE
53.3333
3
MSR
Estadstico de prueba
F0
2120
39.75
53.3333
t0
MSE C11
32.5
53.3333 0.25
t 0 8.9
t0
JorgeSaldarriaga
1
2
La siguiente prueba de hiptesis nos permitir determinar si la demanda de catsup importada tiene o no
efecto sobre las utilidades:
H0 : 2 0
Ha : 2 0
t0
MSE C 22
0.1
53.3333 0.0006666
t 0 0.53
t0
En el inciso 3 se pide calcular intervalos de confianza del 95 % para los parmetros del modelo (0, 1 y
2)
Como el intervalo de confianza es del 95 %, el valor de es igual a 0.05.
El valor de tablas de la distribucin t-student con 0.025 y 3 grados de libertad es de 3.182
El intervalo de confianza del 95% para 0 queda de la siguiente manera:
0 t
2 ,n p
0 t
MSE C 00 0
2 ,n p
MSE C 00
Como conclusin, se afirmar con un 95% de certeza que la ordenada en el origen ser por los menos
-29.1154 y a lo mucho 49.1154. Este es el rango de valores por donde cortar el plano al eje Y.
El intervalo de confianza del 95% para 1 lo calculamos de la siguiente manera:
JorgeSaldarriaga
1
3
1 t
2 ,n p
1 t
MSE C11 1
2 ,n p
MSE C11
Como los dos valores del intervalo resultaron positivos, se puede afirmar con un 95% de certeza que
por cada incremento en la demanda de catsup nacional, las utilidades se incrementarn por lo
menos 20.8809 y a lo mucho 44.1190 veces, en promedio; siempre y cuando la demanda de catsup
importada permanezca constante.
Por ltimo, para calcular el intervalo de confianza del 95 % para 2:
2 t
2 ,n p
2 t
MSE C 22 2
2 ,n p
MSE C 22
0 X !0
Y
0 1
Y
10
50 32.5
0.1
0 135
Y
Cuando la demanda de catsup nacional sea de 4 y la demanda de catsup importada sea de 50, las
utilidades esperadas del restaurante sern de 135 unidades.
El intervalo de confianza del 90% para la utilidad esperada est dado por:
JorgeSaldarriaga
1
4
0 t
Y Y
Y 135 2.353 53.33331
,n p
MSE X !0 X X
2.83333
50
0. 5
0.03333
X0
0.5
0.03333
0.000666
0.25
0
1
4
50
116.45 Y 153.55
Se puede afirmar con un 90% de certeza que cuando la demanda de catsup nacional sea de 4 y la
de catsup importada sea de 50, la utilidad esperada del restaurante ser por lo menos 116.45 y a lo
mucho 153.55 unidades.
El intervalo de confianza del 90 % para la observacin futura de la utilidad del restaurante bajo las mismas
condiciones de X1 y X2 est dado por:
0 t
Y0 Y
2 ,n p
MSE 1 X !0 X X X 0
2.83333 0.5
0.03333
0
109.7139 Y0 160.2861
0.03333
0.000666
1
4
50
Se puede Afirmar con un 90% de certeza que cuando la demanda de catsup nacional sea de 4 y la
de catsup importada de 50, la utilidad del restaurante ser por lo menos 109.7139 y a lo mucho
160.2861 unidades.
Por ltimo, en el inciso 5 se pide calcular e interpretar el coeficiente de determinacin mltiple:
SSR
Syy
4240
R2
4400
R 2 .9636
R2
esto indica que el 96.36 % de la variabilidad de la utilidad del restaurante se explica mediante el
modelo de regresin lineal mltiple:
10 32.5 X1 0.1X 2
Y
cuando se utilizan la demanda de catsup nacional y la demanda de catsup importada como
variables regresoras.
A continuacin se muestran los resultados del ejercicio anterior calculados en una hoja de clculo
diseada para resolver los problemas de regresin lineal mltiple (con 2 variables independientes).
JorgeSaldarriaga
1
5
JorgeSaldarriaga
1
6