Sunteți pe pagina 1din 11

Regresión Múltiple

DESCOMPOSICIÓN DE LA VARIACIÓN TOTAL

Si consideramos un modelo de regresión lineal simple la


variabilidad total de la variable de respuesta puede
descomponerse de la siguiente forma:

yi ( yi − yˆi )

ˆ0 + ˆ1 x
( yi − y ) yˆ i

( yˆ i − y )
y

xi x

¿Qué es la V.T.?
Es la variación de la variable respuesta Y alrededor de su
media y se desea saber que porcentaje de dicha variabilidad
puede ser explicada en función de la variabilidad de las X´s
a través de un modelo de regresión

En el gráfico para una observación se tiene:

( yi − y ) = ( yˆi − y ) + ( yi − yˆi )

Variación total= Variación explicada + Variación no explicada


Si se eleva al cuadrado la expresión anterior:

( yi − y ) 2 =  ( yˆ i − y ) + ( yi − yˆi ) 
2

Considerando una muestra de “n” observaciones:


n n

 ( yi − y )2 = ( yˆi − y ) + ( yi − yˆi )


2

i= i =1

La expresión anterior se reduce a:


n n n

 ( y − y ) =  ( yˆ − y ) + ( y − yˆ )
i=
i
2

i =1
i
2

i =1
i i
2

()

La variación total (suma corregida de cuadrados de las


observaciones) se expresa como la suma de la variabilidad
explicada por el modelo de regresión y la variabilidad
residual (no explicada por el modelo), es decir:

STC = SCR + SCE

2.2 Coeficiente de Determinación Múltiple

Es una medida descriptiva del ajuste global del modelo de


regresión lineal múltiple y se obtiene dividiendo a la
expresión () por STC:

n n n

 ( yi − y )2  ( yˆi − y )2 (y i − yˆi ) 2


i=
n
= i =1
n
+ i =1
n

(y
i=
i − y )2 (y
i=
i − y )2 (y i=
i − y )2

 ( yˆ − y )
n

 ( y − yˆ )
2
2
i
i i SC Re s
1 = R2 + i =1
 R2 = i =1
n
= 1−
( y − y)
n STC
 ( yi − y )2
2
i
i=
i=
Interpretación:
2.3 Propiedades:
1º E s una cantidad no negativa: 0  R  1
2

Si R → 0 las variables regresoras no explican la


2

variabilidad de la variable respuesta.


Modelo de regresión lineal múltiple no adecuado para
explicar la relación entre las variables bajo estudio.

Si R → 1 las variables regresoras explican la variabilidad


2

de la variable de respuesta.
Modelo de regresión lineal múltiple adecuado para explicar
la relación entre las variables bajo estudio.

2º 100(1 − R ) representa el porcentaje de la variabilidad no


2

explicada por la relación lineal múltiple.

3º Se utiliza para comparar varios modelos de regresión,


es decir cuál es el que mejor se adecua a los datos,
generalmente el que tiene mayor coeficiente de
determinación.

2.4 Limitaciones del Coeficiente de determinación


2
1º R se incrementa cada vez que se incluye una nueva
variable en el modelo, aunque no sea significativa.

2º Es sensible a la formulación del modelo y a la elección


de la variable de respuesta, puede ocurrir que se estimen
dos modelos formalmente idénticos y con la misma
2
capacidad predictiva pero con diferentes valores de R .
PRUEBAS DE HIPOTESIS EN EL MRLM

Luego de estimar los parámetros del modelo y si 𝑒𝑖 ∼


𝑁(0, 𝜎 2 ), podemos elaborar las siguientes tablas:

Tabla básica
ANVA
Causa de Grados de Suma de Cuadrados Valor
variación libertad cuadrados medios F

Regresión
CM F=

Residual
CM
Total
(no corregido)

Tabla básica corregida.

ANVA
Fuente de Grados de Suma de Cuadrados Valor
variación libertad cuadrados medios F

Regresión
CM F=

Residual
CM
Total
(corregido)

1º Prueba de significancia global de un modelo de


regresión lineal múltiple

La prueba de significancia de la regresión es una de


las pruebas de hipótesis que nos permite evaluar si
hay una relación lineal entre la variable respuesta Y
con cualquiera de las variables regresoras
del modelo propuesto .
La hipótesis estadística adecuada es :

Hipótesis:
H 0 : 1 =  2 = .......... =  k = 0
H1 :  j  0 para al menos un valor de “ j”

Debemos construir la estadística de contraste para


probar Ho

La estadística de prueba bajo la hipótesis nula es:


𝐶𝑀𝑅
𝐹0 = ∼ 𝐹(𝑘, 𝑛 − 𝑝)
𝐶𝑀 𝑅𝑒 𝑠

TABLA ANVA
Fuente de
Variación SC g.l CM Estadística

Regresión SCR k CMR= SRC/ k F0 = CMR / CM Re s

Residuales SC E n-k-1 CMRes= SCRes/( n-k-1)


Total STC n-1

Regla de Decisión:
La cual asumiendo que la hipótesis nula es cierta se distribuye como
una con grados de libertad en el numerador y grados de
libertad en el denominador.
Para un nivel de significación “  ”, se rechaza la hipótesis nula si:

F0  F( ,k ,n− p )

Al rechazar la hipótesis nula se concluye que al menos una de las


variables regresoras contribuye significativamente al modelo.

Ejemplo :

Pruebas sobre los coeficientes individuales del modelo


de Regresión lineal Múltiple

Permite evaluar la significancia de cada uno de los


coeficientes individuales; es decir, evaluar la contribución
de una variable regresora en el modelo dadas las demás
variables regresoras; a esta prueba se le conoce como
parcial o marginal.
La prueba individual de un coeficiente de regresión puede
ser útil para determinar si:
1. Se incluye otra variable regresora
2. Se elimina una o más variables regresoras presentes
en el modelo

La adición de variables regresoras en el modelo implica:


La SC incremente
La SC disminuya

pero se debe decidir si el incremento en la SC R es tan


significativo que justifique la inclusión de otra variable
regresora en el modelo, ya que la inclusión de variables que
no deberían ser incluidas puede aumentar la SC E.
La hipótesis para probar la significancia de cualquier
coeficiente de regresión es

Hipótesis:
H0 :  j = 0 j= 1,2,……,k
H1 :  j  0

Estadística para la prueba :

̂𝑗
𝛽
𝑡0 = ∼ 𝑡(𝑛 − 𝑝)
̂ 2𝐶𝑗𝑗
√𝜎

Regla de Decisión:
Para un nivel de significación “”, se rechaza la hipótesis
nula si:

t0  t( / 2;n− p )
conclusion
Importante

1. Esta prueba es una prueba marginal; es decir, se está


determinando la contribución de dado que las otras
variables regresoras están presentes en el modelo.
Por ello, no se debe apresurar en eliminar una variable
regresora cuando la prueba no sea significativa.

2. También se puede determinar la contribución en la SC R,


de la variable regresora dado que las otras variables
regresoras están presentes en el modelo, por medio del
método de Suma de Cuadrados Extra.

Interpretación de los contrastes


Diremos que un contraste de hipótesis es significativo
cuando se rechaza la hipótesis nula con un nivel de
significación menor que α.

------------------------------------------------------------------ -----------------
casos contraste conjunto contrastes individuales
F de Fisher t de Student
------------------------------------------------------------------ --------
1 significativo todos significativos
2 significativo algunos significativos
3 significativo ninguno significativo
4 no significativo todos significativos
5 no significativo algunos significativos
6 no significativo ninguno significativo
--------------------------------------------------- --------------------------------------------------- ---

Partición de la Suma de Cuadrados Extra


La inclusión de una variable explicativa, en un modelo de
regresión, no significa necesariamente que esta variable
tenga un efecto importante sobre la variable respuesta. Por
otra parte en el análisis de regresión, siempre estamos
preguntándonos si o no se deben incluir ciertos términos al
modelo. La pregunta puede ser investigada si se considera
la porción extra en la suma de cuadrados del modelo cuando
se incluyen las nuevas variables. El cuadrado medio
asociado a esta suma de cuadrados entonces se debe
comparar con el cuadrado medio del error para determinar
si el aporte de la suma de cuadrados es altamente
significativo. Si es así se deben incluir los términos en el
modelo y si no se deben remover (con precaución).
El método estadístico Suma de Cuadrados Extra permite
conocer no solamente la contribución de una variable sino
la de cualquier subconjunto de variables , por ello este
procedimiento es adecuado para determinar si la inclusión
de una variable en el modelo de regresión es acertada y se
basa en el principio de la suma de cuadrados extra. El
fundamento de este principio se basa en los siguientes
resultados:
1. La SCT siempre permanece constante,
independientemente del número de variables
explicativas que incluyamos en el modelo.
2. La SCE disminuye siem pre (al menos un poco),
conforme se añaden variables explicativas al modelo.
La estrategia lógica consiste en añadir al modelo
aquellas variables que disminuyan significativamente la
suma de cuadrados de los errores.

También se puede determinar directamente la


contribución de la suma de cuadrados de un regresor en
la regresión, por ejemplo de xi , dado que otros
regresores xi (i≠j), están ya en el modelo; para eso se
usa el método de suma extra de cuadrados. Con este
procedimiento también se puede investigar la
contribución de un subconjunto de las variables
regresoras para el modelo. Consid érese el modelo de
regresión con k regresores
Y = Xβ + ε,
donde y es un vector n × 1, X es una matriz n × p, β es
un vector p × 1, ε es un vector n × 1 y p = k + 1. Se desea
determinar si algún subconjunto de r < k regresores
contribuyen en forma significativa al modelo de
regresión. Se a seccionado como sigue el vector de los
coeficientes de regresión:

donde β1 es un vector (p−r)×1 y β2 es un vec tor r×1. Se


desean probar las siguientes hipótesis
H0 : β2 = 0
H1 : β2 ≠ 0

Este modelo se puede escribir como sigue:

y = Xβ + ε = X1β1 + X2β2 + ε
en el que la matriz X1 de n × (p − r) representa a las
columnas de X asociadas con β1 y la matriz X2 de n × r
representa a las columnas de X asociadas con β2. A este
se le llama el modelo completo.
Para el modelo completo, se sabe que

βˆ = (X X)−1Xy.

La suma de cuadrados de regresi ón para este modelo es

SCR(β) = ˆβ´ X´Y (p grados de libertad)


y
CMRes = (y´y − ˆβ´ X´Y) / (n−p)

Para determinar la contribución de los términos de β2 a


la regresión se ajusta el modelo suponiendo que es cierta
la hipótesis nula H0 : β 2 = 0
Este es conocido como el modelo reducido y está dado
por

Y = X 1 β 1 + ε,

El estimador de β1 por mínimos cuadrados en el modelo


reducido es

ˆβ 1 = (X´ 1 X 1 ) −1 X 1 y.
La suma de cuadrados de la regresión es

SCR(β 1 ) = ˆβ 1 X´ 1 y (p−r grados de libertad)

La suma de cuadrados de la regresi ón debida a β2 dado


que β 1 ya está en el modelo es

SCR(β2|β1) = SCR(β) − SCR(β 1 ) con p−(p−r)= r g.l.

Esta suma de cuadrados se llama suma extra de


cuadrados debida a β 2 , porque mide el incremento de
la SCR debido a agregar los regresores x k − r + 1 , x k − r + 2 ,...,
x k a un modelo que ya contiene x 1 , x 2 , ..., x k − r .
Ahora, SCR(β 2 |β 1 ) es independiente del CME, y se puede
probar la hipótesis nula β 2 = ∅ mediante el estadístico

F 0 = (SCR(β 2 |β 1 )/r) / CMRes

Si β 2 = ∅, entonces F 0 sigue una distribución F no central,


con parámetro de no centralidad igual a

λ = 1/σ 2 β´ 2 X 2 I− X 1 (X´ 1 X´ 1 ) − 1 X´ 1 X2β2

Este resultado es muy importante. Si hay


multicolinealidad en los datos, hay casos en los que β 2
es definitivamente distinto de cero, pero esta prueba en
realidad casi no tiene potencia (capacidad para indicar
esta diferencia) porque hay una relaci ón casi colineal
entre X 1 y X 2 . En este caso, λ es casi cero a ún cuando β 2
sea realmente importante. Esta rel ación también hace
destacar que la máxima potencia de la prueba se alcanza
cuando X 1 y X 2 son ortogonales entre sí.
Por ortogonales se entiende que X ´ 2 X 1 = 0

Si F 0 > F α , r , n − p , se rechaza H 0

Se concluye que al menos uno de los par ámetros en β 2


es distinto de cero, y en consecuencia que al menos uno
de los regresores x k − r + 1 , x k − r + 2 , ..., x k en X 2 contribuyen en
forma significativa al modelo de regre sión.
Algunos autores llaman la prueba parcial F, o prueba F
parcial, porque
mide la contribución de los regresores en xv2, dado que
los demás regresores en X1 ya están el modelo.
Para ilustrar la utilidad de este procedimiento,
considérese el modelo

y = β0 + x1β1 + x2β2 + x3β3 + ε


Las sumas de cuadrados
SCR(β1|β0, β2, β3)
SCR(β2|β0, β1, β3)
SCR(β3|β0, β1, β2)
son sumas de cuadrados de un grado de libertad que
miden la contribución de cada regresor x j , j = 1, 2, 3, al
modelo, dado que todos los demás regresores ya estaban
en él. Esto es, evalúa la ventaja de agregar x j a un modelo
que no incluía a este regresor.
En general, se puede determinar

SCR(βj |β0, β1, ..., βj−1, βj+1, ..., βk), 1 ≤ j ≤ k

que es el aumento de la suma de cuadrados de regresi ón,


debido a agregar x j a un modelo que ya contiene x 1 , x 2 , ...,
x j − 1 , x j + 1 , ..., x k . Hay quienes creen de utilidad imaginar
que esto mide la contribuci ón de x−j como si fuera la
última variable agregada al modelo.

Se puede demostrar que la prueba F parcial sobre una


variable única x j equivale a la prueba t. Sin embargo, la
prueba F parcial es un procedimiento m ás general, porque
se puede medir el efecto de conjuntos de variables. Esta
prueba se usa en la formación de modelos, es decir, en la
búsqueda del mejor conjunto de regresores que se deben
usar en el modelo.

Tarea:
Resolver caso especial de columnas ortogonales en X

S-ar putea să vă placă și