Documente Academic
Documente Profesional
Documente Cultură
En capítulos anteriores tratamos el análisis de regresión simple que trata de relacionar una variable
explicativa cuantitativa con una variable respuesta cuantitativa. Todos los elementos de ese capítulo
nos van a servir ahora para continuar con el caso más general y de mayor utilidad práctica, que es la
regresión lineal múltiple. Por regresión lineal múltiple entenderemos el análisis de regresión lineal pero
ahora con más de una variable explicativa.
Los datos para regresión lineal simple consisten en pares de observaciones (xi, yi) de dos variables
cuantitativas. Ahora tendremos múltiples variables explicativas, por lo que la notación será más
elaborada. Llamaremos xij el valor de la j-ésima variable del i-ésimo sujeto o unidad (i=1,2,...,n ;
j=1,2,...,p). Los datos se pueden organizar de la siguiente forma en una base:
y i 0 1 xi1 2 xi 2 p xip i
para i= 1, 2, ...,n
y 0 1 x1 2 x 2 p x p
Las desviaciones i son independientes y normalmente distribuidas con media 0 y desviación estándar
: i ~ N (0, )
2
Si suponemos que la respuesta media está relacionada con los parámetros a través de la ecuación:
y 0 1 x1 2 x 2 p x p , esto quiere decir que podemos estimar la media de la variable
respuesta a través de la estimación de los parámetros de regresión. Si esta ecuación se ajusta a la
realidad entonces tenemos una forma de describir cómo la media de la variable respuesta y varía con
las variables explicatorias x1 , x 2 , , x p .
Estimación de los parámetros de regresión múltiple.
1
En regresión lineal simple usamos el método de mínimos cuadrados para obtener estimadores del
intercepto y de la pendiente. En regresión lineal múltiple el principio es el mismo, pero necesitamos
estimar más parámetros.
El i-ésimo residuo = ei y i yˆ i
ei yi b0 b1 xi1 b2 xi 2 b p xip
El método mínimos cuadrados elige los valores de los estimadores b0 , b1 , , b p óptimos, es decir,
que hacen la suma de cuadrados de los residuos menor posible. En otras palabras, los parámetros
estimados b0 , b1 , , b p minimizan la diferencia entre la respuesta observada y la respuesta estimada,
lo que equivale a minimizar: y i yˆ i .
2
La fórmula de los estimadores de mínimos cuadrados para regresión múltiple se complica porque
necesitamos notación matricial, sin embargo estamos a salvo si entendemos el concepto y dejaremos a
SPSS hacer los cálculos.
n p 1 n p 1
2
La cantidad (n-p-1) son los grados de libertad asociados con la estimación de la variabilidad: s y x
s 2y / x es entonces el estimador de la variabilidad de la respuesta y, tomando en cuenta las variables
explicatorias xj.
Lo distinguimos de s y2 i
y yi 2 que es la variabilidad de y sin tomar en cuenta las variables
n 1
explicativas xj.
2
Pruebas de significancia e Intervalos de confianza para los coeficientes de regresión
Podemos obtener intervalos de confianza y test de hipótesis para cada uno de los coeficientes de
regresión j como lo hicimos en regresión simple. Los errores estándar de los estadísticos muestrales
b0 , b1 , , b p tienen fórmulas más complicadas, así es que nuevamente dejaremos que SPSS haga su
trabajo.
H0 : j 0
Para docimar la hipótesis H1 : j 0
se usa el test t:
bj
t ~ t ( n p 1)
EE(b j )
Notas:
- Vamos a dejar a SPSS el cálculo del error estándar de b j
- Tendremos entonces un test de hipótesis asociado a cada variable explicatoria en el modelo.
- Podemos realizar hipótesis de una cola, donde H1: j 0 o H1: j 0 , pero lo usual es hacer el
test bilateral.
bj t ( n p 1) EE (b j )
1
2
t
donde 1
es el percentil apropiado de la distribución t con (n-p-1) grados de libertad, EE (b j ) es el
2
error estándar de b j
Si queremos obtener intervalos de confianza para la respuesta media o intervalos de confianza para
futuras observaciones en los modelos de regresión múltiple, las ideas básicas son las mismas que ya
vimos en regresión simple y dejaremos el cálculo a SPSS.
3
Tabla de ANOVA para regresión múltiple
Modelo p SCMod ( yˆ y ) 2
SCMod
p
n SC Re s
Residuo n p 1 SC Re s ( y i yˆ i ) 2 n p 1
i 1
n
SCT y i y
2
Total n 1
i 1
La tabla ANOVA es similar a la de regresión simple. Los grados de libertad del modelo son ahora p en
vez de 1, lo que refleja que ahora tenemos p variables explicatorias en vez de sólo una. Las sumas de
cuadrados representan las fuentes de variación. Recordemos que la suma de cuadrados total es igual a
la suma de los cuadrados del modelo de regresión más la suma de los cuadrados del residuo:
El estimador de la varianza 2 de nuestro modelo está dado por la media cuadrática residual
MCRes=SCRes/(n-p-1)
Estadístico F
La razón entre el cuadrado medio del modelo y el residuo F MCMod MC Re s , permite estimar si
la relación entre las variables explicatorias y la respuesta es significativa. La hipótesis que docima el
test F es:
H 0 : 1 2 p 0
H 1 : al menos un j no es cero
La hipótesis nula dice que ninguna de las variables explicatorias son predictoras de la variable
respuesta. La hipótesis alternativa dice que al menos una de las variables explicatorias está linealmente
relacionada con la respuesta. Como en regresión simple, valores grandes de F nos dan evidencia en
contra de hipótesis nula. Cuando H0 es verdadera, el estadístico F tiene distribución F de Fisher con (p,
n-p-1) grados de libertad. Los grados de libertad están asociados a los grados de libertad del modelo y
del residuo en la tabla ANOVA.
Recordemos que en regresión lineal simple el test F de la tabla ANOVA es equivalente al test t bilateral
para la hipótesis de que la pendiente es cero. Ahora, el test F de regresión múltiple docima la hipótesis de
que todos los coeficientes de regresión (con excepción del intercepto) son cero, hipótesis que no es de
mucho interés. En el problema de regresión múltiple interesan más las hipótesis individuales para cada
parámetro asociado a cada variable explicatoria.
4
Coeficiente de determinación (R2)
SCReg
En regresión lineal simple vimos que el cuadrado del coeficiente de correlación era r 2 y se
SCTotal
podía interpretar como la proporción de la variabilidad de y que podía ser explicada por x. Un
coeficiente similar se calcula en regresión múltiple:
SCMod ( yˆ y )
2
R2
SCTotal yi y 2
Un ejemplo
En educación existe polémica acerca de las notas de los colegios que se creen están infladas. Si no
estuvieran infladas esperaríamos que las pruebas de ingreso a la Universidad estén altamente
correlacionadas con las notas de enseñanza media. Revisemos, con datos de la Prueba de Aptitud
Académica (PAA) del año 2001 en la región del Maule, si podemos explicar las notas de enseñanza
media con la PAA.
Resumen del modelo
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 16400316 3 5466772.0 828.045 .000a
Residual 32660205 4947 6602.023
Total 49060521 4950
a. Variables predictoras: (Constante), Prueba Historia y Geografía, Prueba Aptitud
Matemática, Prueba Aptitud Verbal
b. Variable dependiente: NEM Notas Ens Media
5
Coeficientesa
Coeficientes
Coeficientes no estandarizad Intervalo de confianza para
estandarizados os B al 95%
Límite
Modelo B Error típ. Beta t Sig. Límite inferior superior
1 (Constante) 312.088 5.656 55.179 .000 301.000 323.176
Prueba Aptitud Verbal .153 .019 .176 7.993 .000 .115 .190
Prueba Aptitud
.275 .015 .349 18.133 .000 .245 .304
Matemática
Prueba Historia y
.096 .019 .098 5.049 .000 .059 .133
Geografía
a. Variable dependiente: NEM Notas Ens Media
1. Examine los gráficos de dispersión entre la variable respuesta y versus las variables explicatorias x
para investigar si la relación entre estas variables es lineal y por lo tanto si el modelo es razonable.
A través de este análisis podremos entender mejor la relación entre los datos.
Correlacionesa
Prueba Prueba
NEM Notas Prueba Aptitud Historia y
Ens Media Aptitud Verbal Matemática Geografía
NEM Notas Ens Media Correlación de Pearson 1 .526** .556** .485**
Sig. (bilateral) . .000 .000 .000
Prueba Aptitud Verbal Correlación de Pearson .526** 1 .783** .789**
Sig. (bilateral) .000 . .000 .000
Prueba Aptitud Correlación de Pearson .556** .783** 1 .711**
Matemática Sig. (bilateral) .000 .000 . .000
Prueba Historia y Correlación de Pearson .485** .789** .711** 1
Geografía Sig. (bilateral) .000 .000 .000 .
**. La correlación es significativa al nivel 0,01 (bilateral).
a. N por lista = 4951
6
2. Examine los residuos para verificar los supuestos acerca del término del error. Los residuos deben
ser una muestra aleatoria de una población normal con media 0 y desviación estándar σ. Para
verificar normalidad grafique el histograma de los residuos, este debería aparecer como normal
sin valores extremos. Además debemos revisar los residuos individuales para detectar valores
extremos y/o influyentes. Por último debemos detectar si la distribución de los residuos es al azar
y no hay formas que muestren un problema en el ajuste, o que la varianza no sea constante.
400 .75
300
.50
Prob acum esperada
200
Frecuencia
0 N = 4951.00
-3 -2 -2 -1 -1 -.5 0. . 1. 1 2 2 3 0.00
.0 . . . . 00 50 00 .50 .00 .50 .00
0 50 00 50 00 0 0.00 .25 .50 .75 1.00
7
Diagnósticos por casoa
Re 2
gr
esi 1
ón
Re
0
sid
uo
-1
est
ud
en -2
tiz
ad -3
o
-4
400 500 600 700 800
Usando la salida de SPSS para la regresión múltiple sin la Prueba de Historia y Geografía, analice
como cambia el R2
Colinealidad
Aparte de los supuestos antes mencionados, siempre hay que verificar la presencia de colinealidad. La
colinealidad ocurre cuando dos o más variables explicativas se relacionan entre sí, hasta el punto de
que comunican esencialmente la misma información sobre la variación observada en y. Un síntoma de
la existencia de colinealidad es la inestabilidad de los coeficientes calculados y sus errores estándares.
En particular los errores estándares a menudo se tornan muy grandes; esto implica que hay un alto
grado de variabilidad de muestreo en los coeficientes calculados.
8
Ejemplo:
La Comisión Federal de Comercio (Federal Trade Commission) de Estados Unidos clasifica
anualmente las variedades de cigarrillos según su contenido de alquitrán, nicotina y monóxido de
carbono. Se sabe que estas tres sustancias son peligrosas para la salud de los fumadores. Estudios
anteriores han revelado que los incrementos en el contenido de alquitrán y nicotina de un cigarrillo van
acompañados por un incremento en el monóxido de carbono emitido en el humo de cigarrillo. La base
de datos CO_multiple.sav (en sitio del curso) contiene los datos sobre contenido de alquitrán (en
miligramos), nicotina (en miligramos) y monóxido de carbono (en miligramos) y peso (en gramos) de
una muestra de 25 marcas (con filtro) ensayadas en un año reciente. Suponga que se desea modelar el
contenido de monóxido de carbono, y, en función del contenido de alquitrán, x1, el contenido de
nicotina, x2, y el peso, x3, utilizando el modelo:
E ( y ) 0 1 x1 2 x 2 3 x3
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 495.258 3 165.086 78.984 .000a
Residual 43.893 21 2.090
Total 539.150 24
a. Variables predictoras: (Constante), Peso, Alquitrán, Nicotina
b. Variable dependiente: CO
Coeficientesa
Coeficientes
Coeficientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 3.202 3.462 .925 .365
Alquitrán .963 .242 1.151 3.974 .001
Nicotina -2.632 3.901 -.197 -.675 .507
Peso -.130 3.885 -.002 -.034 .974
a. Variable dependiente: CO
9
CO
Correlacionesa
Selección de modelos
Como regla general, normalmente es preferible incluir en un modelo de regresión sólo las variables
explicativas que ayudan a predecir o explicar la variabilidad observada en la respuesta y, a este modelo
lo llamamos parsimonioso. En consecuencia, si tenemos diversas variables explicativas potenciales,
¿cómo decidir cuáles se deben retener en el modelo y cuáles dejar afuera? Por lo general, la decisión se
toma en base a una combinación de consideraciones estadísticas y no estadísticas. Es fundamental
identificar o conocer cuáles variables podrían ser importantes. Sin embargo, para estudiar cabalmente
el efecto de cada una de estas variables explicativas, sería necesario llevar a cabo análisis por separado
de cada posible combinación de variables. Los modelos resultantes podrían evaluarse enseguida de
acuerdo con algún criterio estadístico. Este es el método más completo, pero también el que ocupa más
tiempo. Si tenemos una gran cantidad de variables explicativas el procedimiento podría no ser factible.
Existen otros métodos paso a paso (stepwise en inglés) que son útiles, pero que hay que usarlos con
cautela porque los resultados pudieran ser dependientes de los datos (la muestra) más que basados en el
conocimiento del problema que estamos estudiando. Entonces la recomendación es buscar un equilibrio
entre la tecnología, el conocimiento que tenemos de las variables y los resultados de la muestra.
Variables indicadoras
Las variables explicativas que hemos considerado hasta este momento se midieron sobre una escala
cuantitativa. Sin embargo, el análisis de regresión puede generalizarse para incluir asimismo, variables
explicativas cualitativas. Por ejemplo, podríamos preguntarnos si las notas en la enseñanza media
pueden ser explicadas además por la dependencia del establecimiento. Para simplificar supongamos
que nos interesa solamente distinguir entre colegios particulares y municipales o subvencionados, esta
variable tendría dos categorías. Puesto que las variables explicativas en un análisis de regresión deben
tomar valores numéricos, designamos a los colegios estatales (municipales y subvencionados) con 1 y a
los colegios particulares con 0. Estos números no representan mediciones reales; sencillamente
identifican las categorías de la variable aleatoria nominal. Debido a que estos valores no tienen
significado cuantitativo, una variable explicativa de esta clase se denomina variable indicadora o
variable muda (en inglés dummy variable).
10
Resumen del modelo
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 17170414 4 4292603.5 665.762 .000a
Residual 31890108 4946 6447.656
Total 49060521 4950
a. Variables predictoras: (Constante), Estatales, Prueba Aptitud Matemática, Prueba
Historia y Geografía, Prueba Aptitud Verbal
b. Variable dependiente: NEM Notas Ens Media
Coeficientesa
Coeficientes
Coeficientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 257.610 7.489 34.397 .000
Prueba Aptitud Verbal .160 .019 .185 8.502 .000
Prueba Aptitud
.285 .015 .363 19.030 .000
Matemática
Prueba Historia y
.117 .019 .120 6.219 .000
Geografía
Estatales 40.086 3.668 .132 10.929 .000
a. Variable dependiente: NEM Notas Ens Media
1. Describir los datos: Descripción numérica de las variables que se van a utilizar en el análisis
Ejemplo de modelo que ajusta las notas de enseñanza media versus las pruebas de aptitud en la región
del Maule el año 2001
11
Tabla del SPSS con descripción de variables cuantitativas:
Estadísticos descriptivos
Desviación
Media típ. N
NEM Notas Ens Media 561.6451 99.55509 4951
Prueba Aptitud Verbal 471.9234 114.74092 4951
Prueba Aptitud
477.4286 126.43221 4951
Matemática
Prueba Historia y
483.8259 101.92995 4951
Geografía
Descripción gráfica:
900
800
700
600
500
400
300
200
100
N= 4951 4951 4951 4951
Nota: En este caso podemos hacer gráficos de caja conjuntos porque todas las variables están medidas
en la misma escala.
- linealidad (y vs x)
- no colinealidad (correlación entre las x)
12
Gráficos de dispersión
Prueba Historia y Ge
Correlacionesa
Prueba Prueba
NEM Notas Prueba Aptitud Historia y
Ens Media Aptitud Verbal Matemática Geografía
NEM Notas Ens Media Correlación de Pearson 1 .526** .556** .485**
Sig. (bilateral) . .000 .000 .000
Prueba Aptitud Verbal Correlación de Pearson .526** 1 .783** .789**
Sig. (bilateral) .000 . .000 .000
Prueba Aptitud Correlación de Pearson .556** .783** 1 .711**
Matemática Sig. (bilateral) .000 .000 . .000
Prueba Historia y Correlación de Pearson .485** .789** .711** 1
Geografía Sig. (bilateral) .000 .000 .000 .
**. La correlación es significativa al nivel 0,01 (bilateral).
a. N por lista = 4951
13
3. Búsqueda del mejor modelo (R2 y test de hipótesis de los coeficientes de regresión).
500
400 .75
300
.50
Prob acum esperada
200
Frecuencia
0 N = 4951.00
-3 -2 -2 -1 -1 -.5 0. . 1. 1 2 2 3 0.00
.0 . . . . 00 50 00 .50 .00 .50 .00
0 50 00 50 00 0 0.00 .25 .50 .75 1.00
14
- Homocedasticidad: Gráfico de residuos vs y estimada
Re 2
gr
esi 1
ón
Re
0
sid
uo
est -1
ud
en -2
tiz
ad -3
o
-4
400 500 600 700 800
15