1 Regresion Multiple

14.
Análisis de regresión lineal múltiple
En capítulos anteriores tratamos el análisis de regresión simple que trata de relacionar una variable
explicativa cuantitativa con una variable respuesta cuantitativa. Todos los elementos de ese capítulo
nos van a servir ahora para continuar con el caso más general y de mayor utilidad práctica, que es la
regresión lineal múltiple. Por regresión lineal múltiple entenderemos el análisis de regresión lineal pero
ahora con más de una variable explicativa.
Datos para regresión múltiple
Los datos para regresión lineal simple consisten en pares de observaciones (xi, yi) de dos variables
cuantitativas. Ahora tendremos múltiples variables explicativas, por lo que la notación será más
elaborada. Llamaremos xij el valor de la j-ésima variable del i-ésimo sujeto o unidad (i=1,2,...,n ;
j=1,2,...,p). Los datos se pueden organizar de la siguiente forma en una base:
1 x11 x12 ... x1p y1

2 x21 x22 ... x2p y2
:
n xn1 xn2 ... xnp yn
Donde n es el número de casos o tamaño muestral y p es el número de variables explicatorias. Esta es

una forma de organizar la base de datos, no importa el orden de las variables.
Modelo de regresión lineal múltiple:
El modelo estadístico de regresión lineal múltiple es:
y i   0   1 xi1   2 xi 2     p xip   i
para i= 1, 2, ...,n
La respuesta media  y  E (Y ) es una función lineal de las variables explicatorias:
 y   0   1 x1   2 x 2     p x p
Las desviaciones  i son independientes y normalmente distribuidas con media 0 y desviación estándar
:  i ~ N (0,  )
2
Los parámetros del modelo son:  0 ,  1 , ,  p y , los coeficiente de regresión y la estimación de la

variabilidad, es decir son en total (p + 2) parámetros.
Si suponemos que la respuesta media está relacionada con los parámetros a través de la ecuación:
 y   0   1 x1   2 x 2     p x p , esto quiere decir que podemos estimar la media de la variable
respuesta a través de la estimación de los parámetros de regresión. Si esta ecuación se ajusta a la
realidad entonces tenemos una forma de describir cómo la media de la variable respuesta y varía con
las variables explicatorias x1 , x 2 , , x p .
Estimación de los parámetros de regresión múltiple.
1
En regresión lineal simple usamos el método de mínimos cuadrados para obtener estimadores del
intercepto y de la pendiente. En regresión lineal múltiple el principio es el mismo, pero necesitamos
estimar más parámetros.
Llamaremos b0 , b1 , , b p a los estimadores de los parámetros  0 ,  1 , ,  p
La respuesta estimada por el modelo para la i-ésima observación es:

yˆ i  b0  b1 xi1  b2 xi 2    b p xip
El i-ésimo residuo es la diferencia entre la respuesta observada y la predicha:
residuo = y observado  yˆ estimado
El i-ésimo residuo = ei  y i  yˆ i
ei  yi   b0  b1 xi1  b2 xi 2    b p xip 
El método mínimos cuadrados elige los valores de los estimadores b0 , b1 , , b p óptimos, es decir,
que hacen la suma de cuadrados de los residuos menor posible. En otras palabras, los parámetros
estimados b0 , b1 , , b p minimizan la diferencia entre la respuesta observada y la respuesta estimada,
lo que equivale a minimizar:   y i  yˆ i  .
2
La fórmula de los estimadores de mínimos cuadrados para regresión múltiple se complica porque
necesitamos notación matricial, sin embargo estamos a salvo si entendemos el concepto y dejaremos a
SPSS hacer los cálculos.
El parámetro  2 mide la variabilidad de la respuesta alrededor de la ecuación de regresión en la

población. Como en regresión lineal simple estimamos  2 como el promedio de los residuos al
cuadrado:
s y2 x  ˆ 2  e 2
i

 y  yˆ i 
i
2
n  p 1 n  p 1
2
La cantidad (n-p-1) son los grados de libertad asociados con la estimación de la variabilidad: s y x
s 2y / x es entonces el estimador de la variabilidad de la respuesta y, tomando en cuenta las variables
explicatorias xj.
Lo distinguimos de s y2   i
 y  yi  2 que es la variabilidad de y sin tomar en cuenta las variables
n 1
explicativas xj.
2
Pruebas de significancia e Intervalos de confianza para los coeficientes de regresión
Podemos obtener intervalos de confianza y test de hipótesis para cada uno de los coeficientes de
regresión  j como lo hicimos en regresión simple. Los errores estándar de los estadísticos muestrales
b0 , b1 , , b p tienen fórmulas más complicadas, así es que nuevamente dejaremos que SPSS haga su
trabajo.
Test de hipótesis para  j :
H0 :  j  0
Para docimar la hipótesis H1 :  j  0
se usa el test t:
bj
t ~ t ( n  p  1)
EE(b j )
Donde EE (b j ) es el error estándar de b j
Notas:
- Vamos a dejar a SPSS el cálculo del error estándar de b j
- Tendremos entonces un test de hipótesis asociado a cada variable explicatoria en el modelo.
- Podemos realizar hipótesis de una cola, donde H1:  j  0 o H1:  j  0 , pero lo usual es hacer el
test bilateral.
Intervalo de confianza para  j :

Un intervalo de confianza ( 1   )*100% para  j está dado por:
bj  t  ( n  p  1) EE (b j )
1
2
t
donde 1
 es el percentil apropiado de la distribución t con (n-p-1) grados de libertad, EE (b j ) es el
2
error estándar de b j
Intervalos de confianza para la respuesta media e intervalos de predicción individual:
Si queremos obtener intervalos de confianza para la respuesta media o intervalos de confianza para
futuras observaciones en los modelos de regresión múltiple, las ideas básicas son las mismas que ya
vimos en regresión simple y dejaremos el cálculo a SPSS.
3
Tabla de ANOVA para regresión múltiple
La tabla de análisis de varianza para la regresión múltiple es la siguiente:

gl SC CM
Fuente de Grados de Suma de Cuadrados Cuadrados
variación libertad Medios
Modelo p SCMod   ( yˆ  y ) 2
SCMod
p
n SC Re s
Residuo n  p 1 SC Re s   ( y i  yˆ i ) 2 n  p 1
i 1
n
SCT    y i  y 
2
Total n 1
i 1
La tabla ANOVA es similar a la de regresión simple. Los grados de libertad del modelo son ahora p en
vez de 1, lo que refleja que ahora tenemos p variables explicatorias en vez de sólo una. Las sumas de
cuadrados representan las fuentes de variación. Recordemos que la suma de cuadrados total es igual a
la suma de los cuadrados del modelo de regresión más la suma de los cuadrados del residuo:
SCT = SCMod + SCRes
El estimador de la varianza  2 de nuestro modelo está dado por la media cuadrática residual
MCRes=SCRes/(n-p-1)
Estadístico F
La razón entre el cuadrado medio del modelo y el residuo F  MCMod MC Re s , permite estimar si
la relación entre las variables explicatorias y la respuesta es significativa. La hipótesis que docima el
test F es:
H 0 : 1   2     p  0
H 1 : al menos un  j no es cero
La hipótesis nula dice que ninguna de las variables explicatorias son predictoras de la variable
respuesta. La hipótesis alternativa dice que al menos una de las variables explicatorias está linealmente
relacionada con la respuesta. Como en regresión simple, valores grandes de F nos dan evidencia en
contra de hipótesis nula. Cuando H0 es verdadera, el estadístico F tiene distribución F de Fisher con (p,
n-p-1) grados de libertad. Los grados de libertad están asociados a los grados de libertad del modelo y
del residuo en la tabla ANOVA.
Recordemos que en regresión lineal simple el test F de la tabla ANOVA es equivalente al test t bilateral
para la hipótesis de que la pendiente es cero. Ahora, el test F de regresión múltiple docima la hipótesis de
que todos los coeficientes de regresión (con excepción del intercepto) son cero, hipótesis que no es de
mucho interés. En el problema de regresión múltiple interesan más las hipótesis individuales para cada
parámetro asociado a cada variable explicatoria.
4
Coeficiente de determinación (R2)
SCReg
En regresión lineal simple vimos que el cuadrado del coeficiente de correlación era r 2  y se
SCTotal
podía interpretar como la proporción de la variabilidad de y que podía ser explicada por x. Un
coeficiente similar se calcula en regresión múltiple:
SCMod  ( yˆ  y )
2
R2  
SCTotal   yi  y  2
Donde R2 es la proporción de la variabilidad de la variable respuesta y que es explicada por las

variables explicatorias x1 ,x 2 , ,x p en la regresión lineal múltiple.
A menudo se multiplica R2 por 100 y se expresa como porcentaje. La raíz cuadrada de R 2 es el
coeficiente de correlación múltiple, es la correlación entre las observaciones y i y los valores
predichos ŷ i .
Coeficiente de determinación (R2) ajustado

Cuando evaluamos un modelo de regresión lineal múltiple nos interesa decidir si una variable dada
mejora la capacidad para predecir la respuesta comparando el R2 de un modelo que contiene la variable,
con el R2 del modelo sin la variable. El modelo con mejor R 2 debería ser el mejor modelo. Pero
debemos ser cuidadosos cuando comparamos los coeficientes de determinación de dos modelos
diferentes. La inclusión de una variable adicional en el modelo nunca provoca la reducción de R 2. Para
manejar este problema, podemos utilizar el R2 ajustado, que ajusta por el número de variables que hay
en el modelo. El R2 ajustado es:
n 1
Ra2  1 
n  ( p  1)
1  R 2 
Un ejemplo
En educación existe polémica acerca de las notas de los colegios que se creen están infladas. Si no
estuvieran infladas esperaríamos que las pruebas de ingreso a la Universidad estén altamente
correlacionadas con las notas de enseñanza media. Revisemos, con datos de la Prueba de Aptitud
Académica (PAA) del año 2001 en la región del Maule, si podemos explicar las notas de enseñanza
media con la PAA.
Resumen del modelo
R cuadrado Error típ. de la

Modelo R R cuadrado corregida estimación
1 .578a .334 .334 81.25283
a. Variables predictoras: (Constante), Prueba Historia y
Geografía, Prueba Aptitud Matemática, Prueba Aptitud Verbal
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 16400316 3 5466772.0 828.045 .000a
Residual 32660205 4947 6602.023
Total 49060521 4950
a. Variables predictoras: (Constante), Prueba Historia y Geografía, Prueba Aptitud
Matemática, Prueba Aptitud Verbal
b. Variable dependiente: NEM Notas Ens Media
5
Coeficientesa
Coeficientes
Coeficientes no estandarizad Intervalo de confianza para
estandarizados os B al 95%
Límite
Modelo B Error típ. Beta t Sig. Límite inferior superior
1 (Constante) 312.088 5.656 55.179 .000 301.000 323.176
Prueba Aptitud Verbal .153 .019 .176 7.993 .000 .115 .190
Prueba Aptitud
.275 .015 .349 18.133 .000 .245 .304
Matemática
Prueba Historia y
.096 .019 .098 5.049 .000 .059 .133
Geografía
a. Variable dependiente: NEM Notas Ens Media
Verificando supuestos en la regresión lineal múltiple
1. Examine los gráficos de dispersión entre la variable respuesta y versus las variables explicatorias x
para investigar si la relación entre estas variables es lineal y por lo tanto si el modelo es razonable.
A través de este análisis podremos entender mejor la relación entre los datos.
Correlacionesa
Prueba Prueba
NEM Notas Prueba Aptitud Historia y
Ens Media Aptitud Verbal Matemática Geografía
NEM Notas Ens Media Correlación de Pearson 1 .526** .556** .485**
Sig. (bilateral) . .000 .000 .000
Prueba Aptitud Verbal Correlación de Pearson .526** 1 .783** .789**
Sig. (bilateral) .000 . .000 .000
Prueba Aptitud Correlación de Pearson .556** .783** 1 .711**
Matemática Sig. (bilateral) .000 .000 . .000
Prueba Historia y Correlación de Pearson .485** .789** .711** 1
Geografía Sig. (bilateral) .000 .000 .000 .
**. La correlación es significativa al nivel 0,01 (bilateral).
a. N por lista = 4951
6
2. Examine los residuos para verificar los supuestos acerca del término del error. Los residuos deben
ser una muestra aleatoria de una población normal con media 0 y desviación estándar σ. Para
verificar normalidad grafique el histograma de los residuos, este debería aparecer como normal
sin valores extremos. Además debemos revisar los residuos individuales para detectar valores
extremos y/o influyentes. Por último debemos detectar si la distribución de los residuos es al azar
y no hay formas que muestren un problema en el ajuste, o que la varianza no sea constante.
Gráfico P-P normal de regresión Residuo tipificado

Histograma de residuos
Variable dependiente: NEM Notas Ens Media
Notas de Enseñanza Media versus PAA 1.00
500
400 .75
300
.50
Prob acum esperada
200
Frecuencia
Desv. típ. = 1.00 .25

100
Media = 0.00
0 N = 4951.00
-3 -2 -2 -1 -1 -.5 0. . 1. 1 2 2 3 0.00
.0 . . . . 00 50 00 .50 .00 .50 .00
0 50 00 50 00 0 0.00 .25 .50 .75 1.00
Regresión Residuo tipificado Prob acum observada
7
Diagnósticos por casoa
NEM Notas Valor

Número de caso Residuo tip. Ens Media pronosticado Residuo bruto
91 3.005 760 515.8015 244.1985
627 3.066 781 531.8782 249.1218
683 -3.035 373 619.6385 -246.6385
Gráfico de residuos versus predichos

4
Re 2
gr
esi 1
ón
Re
0
sid
uo
-1
est
ud
en -2
tiz
ad -3
o
-4
400 500 600 700 800
Regresión Valor pronosticado
Usando la salida de SPSS para la regresión múltiple sin la Prueba de Historia y Geografía, analice
como cambia el R2
Resumen del modelob

1 .575a .331 .331 81.439
a. Variables predictoras: (Constante), Prueba Aptitud
Matemática, Prueba Aptitud Verbal
Colinealidad
Aparte de los supuestos antes mencionados, siempre hay que verificar la presencia de colinealidad. La
colinealidad ocurre cuando dos o más variables explicativas se relacionan entre sí, hasta el punto de
que comunican esencialmente la misma información sobre la variación observada en y. Un síntoma de
la existencia de colinealidad es la inestabilidad de los coeficientes calculados y sus errores estándares.
En particular los errores estándares a menudo se tornan muy grandes; esto implica que hay un alto
grado de variabilidad de muestreo en los coeficientes calculados.
Detección de multicolinealidad en el modelo de regresión

Los siguientes son indicadores de multicolinealidad:
1. Correlaciones significativas entre pares de variables independientes en el modelo.
2. Pruebas t no significativas para los parámetros  individuales cuando la prueba F global del modelo
es significativa.
3. Signos opuestos (a lo esperado) en los parámetros estimados.
8
Ejemplo:
La Comisión Federal de Comercio (Federal Trade Commission) de Estados Unidos clasifica
anualmente las variedades de cigarrillos según su contenido de alquitrán, nicotina y monóxido de
carbono. Se sabe que estas tres sustancias son peligrosas para la salud de los fumadores. Estudios
anteriores han revelado que los incrementos en el contenido de alquitrán y nicotina de un cigarrillo van
acompañados por un incremento en el monóxido de carbono emitido en el humo de cigarrillo. La base
de datos CO_multiple.sav (en sitio del curso) contiene los datos sobre contenido de alquitrán (en
miligramos), nicotina (en miligramos) y monóxido de carbono (en miligramos) y peso (en gramos) de
una muestra de 25 marcas (con filtro) ensayadas en un año reciente. Suponga que se desea modelar el
contenido de monóxido de carbono, y, en función del contenido de alquitrán, x1, el contenido de
nicotina, x2, y el peso, x3, utilizando el modelo:
E ( y )   0   1 x1   2 x 2   3 x3
El modelo se ajustó a los 25 puntos de datos y se adjunta las salidas de SPSS:
Resumen del modelob

1 .958a .919 .907 1.4457
a. Variables predictoras: (Constante), Peso, Alquitrán, Nicotina
b. Variable dependiente: CO
ANOVAb
Suma de Media
1 Regresión 495.258 3 165.086 78.984 .000a
Residual 43.893 21 2.090
Total 539.150 24
a. Variables predictoras: (Constante), Peso, Alquitrán, Nicotina
b. Variable dependiente: CO
Coeficientesa
Coeficientes
Coeficientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 3.202 3.462 .925 .365
Alquitrán .963 .242 1.151 3.974 .001
Nicotina -2.632 3.901 -.197 -.675 .507
Peso -.130 3.885 -.002 -.034 .974
a. Variable dependiente: CO
9
CO
Correlacionesa
CO Alquitrán Nicotina Peso

CO Correlación de Pearson 1 .957** .926** .464*
Sig. (bilateral) . .000 .000 .019
Alquitrán
Alquitrán Correlación de Pearson .957** 1 .977** .491*
Sig. (bilateral) .000 . .000 .013
Nicotina Correlación de Pearson .926** .977** 1 .500*
Nicotina Sig. (bilateral) .000 .000 . .011
Peso Correlación de Pearson .464* .491* .500* 1
Sig. (bilateral) .019 .013 .011 .
Peso
*. La correlación es significante al nivel 0,05 (bilateral).
a. N por lista = 25
Selección de modelos
Como regla general, normalmente es preferible incluir en un modelo de regresión sólo las variables
explicativas que ayudan a predecir o explicar la variabilidad observada en la respuesta y, a este modelo
lo llamamos parsimonioso. En consecuencia, si tenemos diversas variables explicativas potenciales,
¿cómo decidir cuáles se deben retener en el modelo y cuáles dejar afuera? Por lo general, la decisión se
toma en base a una combinación de consideraciones estadísticas y no estadísticas. Es fundamental
identificar o conocer cuáles variables podrían ser importantes. Sin embargo, para estudiar cabalmente
el efecto de cada una de estas variables explicativas, sería necesario llevar a cabo análisis por separado
de cada posible combinación de variables. Los modelos resultantes podrían evaluarse enseguida de
acuerdo con algún criterio estadístico. Este es el método más completo, pero también el que ocupa más
tiempo. Si tenemos una gran cantidad de variables explicativas el procedimiento podría no ser factible.
Existen otros métodos paso a paso (stepwise en inglés) que son útiles, pero que hay que usarlos con
cautela porque los resultados pudieran ser dependientes de los datos (la muestra) más que basados en el
conocimiento del problema que estamos estudiando. Entonces la recomendación es buscar un equilibrio
entre la tecnología, el conocimiento que tenemos de las variables y los resultados de la muestra.
Variables indicadoras
Las variables explicativas que hemos considerado hasta este momento se midieron sobre una escala
cuantitativa. Sin embargo, el análisis de regresión puede generalizarse para incluir asimismo, variables
explicativas cualitativas. Por ejemplo, podríamos preguntarnos si las notas en la enseñanza media
pueden ser explicadas además por la dependencia del establecimiento. Para simplificar supongamos
que nos interesa solamente distinguir entre colegios particulares y municipales o subvencionados, esta
variable tendría dos categorías. Puesto que las variables explicativas en un análisis de regresión deben
tomar valores numéricos, designamos a los colegios estatales (municipales y subvencionados) con 1 y a
los colegios particulares con 0. Estos números no representan mediciones reales; sencillamente
identifican las categorías de la variable aleatoria nominal. Debido a que estos valores no tienen
significado cuantitativo, una variable explicativa de esta clase se denomina variable indicadora o
variable muda (en inglés dummy variable).
10
Resumen del modelo

1 .592a .350 .349 80.29730
a. Variables predictoras: (Constante), Estatales, Prueba Aptitud
Matemática, Prueba Historia y Geografía, Prueba Aptitud
Verbal
ANOVAb
Suma de Media
1 Regresión 17170414 4 4292603.5 665.762 .000a
Residual 31890108 4946 6447.656
Total 49060521 4950
a. Variables predictoras: (Constante), Estatales, Prueba Aptitud Matemática, Prueba
Historia y Geografía, Prueba Aptitud Verbal
Coeficientesa
Coeficientes
Coeficientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 257.610 7.489 34.397 .000
Prueba Aptitud Verbal .160 .019 .185 8.502 .000
Prueba Aptitud
.285 .015 .363 19.030 .000
Matemática
Prueba Historia y
.117 .019 .120 6.219 .000
Geografía
Estatales 40.086 3.668 .132 10.929 .000
Pasos en el análisis de regresión múltiple:
1. Describir los datos: Descripción numérica de las variables que se van a utilizar en el análisis
Ejemplo de modelo que ajusta las notas de enseñanza media versus las pruebas de aptitud en la región
del Maule el año 2001
11
Tabla del SPSS con descripción de variables cuantitativas:
Estadísticos descriptivos
Desviación
Media típ. N
NEM Notas Ens Media 561.6451 99.55509 4951
Prueba Aptitud Verbal 471.9234 114.74092 4951
Prueba Aptitud
477.4286 126.43221 4951
Matemática
Prueba Historia y
483.8259 101.92995 4951
Geografía
Tabla con descripción de variable cualitativa:

Dependencia Frecuencia %
Estatales 4346 87,8
Particular 605 12,2
Total 4951 100,0
Descripción gráfica:
900
800
700
600
500
400
300
200
100
N= 4951 4951 4951 4951
NEM Notas Ens Media Prueba Aptitud Matem

Prueba Aptitud Verba Prueba Historia y Ge
Nota: En este caso podemos hacer gráficos de caja conjuntos porque todas las variables están medidas
en la misma escala.
2. Verificar los supuestos:
- linealidad (y vs x)
- no colinealidad (correlación entre las x)
12
Gráficos de dispersión
NEM Notas Ens Media
Prueba Aptitud Verba
Prueba Aptitud Matem
Prueba Historia y Ge
Correlacionesa
Prueba Prueba
NEM Notas Prueba Aptitud Historia y
Ens Media Aptitud Verbal Matemática Geografía
NEM Notas Ens Media Correlación de Pearson 1 .526** .556** .485**
Sig. (bilateral) . .000 .000 .000
Prueba Aptitud Verbal Correlación de Pearson .526** 1 .783** .789**
Sig. (bilateral) .000 . .000 .000
Prueba Aptitud Correlación de Pearson .556** .783** 1 .711**
Matemática Sig. (bilateral) .000 .000 . .000
Prueba Historia y Correlación de Pearson .485** .789** .711** 1
Geografía Sig. (bilateral) .000 .000 .000 .
a. N por lista = 4951
13
3. Búsqueda del mejor modelo (R2 y test de hipótesis de los coeficientes de regresión).
Modelos R2 Coeficiente Intervalo de confianza
PAV 0,153 (0,115-0,190)

PAM 33,4% 0,275 (0,245-0,304)
PHG 0,096 (0,059-0,133)
PAV 33,1% 0,204 (0,172-0,236)

PAM 0,293 (0,265-0,322)
PAV 0,160 (0,123-0,197)

PAM 35,0% 0,285 (0,256-0,315)
PHG 0,117 (0,080-0,154)
Estatal 40,086 (32,9-47,3)
4. Análisis de supuestos de residuos: Normalidad y Homocedasticidad
- Normalidad: Gráficos de Normalidad y/o Test de Kolmogorov-Smirnov y Shapiro-Wilks
Gráfico P-P normal de regresión Residuo tipificado

Histograma de residuos
Variable dependiente: NEM Notas Ens Media
Notas de Enseñanza Media versus PAA 1.00
500
400 .75
300
.50
Prob acum esperada
200
Frecuencia
Desv. típ. = 1.00 .25

100
Media = 0.00
0 N = 4951.00
-3 -2 -2 -1 -1 -.5 0. . 1. 1 2 2 3 0.00
.0 . . . . 00 50 00 .50 .00 .50 .00
0 50 00 50 00 0 0.00 .25 .50 .75 1.00
Regresión Residuo tipificado Prob acum observada
14
- Homocedasticidad: Gráfico de residuos vs y estimada
Gráfico de residuos versus predichos

4
Re 2
gr
esi 1
ón
Re
0
sid
uo
est -1
ud
en -2
tiz
ad -3
o
-4
400 500 600 700 800
Regresión Valor pronosticado
Nota: Si no se obtiene normalidad u homogeneidad de varianza, se pueden trasformar los datos.
15

1 Regresion Multiple

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

1 Regresion Multiple

Încărcat de

Drepturi de autor:

Formate disponibile

14.

Análisis de regresión lineal múltiple

Datos para regresión múltiple

1 x11 x12 ... x1p y1

Donde n es el número de casos o tamaño muestral y p es el número de variables explicatorias. Esta es

Modelo de regresión lineal múltiple:

El modelo estadístico de regresión lineal múltiple es:

La respuesta media  y  E (Y ) es una función lineal de las variables explicatorias:

Los parámetros del modelo son:  0 ,  1 , ,  p y , los coeficiente de regresión y la estimación de la

Llamaremos b0 , b1 , , b p a los estimadores de los parámetros  0 ,  1 , ,  p

La respuesta estimada por el modelo para la i-ésima observación es:

El i-ésimo residuo es la diferencia entre la respuesta observada y la predicha:

residuo = y observado  yˆ estimado

El parámetro  2 mide la variabilidad de la respuesta alrededor de la ecuación de regresión en la

Test de hipótesis para  j :

Donde EE (b j ) es el error estándar de b j

Intervalo de confianza para  j :

Intervalos de confianza para la respuesta media e intervalos de predicción individual:

La tabla de análisis de varianza para la regresión múltiple es la siguiente:

SCT = SCMod + SCRes

Donde R2 es la proporción de la variabilidad de la variable respuesta y que es explicada por las

Coeficiente de determinación (R2) ajustado

R cuadrado Error típ. de la

Verificando supuestos en la regresión lineal múltiple

Gráfico P-P normal de regresión Residuo tipificado

Desv. típ. = 1.00 .25

Regresión Residuo tipificado Prob acum observada

NEM Notas Valor

Gráfico de residuos versus predichos

Regresión Valor pronosticado

Resumen del modelob

R cuadrado Error típ. de la

Detección de multicolinealidad en el modelo de regresión

El modelo se ajustó a los 25 puntos de datos y se adjunta las salidas de SPSS:

Resumen del modelob

R cuadrado Error típ. de la

CO Alquitrán Nicotina Peso

R cuadrado Error típ. de la

Pasos en el análisis de regresión múltiple:

Tabla con descripción de variable cualitativa:

NEM Notas Ens Media Prueba Aptitud Matem

2. Verificar los supuestos:

NEM Notas Ens Media

Prueba Aptitud Verba

Prueba Aptitud Matem

Modelos R2 Coeficiente Intervalo de confianza

PAV 0,153 (0,115-0,190)

PAV 33,1% 0,204 (0,172-0,236)

PAV 0,160 (0,123-0,197)

4. Análisis de supuestos de residuos: Normalidad y Homocedasticidad

- Normalidad: Gráficos de Normalidad y/o Test de Kolmogorov-Smirnov y Shapiro-Wilks

Gráfico P-P normal de regresión Residuo tipificado

Desv. típ. = 1.00 .25

Regresión Residuo tipificado Prob acum observada

Gráfico de residuos versus predichos

Regresión Valor pronosticado

Nota: Si no se obtiene normalidad u homogeneidad de varianza, se pueden trasformar los datos.

S-ar putea să vă placă și