Sunteți pe pagina 1din 9

LECTURA COMPLEMENTARIA

REGRESIN MULTIPLE
El Anlisis de Regresin Lineal Mltiple nos permite establecer la relacin que se produce
entre una variable dependiente Y y un conjunto de variables independientes (X1, X2, ...Xk).

El anlisis de regresin lineal mltiple, a diferencia del simple, se aproxima ms a situaciones
de anlisis real puesto que los fenmenos, hechos y procesos sociales, por definicin, son
complejos y, en consecuencia, deben ser explicados en la medida de lo posible por la serie de
variables que, directa e indirectamente, participan en su concrecin.

Al aplicar el anlisis de regresin mltiple lo ms frecuente es que tanto la variable
dependiente como las independientes sean variables continuas medidas en escala de
intervalo o razn. No obstante, caben otras posibilidades: (1) tambin podremos aplicar este
anlisis cuando relacionemos una variable dependiente continua con un conjunto de
variables categricas; (2) o bien, tambin aplicaremos el anlisis de regresin lineal mltiple
en el caso de que relacionemos una variable dependiente nominal con un conjunto de
variables continuas.

La anotacin matemtica del modelo o ecuacin de regresin lineal mltiple es la que sigue:
Y = a + b1x1 + b2 x2+ ... + bnxn
En donde:
Y es la variable a predecira, b1, b2...bn, son parmetros desconocidos a estimar.

Al ocuparnos del anlisis lineal de regresin simple, vimos como el modelo final resultante
poda ser calificado de un buen modelo. Sin embargo, en muchas ocasiones los modelos
simples pueden verse mejorados al introducir una segunda (tercera, cuarta,...) variable
independiente o explicativa. Consideramos que un modelo de regresin lineal simple se ha
mejorado cuando al introducir en el mismo ms variables independientes la proporcin de
variabilidad explicada se incrementa. Pero qu variables son las que mejor explican el hecho,
proceso o fenmeno social objeto de estudio?; o, qu variables no son necesario incluir en el
modelo dada su nula o escasa capacidad explicativa? Esta es, sin lugar a dudas, la decisin
ms importante ligada al anlisis de regresin mltiple y la inclusin de este proceso es lo
que diferencia, sustancialmente, al anlisis de regresin mltiple del de regresin simple.



1 [ POLITCNICO GRANCOLOMBIANO ]


La exposicin de esta lectura se estructura en torno a los siguientes puntos, a saber:

1. Determinacin de la bondad de ajuste de los datos al modelo de regresin lineal mltiple.
(R2)
2. Eleccin del modelo que con el menor nmero de variables explica ms la variable
dependiente o criterio.
3. Estimacin de los parmetros de la ecuacin y del modelo o ecuacin predictiva.
4. Exposicin de los pasos y Cuadro de Dilogo del Anlisis de Regresin Lineal (Mltiple) que
podemos seguir para la obtencin de los estadsticos y las pruebas necesarias citadas en
cada uno de los puntos precedentes.
En el anlisis de regresin lineal mltiple la construccin de su correspondiente ecuacin se
realiza seleccionando las variables una a una, paso a paso.

La finalidad perseguida es buscar de entre todas las posibles variables explicativas aquellas
que ms y mejor expliquen a la variable dependiente sin que ninguna de ellas sea
combinacin lineal de las restantes. Este procedimiento implica que:
(1) En cada paso solo se introduce aquella variable que cumple unos criterios de entrada; (2)
una vez introducida, en cada paso se valora si alguna de las variables cumple criterios de
salida;
(3), en cada paso se valora la bondad de ajuste de los datos al modelo de regresin lineal y se
calculan los parmetros del modelo verificado en dicho paso. El proceso se inicia sin ninguna
variable independiente en la ecuacin de regresin y el proceso concluye cuando no queda
ninguna variable fuera de la ecuacin que satisfaga el criterio de seleccin (garantiza que las
variables seleccionadas son significativas) y/o el criterio de eliminacin (garantizar que una
variable seleccionada no es redundante).

1. Verificacin de los criterios de probabilidad de entrada.
El p-valor asociado al estadstico T, o probabilidad de entrada, nos indica si la informacin
proporcionada por cada una de las variables es redundante. Si ste es menor que un
determinado valor crtico, la variable ser seleccionada. El EXCEL por defecto establece en
0.05 el valor crtico de la probabilidad de entrada.

2. Verificacin del criterio de probabilidad de salida.
En este caso, si el p-valor asociado al estadstico T, o probabilidad de salida, es mayor que un
determinado valor crtico, la variable ser eliminada. El EXCEL por defecto establece en 0.1 el
valor crtico de la probabilidad de salida (ntese que con la finalidad de que una variable no
pueda entrar y salir de la ecuacin en dos pasos consecutivos, el valor crtico de la
probabilidad de salida debe ser mayor que el de la probabilidad de entrada). En el caso
prctico que recogemos en los resultados puede apreciarse que las dos variables
independientes han superado los criterios de entrada y de salida.


[ ESTADSTICA INFERENCIAL ] 2

En cada paso, en el que se introduce o elimina una variable, se obtienen los estadsticos de
bondad de ajuste (R, R2, R2 corregido, error tpico de la estimacin), el anlisis de varianza y
la estimacin de parmetros considerando las variables introducidas. El Excel ofrece dos
tablas con esta informacin: en la primera resume los estadsticos de bondad de ajuste y en
la segunda nos presenta el anlisis de varianza. En ellas se comparan los resultados
obtenidos para cada una de las ecuaciones o modelo obtenidos con la secuencia de pasos
utilizados.

A continuacin exponemos los principales elementos a considerar en el anlisis de regresin
mltiple. Recordemos que stos ya se expusieron en el captulo de regresin simple. Aqu
enfatizamos aquellos aspectos que debemos considerar cuando stos son aplicados en el
anlisis de regresin mltiple.

1. Coeficiente de Correlacin Mltiple (Mltiple R).
Mide la intensidad de la relacin entre un conjunto de variables independientes y una
variable dependiente.
2. Matriz de correlacin que establece la relacin entre cada variable independiente con la
variable dependiente, lo ideal que entre las dos variables exista una alta correlacin, o en
otras palabras si se van a descartar variables del modelo se tendran en cuenta aquellas con
una correlacin baja.
3. Anlisis de Varianza
La tabla de anlisis de varianza que incluye en su salida de resultados el Excel permite valorar
hasta qu punto es adecuado el modelo de regresin lineal para estimar los valores de la
variable dependiente. La tabla de anlisis de varianza se basa en que la variabilidad total de la
muestra puede descomponerse entre la variabilidad explicada por la regresin y la
variabilidad residual. La tabla de ANOVA proporciona el estadstico F a partir del cual
podemos contrastar la H0de que R2 es igual a 0, la pendiente de la recta de regresin es igual
a 0, o lo que es lo mismo, la hiptesis de que las dos variables estn incorrelacionadas. Si el p-
valor asociado al estadstico F es menor que el nivel de significacin (normalmente 0.05),
rechazaremos la hiptesis nula planteada. Del mismo modo podremos considerar que los
resultados obtenidos con la muestra son generalizables a la poblacin a la que pertenece la
muestra.

En el caso de anlisis de regresin mltiple la tabla del anlisis de varianza nos indica los p-
valores asociados al estadstico F en cada uno de los modelos generados.
Una vez que ya hemos analizado el carcter e intensidad de la relacin entre las variables,
podemos proceder a estimar los parmetros de la ecuacin de prediccin o de regresin
lineal. En el caso del anlisis de regresin mltiple tendremos tantas ecuaciones como
modelos o pasos hayamos efectuado. De todos ellos elegiremos aquel que mejor se ajuste.



3 [ POLITCNICO GRANCOLOMBIANO ]

ste es el ultimo de los modelos generados.



El criterio para obtener los coeficientes de regresin B0, B1 y B2 es el de mnimos cuadrados.
Este consiste en minimizar la suma de los cuadrados de los residuos de tal manera que la
recta de regresin que definamos es la que ms se acerca ala nube de puntos observados y,
en consecuencia, la que mejor los representa.

Los estadsticos asociados a la variable independiente que a pasado a formar parte del
modelo de regresin simple son:

Coeficiente de regresin B. Este coeficiente nos indica el nmero de unidades que aumentar
la variable dependiente o criterio por cada unidad que aumente la variable independiente.
El valor de la constante coincide con el punto en el que la recta de regresin corta el eje de
ordenadas.

Excel para regresin mltiple

En una hoja de clculo de Excel, ingresa la informacin que utilizars para realizar tu anlisis
de regresin. Puedes ingresar manualmente esa informacin o importar un archivo de otra
fuente, como puede ser un archivo ASCII u otra hoja de clculo.

Aunque la funcin de anlisis de datos est incluida en todas las versiones de Excel, primero
debe desbloquear la herramienta desde el men de complementos e instalarla. Para esto,
abre el programa Excel y da clic en "Herramientas" para que se despliegue un men.
Selecciona "Complementos" y se abrir una ventana ms pequea con una serie de
opciones. En la caja prxima a "Herramientas para anlisis", da clic en "Aceptar". Luego,
aparecer en el men "Herramientas" la opcin "Anlisis de datos" lista para ser utilizada. Si
tienes el Excel 2007, puedes acceder al complemento de anlisis de datos haciendo clic en el
botn de Microsoft Office en el borde superior izquierdo de un libro abierto de Excel. Luego,
da clic en "Opciones de Excel". Esto abre una nueva ventana que muestra opciones en la
columna izquierda. Elige "Complementos", selecciona "Herramientas para anlisis" y haz clic
en "Aceptar". Esto har que la herramienta de anlisis de datos est lista para usar.

Para realizar una regresin mltiple, abre el men de Herramientas y selecciona "Anlisis de
datos" (en el Excel 2007, haz clic en la pestaa "Datos" y, luego, en el botn "Anlisis de
datos").
Ingresa los valores para la variable dependiente (Y) y las independientes (X) haciendo clic en
las celdas y columnas correspondientes de la hoja de clculos. Luego de seleccionar los
rangos de datos para analizar, haz clic en "Aceptar". As se dar inicio al procedimiento y el
programa te mostrar los resultados en una hoja de clculo nueva.


[ ESTADSTICA INFERENCIAL ] 4

Examina la informacin resultante, comenzando por la estadstica de regresin que est en la


parte de arriba. Mira el valor del cuadrante R, el cual te dir qu porcentaje de variabilidad de
la variable dependiente (por ejemplo, salarios promedio) se explica en tu modelo de
regresin. Luego, mira los valores de los coeficientes y las estadsticas T y niveles de
significancia correspondientes. Una estadstica T de 2 o mayor indica significancia estadstica;
esto significa que la relacin entre la variable independiente y la dependiente no se debe al
puro azar.


Ejemplo
El gerente de ventas de un distribuidor grande de partes automotrices desea estimar en el
mes de abril las ventas totales anuales de una regin. Con base en las ventas regionales,
tambin se pueden estimar las ventas totales de la compaa.

Parece que varios factores estn relacionados con las ventas (millones de dlares), como el
nmero de almacenes de descuento que en la regin venden componentes de la compaa,
el nmero de automviles en la regin registrados desde el 1 de abril (millones), el ingreso
por persona del primer trimestre del ao (miles de millones de dlares), la antigedad
promedio de los automviles (aos) y el nmero de supervisores por tienda.

Ingreso
Ventas
No. personal
anules No. Antigedad
Almacenes (miles No de
(millones Automviles promedio
de millones supervisores
de registrados automviles
descuento de
dlare4s)
dlares)
Y X1 X2 X3 X4 X5
37,702 1739 9,27 85,40 3,50 9
24,196 1221 5,86 60,70 5,00 5
32,055 1846 8,81 68,10 4,40 7
3,611 120 3,81 20,20 4,90 5
17,625 1096 10,31 33,80 3,50 7
45,919 2290 11,62 95,10 4,10 13
29,600 1687 8,96 69,30 4,10 15
8,114 241 6,28 16,30 5,90 11
20,116 649 7,77 34,90 5,50 16
12,994 1427 10,92 15,10 4,10 10

Con la matriz de correlacin determine qu variable individual tiene la correlacin ms
fuerte con la variable dependiente?


5 [ POLITCNICO GRANCOLOMBIANO ]


Qu porcentaje de la variacin de las ventas se explica mediante la ecuacin de regresin?
Realice la prueba general de hiptesis para determinar si alguno de los coeficientes de
regresin es diferente de cero con un nivel de significancia del 5%

Realice la prueba de hiptesis para cada variable independiente. Considerara eliminar
tiendas de descuento y supervisores? Utilice un nivel del 5%

Vuelva a correr la regresin sin tiendas de descuento y supervisores. Mejoro el modelo de
regresin?
Interprete los parmetros del nuevo modelo.
a. Con la matriz de correlacin determine qu variable individual tiene la correlacin ms
fuerte con la variable dependiente
Para resolver esta inquietud vamos a Excel, en datos y en anlisis de datos solicitamos el
procedimiento de coeficiente de correlacin.















Obteniendo la matriz de correlacin de cada pareja de variables, como la idea es identificar
cuales de estas variables presentan una alta correlacin con la variable dependiente Y, se
observa que estas variables son X1 y X3









[ ESTADSTICA INFERENCIAL ] 6

b. Qu porcentaje de la variacin de las ventas se explica mediante la ecuacin de regresin?


Para esto en anlisis de datos se busca el procedimiento de regresin:



Y se obtiene la siguiente salida:














El porcentaje de variacin explicado se interpreta con R2 con el mismo criterio que en la
regresin lineal simple. En este caso un valor R2= 0,9888 indica en porcentaje un valor del
98,88% indicando que el modelo de regresin mltiple presenta un buen ajuste para predecir
los valores de Y (ventas).

c. Realice la prueba general de hiptesis para determinar si alguno de los coeficientes de
regresin es diferente de cero con un nivel de significancia del 5%


7 [ POLITCNICO GRANCOLOMBIANO ]

En la tabla de resultados se observa la probabilidad que aparece al frente de cada variable. Si


esta probabilidad es menor al nivel de significancia dado, entonces se dice que los
coeficientes de las variables X2 ,X3, X4 son diferentes de cero, es decir que estas variables son
importantes para el modelo y por lo tanto no se pueden eliminar.

d. Vuelva a correr la regresin sin tiendas de descuento y supervisores. Mejoro el modelo de
regresin ?


















e. Realice la prueba de hiptesis para cada variable independiente. Considerara eliminar
tiendas de descuento y supervisores? Utilice un nivel del 5%

Una vez eliminadas las variables se observa que los valores de la probabilidad son menores
del nivel , por lo tanto las tres variables contribuyen con informacin para explicar las
ventas. Con la eliminacin de tiendas de descuento y de supervisores el modelo de regresin
mltiple mejora las predicciones y el anlisis para las ventas (Y).

f. Interpretacin de las variables en el nuevo modelo:

Para la interpretacin de cada parmetro del modelo se va a utilizar el mismo criterio visto en
el modelo de regresin lineal simple:




[ ESTADSTICA INFERENCIAL ] 8

Ingreso
Ventas
Nmero de personal Antigedad
anules
Automviles (miles promedio
(millones de
registrados millones de automviles
dlare4s)
dlares)
Y X2 X3 X4
Coeficientes -23,851271 1,85596 0,405810 6,50685

Modelo de regresin lineal mltiple:
Y = -23,851271 + 1,85596X2 + 0,405810X3 + 6,50685X4
Para 1,85596 : Por cada automvil registrado las ventas se incrementan en U$1855.960 si las
otras variables permanecen constantes

Para 0,405810: Por cada mil millones de dlares en que aumenta el ingreso personal las
ventas se incrementan en U$405810 si las otras variables permanecen constantes.
Para 6,50685: Por cada ao de antigedad de los automviles, las ventas se incrementan en
U$6506.850 si las otras variables permanecen constantes.


BIBLIOGRAFA

FREUND, John E., MILLER, Irwin y MILLER, Marylees. Estadstica Matemtica con
aplicaciones. 6ed. Madrid Prentice Hall, 2000.
GUTIERREZ, Humberto y DE LA VARA, Romn. Control estadstico de Calidad y Seis Sigma
(6s). Mxico: McGraw-Hill, 2005.
KENNET, Ron S., y ZACKS, Shelemyahu. Estadstica Industrial Moderna. Barcelona, Thomson,
2000.
MONTGOMERY, Douglas C. y RUNGER, George C. Probabilidad y Estadstica aplicadas a la
Ingeniera. 2ed. Mxico: Limusa, 2002.
NEWBOLD. Paul. Estadstica para los Negocios y la Economa. 4ed. Madrid Prentice Hall,
1988.
WALPOLE Ronal, E., MYERS, Raymond H. y MYERS, Sharon L. Probabilidad y Estadstica para
Ingenieros. 6ed. Madrid Prentice Hall, 1998.


9 [ POLITCNICO GRANCOLOMBIANO ]

S-ar putea să vă placă și