Sunteți pe pagina 1din 38

UNIVERSIDAD DE LA SERENA FACULTAD DE INGENIERIA DEPARTAMENTO DE INGENIERIA INDUSTRIAL ANLISIS MULTIVARIADO

ANLISIS DE REGRESIN LINEAL

INTEGRANTES: ELAS JORDAN CORTS CATHERINE PIZARRO ARAYA FECHA: 26/JUNIO/2012

ANLISIS MULTIVARIADO NDICE


1. Introduccin........................................................................................................................... 4 2. Objetivos ................................................................................................................................ 5 3. Correlacin..6 3.1 Covarianza ......................................... 6 3.1.1 Propiedades ................................................................................................................. 6 3.2 Coeficiente de correlacinlineal de Pearson..7 3.2.1 Propiedades..7 3.3 Ejemplo N1..8 3.4 Inferencia sobre el coeficiente de correlacin..9 3.4.1 Prueba de hiptesis...............10 3.4.2 Deduccin para encontrar el estadstico..10 3.4.3 Estadstico de la prueba de hiptesis..10 3.5 Ejemplo N211 3.6 Interpretacin del coeficiente de correlacin.12 4. Modelo de regresin lineal simple14

4.1 Supuesto del modelo15 4.1.1 Observaciones.16 4.2 Bondad de ajuste de los datos al modelo de regresin lineal simple17 4.3 Estimacin de los parmetros19 4.4 Mnimos cuadrados ordinarios.19 4.5 Ejemplo N321 4.6 Capacidad explicativa de una ecuacin de regresin lineal..23 4.7 Coeficiente de determinacin24 4.8 Prueba de dependencia ANOVA en regresin25 4.9 Inferencia de regresinlineal simple27 5. Regresin lineal mltiple.30 5.1 Supuestos del modelo.31 5.2 Formulacin matricial..32 5.3 Ejemplo N433 5.4 Estimacin de la varianza.35

2|Pgina

ANLISIS MULTIVARIADO
5.5 Significacin de regresin.35 5.6 Propiedades de estimadores de mnimoscuadrados...35 5.7 Inferencias sobre los parmetros36 6. Conclusin.37 7. Referencias..38

3|Pgina

ANLISIS MULTIVARIADO

1. INTRODUCCIN
En este apartado se definen yexplican los conceptos bsicos de correlacin, regresin lineal simple y regresin lineal mltiple. Seexplica cmo opera y cmo se debe aplicar un modelo, as como la interpretacin de la informacin obtenida.

Se sabe que existe una relacin entre una variable denominada dependiente y otras denominadas independientes (como por ejemplo las existentes entre: la experiencia profesional de los trabajadores y sus respectivos sueldos, las estaturas y pesos de personas, la produccin agraria y la cantidad de fertilizantes utilizados, etc.), puede darse el problema de que la dependiente asuma mltiples valores para una combinacin de valores de las independientes. La dependencia a la que se hace referencia es relacional matemtica y no necesariamente de causalidad. As, para un mismo nmero de unidades producidas, pueden existir niveles de costo, que varan empresa a empresa. Si se da ese tipo de relaciones, se suele recurrir a los estudios de regresin en los cuales se obtiene una nueva relacin pero de un tipo especial denominado funcin, en la cual la variable independiente se asocia con un indicador de tendencia central de la variable dependiente. Cabe recordar que en trminos generales, una funcin es un tipo de relacin en la cual para cada valor de la variable independiente le corresponde uno y slo un valor de la variable dependiente.

4|Pgina

ANLISIS MULTIVARIADO

2. OBJETIVOS

Medir la magnitud de las correlaciones lineales entre dos variables Aplicar e interpretar correctamente el concepto de modelo de regresin lineal

Utilizar las tcnicas estadsticas para verificar los supuestos del modelo

Proponer soluciones a problemas previamente identificados, mediante mtodos de regresin

5|Pgina

ANLISIS MULTIVARIADO

3. CORRELACIN
El concepto de correlacin, es fundamental en el anlisis de regresin y describe la relacin entre dos variables. Se dice que dos variables estn correlacionadas si los cambios de una variable estn asociados con los cambios en la otra variable. Este coeficiente de Correlacin solo toma valores numricos entre -1 y +1. Correlacin y covarianza son trminos conceptualmente equivalentes, expresan lo mismo. La covarianza es tambin una medida de relacin, lo mismo que el coeficiente de correlacin. Habitualmente se utiliza el coeficiente de correlacin de Pearson, pero es til entender simultneamente qu es la covarianza. 3.1. COVARIANZA La covarianza entre dos variables mide el signo de la asociacin entre las fluctuaciones queexperimentan ambas. Esencialmente, nos dice si, cuando una de ellas est por encima de su valor de referencia, la otra variable tiende a estar por encima o por debajo de la misma. Adems, puede tomar cualquier valor, positivo o negativo. Sean X e Y dos variables aleatorias cuyos promedios son E(X)y E(Y), y cuyas varianzas son Var(X) y Var(Y) respectivamente. Se define la covarianza entre las variables aleatorias X e Ypor la siguiente expresin: (, ) = (( ()) (( ())] = ] ()() Escrito de otra forma; (, ) = 3.1.1 PROPIEDADES ( )( ) =

a. Para 2 variables aleatorias X e Y se tiene lo siguiente:


+ = + + 2 , = + 2 ,

b. Si X e Y son variables aleatorias independientes, entonces: () y por lo tanto , = 0. En consecuencia en las formulas anteriores, resuta que:
+ = + = +

c. Si , > 0, entonces Y tiende a incrementarse cuando se incrementa X. Por otro lado, Y tiende a disminuir cuando disminuye X. d. Si , < 0, entoces Y tiende a disminuir cuando se incrementa X. Adems para valores bajos de X se aumentan los valores de Y.

6|Pgina

ANLISIS MULTIVARIADO
3.2. COEFICIENTE DE CORRELACIN LINEAL DE PEARSON El coeficiente de correlacin de Pearson es un ndice que mide el grado de covariacin entre distintas variables relacionadas linealmente. El coeficiente de correlacin de Pearson es un ndice de fcil ejecucin e interpretacin. Si las variables aleatorias cuantitativas X e Y, se denominan independientes y dependientes respectivamente. Y sea un parmetro desconocido poblacional del coeficiente lineal de Pearson: (, ) = (, ) (( )) (()) = [ ()] ()]] ( ( ()) ] ( ()) ])

El coeficiente de correlacin de Pearson (, ) se debe estimar a partir de datos muestrales ( , ), ( , ), , ( , ), obtenindose el coeficiente de correlacin muestral r(X,Y): (, ) = (, ) = ( ) ] ( ) ] 2

Este coeficiente es til como una medida descriptiva de la intensidad de la relacin lineal en una muestra de n pares de ( , ), con i=1, 2, 3,.,n. 3.2.1 PROPIEDADES

a. , b. , = La correlacin lineal es positiva c. , = La correlacin lineal es negativa d. , = 0 No existe asociacin lineal entre las variables

7|Pgina

ANLISIS MULTIVARIADO
3.3. EJEMPLO N1 La tabla muestra las alturas con aproximacin de pulgada y los pesos con aproximacin de libra de una muestra aleatoria de tamao 12 estudiantes extrados al azar de entre los estudiantes de primer ao de universidad. Se pide determinar el coeficiente de correlacin. Altura X Peso Y 70 63 72 60 66 70 74 65 62 67 65 68 155 150 180 135 156 168 178 160 132 145 139 152

Solucin: Conociendo el valor de n=12 y utilizando la siguiente tabla, se resuelve el problema de determinar r(x,y), recin mencionada en la Ecuacin 2.

70 63 72 60 66 70 74 65 62 67 65 68 802

155 150 180 135 156 168 178 160 132 145 139 152 1850

4900 3969 5184 3600 4356 4900 5476 4225 3844 4489 4225 4624 53792

24025 22500 32400 18225 24336 28224 31684 25600 17424 21025 19321 23104 287868

10850 9450 12960 8100 10296 11760 13172 10400 8184 9715 9035 10336 124258

Por lo tanto, aplicando la ecuacin resulta que r(x,y)= 0,8632

8|Pgina

ANLISIS MULTIVARIADO
3.4. INFERENCIAS SOBRE EL COEFICIENTE DE CORRELACIN Un coeficiente de correlacin se dice que es significativo si se puede afirmar, con una cierta probabilidad, que es diferente de cero. Ms estrictamente, en trminos estadsticos, preguntarse por la significacin de un cierto coeficiente de correlacin no es otra cosa que preguntarse por la probabilidad de que tal coeficiente proceda de una poblacin cuyo valor sea de cero. A este respecto se tienen dos hiptesis posibles: ( , ) = 0 El coeficiente de correlacin obtenido procede de una poblacin cuya correlacin es cero: = 0. ( , ) = 0 El coeficiente de correlacin obtenido procede de una poblacin cuyocoeficiente de correlacin es distinto de cero: 0.

Desde el supuesto de la hiptesis nula se demuestra que la distribucin muestral decorrelaciones procedentes de una poblacin caracterizada por una correlacin igual a cero = 0, sigue una distribucin T- student con n-2 grados de libertad, de media el valor poblacional y desviacin del tipo: = ( , ) 2

En consecuencia, dado un cierto coeficiente de correlacin r(x,y) obtenido en unadeterminada muestra se trata de comprobar si dicho coeficiente es posible que se encuentredentro de la distribucin muestral especificada por la Hiptesis nula. A efectosprcticos, se calcula el nmero de desviaciones tipo que se encuentra el coeficienteobtenido del centro de la distribucin, segn el pivot, siempre y cuando que X e Y tengan distribucin normal conjunta. = ( , )
( , )

Y se compara el valor obtenido con el existente en las tablas para un cierto nivel de significacin y n-2 grados de libertad que como se sabe, marca el lmite (baja probabilidad de ocurrencia, segn la Hiptesis nula) de pertenencia de un cierto coeficiente r(x,y) a la distribucin muestral de correlaciones procedentes de una poblacin con = 0. De esta forma si:

9|Pgina

ANLISIS MULTIVARIADO
< Se acepta la hiptesis nula. La correlacin obtenida no procede de = 0. Por tanto ambas variables no estn relacionadas.

una poblacin cuyo valor >

Se rechaza la hiptesis nula. La correlacin obtenida no procede = 0. Por tanto las variables estn relacionadas.

de una poblacin cuyo valor

3.4.1 PRUEBA DE HIPTESIS : = v/s :

> <

3.4.2 DEDUCCIONES PARA ENCONTRAR ELESTADSTICO = ( + ( , ) ) ( , ) = ( + ) ( )

2 =

3.4.3 ESTADSTICO DE LA PRUEBA DE HIPTESIS = (0 )

10 | P g i n a

ANLISIS MULTIVARIADO
3.5. EJEMPLO N2 Tengamos las siguientes puntuaciones en las variables X: inteligencia e Y: rendimiento acadmico. X 105 116 103 124 137 126 112 129 118 105 Y 4 8 2 7 9 9 3 10 7 6 Se pide calcular el coeficiente de correlacin y su significacin. Adems, se pide contrastar el siguiente test de hiptesis al 5% de significacin. = 0, > 0, Solucin: Con los procedimientos del problemaanterior, se obtiener(x,y) de manera sencilla, este valor es r(x,y)=0,8327. Para determinar la significacin se debe aplicar la ecuacin 3 y queda que el pivot es = ,2 . Se requiere buscaren la tabla de T- Student para = 0.05 y 10-2 = 8 grados de libertad tal como se observa a continuacin donde se muestra un fragmento de dicha tabla:

El valor marcado con una elipse es ( , ) = 2,306 Comparamos el valor t obtenido con el de las tablas:4,253 >2,306 Se rechaza la hiptesis nula con un riesgo (mximo) de equivocarnos de 0.05. La correlacin obtenida no procede de una poblacin caracterizada por una correlacin de cero. Se concluye que ambas variables estn relacionadas. Ahora, realizamos el test de hiptesis utilizando las ecuaciones 4, 5, 6 y 7 y se obtiene: = ( + ( , ) )= ( , ) 2 ( + 0, 2 ) )= 0, 2 ,

11 | P g i n a

ANLISIS MULTIVARIADO
= ( + )= ( + 0, ) = 0, 0, = 0, 0

==

= ,

0 0, 0, 0

= 0,

20

Y como la regin critica es

= ,

. No se rechaza la hiptesis nula.

3.6. INTERPRETACIN DEL COEFICIENTE DE CORRELACIN Como se ha indicado el coeficiente de correlacin de Pearson es un ndice cuyosvalores absolutos oscilan entre 0 y 1. Cuanto ms cerca de 1 mayor ser la correlacin, ymenor cuanto ms cerca de cero. Pero como se interpreta el coeficiente determinado. Por ejemplo: Qu significa un coeficiente de correlacin de 0.6?.No puede darse una respuesta precisa.Depende en gran parte de la naturaleza de la investigacin. Una correlacin de 0.6 sera baja si se trata de la fiabilidad de un cierto test, pero sin embargo, sera alta si se esthablando de su validez. No obstante, se intenta abordar el tema desde dos perspectivas distintas. Por unlado, ya ha sido tratado desde la perspectiva de la significacin estadstica mencionadaen el apartado anterior. Desde este enfoque una correlacin es efectiva si puede afirmarseque es distinta de cero. Pero ha de decirse que una correlacin significativa nonecesariamente ha de ser una correlacin fuerte; simplemente es una correlacindiferente de cero. O en otros trminos, es una correlacin que es poco probable queproceda de una poblacin cuya correlacin es cero. Tan solo se est diciendo que se haobtenido "algo" y que ese "algo" es (probablemente) ms que "nada". Lasignificacin de r(x,y) depende en gran medida del tamao de la muestra, una correlacin de 0.01 puede ser significativa en una muestrasuficientemente grande y otra de 0.9 no serlo en una muestra pequea. Aqu secumple la ley de los grandes nmeros; tendencias dbiles son muy improbables, desdela hiptesis nula, en grandes masas de datos, mientras que tendencias fuertes puedenser relativamente probables en un tamao pequeo de muestra. Ms inters tiene la interpretacin del coeficiente de correlacin en trminos deproporcin de variabilidad compartida o explicada, donde se ofrece una idea
12 | P g i n a

ANLISIS MULTIVARIADO
mscompleta de la magnitud de la relacin. Nos referimos al coeficiente de determinacin. Dichocoeficiente se define como el cuadrado del coeficiente de correlacin; esto es, dada dosvariable X e Y, hace referencia a ( , ), y se entiende como una proporcin de variabilidades. Por ejemplo, si la correlacin entre inteligencia yrendimiento acadmico es de 0.8, significa que 0.82 = 0.64 es la proporcin de varianzacompartida entre ambas variables. Puede interpretarse como que un 64% delrendimiento acadmico es debido a la inteligencia -variabilidad explicada-, o bien, y estoes ms exacto si hemos de ser estrictos, que inteligencia y rendimiento acadmicocomparten un 64% de elementos, o lo que es lo mismo, tanto la inteligencia como elrendimiento ponen en juego un 64% de habilidades comunes. En estas circunstancias, si tomamos como variable dependiente o a explicar elrendimiento acadmico y elegimos la inteligencia como variable explicativa, tendremos que tal variable da cuenta de un 64% de la variabilidad en rendimiento. Queda 1-0.64=0.36, un 36% del rendimiento que queda sinexplicar. A este valor (0.36) se le denomina coeficiente de no determinacin o coeficientede alienacin, y se define como 1 ( , ). Un trmino ms adecuado y que proporcionamayor compresin es el de proporcin de variabilidad no explicada. Siincrementsemos el nmero variables explicativas con otras variables como lamotivacin o la personalidad probablemente logremos aumentar la proporcin devariabilidad explicada en rendimiento, obteniendo, si es eso lo que nos interesa, un 15 mayor control en la variable a predecir. De esto nos ocuparemos cuando tratemosla correlacin mltiple. El planteamiento de la correlacin en trminos de proporcin variabilidad es, en nuestraopinin, la forma ms comprensiva de afrontar la correlacin lineal. Si acordamos quela variable dependiente Y corresponde a un cierto aspecto de la conducta que deseamosconocer, y definimos su variabilidad total, se trata de encontrar un conjunto de variables , , ,que absorban de Y un gran porcentaje de su variabilidad. De esta forma,interviniendo sobre el conjunto de variables independientes podremos dar cuenta de loque sucede en Y, y modificarlo, si fuera el caso.

13 | P g i n a

ANLISIS MULTIVARIADO

4. MODELO DE REGRESIN LINEAL SIMPLE


Cuando hablamos de regresin lineal simple, nos referimos a larelacin entre una variable esperada y una variable respuesta,ambas de carcter cuantitativo continuo. El modelo de regresinlineal es el ms utilizado y por ser el matemticamente mssimple facilita entender otros modelos de regresin ms generales. El modelo se define por la siguiente expresin: = + + Donde: Y = Variable Respuesta, = Intercepto, = Pendiente, X = Variable esperada = componente aleatoria que representa la parte atribuible aelementos distintos al valor observado de X.Si en n unidades de observacin, independientes entre s, hemospodido registrar los valores (x, y) podremos estimar los coeficientesde la ecuacin 8 recurriendo a las funciones: ( )( ) = ( ) = Donde: : Valor de Y para cada observacin : Valor de X para cada una de las observaciones : Valor promedio de la respuesta Y : Valor promedio de la variable X La expresin calcula la pendiente muestral de la recta deregresin lineal. La expresin es el intercepto muestral, esdecir, el valor de Y cuando X es igual a cero. Luego, podremos estimar para cada X un valor predicho para Y: =+

14 | P g i n a

ANLISIS MULTIVARIADO
4.1. SUPUESTOS DEL MODELO En estadstica todos los modelos utilizados tienen supuestos dedistinta naturaleza y la regresin no es la excepcin. Siempre queuno haya estimado un modelo de regresin, deber asegurarseque los supuestos requeridos se cumplen; en caso contrario, loserrores de interpretacin a que podemos ser conducidos sernmuy graves. Procedimientos adecuados para evaluar objetivamenteel cumplimiento de estas condiciones y posibles accionesde correccin para el caso de que no se cumplan abundan en laliteratura estadstica. El modelo de regresin lineal tiene como supuestos: 1. La variable respuesta Y tiene distribucin condicional (es decirpara cada valor X=x) que es normal. Esto equivale a decir quelos residuos deben tener distribucin de probabilidad normal. = ] = + 2. La varianza constante u Homocedasticidad (es decir para cada valor X=x) de lavariable respuesta debe ser constante. Esto equivale a decir losresiduos tienen varianza constante para todos los valores de X. ( = ) = 3. Los valores de la respuesta deben ser probabilsticamenteindependientes. Es decir, los residuos correspondientes adistintas observaciones deben ser no correlacionados. 4. Ausencia de auto correlacin: adems, suponemos que los trminos de error correspondientes a dos observaciones muestrales cualesquiera, que son dos variables aleatorias diferentes, son estadsticamente incorrelacionadas.

Un elemento importante a considerar al aplicar un modelo deregresin lineal es que la variable respuesta debe ser una variablecuantitativa continua. En ocasiones, es posible aplicar el modeloa variables cuantitativas discretas, en el caso de escalas depuntaje de gran amplitud.

15 | P g i n a

ANLISIS MULTIVARIADO
4.1.1 OBSERVACIONES

Si x=0 entonces = 0 = 0+ = y por lo tanto el valor esperado de Y cuando la variable independiente X toma el valor cero es igual a

Si X se incrementa desde el valor x hasta el valor x+1, se tendr que: = + = = + + + =


Por lo tanto (pendiente de la recta) representa el cambio esperado en la variable respuesta Y por un incremento unitario en la variable independiente X.

Ahora, supongamos que la variable independiente X toma el valor esperado de la variable dependiente Y ser: = = ]= +

. Entonces el valor

Dado que > 0, el valor observado de la variable Y se desviara, casi inevitablemente, de su valor esperado = ]. Esta diferencia entre ambos valores la representamos por una variable aleatoria se tendr que: =
La ecuacin =

= =

] = (

+ + se denomina recta de regresin poblacional de Y sobre X, donde y son los parmetros del modelo y es una variable aleatoria que satisface los siguientes supuestos: a. Los errores tienen valor esperado igual a cero, esto es: ( ) = 0 b. Los errores tienen la misma varianza, es decir se cumple con la Homocedasticidad, esto es: ( ) = . Sin embargo, si no se cumple este supuesto entonces el modelo es heterocedastico y se requiere para su solucin estimar los parmetros mediante mnimos cuadrados ponderados. c. Los errores , , , , son independientes o bien no estn correlacionadas d. Los errores estn distribuidos como una variable aleatoria continua normal
16 | P g i n a

ANLISIS MULTIVARIADO
4.2. BONDAD DE AJUSTE DE LOS DATOS AL MODELO DE REGRESIN LINEALSIMPLE

Antes de poder aplicar el modelo de regresin lineal simple para predecir los valores que alcanzar una determinada variable, debemos certificar que los datos a los que sometemos a dicho anlisis se ajustan al modelo de regresin lineal simple; o lo que es lo mismo, debemos analizar el grado de asociacin lineal entre la variable dependiente y la independiente as como determinar la proporcin de variabilidad de la variable dependiente explicada por la independiente. Los principales estadsticos y pruebas que nos permiten valorar la bondad de ajuste de los datos al modelo de regresin lineal simple son: 1. Coeficiente de Correlacin Lineal Se vio en el apartado anterior. 2. Coeficiente de Determinacin Ajustado Pese a que se viene utilizando como medida de ajuste al modelo, presenta el inconveniente de que a medida que vamos incrementando el nmero de variables que participan en el modelo mayor es su valor de ah que la sobrestime el verdadero de la poblacin. Por esta razn, algunos autores recomiendan utilizar el Coeficiente de Determinacin Ajustado pues ste no aumenta, necesariamente, a medida que aadimos variables a la ecuacin. Este estadstico queda ajustado por el nmero de observaciones y el nmero de variables independientes incluidas en la ecuacin. Al aadir una variable explicativa adicional a un modelo de regresin, la capacidad explicativa de ste no puede disminuir. Si se asigna un coeficiente cero a dicha variable, la capacidad explicativa del nuevo modelo sera, evidentemente, idntica a la del modelo que no incorpora adicha variable. Como al estimar por mnimos cuadrados buscamos la menor Suma de Cuadrados deresiduos posibles, sta deber ser, como mximo, igual a la del modelo sin la variable explicativa.En general, ser siempre inferior, ya sea por poco o por mucho. En consecuencia, el coeficiente de determinacin nunca disminuye al aadir variables explicativasa un modelo de regresin. Por tanto, no est justificado comparar los valores del estadstico de unmodelo con el que se obtiene al aadir nuevas variables explicativas, puesto que ste ltimo siempreser superior. Para hacerlos comparables, se introduce una correccin en el clculo del coeficiente de determinacin: = ( )

17 | P g i n a

ANLISIS MULTIVARIADO
Como se ve, al aadir variables explicativas, el primer factor de la derecha siempre se reducir,mientras que el segundo factor aumentar. Si el aumento en el coeficiente de determinacin essuficientemente importante, predominara este efecto, y preferiremos el modelo ampliado, mientrasque lo contrario suceder si dicho aumento no es muy notable. Por otra parte, si el nmero de observaciones, n es muy elevado, entonces el segundo factor ser prcticamente igual a 1, y el efecto sobre l de incrementar en uno el nmero de variables explicativasser imperceptible, por lo que siempre preferiramos el modelo con ms variables explicativas, loque no parece muy razonable. Recordemos que el coeficiente de determinacin corregido se define: = ( )

Si el coeficiente de determinacin estndar es muy pequeo, el coeficiente de determinacin corregidopuede ser negativo. En efecto, es fcil ver en la expresin que lo define que si < ( ), entonces < 0.

3. Error Tpico de Prediccin El error tpico de la prediccin es la parte de la variable dependiente que dejamos de explicar ya sea porque nos falte alguna variable por introducir, o bien, porque las variables que hemos elegido no son ms las adecuadas. Su clculo se establece a partir de la desviacin tpica de la variable dependiente y el coeficiente de determinacin ajustado.

4. Anlisis de Varianza La tabla de anlisis de varianza nos permite valorar hasta qu punto es adecuado el modelo de regresin lineal para estimar los valores de la variable dependiente. La tabla de anlisis de varianza se basa en que la variabilidad total de la muestra puede descomponerse entre la variabilidad explicada por la regresin y la variabilidad residual. La tabla de ANOVA proporciona el estadstico F a partir del cual podemos contrastar la de que es igual a 0, la pendiente de la recta de regresin es igual a 0, o lo que es lo mismo, la hiptesis de que las dos variables estn incorrelacionadas. Si el valor asociado al estadstico F es menor que el nivel de significacin (normalmente 0.05), rechazaremos la hiptesis nula planteada.

18 | P g i n a

ANLISIS MULTIVARIADO
4.3. ESTIMACIN DE LOS PARMETROS Una vez que ya hemos analizado el carcter e intensidad de la relacin entre las variables, podemos proceder a estimar los parmetros de la ecuacin de prediccin o de regresin lineal. El criterio para obtener los coeficientes de regresin y es el de mnimos cuadrados. Este consiste en minimizar la suma de los cuadrados de los residuos de tal manera que la recta de regresin que definamos es la que ms se acerca a la nube de puntos observados y, en consecuencia, la que mejor los representa.

4.4. ESTIMACIN DE LOS PARMETROS (MNIMOS CUADRADOS ORDINARIOS) El mtodo de mnimos cuadrados ordinarios consiste en hacer mnima la suma de los cuadradosresiduales, es decir lo que se debe hacer es hallar los estimadores que hagan que esta suma sea lo mspequea posible.

Un procedimiento para estimar los parmetros de cualquier modelo lineal, es el mtodo

de mnimos cuadrados, se puede ilustrar cono solo ajustar una recta a un conjunto de puntos. Suponer que se desea ajustar el modelo () = +

Al conjunto de puntos que se muestra en la figura. Esto es, se postula que = + + , donde tiene alguna distribucin de probabilidad con ( ) = 0. Si y son = + es claramente un estimadores de los parmetros y , entonces estimador de E(Y). El procedimiento de mnimos cuadrados para ajustar una recta que pase por un conjunto de n puntos es semejante al mtodo de se podra usar si se ajusta una recta a simple vista; esto es, deseamos que las diferencias entre los valores observados y los puntos
19 | P g i n a

ANLISIS MULTIVARIADO
correspondientes en la recta ajustada sean pequeas en un sentido general. Una forma cmoda de lograresto y queproporciona estimadores con buenas propiedades, es minimizar la suma de los cuadrados de las desviaciones verticales a partir de la recta ajustada. Entonces si = + Es el valor pronosticado del i-esimo valor y (cuando x= ), entonces la desviacin del valor observado de a partir de = + es la diferencia y la suma de los cuadrados de las desviaciones a minimizar es

= ( ) = ( + )] La cantidad de SSE tambin recibe el nombre de suma de los cuadrados del error. Si la SSE tiene un mnimo, ocurrir para valores de

que satisfagan las ecuaciones,

=0

= 0. Tomando las derivadas parciales de la SSE con respecto a y e igualando

a cero, obtenemos = { ( + )] } = 2 ( + )]

= 2 ( Y = {

)=0

( + )] } = 2 ( + )]

= 2 (

)=0

20 | P g i n a

ANLISIS MULTIVARIADO
Las ecuaciones =0 Y = 0 se denominan ecuaciones de mnimos cuadrados

para estimar los parmetros de una recta. Las ecuaciones de mnimos cuadrados son lineales en y y por tanto pueden resolverse simultneamente. Las soluciones son = ( )( ) = ( ) ( )

= Resumiendo 1. = , donde = ( )( ) y = ( )

2. =

4.5. EJEMPLO N3 Usar el mtodo de mnimos cuadrados para ajustar una recta a los n=5 puntos de datos dados en la siguiente tabla X -2 -1 0 1 2 Y 0 0 1 1 3

21 | P g i n a

ANLISIS MULTIVARIADO
Solucin: se comienza el clculo de las estimaciones de mnimos cuadrados para la pendiente y puntos de interseccin de la recta ajustada construyendo la tabla que sigue

-2 -1 0 1 2 0

0 0 1 1 3 5

0 0 0 1 6 7

4 1 0 1 4 10

Usando los resultados anteriores se obtiene = = ( ) = (0)( ) 0 (0) = 0,

= = Por lo tanto la recta ajustada es = + 0,

(0, )(0) =

4.6. CAPACIDAD EXPLICATIVA DE UNA ECUACIN DE REGRESIN LINEAL


22 | P g i n a

ANLISIS MULTIVARIADO

Una ecuacin de regresin puede considerarse como un intento de utilizar lainformacin proporcionada por una variable dependiente (predictor) X, para explicarel comportamiento de una variable dependiente o de respuesta Y . Buscaremos unamedida del grado del xito (bondad de ajuste) logrado, con los datos de la muestra. Los valores observados de la variable dependiente Y exhibirn cierta variabilidad. Esencialmente nos interesa descomponer esta variabilidad y estimarqu proporcin de ella puede ser explicada por la regresin lineal ajustada de Y sobre X. La cantidad es el valor estimado por la recta de regresin para la variabledependiente, y el residuo es la diferencia entre los valores observado y estimado.Por lo tanto el residuo representa la parte del comportamiento de la variabledependiente que no puede ser explicado por su relacin lineal con la variableindependiente. Restando la media de la variable respuesta y en ambos lados de la igualdad = + se obtiene: = ( ) + Elevando al cuadrado ambos lados de esta ltima ecuacin y sumando respecto del ndice muestral i , podemos escribir:

otambin = NOMENCLATURA SCT: Suma de cuadrados total SCR: Suma de cuadrados de lasregresiones SCE: Suma de cuadrados del error +

4.7. COEFICIENTE DE DETERMINACIN


23 | P g i n a

ANLISIS MULTIVARIADO

Indica del grado de ajuste de un modelo de regresin disminuyecuando queremos comparar la bondad del ajuste de dos modelos que tienen una variable dependientediferente. En tal caso, no es en absoluto cierto que el modelo con menor EER sea el modelo conmejor ajuste; de hecho, no podremos afirmar nada al respecto, salvo que establezcamos algunamedida relativa de grado de ajuste, que es lo que hacemos en esta seccin. A diferencia del EER, elcoeficiente de determinacin que ahora definimos, denotado por , es un indicador sin unidades,que no es preciso ni tiene sentido poner en relacin con ninguna de las variables del modelo. En primer lugar, escribamos para cada observacin i: = ( ) + ( ) = ( ) + Que muestra que la distancia entre una observacin y su media puede escribirse como ladistancia entre su valor ajustado y dicha media, ms el residuo correspondiente. La distanciaa la media del valor ajustado puede ser mayor o menor que la de la observacin , por lo queel residuo puede ser negativo o positivo. La regresin estimada por MCO proporciona el valornumrico de( ), que es una aproximacin a la distancia . El resto es la parte no explicada,o residuo. Como hemos mencionado, la explicacin puede exceder o no de . La igualdadanterior muestra cmo la desviacin total respecto a la media puede escribirse como la suma de ladesviacin explicada y el residuo. Si elevamos al cuadrado ambos miembros, tenemos: ( ) = ( ) + + 2( ) Y sumando a lo largo de toda la muestra: ( ) = ( ) + Pero: ( ) = ( ) = ( + ) + 2 ( )

+ ( ) = (0) + (0) = 0

Donde hemos utilizado repetidamente el hecho de que la suma de los residuos MCO es igual acero, as como que la suma de sus productos por tambin es igual a cero. Ambas condicionesprovienen de las ecuaciones normales. Finalmente, substituyendo, llegamos a:
24 | P g i n a

ANLISIS MULTIVARIADO

( ) = ( ) + Es decir:

Que expresa cmo la variacin muestral total en la variable Y , que es n veces su varianza, Puede descomponerse como la suma explicada por la regresin estimada, ,el primero de los sumandos del miembro derecho, ms la suma no explicada, que es la suma de loscuadrados de los residuos. Si dividimos la suma explicada por la variacin total en Y, tenemos la definicin de coeficiente de determinacin:

De modo que: =

4.8. PRUEBA DE DEPENDENCIA (ANOVA EN REGRESIN)

En este apartado se descompone la variabilidad de la variable respuesta en variabilidad explicada por el modelo ms variabilidad no explicada o residual, esto permitir contrastar si el modelo es significativo o no. Bajo la hiptesis de que existe una relacin lineal entre la variable respuesta y la regresora, se quiere realizar el siguiente contraste de hiptesis,

Frente a la alternativa

Por tanto, si se acepta H0, la variable regresora no influye y no hay relacin lineal entre ambas variables. En caso contrario, si existe una dependencia lineal de la variable respuesta respecto a la regresora.

25 | P g i n a

ANLISIS MULTIVARIADO
Para todos los datos muestrales se hace la siguiente descomposicin

Elevando al cuadrado y sumando se obtiene,

en base a la ortogonalidad de los vectores se obtiene que los productos cruzados son cero, de donde se sigue la siguiente igualdad (Teorema de Pitgoras) que permite descomponer la variabilidad de la variable respuesta recta de regresin modelo ajustado , en la variabilidad explicada por la

ms la variabilidad residual o no explicada por el

Ahora se puede construir siguiente tabla ANOVA Tabla ANOVA del modelo de regresin simple Suma de Grados de Varianzas Cuadrados Libertad scE = scR = scG =
n i=1 2 n i=1 2 n i=1 2

Fuente de Variacin Por la recta Residual Global

1 n2

2 e 2 R

= =

n1
Y 2

Si H0 es cierta (la variable X no influye), la recta de regresin es aproximadamente horizontal y se verifica que aproximadamente i , y por tanto scE 0. Pero scE es una medida con dimensiones y no puede utilizarse como medida de discrepancia, para resolver este inconveniente se divide por la varianza residual y como estadstico del contraste de regresin se utiliza el siguiente:
26 | P g i n a

ANLISIS MULTIVARIADO

Por la hiptesis de normalidad y bajo H0 se deduce que el estadstico sigue una distribucin F (Contraste de la F) con 1 y n - 2 grados de libertad.

S el p - valor = P es grande (mayor que ) se acepta H0. El Contraste de la F es un contraste unilateral (de una cola) pero en este modelo proporciona exactamente el mismo resultado que se obtiene por el contraste individual de la t relativo al coeficiente de regresin 1 (Contraste de la t) estudiado en el apartado anterior.

4.9. INFERENCIA EN REGRESIN LINEAL SIMPLE Suponer que se desea hacer una inferencia acerca de la funcin lineal = +

Donde y son constantes (una de las cuales puede ser igual a cero). Entonces, la misma funcin lineal de los estimadores de los parmetros = + Es un estimador insesgado de ya que, + =

( ) = ( ) + ( ) =

Si aplicamos el teorema correspondiente se determina la varianza de es ( ) = ( ) + ( ) + 2 ( , ) Donde ( ) = y ( , ) = = , = , con , =

27 | P g i n a

ANLISIS MULTIVARIADO
Con algunas manipulaciones algebraicas se obtiene ( ) = (

+ 2

Por ltimo, recordando que y estn distribuidas normalmente en muestreo repetido, es evidente que es una funcin lineal de variables aleatorias distribuidas normalmente. Entonces se concluye que =

Tiene una distribucin normal y podra emplearse para probar la hiptesis = . Cuando es algn valor especificado de = + . Desl mismo modo, un intervalo de confianza de 00( ) para = + es

Se observa que tanto el estadstico Z como el intervalo de confianza inmediato anterior, (dependiendo del tamao muestral n, de = ( ) es un mltiplo constante de los valores de las x y de los valores de las a). Si se sustituye S por en la expresin para Z, la expresin resultante (que se identifica como T) tiene una distribucin T-Student con n-2 grados de libertad y proporciona un estadstico de prueba para verificar la hiptesis acerca de = + Prueba de hiptesis para = + > = <

El estadstico de prueba ser = ( Regin critica

28 | P g i n a

ANLISIS MULTIVARIADO

> <

>
El intervalo de confianza de 00( ) para = la tabulada est basada en n-2 grados de libertad (

es el siguiente y donde

+ 2

5. REGRESIN LINEAL MLTIPLE

29 | P g i n a

ANLISIS MULTIVARIADO
En la regresin lineal mltiple vamos a utilizar ms de una variable explicativa; esto nos va a ofrecer la ventaja de utilizar ms informacin en la construccin del modelo y, consecuentemente, realizar estimaciones ms precisas. La forma prctica de para deducciones del modelo de regresin lineal mltiple es por medio del algebra de matrices. El inters se centra en el valor esperado de la variable dependiente, este valor est condicionado al valor que toma k variables independientes. Entonces se tiene: ( = , = , , = )= , , + + + ,.., 0+ + +

Por lo tanto, se tienen (k+1) parmetros continuacin: ( = 0, = 0, , = 0) =

, cuyo significado se ve a 0+ + 0=

Luego es el valor esperado de la variable dependiente Y cuando todas las variables independientes son iguales a cero. Ahora supongamos que una de las variables independientes se incrementa en una unidad pasando del valor permanecen constantes: i.
ii.

al valor (

+ ) mientras que el resto de las variables

( =
( =

, =
, =

,
+ ,

, =
, =

)=
)=

+
+

+
+ (

+
+ )

+
+

Restando ii menos i el resultado esperado es igual a . Este valor arroja el cambio esperado de la variable de respuesta Y cuando la variable independiente X, se incrementa en una unidad, mientras las variables independientes restantes permanecen constantes. Para completar el modelo, es necesario aadir un trmino de error. Sea la diferencia entre el valor observado y su valor esperado( = , = , , = ), entonces obtenemos el modelo de regresin poblacional mltiple: = + + + + +

5.1. SUPUESTOS DEL MODELO

30 | P g i n a

ANLISIS MULTIVARIADO
a) Linealidad: los valores de los parmetros estn generados por el siguiente modelo lineal: , , , ,

b) Homocedasticidad: todas las perturbaciones tienen las misma varianza: ( ) = c) Independencia: los valores de , son independientes de los errores d) Los errores , = ,2, ,
,

, , las perturbaciones aleatorias

son variables aleatorias tales que ( ) = 0, , , , las

= ,2,

, ,

e) No existe autocorrelacin entre los errores f) No , existe , , relacin , lineal perfecta

( , ) = 0 variables

entre

explicativas

g) El modelo tiene que estar correctamente especificado, esto es que no existen errores en la inclusin o exclusin de variables.

5.2. FORMULACIN MATRICIAL Para aplicar una variable d respuesta Y a partir de k variables independientes , , , , , como predictores, se selecciona una mat(n):

, )

= ,2,

= ,2,

El modelo poblacional correspondiente tiene la formulacin lineal siguiente:

31 | P g i n a

ANLISIS MULTIVARIADO
= + + + + +

Donde es el ajuste de la j-esima variable independiente para la i-esima observacin, i=1,2,..,n. ahora definimos las siguientes matrices con = :

=[ ]

= [

] =[

] =[ ]

Entonces, las n ecuaciones que representan = ; como funcin de las = ( + ); las = ( + ) y las = ( ) se pueden escribir simultneamente como = +

El primer objetivo es hallar el estimador de mnimos cuadrados del vector , es decir hallar un vector que logre minimizar la suma de los cuadrados de los errores: = = ( ) ( )

Como

= [ ][ ]= [ ]

32 | P g i n a

ANLISIS MULTIVARIADO

= [ Si =[ ] El estimador se obtiene como solucin del sistema de ecuaciones: = . Por tanto, = ( ) ]

5.3. EJEMPLO N4 Ajustar una parbola a los datos del ejemplo N3 usando el modelo = + + +

Solucin De los datos de la tabla del ejemplo N3 se ve claramente que

0 0 [ ]

= [

2 0 0 2 ]

Por tanto los productos matriciales y son: 2 0 0 =[0 0 ] 2 0 0 0 0 0]

= [2

0 0

2] [

33 | P g i n a

ANLISIS MULTIVARIADO
0 0 [ ]

= [2

0 0

2]

=[

Se omite el proceso de invertir ( ) igual a ( ) Finalmente; =[

y simplemente se expresa que la matriz inversa es 0 0 0 0 0 ]

0 = ( ) = 0 [ Por lo tanto, = Y la ecuacin de prediccin es = El modelo estimado ajustado es: = + Pero = = + + + + + 0 + , = 0 , 0 0

0 ] [ ]=[ 0]

= ,2, +

, +

= = El cual, en notacin matricial, queda como: La diferencia entre los valores observados y estimados es el vector de errores o residuos = , que matricialmente se escribe como: =

34 | P g i n a

ANLISIS MULTIVARIADO
5.4. ESTIMACIN DE LA VARIANZA DEL TERMINO DE ERROR As como se hizo en regresin lineal simple se debe estimar la varianza del error razones obvias, en este caso, un estimador de la varianza del error est dado por: = 5.5. SIGNIFICACIN DE LA REGRESIN Se usa la tabla ANOVA para medir la capacidad explicativa del modelo de regresin lineal mltiple ( ) = ( ) + ( ) La tabla ANOVA para regresin mltiple es la siguiente: Fuente Regresin Error total
Grados de libertad

. Por

Sdc
= = =

Varianzas
= = ( )

Fo
=

k n-k-1 n-1

5.6. PROPIEDADES DE LOS ESTIMADORES 1. 2. 3. ( ) = ( ) = ( , ) = , = 0, , , donde , donde ,

DE MNIMOS CUADRADOS

es el elemento en la fila i y la columna i de ( es el elmento en la fila i y la columna j de ( es = ( + )], donde

) )

4. Un estimador insesgado de

5. Cada est distribuida normalmente 6. La variable aleatoria libertad. 7. Los estadsticos y son independientes para cada i=0,1,2,..,k
( )]

tiene una distribucin

con n-(k+1) grados de

35 | P g i n a

ANLISIS MULTIVARIADO
5.7. INFERENCIAS SOBRE LOS PARMETROS Los estimadores de las varianzas de los se obtienen a partir de la diagonal de matriz de covarianzas sustituyendo por su estimador = = =

El estadstico inferencial o pivot para las inferencias sobre los coeficientes de las pendientes sta dado por: = ( ) ( )
( )

Test de hiptesis = ( )

> ( ) < ( ) ( )

Regin critica > < | |>

En este caso

est basada en (n-k-1) grados de libertad

Intervalo de confianza

( )

36 | P g i n a

ANLISIS MULTIVARIADO

6. CONCLUSIN
La aplicacin del anlisis de regresin simple permite estudiar la relacin que existe entre una variable independiente y otra dependiente, utilizando algn modelo de regresin.Cuando se trata de dos variables solamente, se habla de regresin simple. Por el contrario, cuando se trata de ms de dos variables se habla de regresin mltiple. El coeficiente de determinacin es una medida de la bondad de ajuste para la ecuacin de regresin; este puede interpretar como la proporcin de la variacin de la variable dependiente explicada por la ecuacin de regresin. Los estimadores de mnimos cuadrados son fciles de usar y se sabe que tienen buenas propiedades para numerosas situaciones.Al emplear el mtodo de mnimoscuadrados para ajustar un modelo lineal a una respuesta experimental. Se supone que el valor esperado de Y es una funcin de un conjunto de variables, donde la funcin es lineal en un conjunto de parmetros desconocidos. Los problemas inferenciales asociados con el modelo estadstico lineal incluyen estimacin y pruebas de hiptesis que se relacionan con los parmetros del modelo, y lo que es ms importante, el clculo de E(Y) que es la respuesta esperada para un ajuste en particular y la prediccin de algn valor futuro de Y.

37 | P g i n a

ANLISIS MULTIVARIADO

7. REFERENCIAS
Estadstica matemtica con aplicaciones, Autor Wackerly-Mendenhall-Scheaffer, Editorial Cengage learning sptima edicin. Apuntes de clases de Anlisis Multivariado II semestre 2011. www.aulaclic.cl

38 | P g i n a