Sunteți pe pagina 1din 15

REGRESIN Y CORRELACIN LINEAL

P. Reyes / Sept. 2007

REGRESIN Y CORRELACIN LINEAL

H. Hernndez / P. Reyes Septiembre 2007 Pgina 1 de 15

REGRESIN Y CORRELACIN LINEAL

P. Reyes / Sept. 2007

REGRESIN Y CORRELACIN LINEAL


Son dos herramientas para investigar la dependencia de una variable dependiente Y en funcin de una variable independiente X. Y = f(X) Y = Variable dependiente que se desea explicar o predecir, tambin se llama regresor o respuesta X = Variable independiente, tambin se llama variable explicativa, regresor o predictor Regresin lineal - La relacin entre X y Y se representa por medio de una lnea recta Regresin curvilinea - La relacin entre X y Y se representa por medio de una curva.

Y ** * * * * * b0 Correlacin positiva * b1 *

* * * * * * * * * * *

* * * * *

Correlacin negativa

X Sin correlacin

La ecuacin de la recta es la siguiente:


Y = 0 + 1 X + .........Con.base.en.la. poblacin Y = b0 + b1 X + e...........Con.base.en.datos.de.la.muestra Y = b0 + b1 X ................Modelo .de.regresin .estimada
*

Pgina 2 de 15

REGRESIN Y CORRELACIN LINEAL

P. Reyes / Sept. 2007

El trmino de error es la diferencia entre los valores reales observados Yi y los valores estimados por la ecuacin de la recta. Se trata de que estos sean mnimos, para lo cual se utiliza el mtodo de mnimos cuadrados.

Pgina 3 de 15

REGRESIN Y CORRELACIN LINEAL

P. Reyes / Sept. 2007

Y *

Error = Re siduo = (Yi Yi )

* X

Se trata de minimizar la suma de todos los errores o residuos:

Las frmulas resultado de la minimizacin de lo cuadrados del error se aplicarn en el siguiente ejemplo por claridad. Se tienen los siguientes supuestos: 1. Los errores o residuos se distribuyen normalmente alrededor de la recta de regresin poblacional 2. Las varianzas de los errores son las mismas en todos los valores de X (Homoscedasticidad) en caso contrario se tiene (Heteroscedasticidad) 3. Los errores o residuos son independientes: No se muestra algun patrn definido. El coeficiente de Correlacin r desarrollado por Carl Pearson es un indicador de la fuerza de la relacin entre las variables X y Y, puede asumir valores entre -1 y 1 para correlacin negativa y positiva perfecta respectivamente. Por ejemplo si se encuentra que la variable presin tiene una correlacin positiva con el rendimiento de una caldera, se deben buscar soluciones al problema mediante acciones asociadas con la variable presin; de lo contrario, sera necesario buscar la solucin por otro lado. Pgina 4 de 15

REGRESIN Y CORRELACIN LINEAL

P. Reyes / Sept. 2007

Pgina 5 de 15

REGRESIN Y CORRELACIN LINEAL

P. Reyes / Sept. 2007

Se identifican tres medidas de desviacin como sigue:

Y Yest = 4.4 + 1.08 X Yi = 23 * Desviacin no explicada Error = (Yi - Yest) = 1.32 Variacin total (YiYmedia)=5.1 3 Desviaci explicada (Yest-Ymedia) = 3.81 Ymedia =17.87

X = 16

Ejemplo:

Se sospecha

que el tiempo requerido para hacer un

mantenimiento preventivo est relacionado con su nmero. Calcular el coeficiente de correlacin y graficar. Los datos de tiempo tomados para n = 25 servicios se muestran a continuacin: X Servicios 2 8 11 10 8 Y Tiempo 9.95 24.45 31.75 35.00 25.02 (Xi-X)*(YiY) 119.07667 2 1.099872 7.499472 10.502272 0.963072 (Xi-X)^2 38.9376 0.0576 7.6176 3.0976 0.0576 (Yi-Y)^2 10.919 364.1533 21.0021 7.3832 35.6075 16.1026 9 28.336 2 37.044 3 34.141 6 28.336 0.9408 15.102 2 28.029 2 0.7369 10.996 Yest Error

Pgina 6 de 15

REGRESIN Y CORRELACIN LINEAL

P. Reyes / Sept. 2007

2 16.725 4 2 2 9 8 4 11 12 2 4 4 20 1 10 15 15 16 17 6 16.86 14.38 9.60 24.35 27.50 17.08 37.00 41.95 11.66 21.65 17.89 69.00 10.30 34.93 46.59 44.88 54.12 56.63 22.13 51.612672 91.433472 121.26067 2 -3.558928 0.367872 50.679872 21.989472 48.568672 108.40627 2 31.303072 47.245472 470.01427 2 135.62547 2 10.379072 118.68667 2 107.12707 2 194.67667 2 241.75147 2 15.462272 17.9776 38.9376 38.9376 0.5776 0.0576 17.9776 7.6176 14.1376 38.9376 17.9776 17.9776 148.1771 214.7045 377.6337 21.9286 2.3495 142.8694 63.4763 166.8541 301.8142 54.5057 124.1620 3 10.919 9 10.919 9 31.238 9 28.336 2 16.725 3 37.044 3 39.947 0 10.919 9 16.725 3 16.725 3 63.168 6 8.0172 34.141 6 48.655 1 48.655 1 51.557 8 54.460 5 22.530

9 0.0181 11.972 1 1.7422 47.456 3 0.6991 0.1258 0.0020 4.0121 0.5477 24.252 3 1.3564 34.005 2 5.2111 0.6216 4.2646 14.251 2 6.5649 4.7068 0.1606

138.2976 1,597.3771 52.4176 3.0976 45.6976 45.6976 60.2176 76.7376 5.0176 350.9178 34.7770 308.2553 251.1337 629.3676 761.6054 47.6486

Pgina 7 de 15

REGRESIN Y CORRELACIN LINEAL

P. Reyes / Sept. 2007

7 19.628 5 206 X X promedio 21.15 725.82 Y 25.540272 10.4976 62.1385 0 2.3164 220.09 26 SSE

2,027.7132 698.5600 6,105.9447 Sxy Sxx Syy = SST


(Xi-X)^2 (Yi-Y)^2

Y Promedio (Xi-X)*(Yi-Y) Sxy

Sxx

Syy

Si todos los puntos estuvieran completamente sobre la recta la ecuacin lineal sera y = a + bx. Como la correlacin no siempre es perfecta, se calculan a y b de tal forma que se minimice la distancia total entre puntos y la recta. Los clculos tomando las sumas de cuadrados siguientes se muestran a continuacin: Sxy = 2027.71 Sxx Syy = 698.56 = 6105.94

Las ecuaciones para el clculo manual son las siguientes:

b1 = 1 =

( Xi X )(Yi Y ) = S S ( Xi X )
2

XY XX

= 2.902704421

b0 = 0 =

1 X i n

= Y X = 5.114515575

Las sumas de cuadrados son: SST = (Yi Y ) 2 = 6,105.9447

Pgina 8 de 15

REGRESIN Y CORRELACIN LINEAL

P. Reyes / Sept. 2007

SSE = (Yi Yi ) 2 = (Yi (bo + b1 * X i )) 2 = 220.0926


SSR = SST SSE = 5,885.8521

El coeficiente de determinacin r2 y el coeficiente de correlacin r se calculan a continuacin: SSE ( SST SSE ) SSR = = = 0.9639 SST SST SST

r2 = 1

El coeficiente de determinacin indica el porcentaje de la variacin total que es explicada por la regresin.

r = r 2 = 0.9816 El coeficiente de correlacin proporciona el nivel de ajuste que tienen los puntos a la lnea recta indicando el nivel de influencia de una variable en la otra. El factor de correlacin r es un nmero entre 1 (correlacin negativa evidente) y +1 (correlacin positiva evidente), y r = 0 indicara correlacin nula. El coeficiente de correlacin r = 0.98 por lo cual tenemos suficiente evidencia estadstica para afirmar que el tiempo de atencin esta relacionado con el nmero de servicios atendidos. USO DE EXCEL En el men Herramientas seleccione la opcin Anlisis de datos. Datos de ejemplo 6.
2.

1.

Seleccione la opcin Regresin. numricos de la tabla. Pgina 9 de 15

3. Seleccione el rango de entrada, estos corresponden a los datos

REGRESIN Y CORRELACIN LINEAL

P. Reyes / Sept. 2007

4. Seleccione Resumen de estadsticas. 5. En opciones de salida seleccione en Rango de salida, una celda de la hoja de calculo que este en blanco ( a partir de est celda sern insertados los resultados).
Resumen Estadsticas de la regresin Coeficiente de 0.98181177 correlacin mltiple Coeficiente de determinacin R^2 R^2 ajustado Error tpico Observaciones 8 0.96395436 8 0.96238716 7 3.09341962 7 25 Promedio ANLISIS DE VARIANZA Grados de libertad Regresin Residuos Total 1 23 24 Suma de de cuadrad Valor crtico de F 4.24118E18

Cuadrados os F 5885.8520 5885.852 615.0800 69 069 220.09263 9.569244 48 6105.9447 04 Estadstic Probabili 992 898

Coeficientes Error tpico ot dad Inferior 95% 5.11451557 1.1458041 4.463691 0.000177 2.74423916 Intercepcin XServicios 5 2.90270442 1 27 004 215 1 0.1170407 24.80080 4.24118E 2.66058724 19 825 -18 9

Pgina 10 de 15

REGRESIN Y CORRELACIN LINEAL

P. Reyes / Sept. 2007

X Servicios Curva de regresin ajustada


80.00 70.00 60.00 Y Tiempo 50.00 40.00 30.00 20.00 10.00 0.00 0 5 10 15 20 25 X Servicios Pronstico Y Tiempo Lineal (Pronstico Y Tiempo) Y Tiempo

En la grfica

observamos que al aumentar el nmero de servicios el

tiempo de atencin aumenta. USO DE MINITAB Para determinar la funcin de regresin y correlacin en Minitab se siguen los pasos siguientes (despus de cargar los datos correspondientes a X y a Y en las columnas C1 y C2): Stat >Regresin ... Indicar la columna de Respuestas Y y la de predictores X y aceptar con OK. Observar el valor del coeficiente de correlacin y de determinacin. Para obtener la lnea de mejor ajuste de la regresin, se procede como sigue en Minitab: Stat >Fitted Line Plot ... Indicar la columna de Respuestas Y y la de predictores X, seleccionar si se quiere ajustar con los datos con una lnea, una funcin cuadrtica o cbica y aceptar con OK. Observar el mayor valor del coeficiente de correlacin que indica el mejor ajuste. Pgina 11 de 15

REGRESIN Y CORRELACIN LINEAL

P. Reyes / Sept. 2007

En Options: seleccionar Display Confidence (para media en X) y Prediction Intervals para X. En Graphs: Seleccionar Residual for plots Standardized y Normal Plot of residuals La grfica de residuos debe apegarse a la recta y tener siempre un valor P value >0.05.
Fi tted L i ne P l ot
Y Tiempo = 5.115 + 2.903 X Servicios

70 60 50 Y Tiempo 40 30 20 10 0 0 5 10 X Serv icios 15 20

Regression 95% CI 95% PI S R-Sq R-Sq(adj) 3.09342 96.4% 96.2%

Regression Analysis: Y Tiempo versus X Servicios The regression equation is Y Tiempo = 5.115 + 2.903 X Servicios S = 3.09342 R-Sq = 96.4% R-Sq(adj) = 96.2% Analysis of Variance Source DF SS MS F P Regression 1 5885.85 5885.85 615.08 0.000 Error 23 220.09 9.57 Total 24 6105.94 La regresin tiene una r^2 de 96.4% y la influencia de una variable X en Y es significativo. Los intervalos de confianza para la media y el intervalo de prediccin para un punto especfico X son los siguientes:

Sy = Se

1 ( Xi X ) 2 + n SCx
*

1 ( Xi X ) 2 Syi = Se12 + 15 1 de + Pgina n SCx IP . para .Yx = Y est tSyi


*

IC . para. y!x = Y est tSy

REGRESIN Y CORRELACIN LINEAL

P. Reyes / Sept. 2007

Pgina 13 de 15

REGRESIN Y CORRELACIN LINEAL

P. Reyes / Sept. 2007

EJERCICIOS: 1. La energia consumida en un proceso depende del ajuste de mquinas que se realice, realizar una regresin cuadrtica con los datos siguientes y responder las preguntas. Cons_energ a Y 21.6 4 1.8 1 1 0.8 3.8 7.4 4.3 36.2 Ajuste Mq. X 11.15 15.7 18.9 19.4 21.4 21.7 25.3 26.4 26.7 29.1

a) Trazar un diagrama de dispersin b) Obtener la ecuacin de regresin lineal y cuadrtica y comparar c) Estimar el consumo de energa para un ajuste de mquina de 20 con regresin cuadrtica d) Obtener los intervalos de prediccin y de confianza para un ajuste de mquina de 20 e) Obtener el coeficiente de correlacin y de determinacin 2. En base al porcentaje de puntualidad se trata de ver si hay correlacin con las quejas en una lnea area. Las quejas son por cada 100000 pasajeros. %puntos Quejas X Y 81.8 0.21 76.6 0.58 Pgina 14 de 15

Aerolinea A B

REGRESIN Y CORRELACIN LINEAL

P. Reyes / Sept. 2007

C D E F G H

76.6 75.7 73.8 72.2 70.8 68.5

0.85 0.68 0.74 0.93 0.72 1.22

a) Trazar un diagrama de dispersin b) Obtener la ecuacin de regresin lineal c) Estimar las quejas para un porcentaje de puntualidad de 80% d) Obtener los interalos de prediccin y de confianza para una altura de 63" e) Obtener el coeficiente de correlacin y de detemrinacin

Pgina 15 de 15