Sunteți pe pagina 1din 7

UNMSM FCM - EAP de ESTADISTICA ESTADSTICA II _____________________________________________________________________ UNIDAD TEMATICA 3 ANALISIS DE REGRESION INTRODUCCIN En la unidad anterior vimos el anlisis

is de correlacin entre dos variables X e Y, estudiando medidas de asociacin o relacin adecuadas de acuerdo al tipo de variables para cuantificar la intensidad del grado de asociacin o relacin entre ellas. Ahora, estudiaremos el anlisis de regresin. Mientras que el anlisis de correlacin permite responder a estas dos preguntas: (1) Existe dependencia o relacin entre X e Y? y (2) De qu grado y sentido es esa relacin?, el anlisis de regresin tiene como objetivo responder a las siguientes dos preguntas: (1) Qu tipo de dependencia existe entre X e Y?, y (2) Puede predecirse los valores de Y a partir de los valores de X? Resumiendo, la correlacin informa sobre la intensidad de una relacin entre variables, la regresin informa sobre cmo determinar un valor de Y dado un valor de X. El anlisis de regresin determina la mejor relacin funcional existente entre X e Y, expresada mediante un modelo matemtico, el cual se representa utilizando una ecuacin llamada ecuacin de regresin, que produce valores de Y para valores dados de X. Uno de los principales objetivos del anlisis de regresin es hacer predicciones. Por ejemplo, predecir la distancia que emplea un automvil para detenerse, conociendo su velocidad. Correlacin significa asociacin, covariacin, variacin conjunta o simultnea. Regresin significa prediccin, usando la ecuacin de regresin se trata de estimar los valores de una variable respuesta (dependiente) en funcin de los valores de otra variable regresor (independiente). ANLISIS DE CORRELACIN Conjunto de tcnicas estadsticas que cuantifican el grado o consistencia de la relacin o asociacin entre dos variables. ANLISIS DE REGRESIN Conjunto de tcnicas estadsticas que investiga y modela relaciones entre variables con el objetivo de determinar la mejor relacin funcional y poder predecir el valor de una variable Y (dependiente) dado el valor de otra u otras variables X1, X2, ,Xn (variables independientes) CMO ELEGIR LA MEJOR RELACIN FUNCIONAL? Podemos seguir dos caminos: 1) Tener en cuenta la consideracin analtica del fenmeno que se estudia en los diferentes campos del saber humano 2) Realizar un examen del diagrama de dispersin o nube de puntos de los datos. QU TIPOS DE CURVAS SE PUEDEN AJUSTAR A LOS DATOS? Dependiendo qu nos sugiere el diagrama de dispersin, podemos ajustar una funcin lineal en las variables, como una recta Yest = a + b X o una funcin no lineal en las variables como una parbola Yest = a + bX + cX2, o tal vez una curva de crecimiento como la funcin exponencial. TIPOS DE REGRESIN ___________________________________________________________________ Profesoras del curso: Mg. Ana Mara Crdenas Rojas y Lic. Justa Caridad Huaroto Sumari 1

UNMSM FCM - EAP de ESTADISTICA ESTADSTICA II _____________________________________________________________________ REGRESIN LINEAL SIMPLE En este caso se tiene solamente una variable dependiente (Y) y una variable independiente (X) y entre las variables X e Y existe una relacin lineal. REGRESIN NO LINEAL SIMPLE En este caso se tiene una variable dependiente (Y) y una variable independiente (X) y entre X e Y exista una relacin no lineal (polinomio de segundo grado, exponencial, potencia etc.). REGRESIN LINEAL MLTIPLE En este caso se considera una variable dependiente (Y) y varias variables independientes (X1, X2, ,Xn ) y la funcin que las relaciona es lineal. Estudiaremos, en primer lugar, la regresin lineal simple, luego estudiaremos la regresin no lineal simple. ETAPAS DEL ANLISIS DE REGRESIN 1) Eleccin de un modelo matemtico (ecuacin de regresin) 2) Estimacin de los parmetros del modelo elegido 3) Evaluacin del modelo (bondad de ajuste y adecuacin del modelo) Para elegir el modelo, primero se hace la grfica del diagrama de dispersin, el cual ayudar a especificar si la funcin adecuada es una recta, una parbola o una curva de crecimiento. Una vez elegido el modelo, se estiman los parmetros del modelo. Hay varios mtodos de estimacin de parmetros. Emplearemos el mtodo de Mnimos Cuadrados, cuyo objetivo es minimizar la suma de los cuadrados de las diferencias entre los valores observados y los valores estimados, esto es, se desea que la suma i ( Yi Yi est ) 2 sea mnima. Para evaluar la bondad del ajuste del modelo elegido se usa la varianza residual y el error estndar de estimacin, tambin se usa el coeficiente de correlacin adecuado y el coeficiente de determinacin. Si el valor de R2 (coeficiente de determinacin) es alto, entonces decimos que el modelo elegido describe bien la relacin entre las variables; y para comprobar la adecuacin del modelo se hace un anlisis de los residuos (es la diferencia entre los valores reales y los valores pronosticados). REGRESIN LINEAL SIMPLE: RECTA MNIMO CUADRTICA Dados (xi, yi) valores de la variable bidimensional (X,Y) ambas cuantitativas y asumiendo que el diagrama de dispersin sugiere que se debe ajustar a los datos una lnea recta de Y en X, siguiendo el mtodo de mnimos cuadrados, se postula el modelo
Y = + X +

___________________________________________________________________ Profesoras del curso: Mg. Ana Mara Crdenas Rojas y Lic. Justa Caridad Huaroto Sumari

UNMSM FCM - EAP de ESTADISTICA ESTADSTICA II _____________________________________________________________________ donde es una variable aleatoria que puede tomar valores positivos o negativos y representa la suma total de los efectos de todos los otros factores desconocidos que tienen influencia sobre Y. Adems, Media( ) = 0, Varianza ( ) = 2 constante, y los valores de no estn correlacionados. En la prctica, la recta + X es desconocida y la estimaremos mediante la ecuacin de regresin expresada por: Y = a + b X Y es la variable respuesta o dependiente (conocida), X es la variable regresora o independiente (conocida), a y b son los coeficientes de regresin (estimaciones de ). Utilizando el mtodo de mnimos cuadrados, se trata de hallar los valores de a y de b de tal manera que la suma de los cuadrados de los residuos o suma de cuadrados del error sea mnima, suma que se denotar por SCE SCE = yi y sea mnima.
' i i =1 n 2

yi .............. *
yi' ..............
y ' = a + bx

y figura 1 xi Se demuestra que los valores de a y b que hacen mnima la suma SCE son iguales a
b= COV(X,Y) S2 x , a = Y bX

La recta Y ' = a + bX se llama recta de mnimos cuadrados, recta de regresin o recta de ajuste de Y en X. Las magnitudes a y b son los coeficientes de regresin; a conocido como el intercepto, es la media de la distribucin de Y que corresponde a X = 0; b es la pendiente de la lnea de regresin, o sea, el cambio en Y por unidad de aumento de X. Cuando b > 0 la recta de regresin es ascendente, la relacin entre X e Y es positiva e indica el promedio del incremento de Y debido al incremento unitario de X, cuando b < 0 la recta de regresin es descendente, la relacin entre X e Y es negativa e indica el promedio de la disminucin de Y debido al incremento unitario de X.

EVALUACIN DEL MODELO


Para evaluar la bondad del ajuste, debemos utilizar el coeficiente de correlacin de Pearson. Para el 2 2 caso del ajuste rectilneo tambin se usa el coeficiente de determinacin Rxy = rxy = r2. Si el valor de r2 se aproxima a 1, el ajuste lineal puede considerarse vlido. r= COV ( X ,Y )
2 2 Sx Sy

XY
donde COV ( X , Y ) =
i =1

i i

X .Y

r 2 = [Cov (X, Y)] 2 / S 2x S 2y

___________________________________________________________________ Profesoras del curso: Mg. Ana Mara Crdenas Rojas y Lic. Justa Caridad Huaroto Sumari

UNMSM FCM - EAP de ESTADISTICA ESTADSTICA II _____________________________________________________________________ El coeficiente de determinacin R2 = r 2 cuantifica la proporcin de la variacin en la variable dependiente Y explicada por el regresor o variable independiente X. Los grficos siguientes son diagramas de dispersin que muestran la existencia, el grado y la direccin de la relacin entre dos variables, plasmados en el coeficiente de correlacin lineal.

VARIANZA RESIDUAL Y ERROR ESTNDAR DE ESTIMACIN


La variabilidad o dispersin de los valores de Y puede medirse con la suma de cuadrados de las desviaciones respecto a la media (SCT); de manera similar, podemos medir la dispersin de los puntos observados alrededor de la recta de regresin. La diferencia entre un valor observado y un valor estimado (yi yi'), correspondiente a un valor xi, se puede considerar como un error o residuo. Luego, por analoga con la varianza, se considera la varianza residual de la ecuacin de regresin de Yen X.

VARIANZA RESIDUAL
Es un indicador de la dispersin de los puntos respecto de la lnea de regresin. Est definida como donde n es el tamao de la muestra (nmero de observaciones), p es el nmero de parmetros por estimar (en el caso de la recta, p = 2) S2yx = i [ y i y i '] 2 / n - p

ERROR ESTNDAR DE ESTIMACIN


El error estndar de estimacin de Y en X es la raz cuadrada de la varianza residual. Es una medida de la dispersin de los puntos observados respecto de la lnea de regresin. Se le usa para evaluar la bondad del ajuste realizado. Syx = { i [ y i y i' ] 2 / n p }1/2 Si Syx resulta un valor pequeo, significa que los datos estn relativamente cercanos a la recta de regresin y la ecuacin de regresin es una buena descripcin de la relacin de Y en X y se la puede usar para predecir Y con poco error. ___________________________________________________________________ Profesoras del curso: Mg. Ana Mara Crdenas Rojas y Lic. Justa Caridad Huaroto Sumari 4

UNMSM FCM - EAP de ESTADISTICA ESTADSTICA II _____________________________________________________________________ Si Syx resulta un valor grande, significa que los datos estn muy dispersos respecto de la recta de regresin y la ecuacin de regresin es considerada como una descripcin deficiente de la relacin de Y en X y no proporcionar una estimacin precisa de Y. Si Syx resulta cero, la ecuacin de regresin describe una relacin perfecta de Y en X; los puntos observados y estimados coinciden. Una forma prctica de hallar Syx es utilizando la siguiente frmula: Syx = { S y 2 [Cov 2(X, Y) / S x 2 ]}1/2

COEFICIENTE DE DETERMINACIN R2
Se sabe que la variabilidad total de los valores de Y (SCT) se puede representar mediante la suma de los siguientes dos trminos: SCT = SCE + SCR (1) donde SCT = i [ y i ]
2

SCE = yi y
' i

SCR = i [ y i' - ] 2

i =1

La relacin (1) informa que la suma de cuadrados total es igual a la suma de cuadrados residual o del error ms la suma de cuadrados de la regresin o del modelo. Utilizando estas relaciones se obtiene el coeficiente de determinacin R2. R 2 = SCR / SCT o tambin, R2 = 1 SCE / SCT La suma SCT es una medida de la variabilidad de Y (variable respuesta o dependiente) sin considerar el efecto de la variable regresora (independiente) X. La suma SCE es una medida de la variabilidad de Y que queda despus de haber tenido en consideracin a X. El coeficiente de determinacin R2 cuantifica la proporcin de la variacin en la variable dependiente Y explicada por el regresor o variable independiente X. Como 0 SCR SCT, entonces 0 R 2 1.

Valores prximos a 1 indican que la mayor parte de la variabilidad de Y est explicada por el modelo de regresin elegido. En este caso se dice que la ecuacin de regresin es aceptable. Con la descomposicin de la SCT indicada en (1), se tiene la identidad fundamental del anlisis de varianza para el modelo de regresin.

Tabla de anlisis de varianza para probar la significancia de la regresin Fuente de Suma de Grados de Cuadrado medio variacin cuadrados libertad Regresin SCR 1 CMR Residual SCE n-2 CME Total SCT n-1

F0 CMR/CME

Una forma muy efectiva de investigar la adecuacin del modelo es graficar los residuales comunes: e i = y i y i ' ___________________________________________________________________ Profesoras del curso: Mg. Ana Mara Crdenas Rojas y Lic. Justa Caridad Huaroto Sumari 5

UNMSM FCM - EAP de ESTADISTICA ESTADSTICA II _____________________________________________________________________ Se grafica ei Versus yi', ei Versus xi , y segn la forma que adquiera la nube de puntos se comprobar la adecuacin del modelo y el cumplimiento de los supuestos del modelo. El modelo ser adecuado si la nube de puntos no muestra ningn patrn de comportamiento es decir es aleatorio y sus residuos son pequeos alrededor de cero.

Ejemplo: Los datos siguientes muestran las cantidades de ventas mensuales (Y) hechas por un grupo de 8 vendedores profesionales en una compaa, durante un perodo dado, y los aos de experiencia en ventas (X) de cada vendedor. Vendedor :A B C D E F G H Cantidad de ventas(en miles de soles): 9 6 4 3 3 5 8 2 Aos de experiencia :6 5 3 1 4 3 6 2 La grfica del diagrama de dispersin es como aparece a continuacin.
Cantidad de Ventas por aos de experiencia
6 5 Cantidades 4 3 2 1 0 0 5 Aos 10

Vemos que el diagrama de dispersin sugiere un ajuste rectilneo. Entonces, con los datos calcularemos los valores de los coeficientes de regresin de la recta mnimo cuadrtica. COV(X,Y) 3.5 = = 1.19 , a = Y b X = 5 - (1.19)(3.75) = 0.53 2 Sx 2.9375 Luego, la lnea de regresin mnimo cuadrtica est dada por b= Y = 0.53 + 1.19X Ya se puede usar esta ecuacin para estimar o predecir la cantidad de ventas que hara cualquier vendedor. As, para un vendedor que tiene 4 aos de experiencia en ventas, se estima la cantidad de ventas en: Y = 0.53 + 1.19X = 0.53 + 1.19(4) = 5.29 miles de soles. Para evaluar la bondad del ajuste, debemos utilizar el ndice de correlacin. Si el valor de r2 se aproxima a 1, el ajuste lineal puede considerarse vlido. El estudiante debe: a) Comprobar que, para este ejemplo, r = 0.87 y por lo tanto R2 = 0.7569. Por ser un valor alto, prximo a 1, decimos que el ajuste es aceptable dado que aproximadamente el 76 % de la variabilidad de las ventas mensuales queda explicado por los aos de experiencia en las ventas (segn el modelo de regresin) y el 24 % restante se debe a otros factores no considerados. ___________________________________________________________________ Profesoras del curso: Mg. Ana Mara Crdenas Rojas y Lic. Justa Caridad Huaroto Sumari 6

UNMSM FCM - EAP de ESTADISTICA ESTADSTICA II _____________________________________________________________________ b) Hallar el valor de la varianza residual S2yx y del error estndar de estimacin Syx e interpretar su valor. c) Construir la tabla de anlisis de varianza e interpretar. d) Realizar el anlisis de residuos para comprobar la adecuacin del modelo e) Desarrollar el anlisis de regresin para la recta de regresin de X en Y X ' = a ' + b' Y en forma similar siguiendo paso a paso como se ha hecho para la recta de Y en X e indicar si ambas rectas de regresin se pueden cortar en un punto determinado.

Expresiones matemticas prcticas para calcular r o r 2 :


1)

r2=

2n

cuando la ecuacin de la recta es conocida


2

2) r = { -( ) / n} / [ datos no agrupados en intervalo de clase

(
2

)2/ n] [
2

)2/ n] para

3) r = [

-n

]/

4) r = Cov (xy) / Sx Sy 5) r 2 = 1 - [S 2 yx / Sy 2]

para datos agrupados en intervalos de clase S yx = [


2

-b

]/n

Relacin entre el coeficiente de regresin (b), coeficiente de correlacin (r) y error estndar de estimacin Syx :

r = b b' b= r Sy / Sx

b es el coeficiente de regresin de Y en X b' es el coeficiente de regresin de X en Y

b' = r Sx / Sy S xy = S 2x 1 r 2

S yx = S 2y 1 r 2

Otras formas de expresar la recta de regresin:

Y'= Y '-

+ r (Sy / Sx) ( x - ) =b(x- )

X'= X '-

+ r (Sx / Sy) ( y - ) = b' ( y - )

___________________________________________________________________ Profesoras del curso: Mg. Ana Mara Crdenas Rojas y Lic. Justa Caridad Huaroto Sumari

S-ar putea să vă placă și