Sunteți pe pagina 1din 24

www.monografias.

com

Regresin y Correlacin Lineal


1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. Tipos de variables Definicin de regresin lineal Definicin de correlacin lineal Pasos en el anlisis de correlacin y utilizacin e interpretacin de las tcnicas de correlacin Regresin y correlacin lineal Distribucin divariante Regresin simple y correlacin Estimacin de la ecuacin de regresin muestral Ejemplo de regresin lineal Rectas de Regresion Aplicaciones de la regresin lineal Ejercicios regresin y correlacin lineal resueltos Conclusin Bibliografa o Lista de referencias

Tipos de variables
Variable Independiente (X) (determinstica, es decir no aleatoria.) Variable Dependiente (Y) aleatoria Ejemplos X: Nmero de llamadas telefnicas realizadas por un vendedor promocionando un producto. Y: Unidades vendidas por el vendedor. X: Tiempo que dedica un estudiante a una materia. Y : Evaluacin que obtiene el estudiante en la materia.

Definicin de

regresin lineal La regresin estadstica o regresin a la media es la tendencia de una medicin extrema a presentarse ms cercana a la media en una segunda medicin. La regresin se utiliza para predecir una medida basndonos en el conocimiento de otra. MODELO DE REGRESIN LINEAL Regresin lineal En estadstica la regresin lineal o ajuste lineal es un mtodo matemtico que modeliza la relacin entre una variable dependiente Y, las variables independientes Xi y un trmino aleatorio . Este modelo puede ser expresado como:

La regresin lineal puede ser contrastada con la regresin no lineal. Regresin lineal simple Slo se maneja una variable independiente, por lo que slo cuenta con dos parmetros. Son de la forma:

Para ver trabajos similares o recibir informacin semanal sobre nuevas publicaciones, visite www.monografias.com

www.monografias.com

Dado el modelo de regresin simple, si se calcula la esperanza (valor esperado) del valor Y, se obtiene:

Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solucin para ambos parmetros

La interpretacin del parmetro beta 2 es que un incremento en Xi de una unidad, Yi incrementar en beta 2 Maneja varias variables independientes. Cuenta con varios parmetros. Se expresan de la forma:8

Regresin lineal simple Dadas dos variables (Y: variable dependiente; X: independiente) se trata de encontrar una funcin simple (lineal) de X que nos permita aproximar Y mediante: = a + bX (ordenada en el origen, constante) (pendiente de la recta) A la cantidad e=Y- se le denomina residuo o error residual. As, en el ejemplo de Pearson: = 85 cm + 0,5X Donde es la altura predicha del hijo y X la altura del padre: En media, el hijo gana 0,5 cm por cada cm del padre. Regresin no lineal En estadstica, la regresin no lineal es un problema de inferencia para un modelo tipo: Y= F (X,0)+E basado en datos multidimensionales x,y, donde f es alguna funcin no lineal respecto a algunos parmetros desconocidos . Como mnimo, se pretende obtener los valores de los parmetros asociados con la

Para ver trabajos similares o recibir informacin semanal sobre nuevas publicaciones, visite www.monografias.com

www.monografias.com

mejor curva de ajuste (habitualmente, con el mtodo de los mnimos cuadrados). Con el fin de determinar si el modelo es adecuado, puede ser necesario utilizar conceptos de inferencia estadstica tales como intervalos de confianza para los parmetros as como pruebas de bondad de ajuste. El objetivo de la regresin no lineal se puede clarificar al considerar el caso de la regresin polinomial, la cual es mejor no tratar como un caso de regresin no lineal. Cuando la funcin ftoma la forma: F(X) = AX2 + BX + C la funcin f es no lineal en funcin de x pero lineal en funcin de los parmetros desconocidos a, b, yc. Este es el sentido del trmino "lineal" en el contexto de la regresin estadstica. Los procedimientos computacionales para la regresin polinomial son procedimientos de regresin lineal (mltiple), en este caso con dos variables predictoras x y x2. Sin embargo, en ocasiones se sugiere que la regresin no lineal es necesaria para ajustar polinomios. Las consecuencias practicas de esta mala interpretacin conducen a que un procedimiento de optimizacin no lineal sea usado cuando en realidad hay una solucin disponible en trminos de regresin lineal. Paquetes (software) estadsticos consideran, por lo general, ms alternativas de regresin lineal que de regresin no lineal en sus procedimientos.

Definicin de correlacin lineal


En ocasiones nos puede interesar estudiar si existe o no algn tipo de relacin entre dos variables aleatorias. Por ejemplo, podemos preguntarnos si hay alguna relacin entre las notas de la asignatura Estadstica I y las de Matemticas I. Una primera aproximacin al problema consistira en dibujar en el plano R2 un punto por cada alumno: la primera coordenada de cada punto sera su nota en estadstica, mientras que la segunda sera su nota en matemticas. As, obtendramos una nube de puntos la cual podra indicarnos visualmente la existencia o no de algn tipo de relacin (lineal, parablica, exponencial, etc.) entre ambas notas. Otro ejemplo, consistira en analizar la facturacin de una empresa en un periodo de tiempo dado y de cmo influyen los gastos de promocin y publicidad en dicha facturacin. Si consideramos un periodo de tiempo de 10 aos, una posible representacin sera situar un punto por cada ao de forma que la primera coordenada de cada punto sera la cantidad en euros invertidos en publicidad, mientras que la segunda sera la cantidad en euros obtenidos de su facturacin. De esta manera, obtendramos una nube de puntos que nos indicara el tipo de relacin existente entre ambas variables. En particular, nos interesa cuantificar la intensidad de la relacin lineal entre dos variables. El parmetro que nos da tal cuantificacin es el coeficiente de correlacin lineal de Pearson r, cuyo valor oscila entre 1 y +1 :

Siendo Sx y Sy las desviaciones tpicas de x e y. Este coeficiente es adimensional y siempre estar entre 1 y 1. Si hay relacin lineal positiva, rxy>0 y prximo a 1. Si hay relacin lineal negativa rxy<0 y prximo a 1. Si no hay relacin lineal rxy ser prximo a 0. Nota: Cuando las variables x e y son independientes, Sxy =0, y por tanto rxy=0. Es decir, si dos variables son independientes su covarianza vale cero. No podemos asegurar lo mismo en sentido contrario. Si dos variables tienen covarianza cero, no podemos decir que son independientes.

Para ver trabajos similares o recibir informacin semanal sobre nuevas publicaciones, visite www.monografias.com

www.monografias.com

Sabemos que linealmente no tienen relacin, pero podran tener otro tipo de relacin y no ser independientes. Ejemplo: A partir de los siguientes datos, vamos a calcular la Covarianza y el coeficiente de correlacin: Altura Peso Los clculos que necesitamos: 175 180 162 157 180 173 171 168 165 165 80 82 57 63 78 65 66 67 62 58

Ahora se puede calcular el coeficiente de correlacin lineal rxy y el de determinacin lineal R2

que nos indica que las variables estn relacionadas. El valor de r se aproxima a +1 cuando la correlacin tiende a ser lineal directa (mayores valores de X significan mayores valores de Y), y se aproxima a 1 cuando la correlacin tiende a ser lineal inversa. Es importante notar que la existencia de correlacin entre variables no implica causalidad. Atencin!: si no hay correlacin de ningn tipo entre dos v.a., entonces tampoco habr correlacin lineal, por lo que r = 0. Sin embargo, el que ocurra r = 0 slo nos dice que no hay correlacin lineal, pero puede que la haya de otro tipo. El siguiente diagrama resume el anlisis del coeficiente de correlacin entre dos variable: Correlacin negativa perfecta.. -1 Correlacin negativa fuerte moderada dbil -0,5 Ninguna correlacin. 0 Correlacin positiva moderada Fuerte. +0,5 Correlacin positiva perfecta... + 1

Pasos en el anlisis de correlacin y

utilizacin e interpretacin de las tcnicas de correlacin Determinar cul es la variable dependiente. Y: Costo. Seleccionar una muestra de tamao n de ambas variables X e Y, con lo que se obtienen n pares de observaciones (x1 , y1) , (x2 , y2) (xn , yn). En nuestro ejemplo se tomo una muestra de 20 apartamentos. Se midieron todas las variables independientes para cada uno de ellos. Estos mtodos se emplean para conocer las relaciones y significacin entre series de datos Cuando, simultneamente, contemplamos dos variables continuas, aunque por extensin se pueden emplear para variables discretas cuantitativas, surgen preguntas y problemas especficos. Esencialmente, se emplearn estadsticos descriptivos y tcnicas de estimacin para contestar esas preguntas, y tcnicas de contraste de hiptesis especficos para resolver dichos problemas. La mayora de estos mtodos estn encuadrados en las tcnicas regresin y correlacin. En este artculo comentaremos las tcnicas bivariantes lineales. Si se parte de un modelo en el cual una de las dos variables continuas es dependiente o respuesta (y) y la otra es independiente o explicativa (x), surgen nuevos estadsticos para describir los datos. La nube de puntos, o el diagrama de dispersin, resultante de la representacin grfica de los datos est "concentrada" en la recta de regresin de mejor ajuste obtenida por el mtodo de mnimos cuadrados. Una condicin previa, en las tcnicas lineales, es que la nube de puntos debe tender a la linealidad (en sentido rectilneo, se entiende). Los coeficientes de la regresin lineal, la ordenada en el origen (a) y la pendiente de la recta (b), son estadsticos muestrales. Se suelen presentar de la forma y = a + bx. La dispersin de los puntos alrededor de la recta de mejor ajuste es una caracterstica de los datos bidimensionales que merece cuantificarse. El estadstico correspondiente es la desviacin tpica de los residuos. Es posible obtener la distribucin de los residuos. Estos son las distancias en vertical de cada punto a la recta de regresin. Su medida es cero (esta propiedad es compartida por otras muchas rectas de

Para ver trabajos similares o recibir informacin semanal sobre nuevas publicaciones, visite www.monografias.com

www.monografias.com

ajuste, adems de por la de mejor ajuste, que es la nuestra), y su desviacin tpica es el estadstico de eleccin para describir la dispersin alrededor de la recta. Sus unidades son las de la variable dependiente (y). Es posible, que estudiando una variable bidimensional, no se desee establecer ninguna relacin de subordinacin de una variable con respecto a la otra. En este supuesto, se intenta cuantificar la asociacin entre las dos caractersticas. Entramos en las tcnicas de correlacin lineal. Es posible definir otro estadstico muestral a partir del las dos pendientes tericas de las dos posibles rectas de regresin (y) sobre(x) y de (x) sobre (y). Este estadstico es el coeficiente de correlacin r. Su cuadrado r2 es el coeficiente de determinacin y da una medida entre 0 y 1 de la cantidad de informacin compartida por dos caractersticas o variables continuas en los datos muestrales. La magnitud de la asociacin entre dos variables continuas est en relacin con la dispersin de la nube de puntos. Se puede establecer una relacin matemtica perfecta entre la desviacin tpica de los residuos y el coeficiente de determinacin. El hecho de que dos variables estn correlacionadas, e incluso que lo estn con valores muy cercanos a 1, no implica que exista una relacin de causalidad entre ellas. Se pueden producir correlaciones espurias (causales) entre dos variables, por estar ambas relacionadas con otra tercera variable continua y anterior en el tiempo. Los nuevos estadsticos generados en la regresin y correlacin lineal se emplean como estimadores de los correspondientes parmetros poblacionales. Para que los coeficientes de la regresin y correlacin sean estimadores adecuados (centrados y de mnima varianza) de sus correspondientes parmetros poblacionales, es necesario que se asuman ciertas condiciones en la poblacin de origen, referidas fundamentalmente a las distribuciones de los residuos Se define la covarianza de la siguiente forma:

Sin embargo, esta frmula resulta complicada de aplicar. Podemos desarrollar el numerador y llegar a la siguiente frmula, mucho ms fcil para trabajar con ella:

Ahora ya si estamos en condiciones de definir el siguiente coeficiente. Coeficiente de correlacin lineal de Pearson. Se define este coeficiente como el cociente entre la covarianza y el producto de las desviaciones tpicas de ambas variables, es decir:

Este coeficiente tomar siempre valores comprendidos entre -1 y 1. Segn los valores que tome, podremos deducir que: Si r=1, existe dependencia funcional, todos los puntos del diagrama de dispersin estn situados en una lnea recta creciente. Si 0<r<1, la correlacin es positiva y ser ms fuerte segn se aproxime ms a 1. Si r=0, no existe correlacin lineal, pero puede existir correlacin curvilnea. Si -1<r<0, la correlacin es negativa y ser ms fuerte segn se aproxime ms a -1. Si r=-1, existe dependencia funcional, todos los puntos del diagrama de dispersin estn situados en una lnea recta decreciente.

Para ver trabajos similares o recibir informacin semanal sobre nuevas publicaciones, visite www.monografias.com

www.monografias.com

Funciones y Correlacin ...correlacin es el que se refiere a la existencia de correlacin lineal la cual se presenta cuando los puntos del grafico de las variables objeto de anlisis se distribuyen alrededor de una recta. en ese sentido hablamos de correlacin lineal fuerte cuando la nube de puntos graficados se parece mucho a una recta y la correlacin lineal ser cada vez ms dbil (o menos fuerte) cuando la nube de puntos vaya alejndose cada vez ms de la recta. la cuantificacin del grado de correlacin lineal entre dos variables se hace a travs del coeficiente de correlacin el cual se es denotado con la letra r, el cual nos permite ver si la correlacin lineal entre dos variables es fuerte o dbil y positiva o negativa. el valor de r adopta valores entre -1 y 1 (es decir -1 < r < 1), indicando los valores cercanos a -1 y 1 la existencia de una fuerte correlacin negativa y positiva respectivamente, mientras que los valores que se acerca a 0 indican una correlacin cada vez ms dbil y el valor de 0 para el coeficiente de correlacin indica la no existencia de correlacin (o correlacin nula entre las variables). Mientras el coeficiente de correlacin se aproxima a los valores 1 y -1 la aproximacin a una correlacin se considera buena. Cuando mas se aleja de 1 o de -1 y se acerca a cero se tiene menos confianza en la relacin lineal entre las variables por lo que una aproximacin lineal no ser apropiada. Sin embargo no significa que no existe relacin entre las variables, lo nico que podemos decir es que la relacin no es lineal. Sin embargo, es importante tener presente que la existencia de correlacin no implica causalidad en el sentido que la correlacin indica que existe una relacin entre las variables pero no nos indica que una variable cause a la otra. el concepto de causalidad es importante en economa pues es precisamente a travs de la causalidad que se puede inferir el comportamiento de una variable a partir del comportamiento de otra y nos permite la identificacin de las variables de control para la realizacin de polticas econmicas. por lo tanto, el objetivo del anlisis de causalidad es explicar el funcionamiento de un sistema a partir de las relaciones causales del mismo, considerando que para el establecimiento de tales relaciones se requiere de construcciones tericas, es decir, detrs de toda relacin causal debe haber una teora

Regresin y correlacin lineal


La regresin como una tcnica estadstica, una de ellas la regresin lineal simple y la regresin multifactorial, analiza la relacin de dos o ms variables continuas, cuando analiza las dos variables a esta se le conoce como variable bivariantes que pueden corresponder a variables cualitativas, la regresin nos permite el cambio en una de las variables llamadas respuesta y que corresponde a otra conocida como variable explicativa, la regresin es una tcnica utilizada para inferir datos a partir de otros y hallar una respuesta de lo que puede suceder. Siendo as la regresin una tcnica estadstica, por lo tanto para interpretar situaciones reales, pero a veces se manipula de mala manera por lo que es necesario realizar una seleccin adecuada de las variables que van a construir las formulas matemtica, que representen a la regresin, por eso hay que tomar en cuenta variables que tiene relacin, de lo contraria se estara matematizando un galimatas. Se pueden encontrar varios tipos de regresin, por ejemplo: Regresin lineal simple Regresin mltiple ( varias variables) 1. Simple 2. Mltiple, etc. Regresin logstica La regresin lineal tcnica que usa variables aleatorias, continuas se diferencia del otro mtodo analtica que es la correlacin, por que esta ltima no distingue entre las variables respuesta y la variable explicativa por que las trata en forma simtrica. La mate matizacin nos da ecuaciones para manipular los datos, como por ejemplo medir la circunferencia de los nios y nias y que parece incrementarse entre las edades de 2 meses y 18 aos, aqu podemos inferir o predecir que las circunferencias del crneo cambiara con la edad, en este ejercicio la circunferencia de la cabeza es la respuesta y la edad la variable explicativa. En la regresin tenemos ecuaciones que nos representan las diferentes clases de regresin: Regresin Lineal: y = A + Bx Regresin Logartmica: y = A + BLn(x) Regresin Exponencial: y = Ac(bx) Regresin Cuadrtica: y = A + Bx +Cx2

Para ver trabajos similares o recibir informacin semanal sobre nuevas publicaciones, visite www.monografias.com

www.monografias.com

+2 SD (98%) Media (50%) -2 SD (2%) Para obtener un modelo de regresin es suficiente establecer la regresin para eso se hace uso del coeficiente de correlacin: R. R = Coeficiente de correlacin, este mtodo mide el grado de relacin existente entre dos variables, el valor de R vara de -1 a 1, pero en la prctica se traba con un valor absoluto de R. El valor del coeficiente de relacin se interpreta de modo que a media que R se aproxima a 1, es ms grande la relacin entre los datos, por lo tanto R (coeficiente de correlacin) mide la aproximacin entre las variables. El coeficiente de correlacin se puede clasificar de la siguiente manera: CORRELACIN VALOR O RANGO 1) Perfecta 1) R = 1 2) Excelente 2) R = 0.9 < = R < 1 3) Buena 3) R = 0.8 < = R < 0.9 4) Regular 4) R = 0.5 < = R < 0.8 5) Mala 5) R < 0.5

Distribucin divariante
La distribucin divriate es cuando se estudia en una poblacin dos variables, que forman pares correspondientes a cada individuo, como por Ejm: Las notas de 10 alumnos en biologa y lenguaje BIOLOGIA 2 LENGUAJE 2 4 2 5 5 5 5 6 5 6 7 7 5 7 8 8 7 9 10

Los pares de valores son: ( 2, 2) (4,2) (5,5).(8,7) (9,10) forman una distribucin divriate. La correlacin, mtodo por el cual se relacionan dos variables se pude graficar con un diagrama de dispersin de puntos, a la cual muchos autores le llaman nubes de puntos, encuadrado dentro de un grfico de coordenadas X Y en la cual se pude trazar una recta y cuyos puntos mas cercanos de una recta hablaran de una correlacin mas fuerte, ha esta recta se le denomina recta de regresin, que puede ser positiva o negativa, la primera contundencia a aumentar y la segunda en descenso o decreciente. Tambin se puede describir un diagrama de dispersin en coordenadas cartesianas valores como en la distribucin divriate, en donde la nube de puntos representa los pares de valores. GRAFICOS DE RECTA DE REGRESIN

Para ver trabajos similares o recibir informacin semanal sobre nuevas publicaciones, visite www.monografias.com

www.monografias.com

Por ltimo se pueden graficar las lneas de tendencia, herramienta muy til para el mercadeo por que es utilizada para evaluar la resistencia que proyectan los precios. Cuando una lnea de tendencia central se rompe ya sea con tendencia al alza o en la baja es porque ocurre un cambio en los precios, por lo tanto las lneas de tendencia pueden ser alcista cuando se unen los puntos sucesivos y bajista cuando se unen los puntos mximos. Tambin existen grficos que representan la dispersin de datos dentro de las coordenadas cartesianas, sea las nubes de puntos y que pueden darse segn la relacin que representa, que puede ser lineal, exponencial y sin relacin, esta ltima cuando los puntos estn dispersos en todo el cuadro sin agruparse lo cual sugiere que no hay relacin. LOS GRFICOS SIGUIENTES NOS MUESTRAN ESTA RELACIN: Relacin lneas:

Para ver trabajos similares o recibir informacin semanal sobre nuevas publicaciones, visite www.monografias.com

www.monografias.com

Relacin Exponencial:

Sin Relacin

Matemticamente las ecuaciones seran: Ajuste Lineal : Y = Bx + A Ajuste Logartmico : Y =BLnX + A Ajuste Exponencial : Y = AC BX En el modelo de regresin lineal simple se utiliza la tcnica de estimacin de los mnimos cuadrados, este modelo tiene solo una variable de prediccin y se supone una ecuacin de regresin lineal. En el siguiente ejemplo la relacin entre la calificacin y salario la variable repuesta es el salario inicial y la variable predictiva o de prediccin es la calificacin promedia, si se desea determinar una ecuacin de regresin para el salario inicial promedio como una funcin de la calificacin promedio se podr graficar y procesar los datos en una computadora, estos datos son: CP = Calificacin Promedio SI = Salario Inicial

Para ver trabajos similares o recibir informacin semanal sobre nuevas publicaciones, visite www.monografias.com

www.monografias.com

De este grupo de datos se obtiene el siguiente grfico de dispersin

Regresin simple y correlacin


La Regresin y la correlacin son dos tcnicas estadsticas que se pueden utilizar para solucionar problemas comunes en los negocios. Muchos estudios se basan en la creencia de que es posible identificar y cuantificar alguna Relacin Funcional entre dos o ms variables, donde una variable depende de la otra variable. Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera en un modelo de Regresin Simple. "Y es una funcin de X" Y = f(X) Como Y depende de X, Y es la variable dependiente, y X es la variable independiente. En el Modelo de Regresin es muy importante identificar cul es la variable dependiente y cul es la variable independiente. En el Modelo de Regresin Simple se establece que Y es una funcin de slo una variable independiente, razn por la cual se le denomina tambin Regresin Divariada porque slo hay dos variables, una dependiente y otra independiente y se representa as: Y = f (X) "Y est regresando por X" La variable dependiente es la variable que se desea explicar, predecir. Tambin se le llama regresando variable de respuesta. La variable Independiente X se le denomina variable explicativa regresor y se le utiliza para explicar y. ANLISIS ESTADSTICO: REGRESIN LINEAL SIMPLE En el estudio de la relacin funcional entre dos variables poblacionales, una variable X, llamada independiente, explicativa o de prediccin y una variable Y, llamada dependiente o variable respuesta, presenta la siguiente notacin: Y=a+bX+e Donde: a es el valor de la ordenada donde la lnea de regresin se intercepta con el eje Y. b es el coeficiente de regresin poblacional (pendiente de la lnea recta) e es el error SUPOSICIONES DE LA REGRESIN LINEAL Los valores de la variable independiente X son fijos, medidos sin error. La variable Y es aleatoria Para cada valor de X, existe una distribucin normal de valores de Y (subpoblaciones Y) Las variancias de las subpoblaciones Y son todas iguales. Todas las medias de las subpoblaciones de Y estn sobre la recta. Los valores de Y estn normalmente distribuidos y son estadsticamente independientes.

Estimacin de la ecuacin de regresin muestral


Consiste en determinar los valores de "a" y "b " a partir de la muestra, es decir, encontrar los valores de a y b con los datos observados de la muestra. El mtodo de estimacin es el de Mnimos Cuadrados, mediante el cual se obtiene:

Que se interpreta como:

Para ver trabajos similares o recibir informacin semanal sobre nuevas publicaciones, visite www.monografias.com

www.monografias.com

a es el estimador de a Es el valor estimado de la variable Y cuando la variable X = 0 b es el estimador de b , es el coeficiente de regresin Est expresado en las mismas unidades de Y por cada unidad de X. Indica el nmero de unidades en que vara Y cuando se produce un cambio, en una unidad, en X (pendiente de la recta de regresin). Un valor negativo de b sera interpretado como la magnitud del decremento en Y por cada unidad de aumento en X. Podemos clasificar los tipos de regresin segn diversos criterios. En primer lugar, en funcin del nmero de variables independientes: Regresin simple: Cuando la variable Y depende nicamente de una nica variable X. Regresin mltiple: Cuando la variable Y depende de varias variables (X1, X2, ..., Xr) En segundo lugar, en funcin del tipo de funcin f(X): Regresin lineal: Cuando f(X) es una funcin lineal. Regresin no lineal: Cuando f(X) no es una funcin lineal. En tercer lugar, en funcin de la naturaleza de la relacin que exista entre las dos variables: La variable X puede ser la causa del valor de la variable Y. Por ejemplo, en toxicologa, si X = Dosis de la droga e Y = Mortalidad, la mortalidad se atribuye a la dosis administrada y no a otras causas. Puede haber simplemente relacin entre las dos variables. Por ejemplo, en un estudio de medicina en que se estudian las variables X = Peso e Y = Altura de un grupo de individuos, puede haber relacin entre las dos, aunque difcilmente una pueda considerarse causa de la otra. En este tema se tratar nicamente de la Regresin lineal simple.

Ejemplo de regresin lineal


MODELO DE REGRESION LINEAL El modelo lineal relaciona la variable dependiente Y con K variables explicativas Xk (k = 1,...K), o cualquier transformacin de stas, que generan un hper plano de parmetros k desconocidos:

SEPUESTOS DEL MODELO DE REGRESIN LINEAL

Para ver trabajos similares o recibir informacin semanal sobre nuevas publicaciones, visite www.monografias.com

www.monografias.com

Para poder crear un modelo de regresin lineal, es necesario que se cumpla con los siguientes supuestos:5 1. La relacin entre las variables es lineal. 2. Los errores son independientes. 3. Los errores tienen varianza constante. 4. Los errores tienen una esperanza matemtica igual a cero. 5. El error total es la suma de todos los errores. TIPOS MODELO DE REGRESIN LINEAL Existen diferentes tipos de regresin lineal que se clasifican de acuerdo a sus parmetros: 1) Regresin lineal simple Slo se maneja una variable independiente, por lo que slo cuenta con dos parmetros. Son de la forma:6

2) Anlisis Dado el modelo de regresin simple, si se calcula la esperanza (valor esperado) del valor Y, se obtiene

Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solucin para ambos parmetros:6

La interpretacin del parmetro beta 2 es que un incremento en Xi de una unidad, Yi incrementar en beta 2 3) Regresin lineal mltiple Maneja varias variables independientes. Cuenta con varios parmetros. Se expresan de la forma:8

Para ver trabajos similares o recibir informacin semanal sobre nuevas publicaciones, visite www.monografias.com

www.monografias.com

Rectas de Regresion
Las rectas de regresin son las rectas que mejor se ajustan a la nube de puntos (o tambin llamado diagrama de dispersin) generada por una distribucin binomial. Matemticamente, son posibles dos rectas de mximo ajuste:9 La recta de regresin de Y sobre X:

La recta de regresin de X sobre Y:

La correlacin ("r") de las rectas determinar la calidad del ajuste. Si r es cercano o igual a 1, el ajuste ser bueno; si r es cercano o igual a 0, se tratar de un ajuste malo. Ambas rectas de regresin se intersecan en un punto llamado centro de gravedad de la distribucin. Aplicaciones de la regresin lineal Lneas de tendencia Tendencia Una lnea de tendencia representa una tendencia en una serie de datos obtenidos a travs de un largo perodo. Este tipo de lneas puede decirnos si un conjunto de datos en particular (como por ejemplo, el PBI, el precio del petrleo o el valor de las acciones) han aumentado o decrementado en un determinado perodo.10 Se puede dibujar una lnea de tendencia a simple vista fcilmente a partir de un grupo de puntos, pero su posicin y pendiente se calcula de manera ms precisa utilizando tcnicas estadsticas como las regresiones lineales. Las lneas de tendencia son generalmente lneas rectas, aunque algunas variaciones utilizan polinomios de mayor grado dependiendo de la curvatura deseada en la lnea. Medicina En medicina, las primeras evidencias relacionando la mortalidad con el fumar tabaco11 vinieron de estudios que utilizaban la regresin lineal. Los investigadores incluyen una gran cantidad de variables en su anlisis de regresin en un esfuerzo por eliminar factores que pudieran producir correlaciones espurias. En el caso del tabaquismo, los investigadores incluyeron el estado socio-econmico para asegurarse que los efectos de mortalidad por tabaquismo no sean un efecto de su educacin o posicin econmica. No obstante, es imposible incluir todas las variables posibles en un estudio de regresin.12 13 En el ejemplo del tabaquismo, un hipottico gen podra aumentar la mortalidad y aumentar la propensin a adquirir enfermedades relacionadas con el consumo de tabaco. Por esta razn, en la actualidad las pruebas controladas aleatorias son consideradas mucho ms confiables que los anlisis de regresin. TIPOS DE CORRELACIN Cada conjunto de correlaciones se basa en un tipo de correlacin, que no es ms que una lista de propiedades. stas pueden ser propiedades de datos, que se encuentran en el propio mensaje, o propiedades de contexto, que describen detalles del sistema o de mensajes no relacionados con los datos transmitidos en el mensaje.

Para ver trabajos similares o recibir informacin semanal sobre nuevas publicaciones, visite www.monografias.com

www.monografias.com

Puede usar un tipo de correlacin en ms de un conjunto de correlaciones. Si necesita establecer correlaciones entre distintos valores para las propiedades de un tipo de correlacin, deber crear un conjunto de correlaciones nuevo: cada uno de ellos se puede inicializar una sola vez. Puede promocionar las propiedades de un esquema de propiedades para declarar que algunas de las propiedades de un mensaje estn accesibles para la orquestacin. Para obtener ms informacin, vea Promocionar propiedades. TIPOS DE CORRELACIN 1 Correlacin directa La correlacin directa se da cuando al aumentar una de las variables la otra aumenta. La recta correspondiente a la nube de puntos de la distribucin es una recta creciente.

2 Correlacin inversa La correlacin inversa se da cuando al aumentar una de las variables la otra disminuye. La recta correspondiente a la nube de puntos de la distribucin es una recta decreciente.

3 Correlacin nula La correlacin nula se da cuando no hay dependencia de ningn tipo entre las variables. En este caso se dice que las variables son incorreladas y la nube de puntos tiene una forma redondeada.

Para ver trabajos similares o recibir informacin semanal sobre nuevas publicaciones, visite www.monografias.com

www.monografias.com

GRADO DE CORRELACIN El grado de correlacin indica la proximidad que hay entre los puntos de la nube de puntos. Se pueden dar tres tipos: 1. Correlacin fuerte La correlacin ser fuerte cuanto ms cerca estn los puntos de la recta.

2. Correlacin dbil La correlacin ser dbil cuanto ms separados estn los puntos de la recta.

3. Correlacin nula El coeficiente de correlacin lineal es el cociente entre la covarianza y el producto de las desviaciones tpicas de ambas variables. El coeficiente de correlacin lineal se expresa mediante la letra r.

Para ver trabajos similares o recibir informacin semanal sobre nuevas publicaciones, visite www.monografias.com

www.monografias.com

Propiedades del coeficiente de correlacin 1. El coeficiente de correlacin no vara al hacerlo la escala de medicin. Es decir, si expresamos la altura en metros o en centmetros el coeficiente de correlacin no vara. 2. El signo del coeficiente de correlacin es el mismo que el de la covarianza. Si la covarianza es positiva, la correlacin es directa. Si la covarianza es negativa, la correlacin es inversa. Si la covarianza es nula, no existe correlacin. 3. El coeficiente de correlacin lineal es un nmero real comprendido entre 1 y 1. 1 r 1 4. Si el coeficiente de correlacin lineal toma valores cercanos a 1 la correlacin es fuerte e inversa, y ser tanto ms fuerte cuanto ms se aproxime r a 1. 5. Si el coeficiente de correlacin lineal toma valores cercanos a 1 la correlacin es fuerte y directa, y ser tanto ms fuerte cuanto ms se aproxime r a 1. 6. Si el coeficiente de correlacin lineal toma valores cercanos a 0, la correlacin es dbil. 7. Si r = 1 1, los puntos de la nube estn sobre la recta creciente o decreciente. Entre ambas variables hay dependencia funcional. Ejemplos: Las notas de 12 alumnos de una clase en Matemticas y Fsica son las siguientes: Matemticas Fsica 2 1 3 3 4 2 4 4 5 4 6 4 6 6 7 4 7 6 8 7 10 9 10 10

Hallar el coeficiente de correlacin de la distribucin e interpretarlo. xi 2 3 4 4 5 6 6 7 7 8 10 10 yi 1 3 2 4 4 4 6 4 6 7 9 10 xi yi 2 9 8 16 20 24 36 28 42 56 90 100 xi2 4 9 16 16 25 36 36 49 49 64 100 100 yi2 1 9 4 16 16 16 36 16 36 49 81 100

Para ver trabajos similares o recibir informacin semanal sobre nuevas publicaciones, visite www.monografias.com

www.monografias.com

72

60

431

504

380

1 Hallamos las medias aritmticas.

2 Calculamos la covarianza.

3 Calculamos las desviaciones tpicas.

4 Aplicamos la frmula del coeficiente de correlacin lineal.

Al ser el coeficiente de correlacin positivo, la correlacin es directa. Como coeficiente de correlacin est muy prximo a 1 la correlacin es muy fuerte. Los valores de dos variables X e Y se distribuyen segn la tabla siguiente: Y/X 1 2 3 0 2 1 2 2 1 4 5 4 3 2 0

Determinar el coeficiente de correlacin. Convertimos la tabla de doble entrada en tabla simple. xi 0 0 0 2 2 2 4 yi 1 2 3 1 2 3 1 fi 2 1 2 1 4 5 3 xi fi 0 0 0 2 8 10 12 xi2 fi 0 0 0 4 16 20 48 yi fi 2 2 6 1 8 15 3 yi2 fi 2 4 18 1 16 45 3 xi yi fi 0 0 0 2 16 30 12

Para ver trabajos similares o recibir informacin semanal sobre nuevas publicaciones, visite www.monografias.com

www.monografias.com

2 20

8 40

32 120

4 41

8 97

16 76

Al ser el coeficiente de correlacin negativo, la correlacin es inversa. Como coeficiente de correlacin est muy prximo a 0 la correlacin es muy dbil. La recta de regresin es la que mejor se ajusta a la nube de puntos. La recta de regresin pasa por el punto (X y Y) llamado centro de gravedad. Recta de regresin de Y sobre X La recta de regresin de Y sobre X se utiliza para estimar los valores de la Y a partir de los de la X. La pendiente de la recta es el cociente entre la covarianza y la varianza de la variable X.

Recta de regresin de X sobre Y La recta de regresin de X sobre Y se utiliza para estimar los valores de la X a partir de los de la Y. La pendiente de la recta es el cociente entre la covarianza y la varianza de la variable Y.

Si la correlacin es nula, r = 0, las rectas de regresin son perpendiculares entre s, y sus eucaciones son: y= x= Ejemplo:Las notas de 12 alumnos de una clase en Matemticas y Fsica son las siguientes: Matemticas Fsica 2 1 3 3 4 2 4 4 5 4 6 4 6 6 7 4 7 6 8 7 10 9 10 10

Hallar las rectas de regresin y representarlas.

Para ver trabajos similares o recibir informacin semanal sobre nuevas publicaciones, visite www.monografias.com

www.monografias.com

xi 2 3 4 4 5 6 6 7 7 8 10 10 72 1 Hallamos las medias arimticas.

yi 1 3 2 4 4 4 6 4 6 7 9 10 60

xi yi 2 9 8 16 20 24 36 28 42 56 90 100 431

xi2 4 9 16 16 25 36 36 49 49 64 100 100 504

yi2 1 9 4 16 16 16 36 16 36 49 81 100 380

2 Calculamos la covarianza.

3 Calculamos las varianzas.

4Recta de regresin de Y sobre X.

4Recta de regresin de X sobre Y.

Para ver trabajos similares o recibir informacin semanal sobre nuevas publicaciones, visite www.monografias.com

www.monografias.com

Ejercicios regresin y correlacin lineal resueltos


Una compaa de seguros considera que el nmero de vehculos (y) que circulan por una determinada autopista a ms de 120 km/h , puede ponerse en funcin del nmero de accidentes (x) que ocurren en ella. Durante 5 das obtuvo los siguientes resultados: Accidentes xi Nmero de vehculos yi 5 15 7 18 2 10 1 8 9 20

Calcula el coeficiente de correlacin lineal. Si ayer se produjeron 6 accidentes, cuntos vehculos podemos suponer que circulaban por la autopista a ms de 120 km / h? Es buena la prediccin? Construimos una tabla, teniendo en cuenta que la frecuencia absoluta es uno. Debemos conocer la media aritmtica de las dos variables, las varianzas, las desviaciones tpicas y la covarianza. Media aritmtica fi 1 1 1 1 1 5 xi 5 7 2 1 9 24 yi 15 18 10 8 20 71 xi2 25 49 4 1 81 160 Varianza yi2 225 324 100 64 400 1113 Covarianza xi . yi 75 126 20 8 180 409

Para ver trabajos similares o recibir informacin semanal sobre nuevas publicaciones, visite www.monografias.com

www.monografias.com

EJERCICIOS REGRESION Y CORRELACION LINEAL RESUELTOS Correlacin y regresin 1. El nmero de espaoles (en millones) ocupados en la agricultura, para los aos que se indican, era: Ao Ocupados 1980 1982 1984 1986 1988 1990 1992 1994 2,1 2,04 1,96 1,74 1,69 1,49 1,25 1,16

a) Podra explicarse su evolucin mediante una recta de regresin? b) Qu limitaciones tendran las estimaciones hechas por esa recta? [sol] a) Si; b) No vale para hacer estimaciones alejadas de los aos considerados. 2. Asocia las rectas de regresin y = x +16, y = 2x 12, y = 0,5x + 5 a las nubes de puntos siguientes:

Para ver trabajos similares o recibir informacin semanal sobre nuevas publicaciones, visite www.monografias.com

www.monografias.com

3. Asigna los coeficientes de correlacin lineal r = 0,4, r = 0,85 y r = 0,7, a las nubes del problema anterior. [sol] a) Respectivamente: (c), (b), (a). b) Respectivamente: (a), (b), (c) Tipo II. Clculo de la correlacin y regresin 4. [S] a) Calcula la recta de regresin de Y sobre X en la distribucin siguiente realizando todos los clculos intermedios. X Y 10 2 7 4 5 6 3 8 0 10

b) Cul es el valor que correspondera segn dicha recta a X = 7?


[sol] a) y = 0,8276x +10,138; b) 4,3448. 5. [S] El nmero de bacterias por unidad de volumen, presentes en un cultivo despus de un cierto nmero de horas, viene expresado en la siguiente tabla: X: N de horas Y: N de bacterias 0 12 1 19 2 23 3 34 4 56 5 62

Calcula: a) Las medias y desviaciones tpicas de las variables, nmero de horas y nmero de bacterias. b) La covarianza de la variable bidimensional. c) El coeficiente de correlacin e interpretacin. d) La recta de regresin de Y sobre X. [sol] a)

x = 2,5; sx = 1,70782; y = 34,3333; sy = 18,6964; b) 31; c) 0,97086. d) y = 10,6285x + 7,7619

6. La tabla siguiente muestra las notas obtenidas por 8 alumnos en un examen, las horas de estudio dedicadas a su preparacin y las horas que vieron la televisin los das previos al examen. Nota Horas de estudio Horas de TV 5 7 7 6 10 6 7 9 2 3 4 11 5 8 9 8 10 3 4 5 9 9 14 5

a) Representa grficamente los diagramas correspondientes a nota-estudio y nota-TV. b) Se observa correlacin entre las variables estudiadas? De qu tipo? En qu caso estimas que es ms fuerte? [sol] b) S. Directa; inversa. 7. Con los datos del problema anterior, halla el coeficiente de correlacin de nota-estudio y nota-TV. Qu puede deducirse con ms precisin conociendo la nota que obtuvo una persona en el examen: el tiempo que dedic al estudio o el que dedic a ver la televisin? [sol] 0,943382 y 0,846283. El tiempo que dedic al estudio. 8. Con los mismos datos, halla las rectas de regresin correspondientes y estima para un alumno que sac un 2 en el examen: a) Las horas que estudi. b) Las horas que vio la TV. [sol] a) Est = 0,246753 + 1,46753 Nota; 2,7 h. b) TV = 14,1299 1,2987 Nota; 11,5 h.

Para ver trabajos similares o recibir informacin semanal sobre nuevas publicaciones, visite www.monografias.com

www.monografias.com

Tipo III. Estimacin a partir del a recta de regresin 9. La altura, en cm, de 8 padres y del mayor de sus hijos varones, son: Padre Hijo 170 172 173 177 178 175 167 170 171 178 169 169 184 180 175 187

a) Calcula la recta de regresin que permita estimar la altura de los hijos dependiendo de la del padre; y la del padre conociendo la del hijo. b) Qu altura cabra esperar para un hijo si su padre mide 174? Y para un padre, si su hijo mide 190 cm? [sol] a) H = 68,1853 + 0,621859 P; P = 77,4406 + 0,545082 H. b) 176,4 cm; 181 cm. 10. [S] Durante su primer ao de vida han pesado a Marta cada mes. En la tabla siguiente se dan sus pesos: x y 1 3,2 2 3,7 3 4,2 4 5,3 5 5,7 6 6,5 7 6,8 8 7,2 9 7,9 10 7,7 11 8 12 8,5

En esta tabla, x representa la edad en meses e y el peso en kilogramos. a) Calcula la media y la desviacin tpica de los pesos. b) Determina la ecuacin de la recta de regresin de y sobre x, explicando detalladamente los clculos que haces y las frmulas que utilizas. [sol] a) 6,225; 1,7181 b) y = 0,48706x + 3,05909 11. [S] Utilizando la recta de regresin de x sobre y correspondiente a la distribucin siguiente: x = altura sobre el nivel del mar y = temperatura media en C 0 20 184 18 231 17 481 12 911 10

Calcula la altitud de una ciudad en la que la temperatura media es de 15. [sol] 392,7 m. CONCLUSION Regresin y correlacin lineal son dos herramientas para investigar la dependencia de una variable dependiente y en funcin de una variable independiente x. y = f(x) y = variable dependiente que se desea explicar o predecir, tambin se llama regresor o respuesta x = variable independiente, tambin se llama variable explicativa, regresor o predictor Regresin lineal - la relacin entre x y y se representa por medio de una lnea recta Regresin curvilinea - la relacin entre x y y se representa por medio de una curva.

Conclusin
Las tcnicas de regresin y correlacin cuantifican la asociacin estadstica entre dos o ms variables. La regresin lineal simple expresa la relacin entre una variable dependiente Y y una variable independiente X, en trminos de la pendiente y la interseccin de la lnea que mejor se ajuste a las variables. La correlacin simple expresa el grado o la cercana de la relacin entre las dos variables en trminos de un coeficiente de correlacin que proporciona una medida indirecta de la variabilidad de los puntos alrededor de la mejor lnea de ajuste- Ni la regresin ni la correlacin dan pruebas de relaciones causa efecto. Bibliografa o Lista de referencias http://es.wikipedia.org/wiki/Regresin_no_lineal http://es.wikipedia.org/wiki/Regresin_lineal http://www.vitutor.com/estadistica/bi/correlacion.html

Para ver trabajos similares o recibir informacin semanal sobre nuevas publicaciones, visite www.monografias.com

www.monografias.com

http://www.vitutor.com/bi/correlacion.html http://descartes.cnice.mec.es/materiales_didacticos/Correlacion_regresion_recta_regresion/correlaci on_y_regresion.htm Autores: Camacho Leonel leonel_play@hotmail.com Robert Amaya Casanova Jess Prof.: Jos Perdomo Sociologa Intersemestrales Universidad Nacional Experimental de los Llanos Occidentales Ezequiel Zamora UNELLEZ Barinas, Agosto del 2010

Para ver trabajos similares o recibir informacin semanal sobre nuevas publicaciones, visite www.monografias.com

S-ar putea să vă placă și