Sunteți pe pagina 1din 6

REGRESIN POR MNIMOS CUADRADOS: LINEAL Y CUADRTICA.

La dependencia entre dos (o ms) variables puede ser tal que se base en una relacin funcional (matemtica) exacta, como la existente entre la velocidad y la distancia recorrida por un mvil; o puede ser estadstica. La dependencia estadstica es un tipo de relacin entre variables tal que conocidos los valores de la (las) variable (variables) independiente(s) no puede determinarse con exactitud el valor de la variable dependiente, aunque si se puede llegar a determinar un cierto comportamiento (global) de la misma. (Ej. la relacin existente entre el peso y la estatura de los individuos de una poblacin es una relacin estadstica) . Pues bien, el anlisis de la dependencia estadstica admite dos planteamientos (aunque ntimamente relacionados): El estudio del grado de dependencia existente entre las variables que queda recogido en la teora de la correlacin. La determinacin de la estructura de dependencia que mejor exprese la relacin, lo que es analizado a travs de la regresin. Una vez determinada la estructura de esta dependencia la finalidad ltima de la regresin es llegar a poder asignar el valor que toma la variable Y en un individuo del que conocemos que toma un determinado valor para la variable X (para las variablesX1, X2,..., Xn ). En el caso bidimensional, dadas dos variables X e Y con una distribucin conjunta de frecuencias ( xi, yj ,nij ), llamaremos regresin de Y sobre X ( Y/X) a una funcin que explique la variable Y para cada valor de X, y llamaremos regresin de X sobre Y (X/Y) a una funcin que nos explique la variable X para cada valor de Y.(Hay que llamar la atencin, como se ver ms adelante, que estas dos funciones, en general, no tienen por qu coincidir).

MTODO DE CUADRADOS MNIMOS REGRESIN LINEAL. Hemos enfatizado sobre la importancia de las representaciones grficas y hemos visto la utilidad de las versiones linealizadas de los grficos ( X, Y) junto a las distintas maneras de llevar a cabo la linealizacin. A menudo nos confrontamos con

situaciones en las que existe o suponemos que existe una relacin lineal entre las variables X e Y. Surge de modo natural la pregunta: cul es la relacin analtica que mejor se ajusta a nuestros datos? El mtodo de cuadrados mnimos es un procedimiento general que nos permite responder esta pregunta. Cuando la relacin entre las variables X e Y es lineal, el mtodo de ajuste por cuadrados mnimos se denomina tambin mtodo de regresin lineal. Observamos o suponemos una tendencia lineal entre las variables y nos preguntamos sobre cul es la mejor recta: y(x) = a x + b Que representa este caso de inters. Es til definir la funcin:

Que es una medida de la desviacin total de los valores observados yi respecto de los predichos por el modelo lineal a x + b. Los mejores valores de la pendiente a y la ordenada al origen b son aquellos que minimizan esta desviacin total, o sea, son los valores que remplazados en la Ec.(1) minimizan la funcinc2. Ec.(2). Los parmetros a y b pueden obtenerse usando tcnicas matemticas que hacen uso del clculo diferencial. Aplicando estas tcnicas, el problema de minimizacin se reduce al de resolver el par de ecuaciones:

Actualmente, la mayora de los programas de anlisis de datos y planillas de clculo, realizan el proceso de minimizacin en forma automtica y dan los resultados de los mejores valores de a y b, o sea los valores indicados por las ecuaciones.

Grfico de datos asociados a un modelo lineal. La cantidad yi - y(xi) representa la desviacin de cada observacin de yi respecto del valor predicho por el modelo y(x). El criterio de mnimos cuadrados reemplaza el juicio personal de quien mire los grficos y defina cul es la mejor recta. En los programas como Excel, se realiza usando la herramienta regresin lineal o ajuste lineal. Los resultados se aplican en el caso lineal cuando todos los datos de la variable dependiente tienen la misma incertidumbre absoluta y la incertidumbre de la variable independiente se considera despreciable. REGRESIN MNIMO-CUADRTICA Consiste en explicar una de las variables en funcin de la otra a travs de un determinado tipo de funcin (lineal, parablica, exponencial, etc.), de forma que la funcin de regresin se obtiene ajustando las observaciones a la funcin elegida, mediante el mtodo de Mnimos-Cuadrados (M.C.O.). Elegido el tipo de funcin ( ) la funcin de regresin concreta se obtendr minimizando la expresin:

(yj - (xi ) ) 2. nij en el caso de la regresin de Y/X

(xi - (yj ) ) 2. nij en el caso de la regresin de X/Y Puede probarse que es equivalente ajustar por mnimos cuadrados la totalidad de las observaciones (toda la nube de puntos) que realizar el ajuste de los puntos obtenidos por la regresin de la media; de forma que la regresin mnimo-cuadrtica viene ser, en cierto modo, la consecucin de una expresin analtica operativa para la regresin en sentido estricto. Coeficientes de regresin. Se llama coeficiente de regresin a la pendiente de la recta de regresin: en la regresin Y/X : b = Sxy / Sx2 en la regresin X/Y b' = Sxy / Sy2 El signo de ambos coincidir con el de la covarianza, indicndonos la tendencia (directa o inversa a la covariacin).Es interesante hacer notar que b.b'= r2 BONDAD DEL AJUSTE (Varianza residual, varianza de la regresin y coeficiente de determinacin) Por bondad del ajuste hay que entender el grado de acoplamiento que existe entre los datos originales y los valores tericos que se obtienen de la regresin. Obviamente cuanto mejor sea el ajuste, ms til ser la regresin a la pretensin de obtener los valores de la variable. Obtener indicadores de esta bondad de ajuste es fundamental a la hora de optar por una regresin de un determinado tipo u otro. Puesto que la media de los residuos se anula, el primer indicador de la bondad del ajuste (no puede ser el error medio) ser el error cuadrtico medio, o varianza del residuo, o varianza residual : Considerando la regresin Y/X:

Que ser una cantidad mayor o igual que cero. De forma que cuanto ms baja sea mejor ser el grado de ajuste. Si la varianza residual vale cero el ajuste ser perfecto (ya que no existir ningn error ). Del hecho de que yi=y*i+ei ,y de que las variables y* e estn incorrelacionadas se tiene que:

Donde S2y* es la llamada varianza de la regresin y supone la varianza de la variable regresin:

Igualdad fundamental anterior de la que se deduce que la varianza total de la variable y puede descomponerse en dos partes una parte explicada por la regresin (la varianza de la regresin) y otra parte no explicada (la varianza residual). Considerando que la varianza nos mide la dispersin de los datos este hecho hay que entenderlo como que la dispersin total inicial queda, en parte explicada por la regresin y en parte no. Cuanto mayor sea la proporcin de varianza explicada (y menor la no explicada) tanto mejor ser el ajuste y tanto ms til la regresin. A la proporcin de varianza explicada por la regresin se le llama coeficiente de determinacin ( en nuestro caso lineal):

que evidentemente estar siempre comprendido entre 0 y 1 y, en consecuencia, da cuenta del tanto por uno explicado por la regresin. Una consecuencia importante en la prctica es que la varianza residual ser obviamente:

Es sencillo probar que en el caso lineal que nos ocupa el coeficiente de determinacin coincide con el cuadrado del coeficiente de correlacin: R2 = r2

Con lo cual la varianza residual y la varianza debida a la regresin pueden calcularse a partir del coeficiente de correlacin: