Sunteți pe pagina 1din 5

Regresin Lineal

El objeto de un anlisis de regresin es investigar la relacin estadstica que existe entre una variable dependiente (Y) y una o ms variables independientes ( X 1 , X 2 , X 3 , ... ). Para poder realizar esta investigacin,

se debe postular una relacin funcional entre las variables. Debido a su simplicidad analtica, la forma funcional que ms se utiliza en la prctica es la relacin lineal. Cuando solo existe una variable independiente, esto se reduce a una lnea recta:

Y b0 b1 X
donde los coeficientes b0 y b1 son parmetros que definen la posicin e inclinacin de la recta. (Ntese que hemos usado el smbolo especial Y para representar el valor de Y calculado por la recta. Como veremos, el valor real de Y rara vez coincide exactamente con el valor calculado, por lo que es importante hacer esta distincin. El parmetro b0, conocido como la ordenada en el origen, nos indica cunto es Y cuando X = 0. El parmetro b1, conocido como la pendiente, nos indica cunto aumenta Y por cada aumento de una unidad en X. Nuestro problema consiste en obtener estimaciones de estos coeficientes a partir de una muestra de observaciones sobre las variables Y y X. En el anlisis de regresin, estas estimaciones se obtienen por medio del mtodo de mnimos cuadrados. Como ejemplo, consideremos las cifras del Cuadro 1, que muestra datos mensuales de produccin y costos de operacin para una empresa britnica de transporte de pasajeros por carretera durante los aos 1949-52 (la produccin se mide en trminos de miles de millas-vehculo recorridas por mes, y los costos se miden en trminos de miles de libras por mes). Para poder visualizar el grado de relacin que existe entre las variables, como primer paso en el anlisis es conveniente elaborar un diagrama de dispersin, que es una representacin en un sistema de coordenadas cartesianas de los datos numricos observados. En el diagrama resultante, en el eje X se miden las millas-vehculo recorridas, y en el eje Y se mide el costo de operacin mensual. Cada punto en el diagrama muestra la pareja de datos (millas-vehculo y costos de operacin) que corresponde a un mes determinado. Como era de esperarse, existe una relacin positiva entre estas variables: una mayor cantidad de millas-vehculo recorridas corresponde un mayor nivel de costos de operacin.

Cuadro 1. Operaciones Mensuales en una Empresa de Transporte de Pasajeros. Costos Millas Totales Vehculo (miles) (miles) Mes N Y X

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33

213.9 3147 212.6 3160 215.3 3197 215.3 3173 215.4 3292 228.2 3561 245.6 4013 259.9 4244 250.9 4159 234.5 3776 205.9 3232 202.7 3141 198.5 2928 195.6 3063 200.4 3096 200.1 3096 201.5 3158 213.2 3338 219.5 3492 243.7 4019 262.3 4394 252.3 4251 224.4 3844 215.3 3276 202.5 3184 200.7 3037 201.8 3142 202.1 3159 200.4 3139 209.3 3203 213.9 3307 227.0 3585 246.4 4073

Fuente: J. Johnston, Anlisis Estadstico de los Costes (Barcelona: Sagitario, S. A., 1966), p. 118.

Diagrama de dispersin

Por otro lado, tambin se aprecia por qu este grfico se denomina un diagrama de dispersin: no existe una relacin matemticamente exacta entre las variables, ya que no toda la variacin en el costo de operacin puede ser explicada por la variacin en las millas-vehculo. Si entre estas variables existiera una relacin lineal perfecta, entonces todos los puntos caeran a lo largo de la recta de regresin, que tambin ha sido trazada y que muestra la relacin promedio que existe entre las dos variables. En la prctica, se observa que la mayora de los puntos no caen directamente sobre la recta, sino que estn dispersos en torno a ella. Esta dispersin representa la variacin en Y que no puede atribuirse a la variacin en X.

Estimacin de la recta de regresin y del coeficiente de determinacin

En la prctica, los clculos relacionados con un anlisis de regresin se efectan por medio de programas de computadora, por lo que los

clculos detallados en esta seccin se incluyen nicamente a ttulo de ilustracin. Para estimar los coeficientes por medio de mnimos cuadrados, se utilizan las siguientes frmulas:

b1

XY y X X2 xX

b0 y b1 x
En nuestro ejemplo, aplicando estas frmulas tenemos:
25,216,020.3 219.1242(113,879)

b1 = = 0.044674 398,855,769 3,450.879(113,879) b0 = 219.1242 0.044674(3,450.879) = 64.96

Expresando los resultados en trminos de la recta de regresin, tenemos:


= 64.96 + 0.044674 X

Podemos concluir que por cada milla adicional recorrida, los costos de operacin aumentan en aproximadamente 4.5 centavosesto podra interpretarse como el costo marginal para la empresa de recorrer una milla adicionalmientras que el coeficiente b0 nos estara indicando la parte del costo mensual que no vara directamente con la cantidad de millas recorridas (aproximadamente 64,960 libras mensuales).

Coeficiente de Determinacin (R2). Una pregunta importante que se plantea en el anlisis de regresin es la siguiente: Qu porcentaje de la variacin total en Y se debe a la variacin en X? En otras palabras, cul es la proporcin de la variacin total en Y que puede ser explicada por la variacin en X? El estadstico que mide esta proporcin o porcentaje se denomina coeficiente de determinacin:

e2 R 1 (Y y ) 2
2

En este caso, al hacer los clculos respectivos, se obtiene un valor de 0.946. Esto significa que la variacin en las millas recorridas explica 94.6 % de la variacin en el gasto de operacin mensual.

S-ar putea să vă placă și