Sunteți pe pagina 1din 3

Introduccin a la regresin lineal

En la prctica, es frecuente que se requiera resolver problemas que implican conjuntos


de variables de las cuales se sabe que tienen alguna relacin inherente entre s.
Por ejemplo, en una situacin industrial quiz se sepa que el contenido de alquitrn
en la corriente de salida de un proceso qumico est relacionado con la temperatura en
la entrada. Podra ser de inters desarrollar un mtodo de pronstico, es decir, un
procedimiento para estimar el contenido de alquitrn de varios combustibles de la
temperatura de entrada, a partir de informacin experimental. Pero, por supuesto,
es muy probable que para muchos ejemplos concretos en los que la temperatura de
entrada sea la misma, por ejemplo 130 C, el contenido de alquitrn a la salida no
sea el mismo. Esto se parece mucho a lo que ocurre cuando se estudian varios
automviles
con el mismo volumen en su motor. No todos recorrern la misma distancia
por unidad de gasolina. Si se consideraran viviendas en la misma parte del pas que
tuvieran la misma superfi cie habitable, no signifi cara que todas se venderan al
mismo precio. El contenido de alquitrn, las millas por unidad de gasolina (mpg), y
el precio de las casas (en miles de dlares) son variables dependientes naturales
o respuestas en los tres escenarios. La temperatura en la entrada, el volumen del
motor (pies cbicos) y los pies cuadrados de rea habitable son, respectivamente,
variables independientes naturales o regresores. Una forma razonable de relacin
entre la respuesta Y y el regresor x es la relacin lineal
Y = + x,
donde, por supuesto, es la interseccin y es la pendiente. La relacin se ilustra
en la figura 5.1.

Figura 5.1. Una relacin lineal.

Si la relacin es exacta, entonces se trata de una determinista entre dos variables


cientfi cas, y no contiene ningn componente aleatorio o probabilstico. Sin
embargo, en los ejemplos que se mencionaron, as como en muchos otros fenmenos
cientfi cos y de ingeniera, la relacin no es determinista (es decir, una x dada no
siempre produce el mismo valor de Y ). Como resultado, existen problemas importantes
que son de naturaleza probabilstica, toda vez que la relacin anterior no
puede considerarse exacta. El concepto de anlisis de regresin tiene que ver con
encontrar la mejor relacin entre Y y x, al cuantifi car la intensidad de dicha relacin

y emplear mtodos que permitan predecir los valores de la respuesta ante valores
dados del regresor x.
Un anlisis de la relacin entre Y y x requiere el planteamiento de un modelo
estadstico. Con frecuencia, un modelo es usado por un estadstico como
representacin
de un ideal que, en esencia, defi ne cmo percibimos que el sistema en cuestin
gener los datos. El modelo debe incluir al conjunto [(xi, yi); i = 1, 2, . . . , n]
de datos que implica n parejas de valores (x, y). Debe tenerse en cuenta que el
valor de yi depende de xi por medio de una estructura lineal que tambin incluye
el componente aleatorio. La base para el uso de un modelo estadstico relaciona la
forma en que la variable aleatoria Y cambia con x y el componente aleatorio. El
modelo tambin incluye las suposiciones acerca de las propiedades estadsticas del
componente aleatorio. A continuacin se da el modelo estadstico para la regresin
lineal simple.

Del modelo anterior se hacen evidentes varias cuestiones. La cantidad Y es una


variable aleatoria, ya que

es aleatoria. El valor x de la variable regresora no es

aleatorio y, de hecho, se mide con un error despreciable. La cantidad

, que con

frecuencia
recibe el nombre de error aleatorio o alteracin aleatoria, tiene varianza
constante. Es frecuente que a esta parte de las suposiciones se le llame la suposicin
de varianza homognea. La presencia de este error aleatorio,

, impide que

el modelo sea tan slo una ecuacin determinista. Ahora, el hecho de que E( ) = 0
implica que para una x especfi ca los valores de y se distribuyen alrededor de la recta
verdadera o recta de regresin de la poblacin y = + x. Si se elige bien el
modelo, (esto es, no hay regresores adicionales de importancia y la aproximacin
lineal es buena dentro de los rangos de los datos), entonces son razonables los errores
positivos y negativos alrededor de la regresin verdadera. Debe recordarse que en la
prctica se desconocen y , y que deben estimarse a partir de los datos. Adems,
el modelo que se acaba de describir es de naturaleza conceptual. Como resultado, en
la prctica nunca se observan los valores reales

, por lo que nunca se puede trazar

la
verdadera recta de regresin (aunque se acepta que ah est). nicamente es posible
dibujar una recta estimada. La fi gura 5.2 ilustra la naturaleza de los datos (x, y)
hipotticos dispersos alrededor de la verdadera recta de regresin para un caso en
que slo se dispone de n = 5 observaciones. Debe destacarse que lo que observamos
en la fi gura 5.2 no es la recta que utilizan el cientfi co o ingeniero. En vez de ello,
la ilustracin nicamente describe el signifi cado de las suposiciones! A continuacin
se describir la regresin que el usuario tiene a su disposicin.

La recta de regresin ajustada


Un aspecto importante del anlisis de regresin es, simplemente, estimar los
parmetros
y (es decir, estimar los llamados coeficientes de regresin). En la seccin
siguiente se estudiar el mtodo para estimarlos. Suponga que los estimados de y
se denotan con a y b, respectivamente. Entonces, la recta de regresin ajustada,
o estimada, est dada por
y = a + bx,
donde y es el valor pronosticado o ajustado. Es evidente que la recta ajustada es una
estimacin de la verdadera recta de regresin. Se espera que la recta ajustada est
ms cerca de la verdadera lnea de regresin cuando se disponga de una gran cantidad
de datos.

S-ar putea să vă placă și