Documente Academic
Documente Profesional
Documente Cultură
SEMANA 6
Regresin lineal
Todos los derechos de autor son de la exclusiva propiedad de IACC o de los otorgantes de sus licencias. No est
permitido copiar, reproducir, reeditar, descargar, publicar, emitir, difundir, poner a disposicin del pblico ni 1
ESTE
utilizarDOCUMENTO
los contenidos paraCONTIENE LAdeSEMANA
fines comerciales 6
ninguna clase.
2
ESTE DOCUMENTO CONTIENE LA SEMANA 6
NDICE
3
ESTE DOCUMENTO CONTIENE LA SEMANA 6
REGRESIN LINEAL
OBJETIVOS ESPECFICOS
Conocer y comprender el concepto de regresin lineal.
INTRODUCCIN
Uno de los principales objetivos de la estadstica es el de predecir el valor de una variable
conociendo el valor de otra con el fin de establecer una relacin de dependencia entre ellas.
As, se podra pensar que, si hay una lnea o curva en torno a la cual se agrupan los puntos de un
diagrama (de dispersin), esta ha de ser un valor cercano, una aproximacin de los valores reales.
En esta semana se estudiar el anlisis que permite aproximar los datos en un diagrama de
dispersin, llamado modelos de regresin.
Existen varios modelos de regresin, dependiendo de la forma que se adquieren los datos
dispersos en un diagrama de puntos. Se pueden encontrar modelos de regresin lineal,
exponencial y logartmico, entre otros.
4
ESTE DOCUMENTO CONTIENE LA SEMANA 6
1. MODELOS DE REGRESIN LINEAL SIMPLE
El modelo de regresin lineal simple consiste en aproximar los valores de una variable (Y: variable
dependiente) a partir de los de otra (X: variable independiente), usando una relacin funcional de
tipo lineal, es decir, se busca cantidades a y b determinadas por:
Y a b x
Donde los factores no controlados que se consideran bajo el nombre de error aleatorio, . Este
factor provoca que la dependencia entre las variables dependiente (Y) e independiente (X) no sea
exacta y perfecta, si no que est sujeta a la incertidumbre, es decir, idealmente tenga el menor
error posible (o en su defecto que tienda a cero).
Para determinar los coeficientes (cantidades) de a y b del modelo, se debe minimizar la suma de
los cuadrados de la diferencias entre Y e Y . Debido a este proceso, este mtodo de regresin es
llamado mtodo de los mnimos cuadrados.
Desde el punto de vista estadstico, los modelos de regresin son curvas que minimizan el error.
En este sentido, se denomina error a la distancia que existe entre el dato observado y el dato
pronosticado por el modelo de regresin.
Las cantidades a y b que minimizan dicho error son los llamados coeficientes de regresin:
a Y b X b
S XY
S X2
5
ESTE DOCUMENTO CONTIENE LA SEMANA 6
Ejemplo 1:
Se tiene la siguiente poblacin donde se estudiar la relacin entre la altura de la madre y la altura
de su primer hijo:
Si se entiende que la altura de la madre es la variable independiente, cul sera la altura del
primer hijo si la altura de la madre es de 1,80 m?
S XY
b
S X2
S XY 0,00372
b 0,5027
S X2 0,00740
Y 0,8503 0,5027 x
6
ESTE DOCUMENTO CONTIENE LA SEMANA 6
Interpretacin de los coeficientes:
Coeficiente b:
La interpretacin del coeficiente b se puede realizar de dos formas complementarias. El signo
indica si la relacin es directa (signo positivo) o indirecta (signo negativo).
Por otro lado, se debe interpretar el nmero. En este caso, representa la razn de cambio entre las
variables, es decir, la variacin de la variable Y, cuando la variable X aumenta en una unidad.
Considerando los resultados obtenidos anteriormente: se podra concluir que por cada unidad de
crecimiento de la variable X, la variable crece 0,5027. Esto representa en el problema que: si dos
madres poseen estaturas que se diferencian en un centmetro, las estaturas de sus hijos se
diferenciarn en medio centmetro.
Coeficiente a:
Del ejemplo anterior se podra preguntar: cunto explica la variable X a la variable Y?, es decir,
qu tan confiable es la prediccin de un valor para la variable Y a partir de la variable X. La
respuesta a esta interrogante se encuentra en la bondad de ajuste1.
En un modelo de regresin lineal el grado de bondad de ajuste se establece a partir del coeficiente
de determinacin, denotado por R2, que se calcula:
2 Donde:
S
R r
2 2
XY
XY s s
x y SXY es la covarianza entre las variables X e Y.
1
En la construccin del modelo de simulacin es importante decidir si un conjunto de datos se ajusta
apropiadamente a una distribucin especfica de probabilidad. Al probar la bondad del ajuste de un
conjunto de datos, se comparan las frecuencias observadas (FO) realmente en cada categora o intervalo de
clase con las frecuencias esperadas tericamente (FE). Ver ms en:
http://www.sites.upiicsa.ipn.mx/polilibros/portal/polilibros/p_terminados/SimSist/doc/SIMULACI-N-
128.htm
7
ESTE DOCUMENTO CONTIENE LA SEMANA 6
Ejemplo 2:
T Litros agua
22 1.000
31 1.950
30 1.800
28 1.750
25 1.600
26 1.550
30 2.000
20 1.050
18 900
Solucin:
S XY 1710,494
b 87,35
S X2 19,58025
8
ESTE DOCUMENTO CONTIENE LA SEMANA 6
De este modo, la ecuacin del modelo de regresin es:
Y 721.556 87.35 x
a = -721,37. En el contexto del problema no tiene sentido, ya que si no hay temperatura, los
litros no pueden ser negativos.
El valor de r se obtiene:
S XY 1710,494
rXY 0,97014
s x s y 4,424958 398,453802
Por lo que existe una alta correlacin lineal, con pendiente positiva.
Ejemplo 3:
Una empresa con el fin de realizar un estudio obtiene la siguiente informacin, sobre el sueldo de
sus trabajadores (en miles de $) y los aos de servicio en la empresa. Observar los datos en la
siguiente tabla:
Aos de servicio
Sueldo (miles de $)
5 10 12
100 200 0 1 3
200 300 1 0 4
300 400 2 3 5
400 500 4 5 7
De acuerdo a esta informacin, estimar los aos de servicio de una persona que tiene un sueldo de
$320.000.
9
ESTE DOCUMENTO CONTIENE LA SEMANA 6
Solucin:
12.550
Sueldo 358,571
35
353
Aos 10,086
35
XY 124 .450
Sueldo* Aos 3555 ,714
N 35
Se puede concluir que la relacin es inversa, es decir, si los aos aumentan, el sueldo disminuye.
Ahora la covarianza:
i i i
2
X 2 n X n 2
S2 i 4867 ,500 12 .550 10497 ,959
x N N 35 35
S
xy 60,833
a 0,006
2 10497,959
S
x
Entonces:
Se estima que una persona con un sueldo de $320.000 tiene aproximadamente 10 aos de
servicio.
10
ESTE DOCUMENTO CONTIENE LA SEMANA 6
2. REGRESIN LINEAL CON EXCEL
Para ver los comandos que necesita Excel se trabajar el siguiente ejemplo:
Una agencia de publicidad estudia el porcentaje de aumento de las ventas dado un aumento en el
porcentaje de los gastos de publicidad.
Principal observacin: para realizar un grfico, Excel reconoce a la primera columna como
variable X.
11
ESTE DOCUMENTO CONTIENE LA SEMANA 6
Y se obtiene el siguiente grfico:
: % de aumento de ventas
% Aumento ventas
15
10
0
0 5 10 15
12
ESTE DOCUMENTO CONTIENE LA SEMANA 6
Luego, aparece un
men, donde
automticamente
est la opcin del
modelo lineal (si se
tuviese que elegir
otro modelo se hace
clic sobre el que se
necesita en forma
especfica).
13
ESTE DOCUMENTO CONTIENE LA SEMANA 6
Por ltimo, ir
con el cursor al
final de este
men y marcar
sobre las
siguientes
opciones:
Presentar
ecuacin en el
grfico y
Presentar el
valor de R
cuadrado.
Al hacer clic en
las opciones
anteriores
automticamente
sobre el grfico
aparece el
modelo de
regresin lineal,
adems del
coeficiente de
determinacin.
14
ESTE DOCUMENTO CONTIENE LA SEMANA 6
b) La segunda manera para calcular el modelo de regresin es ocupando la herramienta anlisis
de datos:
15
ESTE DOCUMENTO CONTIENE LA SEMANA 6
Luego, se obtiene la siguiente tabla resumen:
Ejemplo 3:
Suponga que Ud. como experto en estadstica fue contratado con la Conaf para realizar un estudio
ambiental sobre la concentracin de fosfato en la cuenca de un lago en mg/L y la superficie
afectada por el crecimiento de algas, utilizando los datos estn en el archivo Excel: Datos ejemplo
3 semana 6.xlsx.
Determine lo siguiente:
16
ESTE DOCUMENTO CONTIENE LA SEMANA 6
Solucin:
Otro punto importante es considerar otros modelos de regresin, como son los modelos de lnea
de tendencia exponencial y logartmica. Para que aparezcan dichos modelos, en vez de elegir el
modelo lineal (en Agregar lnea de tendencia central) se escoge exponencial o logartmica, sin
olvidar marcar el ticket de la ecuacin y el de R cuadrado, ya que permitir saber qu modelo se
ajusta mejor a los datos. Si tomamos como ejemplo la misma base de datos tenemos:
17
ESTE DOCUMENTO CONTIENE LA SEMANA 6
Modelo exponencial Modelo logartmico
Por lo que si se comparan los tres modelos, el modelo lineal es ms confiable, es decir es el que
mejor se ajusta a los datos, ya que su coeficiente de determinacin es mayor, por lo que en este
ltimo las estimaciones sern ms confiables.
18
ESTE DOCUMENTO CONTIENE LA SEMANA 6
COMENTARIO FINAL
En esta semana se aprendi a ocupar una de las ramas ms aplicadas de las estadsticas. De aqu
se puede obtener una gran informacin de estimaciones, modelos y confiabilidad. De hecho, la
rama de la estadstica que estudia esto es llamada inferencia, la que permite obtener una mayor
informacin de las variables y, por ende, de sus estimaciones, especialmente controlando el error
que se debe asumir como cero.
La invitacin para usted como futuro profesional es seguir ejercitndose, creando modelos con
nuevas variables y formulado otras interrogantes que resolver, formando lo que se llama modelo
de regresin mltiple, y convertirse en un experto en esta materia, prestando invaluables
conclusiones en su diario trabajo.
19
ESTE DOCUMENTO CONTIENE LA SEMANA 6
REFERENCIAS
Anderson, D.; Sweeney, D. y Williams, T. (2008). Estadstica para administracin y economa, 10.
Thomson Editores.
Levin, R.; Rubin, D.; Balderas, M.; Del Valle, J. C. y Gmez, R. (2004). Estadstica para
20
ESTE DOCUMENTO CONTIENE LA SEMANA 6
21
ESTE DOCUMENTO CONTIENE LA SEMANA 6