Sunteți pe pagina 1din 21

ESTADSTICA

SEMANA 6

Regresin lineal

Todos los derechos de autor son de la exclusiva propiedad de IACC o de los otorgantes de sus licencias. No est
permitido copiar, reproducir, reeditar, descargar, publicar, emitir, difundir, poner a disposicin del pblico ni 1
ESTE
utilizarDOCUMENTO
los contenidos paraCONTIENE LAdeSEMANA
fines comerciales 6
ninguna clase.
2
ESTE DOCUMENTO CONTIENE LA SEMANA 6
NDICE

OBJETIVOS ESPECFICOS ........................................................................................................................... 4


INTRODUCCIN ...................................................................................................................................... 4
1. MODELOS DE REGRESIN LINEAL SIMPLE............................................................................................ 5
2. REGRESIN LINEAL CON EXCEL ........................................................................................................ 11
COMENTARIO FINAL .............................................................................................................................. 19
REFERENCIAS........................................................................................................................................ 20

3
ESTE DOCUMENTO CONTIENE LA SEMANA 6
REGRESIN LINEAL

OBJETIVOS ESPECFICOS
Conocer y comprender el concepto de regresin lineal.

Aplicar el concepto de regresin lineal aplicado a casos.

INTRODUCCIN
Uno de los principales objetivos de la estadstica es el de predecir el valor de una variable
conociendo el valor de otra con el fin de establecer una relacin de dependencia entre ellas.

As, se podra pensar que, si hay una lnea o curva en torno a la cual se agrupan los puntos de un
diagrama (de dispersin), esta ha de ser un valor cercano, una aproximacin de los valores reales.
En esta semana se estudiar el anlisis que permite aproximar los datos en un diagrama de
dispersin, llamado modelos de regresin.

Existen varios modelos de regresin, dependiendo de la forma que se adquieren los datos
dispersos en un diagrama de puntos. Se pueden encontrar modelos de regresin lineal,
exponencial y logartmico, entre otros.

4
ESTE DOCUMENTO CONTIENE LA SEMANA 6
1. MODELOS DE REGRESIN LINEAL SIMPLE
El modelo de regresin lineal simple consiste en aproximar los valores de una variable (Y: variable
dependiente) a partir de los de otra (X: variable independiente), usando una relacin funcional de
tipo lineal, es decir, se busca cantidades a y b determinadas por:

Y a b x

Donde los factores no controlados que se consideran bajo el nombre de error aleatorio, . Este
factor provoca que la dependencia entre las variables dependiente (Y) e independiente (X) no sea
exacta y perfecta, si no que est sujeta a la incertidumbre, es decir, idealmente tenga el menor
error posible (o en su defecto que tienda a cero).

Para determinar los coeficientes (cantidades) de a y b del modelo, se debe minimizar la suma de
los cuadrados de la diferencias entre Y e Y . Debido a este proceso, este mtodo de regresin es
llamado mtodo de los mnimos cuadrados.

Desde el punto de vista estadstico, los modelos de regresin son curvas que minimizan el error.
En este sentido, se denomina error a la distancia que existe entre el dato observado y el dato
pronosticado por el modelo de regresin.

Las cantidades a y b que minimizan dicho error son los llamados coeficientes de regresin:

a Y b X b
S XY
S X2

Donde el coeficiente a es llamado ordenada en el origen o coeficiente de posicin (diferencia


entre el promedio de Y y la multiplicacin con b y el promedio de X) y b es la pendiente de la recta
(se obtiene dividiendo la covarianza entre las variables X e Y y la varianza de la variable X).

Grficamente se puede observar lo siguiente:

5
ESTE DOCUMENTO CONTIENE LA SEMANA 6
Ejemplo 1:

Se tiene la siguiente poblacin donde se estudiar la relacin entre la altura de la madre y la altura
de su primer hijo:

Altura de la madre Altura del primer hijo


1,85 1,77
1,60 1,64
1,65 1,68
1,70 1,72
1,75 1,73

Si se entiende que la altura de la madre es la variable independiente, cul sera la altura del
primer hijo si la altura de la madre es de 1,80 m?

Lo primero que se debe calcular es el coeficiente b, es decir:

S XY
b
S X2

Entonces, con la ayuda de Excel y recordando los contenidos de la semana 5:

Altura madre promedio =promedio() 1,71


Altura hijo promedio =promedio() 1,71
Covarianza =covar(datos_X;datos Y) 0,00372
Varianza de altura madre =var.p() 0,00740

S XY 0,00372
b 0,5027
S X2 0,00740

Para el coeficiente a, se tiene:

a Y b X 1,71 0,5027 1,71 0,8503

As, la ecuacin del modelo de regresin es:

Y 0,8503 0,5027 x

Por lo que el modelo es:

Altura madre 0,8503 0,5027 Altura hijo

6
ESTE DOCUMENTO CONTIENE LA SEMANA 6
Interpretacin de los coeficientes:

Coeficiente b:
La interpretacin del coeficiente b se puede realizar de dos formas complementarias. El signo
indica si la relacin es directa (signo positivo) o indirecta (signo negativo).

o Si b > 0, las dos variables aumentan o disminuyen a la vez (modelo creciente).


o Si b < 0, una variable aumenta, la otra disminuye (modelo decreciente).

Por otro lado, se debe interpretar el nmero. En este caso, representa la razn de cambio entre las
variables, es decir, la variacin de la variable Y, cuando la variable X aumenta en una unidad.
Considerando los resultados obtenidos anteriormente: se podra concluir que por cada unidad de
crecimiento de la variable X, la variable crece 0,5027. Esto representa en el problema que: si dos
madres poseen estaturas que se diferencian en un centmetro, las estaturas de sus hijos se
diferenciarn en medio centmetro.

Coeficiente a:

El coeficiente a es el valor de la variable Y cuando X = 0, por lo que no siempre tiene sentido su


interpretacin. En el ejemplo anterior X = 0 cuando la estatura de una madre es 0 cm. Luego la
interpretacin de a, en este caso, carece de sentido.

PORCENTAJE DE EXPLICACIN ENTRE LAS VARIABLES

Del ejemplo anterior se podra preguntar: cunto explica la variable X a la variable Y?, es decir,
qu tan confiable es la prediccin de un valor para la variable Y a partir de la variable X. La
respuesta a esta interrogante se encuentra en la bondad de ajuste1.

En un modelo de regresin lineal el grado de bondad de ajuste se establece a partir del coeficiente
de determinacin, denotado por R2, que se calcula:

2 Donde:
S
R r
2 2
XY
XY s s
x y SXY es la covarianza entre las variables X e Y.

Sx y Sy son las desviaciones estndar de ambas variables.

1
En la construccin del modelo de simulacin es importante decidir si un conjunto de datos se ajusta
apropiadamente a una distribucin especfica de probabilidad. Al probar la bondad del ajuste de un
conjunto de datos, se comparan las frecuencias observadas (FO) realmente en cada categora o intervalo de
clase con las frecuencias esperadas tericamente (FE). Ver ms en:
http://www.sites.upiicsa.ipn.mx/polilibros/portal/polilibros/p_terminados/SimSist/doc/SIMULACI-N-
128.htm

7
ESTE DOCUMENTO CONTIENE LA SEMANA 6
Ejemplo 2:

El dueo de un camping ha observado durante la temporada de verano los siguientes datos


registrados de la temperatura media y los litros de agua embotellada que los clientes han
comprado en el minimarket del camping en cada semana. Los datos son los siguientes:

T Litros agua
22 1.000
31 1.950
30 1.800
28 1.750
25 1.600
26 1.550
30 2.000
20 1.050
18 900

a) Determine el modelo de regresin lineal.


b) Interprete los coeficientes de regresin.
c) Interprete el coeficiente de correlacin.

Solucin:

a) Determine el modelo de regresin lineal.

Entonces, con la ayuda de Excel:

Temperatura promedio =promedio() 25,55556


Litros promedio =promedio() 1511,111
Covarianza =covar(datos_X;datos Y) 1710,494
Varianza temperatura =var.p() 19,58025

S XY 1710,494
b 87,35
S X2 19,58025

Para el coeficiente a, se tiene:

a Y b X 1511,11 87,35 25,56 721,556

8
ESTE DOCUMENTO CONTIENE LA SEMANA 6
De este modo, la ecuacin del modelo de regresin es:

Y 721.556 87.35 x

Por lo que el modelo es:

Litros 721,556 87,35 Temperatura

b) Interpretacin de los coeficientes de regresin:

b = 87,35. Si la temperatura aumenta en un grado, la cantidad de litros aumenta en 87,35 litros.

a = -721,37. En el contexto del problema no tiene sentido, ya que si no hay temperatura, los
litros no pueden ser negativos.

c) Interpretacin del coeficiente de correlacin:

El valor de r se obtiene:

S XY 1710,494
rXY 0,97014
s x s y 4,424958 398,453802

Por lo que existe una alta correlacin lineal, con pendiente positiva.

Ejemplo 3:

Una empresa con el fin de realizar un estudio obtiene la siguiente informacin, sobre el sueldo de
sus trabajadores (en miles de $) y los aos de servicio en la empresa. Observar los datos en la
siguiente tabla:

Aos de servicio
Sueldo (miles de $)
5 10 12
100 200 0 1 3
200 300 1 0 4
300 400 2 3 5
400 500 4 5 7

De acuerdo a esta informacin, estimar los aos de servicio de una persona que tiene un sueldo de
$320.000.

9
ESTE DOCUMENTO CONTIENE LA SEMANA 6
Solucin:

Para responder se debe determinar el modelo de regresin lineal simple:

Primero, se calcula la covarianza:

Si se tienen los promedios de los sueldos y los aos de servicio.

12.550
Sueldo 358,571
35
353
Aos 10,086
35

XY 124 .450
Sueldo* Aos 3555 ,714
N 35

S XY X Y 3555,714 358,571 10,086 60,833


xy

Se puede concluir que la relacin es inversa, es decir, si los aos aumentan, el sueldo disminuye.

Ahora la covarianza:

i i i
2
X 2 n X n 2
S2 i 4867 ,500 12 .550 10497 ,959
x N N 35 35

Por lo tanto, los coeficientes de regresin para el modelo son:

S
xy 60,833
a 0,006
2 10497,959
S
x

b Y a X b 10,086 0,006 358,571 12,237

Por lo que el modelo es:

Aos 0,006 Sueldo 12,237

Entonces:

Y 0,006 320 12,237 10,317

Se estima que una persona con un sueldo de $320.000 tiene aproximadamente 10 aos de
servicio.

10
ESTE DOCUMENTO CONTIENE LA SEMANA 6
2. REGRESIN LINEAL CON EXCEL
Para ver los comandos que necesita Excel se trabajar el siguiente ejemplo:

Una agencia de publicidad estudia el porcentaje de aumento de las ventas dado un aumento en el
porcentaje de los gastos de publicidad.

% Aumento publicidad % Aumento ventas


1 2
11 14
9 11
8 9
6 4
7 9
10 11

Para calcular el modelo de regresin se har de dos maneras:

a) A travs de un grfico de dispersin:

Principal observacin: para realizar un grfico, Excel reconoce a la primera columna como
variable X.

Seleccione ambas columnas de datos, luego Insertar Grficos Dispersin:

11
ESTE DOCUMENTO CONTIENE LA SEMANA 6
Y se obtiene el siguiente grfico:

: % de aumento de ventas
% Aumento ventas
15

10

0
0 5 10 15

Luego, hacer clic con


el botn derecho del
mouse sobre
cualquier punto del
grfico y escoger la
opcin: Agregar
lnea de tendencia:

12
ESTE DOCUMENTO CONTIENE LA SEMANA 6
Luego, aparece un
men, donde
automticamente
est la opcin del
modelo lineal (si se
tuviese que elegir
otro modelo se hace
clic sobre el que se
necesita en forma
especfica).

13
ESTE DOCUMENTO CONTIENE LA SEMANA 6
Por ltimo, ir
con el cursor al
final de este
men y marcar
sobre las
siguientes
opciones:
Presentar
ecuacin en el
grfico y
Presentar el
valor de R
cuadrado.

Al hacer clic en
las opciones
anteriores
automticamente
sobre el grfico
aparece el
modelo de
regresin lineal,
adems del
coeficiente de
determinacin.

14
ESTE DOCUMENTO CONTIENE LA SEMANA 6
b) La segunda manera para calcular el modelo de regresin es ocupando la herramienta anlisis
de datos:

En la pestaa Datos pinchar la herramienta Anlisis de datos y en ella elegir la opcin


Regresin:

Se ingresan los datos de la columna A en el Rango de X de entrada y los datos de la columna Y en


el Rango de Y de entrada:

15
ESTE DOCUMENTO CONTIENE LA SEMANA 6
Luego, se obtiene la siguiente tabla resumen:

Ejemplo 3:

Suponga que Ud. como experto en estadstica fue contratado con la Conaf para realizar un estudio
ambiental sobre la concentracin de fosfato en la cuenca de un lago en mg/L y la superficie
afectada por el crecimiento de algas, utilizando los datos estn en el archivo Excel: Datos ejemplo
3 semana 6.xlsx.

Determine lo siguiente:

a) Grfico de dispersin entre las variables.

b) Determine el coeficiente de correlacin entre las variables.

c) Construya el modelo de regresin lineal, interprete su pendiente.

d) Estime la superficie afectada por el crecimiento de algas, con un nivel de concentracin de


fosfato de 190.

16
ESTE DOCUMENTO CONTIENE LA SEMANA 6
Solucin:

a) Grfico de dispersin entre las variables.

b) El coeficiente de correlacin entre las variables es:

c) Luego, el modelo de regresin lineal y la interpretacin de su pendiente es:

Superficie 2,9164 Concentracin 99,675

d) Y finalmente al estimar la superficie afectada por el crecimiento de algas, con un nivel de


concentracin de fosfato de 190, se obtiene como resultado: 454,441 km2.

Otro punto importante es considerar otros modelos de regresin, como son los modelos de lnea
de tendencia exponencial y logartmica. Para que aparezcan dichos modelos, en vez de elegir el
modelo lineal (en Agregar lnea de tendencia central) se escoge exponencial o logartmica, sin
olvidar marcar el ticket de la ecuacin y el de R cuadrado, ya que permitir saber qu modelo se
ajusta mejor a los datos. Si tomamos como ejemplo la misma base de datos tenemos:

17
ESTE DOCUMENTO CONTIENE LA SEMANA 6
Modelo exponencial Modelo logartmico

Se obtiene para el modelo exponencial: Y para modelo logartmico se obtiene:

Superfie 38,272 e 0,0117Concentracion , con un Superfie 357,43 ln(Concentracin) 1387,6 ,


coeficiente de determinacin de 0,7433 o con un coeficiente de determinacin
74,33%. equivalente a 0,8699 o 86,99%.

Por lo que si se comparan los tres modelos, el modelo lineal es ms confiable, es decir es el que
mejor se ajusta a los datos, ya que su coeficiente de determinacin es mayor, por lo que en este
ltimo las estimaciones sern ms confiables.

Segn el ejemplo planteado, en el modelo lineal el coeficiente de determinacin es de 0,9674 o


96,74%, lo que significa que es mayor que los resultados de los otros modelos.

18
ESTE DOCUMENTO CONTIENE LA SEMANA 6
COMENTARIO FINAL
En esta semana se aprendi a ocupar una de las ramas ms aplicadas de las estadsticas. De aqu
se puede obtener una gran informacin de estimaciones, modelos y confiabilidad. De hecho, la
rama de la estadstica que estudia esto es llamada inferencia, la que permite obtener una mayor
informacin de las variables y, por ende, de sus estimaciones, especialmente controlando el error
que se debe asumir como cero.

La invitacin para usted como futuro profesional es seguir ejercitndose, creando modelos con
nuevas variables y formulado otras interrogantes que resolver, formando lo que se llama modelo
de regresin mltiple, y convertirse en un experto en esta materia, prestando invaluables
conclusiones en su diario trabajo.

19
ESTE DOCUMENTO CONTIENE LA SEMANA 6
REFERENCIAS
Anderson, D.; Sweeney, D. y Williams, T. (2008). Estadstica para administracin y economa, 10.

edicin. Mxico: Cengage Learning.

Devore, J. (1998). Probabilidad y estadstica para ingeniera y ciencias. Mxico: International

Thomson Editores.

Levin, R.; Rubin, D.; Balderas, M.; Del Valle, J. C. y Gmez, R. (2004). Estadstica para

administracin y economa. 7. edicin. Mxico: Pearson, Prentice-Hall.

Ross, S. (1997). A first course in probability. Berkeley. Universidad de California.

PARA REFERENCIAR ESTE DOCUMENTO, CONSIDERE:

IACC (2016). Regresin lineal. Estadstica. Semana 6.

20
ESTE DOCUMENTO CONTIENE LA SEMANA 6
21
ESTE DOCUMENTO CONTIENE LA SEMANA 6

S-ar putea să vă placă și