Sunteți pe pagina 1din 13

ANALISIS DE REGRESION LINEAL

La Regresin lineal se refiere a la prediccin del valor de una variable a partir de una o ms variables.
En ocasiones se denomina a la variable dependiente (y) variable de respuesta y a la variable
independiente (x) variable de prediccin.
En muchos problemas hay dos o ms variables inherentemente relacionadas, y es necesario explorar
la naturaleza de esta relacin. El anlisis de regresin puede emplearse por ejemplo para construir
un modelo que exprese el rendimiento como una funcin de la temperatura. Este modelo puede
utilizarse luego para predecir el rendimiento en un nivel determinado de temperatura. Tambin puede
emplearse con propsitos de optimizacin o control del proceso.
Comenzaremos con el caso ms sencillo, la prediccin de una variable (y) a partir de otra variable
(x).
REGRESIN LINEAL SIMPLE
Para las situaciones siguientes establezca cual es la variable dependiente y cual es la independiente.
a) Un actuario quiere predecir el monto del seguro de vida alcanzado por los maestros a partir de
sus salarios mensuales.
Solucin: la variable dependiente o de respuesta, es el monto del seguro de vida alcanzado por
un maestro, y la variable independiente o variable de prediccin es el salario anual del docente.
b) El gerente de un restaurante quiere estimar el nmero de clientes que puede esperar cierta
noche a partir del nmero de reservaciones para cenar recibidas hasta las 5:00 PM
Solucin: El nmero de clientes es la variable de respuesta, el nmero de reservaciones es la
variable independiente.
Supuestos para el modelo de regresin lineal1
1. Para cada valor de x, la variable aleatoria

se distribuye normalmente.

2. Para cada valor de x, la media o valor esperado de

es 0; esto es,
2

E 0 .

3. Para cada valor de x, la varianza de es la constante (llamada varianza del error).


4. Los valores del trmino de error son independientes.
5. Para un valor fijo de x, la distribucin muestral de y es normal, porque sus valores dependen de
los de .

6. Para un valor fijo x, es posible predecir el valor de y.


7. Para un valor fijo x, es posible estimar el valor promedio de y

Pgina 1

Ejemplo 1:
En el marco de la Segunda Especializacin en Monitoreo Ambiental de la Universidad Nacional
Altiplnica de Puno, con fecha 28 de junio de 2013, los participantes del curso tomaron muestras del
Ro Choquene en diversos puntos y obtuvieron los siguientes resultados para Ca y Mg:

SITIOS
PM-01
PM-02
PM-03
PM-04
PM-05
PM-06
PM-07
PM-08
PM-09
PM-10

DESCRIPCIN
BOFEDAL
PIEZMETRO
RIO VISCACHANI
RIO CHOQUENE
RIO WILALACAYA
LADO RIO WILALACAYA
RIO CHOQUENE
TRIBUTARIO RIO CHOQUENE
RIO CHOQUENE
RIO PROVENIENTE TOCOTOCO

NORTE
8372157
8371618
8367709
8367173
8367170
8367095
8366360
8365945
8364474
8363253

ESTE
Ca (mg/L) Mg (mg/L)
427268
19,10
39,66
427366
17,40
34,89
427645
184,00
21,03
427452
128,00
27,84
427435
41,30
7,83
427444
4,15
1,97
428410
45,90
10,21
429290
97,90
12,37
429806
70,30
13,31
429909
49,40
10,64

Graficando los datos de Ca y Mg de la tabla en el diagrama de dispersin podemos observar la


coleccin de los diez pares de datos (x,y) como muestra de una poblacin de pares, donde las
medidas de concentracin de Ca x pueden tomar cualquier valor en el rango de valores que se
extiende de 4,15 a 184; igualmente para la concentracin de Mg y. Asumamos que existe una
relacin lineal para la concentracin de Ca y Mg. (Se entiende por relacin lineal cuando la variable
y tiene una tendencia a crecer o decrecer, cuando la variable x aumenta).

Grfico de dispersin
45,00
40,00

Mg (mg/L)

35,00
30,00
25,00
20,00
15,00
10,00
5,00
0,00
0,00

50,00

100,00

Ca (mg/L)

Estadstica, Richard C.Weimer, CECSA, Segunda edicin, 2000

Pgina 2

150,00

200,00

Usamos el modelo probabilstico siguiente para explicar el comportamiento de la concentracin de


Mg en funcin de los valores de concentracin de Ca, este se llama modelo de regresin lineal, y
expresa la relacin lineal entre la concentracin de Ca (x) y la concentracin de Mg (y).
Modelo de regresin lineal
=

Donde
y = variable dependiente
0 ordenada al origen

= pendiente
x = variable independiente
= Error aleatorio

0 1 x se denomina componente determinstica del modelo de regresin lineal.


La muestra de pares de datos se usar para estimar los parmetros 0 y1 de la componente
La expresin

determinstica.
La diferencia principal entre un modelo probabilstico y uno determinstico es la inclusin de un
trmino de error aleatorio en el modelo probabilstico. En el ejemplo las diferentes concentraciones
de Mg para una misma concentracin de Ca, se atribuyen al trmino de error en el modelo de
regresin.

Clculo de la ecuacin de regresin


Tambin es llamada ecuacin de prediccin de mnimos cuadrados. La ecuacin de regresin
estimada es: y b0 b1 x.
Donde:

y
b0 =
b1=

Valor predicho de y para un valor particular de x.

0 (ordenada al origen)
Estimador puntual de 1. (pendiente)
Estimador puntual de

Para el clculo de b0 y b1, utilizamos las siguientes frmulas:

SS x

x
x
n

SS y

y
y
n

SS xy xy

x y
n

Pgina 3

b1

SS xy
SS x

b0 y b1 x
Donde:
SS = suma de cuadrados
b1 = pendiente
b0 = ordenada al origen
n = nmero de pares de datos
En la tabla incluimos las sumatorias que utilizaremos para el clculo de las frmulas.
SITIOS
PM-01
PM-02
PM-03
PM-04
PM-05
PM-06
PM-07
PM-08
PM-09
PM-10

DESCRIPCIN

Ca (mg/L) Mg (mg/L)
BOFEDAL
19,10
39,66
PIEZMETRO
17,40
34,89
RIO VISCACHANI
184,00
21,03
RIO CHOQUENE
128,00
27,84
RIO WILALACAYA
41,30
7,83
LADO RIO WILALACAYA
4,15
1,97
RIO CHOQUENE
45,90
10,21
TRIBUTARIO RIO CHOQUENE
97,90
12,37
RIO CHOQUENE
70,30
13,31
RIO PROVENIENTE TOCOTOCO
49,40
10,64
SUMAS
657,45
179,75
MEDIAS
65,75
17,98

x
364,81
302,76
33856,00
16384,00
1705,69
17,22
2106,81
9584,41
4942,09
2440,36
71704,15

Calculando b0 y b1 tenemos:
= 71704,15

657,45
= 28480,10
10

= 4620,34

179,75
= 1389,33
10

= 12270,01
=

657,45 179,75
= 452,35
10

452,35
= 0,0159
28480,10

= 17,98 0,0159 65,75 = 16,93


La ecuacin de prediccin de mnimos cuadrados es:
=

= 16,93 + 0,0159

Pgina 4

y
1572,92
1217,31
442,26
775,07
61,25
3,90
104,24
153,02
177,16
113,21
4620,34

xy
757,51
607,09
3869,52
3563,52
323,21
8,19
468,64
1211,02
935,69
525,62
12270,01

Grfico de dispersin
45,00
40,00

y = 0,0159x + 16,93

Mg (mg/L)

35,00
30,00
25,00
20,00
15,00
10,00
5,00
0,00
0,00

50,00

100,00

150,00

200,00

Ca (mg/L)

Error
Los errores se denominan frecuentemente residuales. Podemos observar en la grfica de
regresin los errores indicados por segmentos verticales.

Grfico de dispersin
45,00
40,00

y = 0,0159x + 16,93

Mg (mg/L)

35,00
30,00
25,00
20,00
15,00
10,00
5,00
0,00
0,00

50,00

100,00

150,00

Ca (mg/L)

Cabe hacernos la pregunta: qu tan significativo son los errores obtenidos?

Pgina 5

200,00

Al usar el criterio de mnimos cuadrados para obtener la recta que mejor se ajuste a nuestros datos,
podemos obtener el valor mnimo para la suma de cuadrados del error (SSE)

SSE SS y b1 SS xy
A la varianza de los errores e se le llama varianza residual siendo denotada por Se2, se encuentra
dividiendo SSE entre n-2

S e2

SSE
n2

La raz cuadrada positiva de la varianza residual se llama error estndar de estimacin y se denota
por Se.
=+
Aplicando las frmulas al ejemplo, obtenemos la suma de cuadrados del error, la varianza residual
y el error estndar de la estimacin:
= 1389,33 0,0159 452,35 = 1382,14
=

1382,14
= 172,77
8

172,77 = 13,14

Ejemplo 2: Durante una segunda campaa de muestreo, realizada el 28 de septiembre de 2013, los
participantes de la Segunda Especializacin de Monitoreo Ambiental, recuperaron los siguientes
datos de concentracin de Ca y Mg:

SITIOS
PM-01
PM-02
PM-03
PM-04
PM-05
PM-06
PM-07
PM-09
PM-10

DESCRIPCIN
BOFEDAL
PIEZMETRO
RIO VISCACHANI
RIO CHOQUENE
RIO WILALACAYA
LADO RIO WILALACAYA
RIO CHOQUENE
RIO CHOQUENE
RIO PROVENIENTE TOCOTOCO

Ca (mg/L)
36,10
73,10
188,00
211,00
65,30
12,90
84,10
79,40
56,10

Mg (mg/L)
79,44
45,67
21,41
23,49
11,70
6,47
14,02
13,55
11,34

Encuentre:
a)
b)
c)
d)

Una estimacin puntual para b0.


Una estimacin puntual para b1
2
Una estimacin puntual para la varianza del error Se2 ( ).
Una estimacin puntual para la concentracin de Mg si la concentracin de Ca es de 70
mg/L.
e) Prediga la concentracin de Mg en un punto del Ro Choquene en el cual la concentracin
de Ca es de 155 mg/L.

Pgina 7

SITIOS
PM-01
PM-02
PM-03
PM-04
PM-05
PM-06
PM-07
PM-09
PM-10

DESCRIPCIN

Ca (mg/L)

BOFEDAL
PIEZMETRO
RIO VISCACHANI
RIO CHOQUENE
RIO WILALACAYA
LADO RIO WILALACAYA
RIO CHOQUENE
RIO CHOQUENE
RIO PROVENIENTE
TOCOTOCO
SUMAS
MEDIAS

Mg (mg/L)

x2

y2

xy

36,10
73,10
188,00
211,00
65,30
12,90
84,10
79,40

79,44
45,67
21,41
23,49
11,70
6,47
14,02
13,55

1303,21
5343,61
35344,00
44521,00
4264,09
166,41
7072,81
6304,36

6310,71
2085,75
458,39
551,78
136,89
41,86
196,56
183,60

2867,78
3338,48
4025,08
4956,39
764,01
83,46
1179,08
1075,87

56,10
806,00
89,56

11,34
227,09
25,23

3147,21
107466,70

128,60
10094,14

636,17
18926,32

= 35284,92
= 4364,15
= 1410,85
= 0,0400
= 28,814
= 4307,72
= 615,39
= 28,814 0,0400
a)
b)
c)
d)
e)

b0 =28,814
b1 =-0,0400
S e2 = 615,39
28,814 - 0,0400x70 = 26,014 mg/L
28,814 0,0400x155 = 22,614 mg/L

Anlisis de correlacin
Establece si existe una relacin entre las variables y responde a la pregunta, Qu tan evidente es
esta relacin?.
La correlacin es una prueba fcil y rpida para eliminar factores que no influyen en la prediccin,
para una respuesta dada.
Coeficiente de Correlacin de Pearson

Es una medida de la fuerza de la relacin lineal entre dos variables x y y.


Es un nmero entre -1 y 1

Pgina 8

Un valor positivo indica que cuando una variable aumenta, la otra variable aumenta
Un valor negativo indica que cuando una variable aumenta, la otra disminuye
Si las dos variables no estn relacionadas, el coeficiente de correlacin se aproxima a 0.

El coeficiente de correlacin r se calcula mediante la siguiente frmula:

SSxy
SSxSSy

Tabla de Correlacin
Por su importancia, cul es el coeficiente mnimo de correlacin?
n
3
4
5
6
7
8
9
10
11
12
13
14

95%
de confianza
1.00
0.95
0.88
0.81
0.75
0.71
0.67
0.63
0.60
0.58
0.53
0.53

99%
de confianza
1.00
0.99
0.96
0.92
0.87
0.83
0.80
0.76
0.73
0.71
0.68
0.66

n
15
16
17
18
19
20
22
24
26
28
30

95%
de confianza
0.51
0.50
0.48
0.47
0.46
0.44
0.42
0.40
0.39
0.37
0.36

99%
de confianza
0.64
0.61
0.61
0.59
0.58
0.56
0.54
0.52
0.50
0.48
0.46

Para un 95% de confianza, con una muestra de 10,


el coeficiente (r) debe ser al menos .63
Para un 95% de confianza, con una muestra de 9, el
coeficiente (r) debe ser al menos 0,67

Pgina 9

Correlacin Negativa
Evidente
25

20

20

15

15

10

Correlacin Positiva
Evidente
25

10
5

Sin Correlacin

0
0

10

15

20

25

0
0

10

25

15

20

25

20
15

25

Correlacin
Positiva

10

Correlacin
Negativa

5
0
0

20

10

15

20

25

25

20

15
Y

15
10

10

5
5
0
0

10

15

20

25

10

15

20

25

Ejemplo 3: Para los datos del Ejemplo 1, calcule el coeficiente de Pearson, interprete el resultado e
indique si se puede utilizar la ecuacin de regresin con un 95% de confianza.
= 452,35
= 28480,10
= 1389,33
=

452,35
= 0,0719
28480,10
1389,33

Grfico de dispersin

Mg (mg/L)

45,00
40,00

y = 0,0159x + 16,93

35,00
30,00
25,00
20,00
15,00
10,00
5,00
0,00
0,00

50,00

100,00

Ca (mg/L)

Pgina 10

150,00

200,00

En el diagrama de dispersin observamos que al aumentar x, y aumenta, por lo cual la correlacin


es positiva. Comparando el coeficiente de correlacin calculado, con la tabla de correlaciones
observamos que 0,0719 << 0,63, por lo cual la correlacin entre las variables es inexistente.
Ejemplo 4: Repita el ejemplo 3 con los datos del ejemplo 2. Indique si la ecuacin de regresin es
adecuada para prediccin con una confiabilidad del 95%.

Regresin lineal en Excel


Mediante el uso de anlisis de datos de MS Excel, resolveremos el Ejemplo 1.
Seleccione: datos > anlisis de datos > regresin y cliquee el botn aceptar.

En la ventana seleccione el rango de entrada para X y Y, el rango de salida y seleccione la opcin:


grfico de residuales y curva de regresin ajustada. Cliquee el botn aceptar.

Pgina 11

Aparecer en la planilla una tabla con los resultados de la regresin.

Pgina 12

Anlisis de resultados de la tabla de Excel:


Analizando los resultados de Excel, tenemos:

En la seccin Estadsticas de la regresin vemos que el coeficiente de correlacin = .0719


comparando este valor con la tabla de correlaciones observamos que el valor .0719 << .63
lo cual indica una relacin dbil entre las variables. En la grfica de regresin ajustada
observamos que la correlacin es positiva ya que al aumentar X, Y aumenta; Cabe
mencionar que el coeficiente de correlacin calculado por el sistema siempre es positivo,
por lo cual debemos basarnos la grfica de regresin para determinar el signo.

Ecuacin de la regresin: Para obtener la ecuacin de regresin usamos los coeficientes de


los renglones Intercepcin y variable X1, estos son 16,93 y 0,0159 respectivamente, siendo
la ecuacin de regresin: y = 16,93 + 0,0159x.

Anlisis de Varianza: La tabla muestra la suma de cuadrados de la regresin SSR = 7,185,


la suma de cuadrados de los residuos o error SSE = 1382,13, el promedio de los cuadrados
2
de los residuos que es la varianza residual S e = 172,77 . El sistema calcula el valor de F
2

(razn f de Fischer) dividiendo SSR/ S e . El valor crtico F (0,8435), representa la


probabilidad (rea bajo la curva de la distribucin F) de ocurrencia de la hiptesis nula (H0,
b1=0), como es mayor que 0,05 (valor de significancia) no tenemos evidencia para rechazar
la hiptesis nula, en consecuencia el modelo de regresin no es apropiado.

Anlisis de residuos: muestra los pronsticos y residuos para cada observacin, as como
el grfico de residuales, en el cual observamos inconsistencias ya que la mayora de los
puntos se encuentran alejados de la curva de regresin.

Pgina 13