Sunteți pe pagina 1din 15

ANLISIS DE REGRESIN Y DE CORRELACIN

INTRODUCCIN
En la aplicacin de los mtodos estadsticos estudiados en los captulos anteriores, se ha tratado con
una nica variable de inters. A estas variables se le examinaron algunas medidas que describen su
comportamiento y se aplicaron diversas tcnicas de inferencia estadstica, como intervalos de confianza
y pruebas de hiptesis, para hacer estimaciones y sacar conclusiones acerca de ellas. En esta unidad se
tratar con problemas que abarcan dos variables cuantitativas para establecer y medir las relaciones
existentes entre ellas.

Anlisis de Regresin y Anlisis de Correlacin


El anlisis de regresin es un procedimiento estadstico que estudia la relacin funcional entre
variables. Intenta explicar el comportamiento de una variable Y, llamada variable dependiente
(explicada, de respuesta, endgena) a partir del comportamiento de otra u otras variables
X1, X2, , Xk llamadas variables independientes (explicativas, predictoras, exgenas, regresoras),
estableciendo la expresin funcional del modelo matemtico que describa dicho comportamiento.
El anlisis de correlacin es un conjunto de procedimientos estadsticos para estimar y contrastar
hiptesis sobre la intensidad de la relacin entre variables.

El anlisis de regresin puede ser simple (interviene una sola variable independiente) o mltiple
(intervienen dos o ms variables independientes). Puede ser lineal (la funcin que modela la relacin
entre la variable dependiente y las independientes es lineal) o no lineal.

Anlisis de Regresin Simple


Se llama modelo estadstico de regresin simple al modelo que tiene slo una variable explicativa:
Y = f(X) + e
donde: Y: variable explicada
X: variable explicativa
f: funcin de regresin
e: error aleatorio (residuo)
1

Supuestos Bsicos de la Regresin


La aplicacin del anlisis inferencial al modelo estadstico de regresin requiere de los siguientes
supuestos sobre la variable aleatoria e.
1) La variable aleatoria residual ei, para cada valor xi, cumple que ei N(0,2)
Es decir:
(a) ei tiene la distribucin normal;
(b) su valor esperado es cero, E(ei) = 0;
(c) la varianza de ei, es la misma para cada valor xi de X, o sea, la varianza se mantiene
constante V(ei) = 2.
2) Las variables aleatorias ei y ej, para dos valores cualesquiera xi y xj de X, son independientes,
o sea, la covarianza entre ellas es cero Cov(ei, ej) = 0.

Anlisis de Regresin Lineal Simple


El anlisis de regresin lineal simple se realiza cuando la funcin de regresin es una funcin afn, o
sea, una recta
Y i = 0 + 1 Xi + e i
donde:
Yi: Variable dependiente
Xi: Variable independiente
f(Xi) = E(Yi) = 0 + 1 Xi: Recta de regresin

0 : Ordenada al origen
1 : Pendiente de la recta
ei : error aleatorio
Estimadores de los parmetros 0 y 1
Denotando al estimador de la ordenada al origen y de la pendiente, respectivamente:

0 = b0

1 = b1

se tiene el modelo estimado de regresin lineal simple:

Yi = b0 + b1 Xi + ei
donde

= b0 + b1 Xi: Recta de regresin estimada


Y
i
y

) : Residuo muestral.
ei = [ Yi ( b0 + b1 Xi )] = ( Yi Y
i
Para construir los estimadores de la regresin, o sea, b0 y b1, se utiliza un mtodo estadstico llamado
MTODO DE MNIMOS CUADRADOS.

Este mtodo consiste en calcular los valores b0 y b1 de modo tal que minimice la suma del cuadrado de
los residuos, SCRES
n

SCRES =

2
i

i =1

o la expresin equivalente
n

SCRES =

(Y

b 0 b1 X i ) 2

i =1

De estas expresiones se obtienen los estimadores correspondientes

Estimador de 0

b0

Y X X Y X
=
n X ( X )
i

2
i

2
i

Estimador de 1
b1 =

X Y ( X ) ( Y )
n X ( X )
i

2
i

Expresiones equivalentes para b1 son:

b1 =

b1 =

X Y
i

X i2

( X ) ( Y )
i

( X )

X Y n X Y
X n X
i

2
i

Para b 0 , tenemos:

b 0 = Y b1 X

Coeficiente de Determinacin
El Coeficiente de Determinacin (R2) es un coeficiente que mide la proporcin de la variacin total
explicada por la regresin, y se define como el cociente entre la SUMA DE CUADRADO EXPLICADA y la
SUMA DE CUADRADO TOTAL
2

(Y Y )
=
(Y Y )

R2 =

(X X )
(Y Y )

b12

Adems, 0 R2 1. En la medida que se acerca a 1 mejor es el ajuste de la recta a los datos, y


viceversa, en la medida que se acerca a 0, peor es el ajuste de la recta a los datos.

Distribucin de los estimadores


Para poder inferir sobre los parmetros de la funcin de regresin hay que determinar la distribucin
de los estimadores.

Dado que los residuos e tienen distribucin normal, entonces, los estimadores tienen distribucin
normal.
b0 Normal
b1 Normal
La esperanza matemtica y la varianza de cada uno de ellas son:
1

E(b0) = 0 y V(b0) = e2 +
n

E(b1) = 1 y V(b1) =

X2

2
(Xi X)

e2
(X i X ) 2

luego
b0 0
V (b0 )
b1 1
V ( b1 )

N(0,1)
N(0,1)

Intervalos de Confianza
INTERVALO DE CONFIANZA PARA 0 (Con un nivel de confianza de 1)
La varianza estimada de b0 es

1
V (b0) = S e2 +
n

S e2

donde

2
(X i X )
X2

(Y
=

2
Y i )

n2

el intervalo es, entonces


b0 t

( n 2)

V ( b 0 )

INTERVALO DE CONFIANZA PARA 1 (Con un nivel de confianza de 1)


La varianza estimada de la pendiente muestral b1es:

V (b1) =

S e2

(X

X)2

el intervalo es, entonces

b1 t

(n 2) V ( b1 )

INTERVALO DE CONFIANZA PARA UN VALOR INDIVIDUAL DE LA RECTA DE


REGRESIN POBLACIONAL (Con un nivel de confianza de 1)
Dada la recta de regresin

= b0 + b1 Xi
Y
i
se puede estimar puntualmente el valor de la recta para un valor dado x0 de la variable explicativa

0 = b0 + b1 x0
Y
La varianza estimada para un valor individual de la recta de regresin muestral es
1
( x X )2
V ( Y 0) = S e2 1 + + 0

( X

X )2

el intervalo es:
0 t
Y

(Y )
( n 2) V
0

Prueba de Hiptesis para los parmetros de la recta de regresin

Al igual que para los intervalos de confianza, la varianza poblacional e2 es desconocida en todos los
casos, luego, hay que utilizar su estimador S e2 , por lo tanto, las varianzas que se utilizan en los
respectivos estadgrafos son varianzas estimadas, y la distribucin de cada uno de los estadgrafos de
prueba es la distribucin t de Student con n2 grados de libertad.
PRUEBA DE HIPTESIS PARA 0
H 0: 0 = 0
H 1: 0 0
Se rechaza H0 si | b0 ' | > t
0

(b )
( n 2) V
0

PRUEBA DE HIPTESIS PARA 1


H 0: 1 = 1
H 1: 1 1
Se rechaza H0 si | b1 ' | > t
1

(b )
( n 2) V
1

Ejemplo
El responsable de costos de una empresa de construccin desea estimar el costo total de la construccin
de las casas unifamiliares suponiendo que el costo de la construccin tiene una fuerte relacin con el
tamao del lote. Se toma una muestra aleatoria de 12 casas construidas el ao pasado, y la informacin
recopilada se presenta en el siguiente cuadro:
Costo de construccin y tamao del lote para una muestra
aleatoria de 12 casas unifamiliares

Observacin

Tamao del lote


2
(en decenas de m )

Costo de construccin
(en miles de dlares)

1
2
3
4
5
6
7
8
9
10
11
12

5
7
10
10
12
20
22
15
30
40
12
15

31,6
32,4
41,7
50,2
46,2
58,5
59,3
48,4
63,7
85,3
53,4
54,5

Se pide:
a) Indique cul es la variable independiente (explicativa) y cul es la variable dependiente
(explicada).
b) Construya un diagrama de dispersin.
c) Estime e interprete, en los trminos de este problema, la ordenada al origen y la pendiente de la
recta de regresin poblacional.
d) Calcule e interprete el coeficiente de determinacin.
e) Estime, con una confianza del 95% el costo de construccin para un lote de 150 metros
cuadrados.
f) Estime, con una confianza del 99% el costo fijo.
7

g) Pruebe, con un nivel de significacin del 1% si el costo medio variable es superior a $US 1000.

SOLUCION
a) La variable independiente (explicativa) X es el tamao del lote (en decenas de metros cuadrados),
porque esta variable es la que se utiliza para estimar el costo de la construccin. La variable
dependiente (explicada) Y es, entonces, el costo de construccin (en miles de dlares) porque ella es la
variable que se quiere estimar. El comportamiento del costo de la construccin est explicado por el
comportamiento del tamao del lote.

b) Con los datos de la muestra que se presentan en el cuadro anterior, se puede construir el siguiente
Diagrama de Dispersin.

DIAGRAMA DE DISPERSIN
Tamao del Lote y Costo de Construccin

Costo de Construccin

90
80
70
60
50
40
30
20
10
0
0

10

15

20

25

30

35

40

45

Tamao del Lote

c) Se supone que la relacin entre las variables es lineal, por lo tanto hay que estimar los parmetros de
la RECTA DE REGRESIN utilizando las correspondientes frmulas:

b1 =

X i Yi n X Y
X i2 n X 2

b 0 = Y b1 X donde, X =

X
n

e Y=

Para obtener las estimaciones de los parmetros se construye la siguiente tabla de clculo:

Clculos para el problema del Costo de Construccin


Observacin

Tamao del lote


(en decenas de
metros cuadrados)

Costo de construccin
(en miles de dlares)

Xi

Yi

XiYi

Xi2

Yi2

5
7
10
10
12
20
22
15
30
40
12
15
198

31,6
32,4
41,7
50,2
46,2
58,5
59,3
48,4
63,7
85,3
53,4
54,5
625,2

158,0
226,8
417,0
502,0
554,4
1170,0
1304,6
726,0
1911,0
3412,0
640,8
817,5
11840,1

25
49
100
100
144
400
484
225
900
1600
144
225
4396

998,56
1049,76
1738,89
2520,04
2134,44
3422,25
3516,49
2342,56
4057,69
7276,09
2851,56
2970,25
34878,58

1
2
3
4
5
6
7
8
9
10
11
12
Totales

Aplicando las frmulas correspondientes se pueden calcular los valores b0 y b1:


X=

198
= 16,5 ;
12

b1 =

Y=

625, 2
= 52,1
12

11840,1 12 16,5 52,1


4396 12 16,5

1524,3
= 1,35
1129

b0 = 52,1 1,35 16,5 = 29,825


Por tanto, la recta de regresin estimada es:
= 29,825 + 1,35 Xi
Y
i

La ordenada al origen b0 representa el valor de Y cuando X es igual a cero. En este problema, la


ordenada al origen es el costo fijo, o sea, el costo que no vara con el tamao del lote.
La pendiente b1 representa la variacin de Y, cuando X vara en una unidad. En este problema la
pendiente representa el costo medio variable del costo de construccin. La parte del costo que vara
por unidad de tamao del lote.

d) Para encontrar el coeficiente de determinacin R2 hay que calcular las sumas de cuadrados de la
variable independiente (explicada) y la suma de cuadrado total
SCEXP = b 12

(Xi

X)

SCTOTAL = (Yi Y )

Entonces se tiene:

( Xi

X )2 = X i2 n X 2 = 4396 12 16,5 2 = 1129

luego
SCEXP.= 1,35 1129 = 2057,6025
2

SCTOTAL= ( Yi Y ) = Y i2 n Y 2 = 34878,58 12 52,1 = 2305,66


2

R2 =

SCEXP .
2057,6025
= 0,8924
=
SCTOTAL
2305,66

Expresado en porcentaje, el 89,24% de la variacin del costo de construccin est explicada por la
variacin del tamao del lote.
e) El costo de construccin para un lote de 150 m2 se puede estimar puntualmente utilizando la recta de

sustituyendo X = 15 en la ecuacin.
regresin Y
i
Y = 29,825 + 1,35 15 = 50,075
Dado que Y representa miles de dlares, el costo promedio estimado es US$ 50,075 para las casas a
construirse sobre un lote de 150 m2.

Para construir el intervalo de confianza es necesario calcular la varianza residual muestral. Utilizando
la frmula siguiente:

( Yi Y i )2 = ( Yi Y )2 b 12 ( Xi X )2 = 2305,66 2057,6025 = 248,0575


entonces:
S e2

(Y
=

)
Y
i

n2

248, 0575
= 24,80575
10

La varianza estimada de la estimacin de un valor puntual de la recta

1
(x 0 X ) 2
V ( Y ) = S e2 1 + +
n
(X i X ) 2

10

para X = 15 es
2

1 (15 16,5)
= 26,92
V [ Y ] = 24,80575 1 + +

12

1129

El valor del percentil (1 /2) = 0,975 de la distribucin t de Student con (n2) = 10 grados de libertad
es t

(n 2) = 2,228

Luego, el intervalo
t
Y

( n 2)

(Y )
V

es
50,075 2,228 26,,92
Li = 50,075 11,5603 = 38,5147
Ls = 50,075 + 11,5603 = 61,6353
El costo de construccin para un lote de 150 metros cuadrados estara entre 38,515 y 61,635 miles de
dlares con una confianza del 95%

f) El costo fijo, como ya fue explicado en el punto c), es la ordenada al origen


La varianza estimada de la ordenada al origen

1
V (b0) = S e2 +
n

2
(X i X )
X2

es
1 16,5 2

= 8,0489
V (b0) = 24,80575 +

12

El valor del percentil


libertad es t

1129

(1 /2) = 0,995 de la distribucin t de Student con (n2) = 10 grados de

(n 2) = 3,169

Luego el intervalo
b0 t

( n 2)

es
29,825 3,169

8,0489

11

V ( b 0 )

Li = 29,825 8,99 = 20,835


Ls = 29,825 + 8,99 = 38,815
El costo fijo estara entre 20,835 y 38,815 miles de dlares con una confianza del 99 %.

g) El costo medio variable, como ya fue explicado en el punto c), es la pendiente.


Hay que probar si 1 es superior a 1 (mil), por lo tanto, la hiptesis nula y la hiptesis alternativa son
H 0: 1 1
H 1: 1 > 1

(b ) o lo que es equivalente si
Se rechazar H0 si b1 > ' + t1 (n 2) V
1
1

b1 1'
(b )
V
1

> t1 (n 2)

El percentil (1 ) = 0,99 de la distribucin t de Student con (n2) = 10 grados de libertad es 2,764

b1 '
1 > 2,764 se rechaza H
si
0
(b )
V
1
La varianza estimada de la pendiente muestral

V (b1) =

S e2

(X

X)2

es

24,80575
V (b1) =
= 0,02197
1129

El valor del estadgrafo de prueba es

1,35 1
0,02197

= 2,36

como 2,36 < 2,764 no se rechaza H0


(Tambin es equivalente verificar que 1,35 < 1+ 2,764 0,02197 = 1,41)

Con un nivel de significacin del 1%, no se puede considerar que el costo medio variable sea superior a
$US 1000.

12

Anlisis de Correlacin
El anlisis de correlacin es un mtodo estadstico que permite medir el grado de asociacin entre las
variables.

Anlisis de Correlacin Lineal Simple


El anlisis de correlacin lineal simple se lleva a cabo cuando la funcin de regresin que
explica el comportamiento conjunto de las variables es una recta.
Coeficiente de Correlacin Lineal Poblacional
La intensidad de la relacin lineal entre las variables se mide en la poblacin con el parmetro
coeficiente de correlacin lineal (
). Este coeficiente surge del cociente entre la covarianza de las
variables y el producto de las desviaciones estndares de cada una de ellas
=

XY
X Y

El coeficiente de correlacin lineal (), cumple con:


1 1
En los casos que:
= 1 : Existe una perfecta relacin lineal inversa entre las variables X e Y. Todos los puntos
pertenecen a una recta de pendiente negativa.
= 1 : Existe una perfecta relacin lineal directa entre las variables X e Y. Todos los puntos pertenecen
a una recta de pendiente positiva
= 0 : No existe relacin lineal entre las variables X e Y. Ya sea porque, o las variables no estn
asociadas, o porque la relacin entre ellas no es lineal.
Cuando se acerca a 1 1 el grado de relacin lineal aumenta y cuando se acerca a 0 el grado de
relacin lineal disminuye.

Coeficiente de Correlacin Lineal Muestral.


El coeficiente de correlacin lineal muestral (r), es el estimador del coeficiente de correlacin lineal
poblacional (
) y se calcula como:

13

(X i X )(Yi Y )
(X i X ) 2 (Yi Y ) 2

r=

[n X

n X i Yi X i Yi
2
i

][

( X i ) 2 n Yi2 ( Yi ) 2

Prueba de Hiptesis para (coeficiente de correlacin lineal)


H0: = 0
H1: 0

Regla de decisin: Si

r 0
1 r2

> t

( n 2) se rechaza H0

n2

Ejemplo:
Para los datos del ejemplo anterior:
a) Estime el coeficiente de correlacin lineal.
b) Puede asegurar con un nivel de significacin del 10% que el coeficiente de correlacin lineal
es superior a 0,8?

Solucin:
a)
r

[n X

n X i Yi X i Yi
2
i

][

( X i ) n Y ( Yi )
2

2
i

12(11840,1) (198)(625,2)

] [12(4396) (198) ][12(34878,58) (625,2) ]


=

12(11840,1) (198)(625,2)

[12(4396) (198) ][12(34878,58) (625,2) ]


2

En el caso de la regresin lineal simple, el valor de r =


En efecto, R2 = 0,8924 y

R 2 = 0,8924 = 0,945.

14

18291,6
= 0,945.
19360,915

R2 .

b)
H0: 0,8
H1: > 0,8
La regla de decisin ser: Se rechaza H0 si r > 0 + t1 ( n 2)

1 r2
n2

Datos:
n = 12
0 = 0,8
= 0,10
t 0,90 (10) = 1,372

Se rechaza H0 si r > 0,8 + 1,372

1 0,945 2
12 2

= 0,942

Como r = 0,945 > 0,942 se rechaza H0: 0,8. a favor de H1: > 0,8. Luego la evidencia encontrada
en la muestra es suficiente para afirmar con una significacin del 10% que el coeficiente de correlacin
lineal es mayor a 0,8.

15

S-ar putea să vă placă și