Documente Academic
Documente Profesional
Documente Cultură
INTRODUCCIN
En la aplicacin de los mtodos estadsticos estudiados en los captulos anteriores, se ha tratado con
una nica variable de inters. A estas variables se le examinaron algunas medidas que describen su
comportamiento y se aplicaron diversas tcnicas de inferencia estadstica, como intervalos de confianza
y pruebas de hiptesis, para hacer estimaciones y sacar conclusiones acerca de ellas. En esta unidad se
tratar con problemas que abarcan dos variables cuantitativas para establecer y medir las relaciones
existentes entre ellas.
El anlisis de regresin puede ser simple (interviene una sola variable independiente) o mltiple
(intervienen dos o ms variables independientes). Puede ser lineal (la funcin que modela la relacin
entre la variable dependiente y las independientes es lineal) o no lineal.
0 : Ordenada al origen
1 : Pendiente de la recta
ei : error aleatorio
Estimadores de los parmetros 0 y 1
Denotando al estimador de la ordenada al origen y de la pendiente, respectivamente:
0 = b0
1 = b1
Yi = b0 + b1 Xi + ei
donde
) : Residuo muestral.
ei = [ Yi ( b0 + b1 Xi )] = ( Yi Y
i
Para construir los estimadores de la regresin, o sea, b0 y b1, se utiliza un mtodo estadstico llamado
MTODO DE MNIMOS CUADRADOS.
Este mtodo consiste en calcular los valores b0 y b1 de modo tal que minimice la suma del cuadrado de
los residuos, SCRES
n
SCRES =
2
i
i =1
o la expresin equivalente
n
SCRES =
(Y
b 0 b1 X i ) 2
i =1
Estimador de 0
b0
Y X X Y X
=
n X ( X )
i
2
i
2
i
Estimador de 1
b1 =
X Y ( X ) ( Y )
n X ( X )
i
2
i
b1 =
b1 =
X Y
i
X i2
( X ) ( Y )
i
( X )
X Y n X Y
X n X
i
2
i
Para b 0 , tenemos:
b 0 = Y b1 X
Coeficiente de Determinacin
El Coeficiente de Determinacin (R2) es un coeficiente que mide la proporcin de la variacin total
explicada por la regresin, y se define como el cociente entre la SUMA DE CUADRADO EXPLICADA y la
SUMA DE CUADRADO TOTAL
2
(Y Y )
=
(Y Y )
R2 =
(X X )
(Y Y )
b12
Dado que los residuos e tienen distribucin normal, entonces, los estimadores tienen distribucin
normal.
b0 Normal
b1 Normal
La esperanza matemtica y la varianza de cada uno de ellas son:
1
E(b0) = 0 y V(b0) = e2 +
n
E(b1) = 1 y V(b1) =
X2
2
(Xi X)
e2
(X i X ) 2
luego
b0 0
V (b0 )
b1 1
V ( b1 )
N(0,1)
N(0,1)
Intervalos de Confianza
INTERVALO DE CONFIANZA PARA 0 (Con un nivel de confianza de 1)
La varianza estimada de b0 es
1
V (b0) = S e2 +
n
S e2
donde
2
(X i X )
X2
(Y
=
2
Y i )
n2
( n 2)
V ( b 0 )
V (b1) =
S e2
(X
X)2
b1 t
(n 2) V ( b1 )
= b0 + b1 Xi
Y
i
se puede estimar puntualmente el valor de la recta para un valor dado x0 de la variable explicativa
0 = b0 + b1 x0
Y
La varianza estimada para un valor individual de la recta de regresin muestral es
1
( x X )2
V ( Y 0) = S e2 1 + + 0
( X
X )2
el intervalo es:
0 t
Y
(Y )
( n 2) V
0
Al igual que para los intervalos de confianza, la varianza poblacional e2 es desconocida en todos los
casos, luego, hay que utilizar su estimador S e2 , por lo tanto, las varianzas que se utilizan en los
respectivos estadgrafos son varianzas estimadas, y la distribucin de cada uno de los estadgrafos de
prueba es la distribucin t de Student con n2 grados de libertad.
PRUEBA DE HIPTESIS PARA 0
H 0: 0 = 0
H 1: 0 0
Se rechaza H0 si | b0 ' | > t
0
(b )
( n 2) V
0
(b )
( n 2) V
1
Ejemplo
El responsable de costos de una empresa de construccin desea estimar el costo total de la construccin
de las casas unifamiliares suponiendo que el costo de la construccin tiene una fuerte relacin con el
tamao del lote. Se toma una muestra aleatoria de 12 casas construidas el ao pasado, y la informacin
recopilada se presenta en el siguiente cuadro:
Costo de construccin y tamao del lote para una muestra
aleatoria de 12 casas unifamiliares
Observacin
Costo de construccin
(en miles de dlares)
1
2
3
4
5
6
7
8
9
10
11
12
5
7
10
10
12
20
22
15
30
40
12
15
31,6
32,4
41,7
50,2
46,2
58,5
59,3
48,4
63,7
85,3
53,4
54,5
Se pide:
a) Indique cul es la variable independiente (explicativa) y cul es la variable dependiente
(explicada).
b) Construya un diagrama de dispersin.
c) Estime e interprete, en los trminos de este problema, la ordenada al origen y la pendiente de la
recta de regresin poblacional.
d) Calcule e interprete el coeficiente de determinacin.
e) Estime, con una confianza del 95% el costo de construccin para un lote de 150 metros
cuadrados.
f) Estime, con una confianza del 99% el costo fijo.
7
g) Pruebe, con un nivel de significacin del 1% si el costo medio variable es superior a $US 1000.
SOLUCION
a) La variable independiente (explicativa) X es el tamao del lote (en decenas de metros cuadrados),
porque esta variable es la que se utiliza para estimar el costo de la construccin. La variable
dependiente (explicada) Y es, entonces, el costo de construccin (en miles de dlares) porque ella es la
variable que se quiere estimar. El comportamiento del costo de la construccin est explicado por el
comportamiento del tamao del lote.
b) Con los datos de la muestra que se presentan en el cuadro anterior, se puede construir el siguiente
Diagrama de Dispersin.
DIAGRAMA DE DISPERSIN
Tamao del Lote y Costo de Construccin
Costo de Construccin
90
80
70
60
50
40
30
20
10
0
0
10
15
20
25
30
35
40
45
c) Se supone que la relacin entre las variables es lineal, por lo tanto hay que estimar los parmetros de
la RECTA DE REGRESIN utilizando las correspondientes frmulas:
b1 =
X i Yi n X Y
X i2 n X 2
b 0 = Y b1 X donde, X =
X
n
e Y=
Para obtener las estimaciones de los parmetros se construye la siguiente tabla de clculo:
Costo de construccin
(en miles de dlares)
Xi
Yi
XiYi
Xi2
Yi2
5
7
10
10
12
20
22
15
30
40
12
15
198
31,6
32,4
41,7
50,2
46,2
58,5
59,3
48,4
63,7
85,3
53,4
54,5
625,2
158,0
226,8
417,0
502,0
554,4
1170,0
1304,6
726,0
1911,0
3412,0
640,8
817,5
11840,1
25
49
100
100
144
400
484
225
900
1600
144
225
4396
998,56
1049,76
1738,89
2520,04
2134,44
3422,25
3516,49
2342,56
4057,69
7276,09
2851,56
2970,25
34878,58
1
2
3
4
5
6
7
8
9
10
11
12
Totales
198
= 16,5 ;
12
b1 =
Y=
625, 2
= 52,1
12
1524,3
= 1,35
1129
d) Para encontrar el coeficiente de determinacin R2 hay que calcular las sumas de cuadrados de la
variable independiente (explicada) y la suma de cuadrado total
SCEXP = b 12
(Xi
X)
SCTOTAL = (Yi Y )
Entonces se tiene:
( Xi
luego
SCEXP.= 1,35 1129 = 2057,6025
2
R2 =
SCEXP .
2057,6025
= 0,8924
=
SCTOTAL
2305,66
Expresado en porcentaje, el 89,24% de la variacin del costo de construccin est explicada por la
variacin del tamao del lote.
e) El costo de construccin para un lote de 150 m2 se puede estimar puntualmente utilizando la recta de
sustituyendo X = 15 en la ecuacin.
regresin Y
i
Y = 29,825 + 1,35 15 = 50,075
Dado que Y representa miles de dlares, el costo promedio estimado es US$ 50,075 para las casas a
construirse sobre un lote de 150 m2.
Para construir el intervalo de confianza es necesario calcular la varianza residual muestral. Utilizando
la frmula siguiente:
(Y
=
)
Y
i
n2
248, 0575
= 24,80575
10
1
(x 0 X ) 2
V ( Y ) = S e2 1 + +
n
(X i X ) 2
10
para X = 15 es
2
1 (15 16,5)
= 26,92
V [ Y ] = 24,80575 1 + +
12
1129
El valor del percentil (1 /2) = 0,975 de la distribucin t de Student con (n2) = 10 grados de libertad
es t
(n 2) = 2,228
Luego, el intervalo
t
Y
( n 2)
(Y )
V
es
50,075 2,228 26,,92
Li = 50,075 11,5603 = 38,5147
Ls = 50,075 + 11,5603 = 61,6353
El costo de construccin para un lote de 150 metros cuadrados estara entre 38,515 y 61,635 miles de
dlares con una confianza del 95%
1
V (b0) = S e2 +
n
2
(X i X )
X2
es
1 16,5 2
= 8,0489
V (b0) = 24,80575 +
12
1129
(n 2) = 3,169
Luego el intervalo
b0 t
( n 2)
es
29,825 3,169
8,0489
11
V ( b 0 )
(b ) o lo que es equivalente si
Se rechazar H0 si b1 > ' + t1 (n 2) V
1
1
b1 1'
(b )
V
1
> t1 (n 2)
b1 '
1 > 2,764 se rechaza H
si
0
(b )
V
1
La varianza estimada de la pendiente muestral
V (b1) =
S e2
(X
X)2
es
24,80575
V (b1) =
= 0,02197
1129
1,35 1
0,02197
= 2,36
Con un nivel de significacin del 1%, no se puede considerar que el costo medio variable sea superior a
$US 1000.
12
Anlisis de Correlacin
El anlisis de correlacin es un mtodo estadstico que permite medir el grado de asociacin entre las
variables.
XY
X Y
13
(X i X )(Yi Y )
(X i X ) 2 (Yi Y ) 2
r=
[n X
n X i Yi X i Yi
2
i
][
( X i ) 2 n Yi2 ( Yi ) 2
Regla de decisin: Si
r 0
1 r2
> t
( n 2) se rechaza H0
n2
Ejemplo:
Para los datos del ejemplo anterior:
a) Estime el coeficiente de correlacin lineal.
b) Puede asegurar con un nivel de significacin del 10% que el coeficiente de correlacin lineal
es superior a 0,8?
Solucin:
a)
r
[n X
n X i Yi X i Yi
2
i
][
( X i ) n Y ( Yi )
2
2
i
12(11840,1) (198)(625,2)
12(11840,1) (198)(625,2)
R 2 = 0,8924 = 0,945.
14
18291,6
= 0,945.
19360,915
R2 .
b)
H0: 0,8
H1: > 0,8
La regla de decisin ser: Se rechaza H0 si r > 0 + t1 ( n 2)
1 r2
n2
Datos:
n = 12
0 = 0,8
= 0,10
t 0,90 (10) = 1,372
1 0,945 2
12 2
= 0,942
Como r = 0,945 > 0,942 se rechaza H0: 0,8. a favor de H1: > 0,8. Luego la evidencia encontrada
en la muestra es suficiente para afirmar con una significacin del 10% que el coeficiente de correlacin
lineal es mayor a 0,8.
15