Documente Academic
Documente Profesional
Documente Cultură
ANLISIS DE REGRESIN
Anlisis de Regresin
CONTENIDO
1. REGRESIN LINEAL SIMPLE
1.1 Introduccin
1.2 El modelo de regresin lineal simple
1.3 Usos y abusos de la regresin
2. ADECUACIN DEL MODELO DE REGRESIN LINEAL
2.1 Introduccin
2.2 Prueba de falta de ajuste
2.3 Anlisis de los residuos
2.4 Transformaciones de los datos
2.5 Propuesta de estrategia de ajuste del modelo
3. REGRESIN LINELA MLTIPLE
3.1 El modelo de regresin
3.2 Anlisis de los residuos
3.3 Anlisis de cada observacin
3.4 Propuesta de estrategia de ajuste del modelo
4. TPICOS ADICIONALES
4.1 Calibracin
4.2 Variables independientes cualitativas
4.3 Autocorrelacin
4.4 Algunos usos interesantes de la regresin
Anlisis de Regresin
1.1 Introduccin
Parece que Sir Francis Galton (1822-1911) un antroplogo y metereolgo britnico
fue responsable de la introduccin de la palabra regresin, mostr que si Y =
estatura de los nios y X = estatura de los padres, una ecuacin de ajuste
2 __
Y Y ( X X ) . El artculo de
3
^
adecuada era
__
Las observaciones se
Prediccin y estimacin.
Stigler, S.M., The Story of the Statistics, Belknap Press, Harvard University, 1986, pp. 294-299
Placket, R.L., Studies in the history of the probability and Statistics XXIX. The discovery of the method of
least squares,, Bometrika, 59, 1972, pp. 239-251.
2
Anlisis de Regresin
1.2
Control.
X
Fig. 1.1 Diagrama de dispersin y recta de ajuste
El modelo de ajuste o modelo de regresin lineal es:
Y 0 1 X
(1.1)
y 1
Anlisis de Regresin
(1.1 a)
y su varianza es:
V ( y | x ) V ( 0 1 x ) 2
(1.1b)
S ( 0 , 1 ) ( yi 0 1 xi ) 2
i 1
Anlisis de Regresin
S
0
0 , 1
2 ( yi 0 1 xi ) 0
i 1
y
S
1
0 , 1
2 ( yi 0 1 xi ) xi 0
i 1
i 1
i 1
n 0 1 xi yi
n
i 1
i 1
i 1
0 xi 1 x 2 i yi xi
n
x
i yi
n
i 1
i1
yi xi
n
i 1
x i
i 1
i 1
1 n
yi
n i 1
1 n
xi
n i 1
Aplicando el mtodo de mnimos cuadrados del error, se obtiene el modelo que nos
da un valor estimado Y en funcin de X, denominado ecuacin de prediccin o de
regresin lineal, como sigue:
b0 0
b1 1
Anlisis de Regresin
Y b0 b1 X
(1.2)
Donde:
n
b1
S xy
S xx
__ __
X iYi n X Y
i 1
n
X
i 1
__
2
i
(1.3)
__ 2
nX
__
(1.4)
b0 Y b1 X
por tanto:
^ __
__
Y Y b1 ( X X )
(1.5)
__
__
__
10.98
11.13
12.51
8.4
9.27
8.73
6.36
8.5
7.82
9.14
8.24
35.3
29.7
30.8
58.8
61.4
71.3
74.4
76.7
70.7
57.5
46.4
Anlisis de Regresin
12.19
11.88
9.57
10.94
9.58
10.09
8.11
6.83
8.88
7.68
8.47
8.86
10.36
11.08
28.9
28.1
39.1
46.8
48.5
59.3
70
70
74.5
72.1
58.1
44.6
33.4
28.6
Anlisis de Regresin
Predictor
Constant
C2
S = 0.8901
Coef
13.6230
-0.07983
SE Coef
0.5815
0.01052
R-Sq = 71.4%
T
23.43
-7.59
P
0.000
0.000
R-Sq(adj) = 70.2%
(1.6)
Y 13.6 0.0798 X
Despus de obtener esta ecuacin, surgen algunas preguntas:
-
S2
SS E SYY b1 S XY
n2
n2
(1.7)
Donde:
Anlisis de Regresin
i 1
Yi
SYY Yi 2
(1.8)
i 1
i 1
i 1
X i Yi
i 1
S XY X iYi
La expresin
(1.9)
__ ^ __
Yi Y i Yi Y (Y i Y )
(1.10)
Y
Yi
^
ei
__
Yi
Yi Y
_
Y
lnea ajustada
^
Y b0 b1 x
X
Xi
Fig. 1.2 Errores involucrados en la recta de ajuste
10
Anlisis de Regresin
__
__
^ __
(Y Y ) (Y Y ) (Y Y )
i
i i
(1.11)
Fuente
df
SS
MS = SS/df
Fc
MS
SSR
b
S
Regresin
1
MSreg/s2 =MSreg/MSE
REG
1 XY
2
SSE SS YY b1 S XY S =MSE=SSE/n-2
Residual
n-2
__________________________________________________________.
SYY
Total corregido
n-1
donde:
__
2
S XY
( ( X i X )Yi ) 2
(1.12)
__ 2
__
S XX ( X i X ) 2 X i2 n X
(1.13)
DF
1
23
24
SS
45.592
18.223
63.816
MS
45.592
0.792
11
F
57.54
P
0.000
Anlisis de Regresin
__ 2
1 X
X
__
n
S
2
XX
n ( X i X )
se(b0 ) MSE
se(b1 )
MSE
S XX
2
i
1/ 2
S
S XX
(1.14)
(1.15)
0.792
0.0105
7154.42
12
Anlisis de Regresin
0 t a / 2,n 2
__ 2
1 X
MSE
n S XX
(1.16)
1
X
b0 t ( n 2,1 )
__
2 n (X X
2
)
i
2
i
1/ 2
(1.16a)
1 t a / 2 , n 2
MSE
S XX
MSE
S XX
(1.17)
1
t ( n 2,1 ).S
2
b1
__
(
X
X
i )2
(1.17)
13
Anlisis de Regresin
( n 2) MSE
P 12 / 2,n 2
2 / 2,n 2 1
2
(1.18)
(1.19)
E (Y | X 0 ) Y0 b0 b1 X 0
Y0 ta / 2,n2
MSE 1 ( x0 x)2
S XX n S xx
(1.20b)
14
Anlisis de Regresin
__
X0 X .
La variable aleatoria,
Y0 Y0
Est normalmente distribuida con media cero y varianza:
__
1 ( X X )2
V ( ) 1 0
n
S XX
__
__
2
(
X
X
)
(
X
X
)2
1
1
Y0 Y0 t / 2,n 2 MSE 1 0
MSE 1 0
(1.21
n
S XX
n
S XX
Y0 t / 2,n2
__
__
2
(
X
X
)
(
X
X
)2
1
1
1
1
Y0 Y0 t / 2,n2 MSE
MSE
0
0
m n
m n
S XX
S XX
Anlisis de Regresin
(1.22)
b1
MSE
t0
Si
S XX
t 0 t / 2 ,n 2
(1.23)
b1
0.798
7.60
se(b1 ) 0.0105
Como
t 7.60
SE Coef
0.5815
0.01052
T
23.43
-7.59
16
P
0.000
0.000
Anlisis de Regresin
n( 0 0 ) 2 2 xi ( 0 0 )( 1 1 ) x 2 i ( 1 1 )
i 1
i 1
2 MSE
F , 2,n2
1 (xi x )2
17
Anlisis de Regresin
Note que los intervalos del mximo mdulo t son ms angostos que los de
Bonferroni. Sin embargo cuando m > 2 los intervalos de mximo mdulo t se
siguen ampliando mientras que los de Bonferroni no dependen de m.
1 ( x x )2
y xi YXi MSE 1 i
n
S xx
18
Anlisis de Regresin
1.2.10 Correlacin
Las discusiones anteriores de anlisis de regresin han asumido que X es una
variable controlable medida con un error despreciable y que Y es una variable
aleatoria. Muchas aplicaciones de anlisis de regresin involucran situaciones donde
tanto X como Y son variables aleatorias y los niveles de X no pueden ser
controlados. En este caso se asume que las observaciones (Xi, Yi), i=1, 2,,n son
variables aleatorias distribuidas conjuntamente. Por ejemplo suponiendo que se
desea establecer la relacin entre los refrescos vendidos y la temperatura del da. Se
asume que la distribucin conjunta de Y y X es la distribucin normal divariada, que
es:
1
1
f ( x, y )
exp
2
2 1 2
2(1 p )
y 1
x 2
y 1
x 2
2 p
1
2
1
2
E ( y 1 )( x 2 ) 12
1 2
1 2
1 y x
1
0
1
exp
12
2 12
2
Donde:
0 1 2
1
2
212 12 (1 2 )
19
Anlisis de Regresin
S XY
S XX SYY
S
b1 YY
S XX
(1.24)
1/ 2
(1.25)
(1.26)
^
__
(Y Y )
(Y Y )
__
SSR
SSE
1
Syy
SYY
(1.27)
R-Sq(adj) = 70.2%
Anlisis de Regresin
t0
r n2
(1.28)
1 r2
t 0 t / 2 , n 2
se rechaza la
t0
0.9646 25 2
17.55
1 0.9305
como
t0.025,23=2.069,
se
rechaza
Ho
indicando
que
hay
Z arctanh ( r )
1 1 r
ln
2 1 r
(1.29)
21
Anlisis de Regresin
Con media
Z arctanh ( )
y desviacin estndar
Z2
1
n3
y rechazar si
(1.30)
Z 0 Z / 2
Obtenindose
1 1 r
1 1 0
ln(
) ln(
)
2 1 0
2 1 r
z ( n 3)1 / 2
(1.31)
Z
Z
Del
ejemplo
anterior,
se
puede
(1.32)
construir
un
intervalo
22
2.0082, se tiene:
de
Anlisis de Regresin
1.92
1.96
tanh 2.0082
tanh 2.0082
22
22
0.9202 0.9845.
Se simplifica a
Se
requiere
un
anlisis
adicional
para
determinar
si
la
1 1 r
1
ln
z 1
2 1 r
2 n 3
1/ 2
1 1
ln
2 1
(1.33)
23
Anlisis de Regresin
1.3
Hay varios abusos comunes en el uso de la regresin que deben ser mencionados:
1. Los modelos de regresin son vlidos como ecuaciones de interpolacin sobre el
rango de las variables utilizadas en el modelo. No pueden ser vlidas para
extrapolacin fuera de este rango.
2. La disposicin de los valores X juega un papel importante en el ajuste de mnimos
cuadrados. Mientras que todos los puntos tienen igual peso en la determinacin
de la recta, su pendiente est ms influenciada por los valores extremos de X. En
este caso debe hacerse un anlisis minucioso de estos puntos y en todo caso
eliminarlos y re estimar el modelo. En la figura se observan dos puntos que
influyen en el modelo de ajuste, ya que si se quitaran, el modelo de lnea recta se
modificara.
Y
*A
* *
*
*
*
*
Sin A y B
* *
*B
24
Anlisis de Regresin
Y
*A
* *
**
*
** *
**
*
*
* * *
**
* *
Enfermos mentales
Licencias emitidas
1924
1,350
1926
2,270
1928
11
2,730
1930
12
3,647
1932
18
5,497
1934
20
7,012
1936
22
8,131
25
Anlisis de Regresin
Algunas situaciones implican que pase la lnea recta a travs del origen y deben
adecuar a los datos. Un modelo de no interseccin frecuentemente se presenta en
los procesos qumicos y otros procesos de manufactura, el modelo queda como:
Y 1 X
S ( 1 ) ( yi 1 xi ) 2
i 1
i 1
i 1
1 x 2 i yi xi
y el estimador de mnimos cuadrados de la pendiente es:
n
yx
i 1
n
i i
i 1
2 MSE
SS E SYY b1S XY
n 1
n 1
i 1
i 1
yi2 1 yi xi
n 1
1 ta / 2,n1
MSE
n
x
i 1
2
i
se( 1 )
MSE
n
x
i 1
2
i
26
Anlisis de Regresin
Y0 ta / 2,n2
x02 MSE
n
x
i 1
2
i
Y0 ta / 2,n2
2
0
x
MSE 1 n
2
xi
i1
Envases
X
25
6
8
17
2
13
23
30
28
14
19
4
24
1
XY
253.75
17.76
24
116.96
0.56
65.78
210.22
355.8
327.32
84.56
143.83
6.96
225.12
0.16
X2
625
36
64
289
4
169
529
900
784
196
361
16
576
1
27
Anlisis de Regresin
1.84
9.2
1841.98
Suma
25
4575
R-Sq = 99.5 %
R-Sq(adj) = 99.4 %
10
Regression
95% CI
0
0
10
20
30
yx
i 1
n
i i
1841.98
0.4026
4575.00
i 1
91.13
0.000
MS
741.62
0.09
F
8305.23
28
P
0.000
Anlisis de Regresin
y 0.4026
MSE = 0.0893
Ro2 = 0.9883
El estadstico t para la prueba Ho: 1 = 0 es to = 91.13, por tanto el coeficiente es
significativo a un alfa de 0.01.
Utilizando un modelo con interseccin resultando en:
Stat > Regresin > Regresin
Responde Y Predictors X
Options: Poner la seleccin de Fit intercept
Results: dejar opciones de Default
OK
Los resultados de Minitab son los siguientes:
The regression equation is
Y = - 0.094 + 0.407 X
Predictor
Coef
SE Coef
T
P
Constant
-0.0938
0.1436
-0.65
0.525
X
0.407107
0.008221
49.52
0.000
S = 0.3051
R-Sq = 99.5%
R-Sq(adj) = 99.4%
Analysis of Variance
Source
DF
SS
MS
F
Regression
1
228.32
228.32
2452.13
Residual Error
13
1.21
0.09
Total
14
229.53
P
0.000
y 0.0938 0.4026
29
Anlisis de Regresin
Ejemplo 1.2:
Un motor se fabrica con dos partes. La resistencia al corte entre las dos partes (Y) es
una caracterstica importante de calidad que se sospecha es funcin de la
antigedad del propelente (X). Los datos se muestran a continuacin:
Y
2158.70
1678.15
2316.00
2061.30
2207.50
1708.30
1784.70
2575.00
2357.90
2256.70
2165.20
2399.55
1779.80
2336.75
1765.30
2053.50
2414.40
2200.50
2654.20
1753.70
X
15.50
23.75
8.00
17.00
5.50
19.00
24.00
2.50
7.50
11.00
13.00
3.75
25.00
9.75
22.00
18.00
6.00
12.50
2.00
21.50
30
Anlisis de Regresin
2600
2100
1600
0
10
15
20
25
La figura sugiere que hay una relacin estadstica entre la resistencia al corte
y la antigedad del propelente, y el supuesto de relacin lineal parece ser razonable,
para estimar los parmetros del modelo se calcula Sxx y Sxy:
Sumas de cuadrados
Los clculos en Excel son los siguientes:
Y
2158.70
1678.15
2316.00
2061.30
2207.50
1708.30
1784.70
2575.00
2357.90
2256.70
2165.20
2399.55
1779.80
2336.75
1765.30
2053.50
2414.40
2200.50
X
15.50
23.75
8.00
17.00
5.50
19.00
24.00
2.50
7.50
11.00
13.00
3.75
25.00
9.75
22.00
18.00
6.00
12.50
Dif X2
4.57
107.90
28.76
13.23
61.82
31.78
113.16
117.99
34.37
5.58
0.13
92.40
135.43
13.05
74.61
21.51
54.21
0.74
31
Yi(XiDif Y2
Xprom)
747.61
4614.22
205397.04
17431.78
34092.85
-12419.55
4908.05
7497.98
5797.68
-17356.47
178977.65
9630.54
120171.42
18984.75
196818.67
-27970.94
51321.50
-13823.19
15710.74
-5331.45
1145.31
-784.89
71927.22
-23065.67
123592.68
20712.42
42186.08
-8441.51
133998.09
15247.78
6061.79
9523.11
80113.06
-17776.02
4780.69
-1897.93
Anlisis de Regresin
Suma
2654.20
1753.70
42627.15
2.00
21.50
267.25
Media
2131.36
13.36
129.11
66.22
1106.56
273364.28
142625.19
1693737.60
-30158.35
14270.73
-41112.65
__ 2
S xx X i2 n X = 1106.56
i 1
__ 2
S yy Yi 2 n Y = 1693737.60
i 1
__
S xy X iYi n X Y = -41112.65
i 1
Sxx = 1106.56
b1
S xy
S xx
i 1
n
X
i 1
b1
S xy
S xx
__ __
X iYi n X Y
2
i
__ 2
nX
41112 .65
37.15
1106 .56
__
b0 Y b1 X = 21131.35
FITS1
RESI1
2051.94
1745.42
106.758
-67.275
32
Anlisis de Regresin
2316.00
2061.30
2207.50
1708.30
1784.70
2575.00
2357.90
2256.70
2165.20
2399.55
1779.80
2336.75
1765.30
2053.50
2414.40
2200.50
2654.20
1753.70
42627.15
2330.59
1996.21
2423.48
1921.9
1736.14
2534.94
2349.17
2219.13
2144.83
2488.5
1698.98
2265.57
1810.44
1959.06
2404.9
2163.4
2553.52
1829.02
-14.594
65.089
-215.978
-213.604
48.564
40.062
8.73
37.567
20.374
-88.946
80.817
71.175
-45.143
94.442
9.499
37.098
100.685
-75.32
42627.14
0.00
Suma
Propiedades de la regresin
Hay varias propiedades tiles del ajuste de mnimos cuadrados:
1. La suma de los residuos en cualquier modelo de regresin es siempre cero.
n
i 1
i 1
( yi y i ) ei 0
2. La suma de los valores observados Yi es igual a la suma de los valores estimados
Yi est. o sea (ver tabla de datos como ejemplo):
n
i 1
i 1
yi y i
3. La lnea de regresin siempre pasa por el punto ( y, x ) de los datos.
4. La suma de los residuos multiplicados por los valores correspondientes de la
variables regresora siempre es igual a cero.
n
xe
i 1
i i
33
Anlisis de Regresin
ye
i i
i 1
SS E
1693737.60 (37.15)(42627.15) 2
n2
22 2
166
,
402
.
65
2
9244.59
20
' 0 0 1 x
y (x
i
i 1
n
(x
i 1
x)
x )2
S xy
S xx
34
Anlisis de Regresin
t0
t0
Si
b1
MSE
S XX
(1.23)
37.15
3.029
166402.65
1106 .56
t 0 t / 2 ,n 2
Para probar la hiptesis Ho: 1=0 se usa el ANOVA con el estadstico Fo como sigue:
Fo
SSR / 1
MSR 1,527,334.95
165.21
SSE /(n 2) MSE
9,244.59
35
Anlisis de Regresin
Suma de
Grados de Cuadrado
cuadrados
libertad
medio
Fo
1,527,334.95
1 1,527,334.95
166,402.65
18
9,244.59
1,693,737.60
19
165.21
1 t a / 2 , n 2
se( 1 )
MSE
S XX
MSE
S XX
9244.59
2.89
1106 .56
1 2.101* 2.89
43 22 1 31.08
El intervalo del 95% de porcentaje de confianza de la
varianza es:
( n 2) MSE
( n 2) MSE
2
2
/ 2 ,n 2
12 / 2,n 2
18(9244.59)
18(9244.59)
2
31.5
8.23
5282.62 2 210219.03
36
Anlisis de Regresin
Y0 ta / 2,n2
1 ( x0 x )2
MSE
n S xx
1 ( x0 13.3625)2
Y0 (2.101) 9244.59
20
1106
.
56
En Xo = 13.3625 se tiene:
2086.23 E ( y 13.3625) 2176.571
Para otros casos auxilindose de Minitab se tiene:
Regression Plot
Y = 2627.82 - 37.1536 X
S = 96.1061
R-Sq = 90.2 %
R-Sq(adj) = 89.6 %
2600
2100
Regression
95% CI
1600
0
10
15
20
25
X
El intervalo de confianza para la respuesta media Yo de varios valores Xo es:
Intervalo de confianza para Yo respuesta media
Xo
CLIM1
CLIM2
3
2438.94
2593.79
6
2341.38
2468.43
37
Anlisis de Regresin
9
12
13.3625
15
18
21
24
2241.1
2136.08
2086.21
2024.29
1905.85
1782.89
1657.35
2345.78
2227.88
2176.51
2116.75
2012.26
1912.31
1814.92
aplicacin
importante
del
modelo
de
regresin
es
predecir
nuevas
__
__
2
(
X
X
)
(
X
X
)2
1
1
0
0
MSE 1
Y0 Y0 t / 2,n 2 MSE 1
n
S XX
n
S XX
1
(10 13.3625) 2
2256.32 (2.101) 9244.59 1
Y0
20
1106 .56
1
(10 13.3625) 2
2256.32 ( 2.101) 9244.59 1
20
1106 .56
que se simplifica a:
2048.32 y0 2464.32
38
Anlisis de Regresin
n( 0 0 ) 2 2 xi ( 0 0 )( 1 1 ) x 2 i ( 1 1 )
i 1
i 1
2 MSE
F , 2,n2
Es el lmite de la elipse.
Beta 0
Beta 1
1 (xi x )2
39
Anlisis de Regresin
i
1
2
Xi
10
18
E(Y|Xi)=Yest en xi = 2627.82-37.15Xi
2256.282
1959.020
1 ( x x )2
y xi YXi MSE 1 i
n
S xx
Coeficiente de determinacin
Con los datos del ejemplo para la suma de cuadrados de la regresin y la suma de
cuadrados total se tiene:
R 2
SSR 1,527.334.95
0.9018
Syy 1,693,737.60
40
Anlisis de Regresin
ei Yi Y i, i 1,2,3..., n
(2.1)
donde Yi son las observaciones reales y Y-gorro los valores estimados con la recta
de regresin.
41
Anlisis de Regresin
Como los residuos son las diferencias entre las observaciones reales y las predichas
o estimadas, son una medida de la variabilidad no explicada por el modelo de
regresin, e el valor observado de los errores. As, cualquier desviacin anormal de
los supuestos acerca de los errores, ser mostrada por los residuos. Su anlisis es
un mtodo efectivo para descubrir varios tipos de deficiencias del modelo.
Los residuos tienen varias propiedades importantes. Su media es cero y su varianza
aproximada es:
__ 2
(e
i 1
e)
n2
e
i 1
2
i
n2
(2.2)
SS E
MS E
n2
En algunos casos es mejor trabajar con residuos estandarizados, que tienen media
cero y varianza unitaria aproximada.
di
ei
,....1 1,2,....., n
MS E
(2.3)
ri
ei
1 ( X i X )2
MSE 1
S XX
n
,
i = 1, 2, ........, n
42
(2.4)
Anlisis de Regresin
Respuesta
Yi
35.3
29.7
30.8
58.8
61.4
71.3
74.4
76.7
70.7
57.5
46.4
28.9
28.1
39.1
46.8
48.5
59.3
70
70
74.5
72.1
58.1
44.6
33.4
28.6
10.98
11.13
12.51
8.4
9.27
8.73
6.36
8.5
7.82
9.14
8.24
12.19
11.88
9.57
10.94
9.58
10.09
8.11
6.83
8.88
7.68
8.47
8.86
10.36
11.08
Fit
10.805
11.252
11.164
8.929
8.722
7.931
7.684
7.5
7.979
9.033
9.919
11.316
11.38
10.502
9.887
9.751
8.889
8.035
8.035
7.676
7.867
8.985
10.063
10.957
11.34
43
SE Fit
0.255
0.3
0.29
0.19
0.201
0.265
0.29
0.31
0.261
0.185
0.19
0.306
0.313
0.228
0.188
0.183
0.191
0.255
0.255
0.291
0.272
0.187
0.197
0.269
0.309
Residual
0.175
-0.122
1.346
-0.529
0.548
0.799
-1.324
1
-0.159
0.107
-1.679
0.874
0.5
-0.932
1.053
-0.171
1.201
0.075
-1.205
1.204
-0.187
-0.515
-1.203
-0.597
-0.26
St Residual
0.21
-0.15
1.6
-0.61
0.63
0.94
-1.57
1.2
-0.19
0.12
-1.93
1.05
0.6
-1.08
1.21
-0.2
1.38
0.09
-1.41
1.43
-0.22
-0.59
-1.39
-0.7
-0.31
Anlisis de Regresin
44
Anlisis de Regresin
Se sugiere utilizar los residuos estandarizados, ya que son tiles para evaluar
normalidad, es decir que habr normalidad si el 68% de los mismos se encuentran
entre 1 y +1 y el 95% entre 2 y +2, de otra forma habr una violacin de la
normalidad.
y i puede
identificar patrones
anormales o no lineales, indicando que tal vez se requiera agregar otra variable
regresora al modelo, o se requiera transformar las variables regresora o de
respuesta. Tambin puede revelar outliers potenciales, si ocurren en los extremos,
indican que la varianza no es constante o que no hay relacin lineal entre variables.
Para el caso del ejemplo 1.2 con los datos X y Y se tienen los residuos
estandarizados y estudentizados son:
Y
2158.70
1678.15
2316.00
2061.30
2207.50
1708.30
1784.70
2575.00
2357.90
2256.70
2165.20
2399.55
1779.80
2336.75
1765.30
2053.50
2414.40
2200.50
2654.20
1753.70
X
15.50
23.75
8.00
17.00
5.50
19.00
24.00
2.50
7.50
11.00
13.00
3.75
25.00
9.75
22.00
18.00
6.00
12.50
2.00
21.50
45
Anlisis de Regresin
T
P
59.47 0.000
-12.86 0.000
R-Sq(adj) = 89.6%
MS
1527483
9236
F
165.38
P
0.000
No replicates.
Cannot do pure error test.
Unusual Observations
Obs
X
Y
Fit
5
5.5 2207.5 2423.5
6 19.0 1708.3 1921.9
SE Fit
31.3
27.0
Residual
-216.0
-213.6
St Resid
-2.38R
-2.32R
Observacin
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
2158.70
1678.15
2316.00
2061.30
2207.50
1708.30
1784.70
2575.00
2357.90
2256.70
2165.20
2399.55
1779.80
2336.75
1765.30
2053.50
2414.40
2200.50
2654.20
1753.70
15.50
23.75
8.00
17.00
5.50
19.00
24.00
2.50
7.50
11.00
13.00
3.75
25.00
9.75
22.00
18.00
6.00
12.50
2.00
21.50
FITS1
2051.94
1745.42
2330.59
1996.21
2423.48
1921.9
1736.14
2534.94
2349.17
2219.13
2144.83
2488.5
1698.98
2265.57
1810.44
1959.06
2404.9
2163.4
2553.52
1829.02
46
RESI1
106.7580
-67.2750
-14.5940
65.0890
-215.9780
-213.6040
48.5640
40.0620
8.7300
37.5670
20.3740
-88.9460
80.8170
71.1750
-45.1430
94.4420
9.4990
37.0980
100.6850
-75.3200
SRES1
1.1422
-0.7582
-0.1580
0.6993
-2.3766
-2.3156
0.5488
0.4539
0.0948
0.4021
0.2175
-0.9943
0.9244
0.7646
-0.5000
1.0187
0.1041
0.3962
1.1476
-0.8307
TRES1
1.1526
-0.7488
-0.1536
0.6890
-2.7882
-2.6856
0.5379
0.4437
0.0921
0.3926
0.2117
-0.9939
0.9204
0.7554
-0.4893
1.0198
0.1012
0.3867
1.1585
-0.8232
Ri
1.1422
-0.7582
-0.1580
0.6993
-2.3767
-2.3156
0.5488
0.4539
0.0948
0.4021
0.2175
-0.9943
0.9244
0.7646
-0.5000
1.0187
0.1041
0.3962
1.1477
-0.8307
Anlisis de Regresin
9236
96.10411021
(XiXmedia)^2
2158.70
1678.15
2316.00
2061.30
2207.50
1708.30
1784.70
2575.00
2357.90
2256.70
2165.20
2399.55
1779.80
2336.75
1765.30
2053.50
2414.40
2200.50
2654.20
1753.70
15.50
23.75
8.00
17.00
5.50
19.00
24.00
2.50
7.50
11.00
13.00
3.75
25.00
9.75
22.00
18.00
6.00
12.50
2.00
21.50
FITS1
2051.94
1745.42
2330.59
1996.21
2423.48
1921.9
1736.14
2534.94
2349.17
2219.13
2144.83
2488.5
1698.98
2265.57
1810.44
1959.06
2404.9
2163.4
2553.52
1829.02
RESI1
106.7580
-67.2750
-14.5940
65.0890
-215.9780
-213.6040
48.5640
40.0620
8.7300
37.5670
20.3740
-88.9460
80.8170
71.1750
-45.1430
94.4420
9.4990
37.0980
100.6850
-75.3200
ResEstan1
1.11086
-0.70002
-0.15186
0.67728
-2.24733
-2.22263
0.50533
0.41686
0.09084
0.39090
0.21200
-0.92552
0.84093
0.74060
-0.46973
0.98271
0.09884
0.38602
1.04767
-0.78373
Sxx
4.56891
107.90016
28.75641
13.23141
61.81891
31.78141
113.15641
117.99391
34.36891
5.58141
0.13141
92.40016
135.43141
13.05016
74.60641
21.50641
54.20641
0.74391
129.10641
66.21891
99
100
Residual
Percent
90
50
0
-100
10
1
-200
-200
-100
0
Residual
100
200
1800
2400
2600
6.0
100
4.5
Residual
Frequency
2000
2200
Fitted Value
3.0
0
-100
1.5
0.0
-200
-200 -150 -100 -50
0
Residual
50
100
6
8 10 12 14 16
Observation Order
18
20
1/20 +
(XiXmedia)^2/Sxx
0.05413
0.14751
0.07599
0.06196
0.10587
0.07872
0.15226
0.15663
0.08106
0.05504
0.05012
0.13350
0.17239
0.06179
0.11742
0.06944
0.09899
0.05067
0.16667
0.10984
Ri
1.14220
-0.75817
-0.15798
0.69929
-2.37666
-2.31564
0.54883
0.45392
0.09476
0.40212
0.21752
-0.99426
0.92437
0.76460
-0.50000
1.01871
0.10413
0.39619
1.14767
-0.83068
Anlisis de Regresin
95
90
Percent
80
70
60
50
40
30
20
10
5
-3
-2
-1
0
1
Standardized Residual
Standardized Residual
1.0
0.5
0.0
-0.5
-1.0
-1.5
-2.0
-2.5
1700
1800
1900
2000
2100
2200
Fitted Value
2300
2400
2500
48
2600
Anlisis de Regresin
Deleted Residual
-1
-2
-3
1700
1800
1900
2000
2100
2200
Fitted Value
2300
2400
2500
2600
Anlisis de Regresin
Residuals Versus X
(response is Y)
Standardized Residual
1.0
0.5
0.0
-0.5
-1.0
-1.5
-2.0
-2.5
0
10
15
20
25
En este caso los residuos para los puntos 5 y 6 exceden de dos sigmas sin embargo
no muestran indicios de violacin del modelo.
2.2.5 Otras grficas de residuos
Se pueden obtener grficas de los residuales vs el tiempo de ocurrencia u orden:
Residuals Versus the Order of the Data
(response is Y)
Standardized Residual
1.0
0.5
0.0
-0.5
-1.0
-1.5
-2.0
-2.5
2
8
10
12
Observation Order
14
16
18
20
50
Anlisis de Regresin
Autocorrelacin negativa
51
Anlisis de Regresin
Con los datos del ejemplo 1.2 si omitimos los puntos 5 y 6 que indican Outliers y
compramos nuevo modelo con el modelo anterior se tiene:
Con el modelo original:
The regression equation is
Y = 2628 - 37.2 X
Predictor
Constant
X
S = 96.1061
Coef
2627.82
-37.154
SE Coef
44.18
2.889
R-Sq = 90.2%
T
59.47
-12.86
P
0.000
0.000
R-Sq(adj) = 89.6%
Coef
2658.97
-37.694
SE Coef
30.53
1.979
R-Sq = 95.8%
T
87.08
-19.05
P
0.000
0.000
R-Sq(adj) = 95.5%
95
90
Percent
80
70
60
50
40
30
20
10
5
-3
-2
-1
0
1
Standardized Residual
52
Anlisis de Regresin
Standardized Residual
1.0
0.5
0.0
-0.5
-1.0
-1.5
-2.0
1600
1800
2000
2200
Fitted Value
2400
2600
53
Anlisis de Regresin
1
(Y1u Y ) Y
n1
u 1
u 1
n1
__
n1
2
1u
n1
1u
i 1
(2.5)
Reuniendo las sumas internas de cuadrados de todos los lugares donde se tomaron
rplicas se tiene el error puro total SS como:
m
SS .error . puro
j 1
n1
(Y
u 1
__
ju
Y j )2
(2.6)
ne n j m
(2.7)
j 1
__
(Y ju Y j ) 2
u 1
1
(Y j1 Y j 2 ) 2
2
(2.8)
54
Anlisis de Regresin
s e2 SS .error . puro / n e
(2.9)
(2.10)
__
__
(2.11)
__
ni
__
SS PE (Yij Y i ) 2
i 1 j 1
(2.12)
__
SS LOF ni (Y i Y i ) 2
(2.13)
i 1
55
Anlisis de Regresin
SS PE / n m)
MS PE
(2.14)
El valor esperado de MS PE 2
(2.15)
F0
Y
2.3
1.8
2.8
1.5
2.2
3.8
1.8
3.7
1.7
2.8
2.8
2.2
3.2
1.9
1.8
3.5
2.8
2.1
3.4
3.2
3
3
5.9
X
1.3
1.3
2
2
2.7
3.3
3.3
3.7
3.7
4
4
4
4.7
4.7
5
5.3
5.3
5.3
5.7
6
6
6.3
6.7
Coef
1.4256
0.3158
SE Coef
0.5127
0.1149
T
2.78
2.75
56
P
0.011
0.012
Anlisis de Regresin
Sserror.puro
0.125
0.845
2.00
2.000
0.845
0.020
0.240
0.980
gl
1
1
1
1
1
1
2
2
57
Anlisis de Regresin
Totales
7.055
10
DF
1
21
11
10
22
SS
5.4992
15.2782
8.2232
7.0550
20.7774
MS
5.4992
0.7275
0.7476
0.7055
F
7.56
P
0.012 sign. at 0.05%
1.06
En resumen, los pasos a tomar cuando se tienen observaciones replicadas son los
siguientes:
1. Obtener la recta de ajuste del modelo, con ANOVA incluyendo valores para la
regresin y el error residual. Todava no hacer la prueba F.
2. Determinar la suma de cuadrados del error puro y dividir la suma de cuadrados
del error residual en suma de cuadrados de falta de ajuste y de error puro.
3. Realizar la prueba F para la falta de ajuste. Si no es significativo, no hay razn
para dudar de la adecuacin del modelo, ir a paso 4. De otra forma parar el
modelo y buscar otras formas de mejorar el modelo en base a la observacin del
comportamiento de los residuos.
4. Examinar los residuos para identificar si no se violan algunas reglas, si todo est
bien, usar el cuadrado medio del error residual S 2 como un estimado de V(Y) =
2, realizar la prueba F para toda la regresin, obtener bandas de confianza para
la media, evaluar R2, etc.
58
Anlisis de Regresin
R-Sq = 26.5%
R-Sq(adj) = 23.0%
MaxR 2
(2.16)
o sea:
MaxR 2
20.777 7.055
0.6604
20.777
X
1.3
1.3
2
2
2.7
3.3
3.3
3.7
3.7
4
4
4
4.7
4.7
5
5.3
5.3
5.3
5.7
6
6
6.3
Y
2.3
1.8
2.8
1.5
2.2
3.8
1.8
3.7
1.7
2.8
2.8
2.2
3.2
1.9
1.8
3.5
2.8
2.1
3.4
3.2
3
3
Fit
1.836
1.836
2.057
2.057
2.278
2.468
2.468
2.594
2.594
2.689
2.689
2.689
2.91
2.91
3.005
3.099
3.099
3.099
3.226
3.32
3.32
3.415
SE Fit
0.376
0.376
0.308
0.308
0.247
0.205
0.205
0.186
0.186
0.179
0.179
0.179
0.187
0.187
0.201
0.219
0.219
0.219
0.249
0.274
0.274
0.301
59
Residual
0.464
-0.036
0.743
-0.557
-0.078
1.332
-0.668
1.106
-0.894
0.111
0.111
-0.489
0.29
-1.01
-1.205
0.401
-0.299
-0.999
0.174
-0.12
-0.32
-0.415
St Resid
0.61
-0.05
0.93
-0.7
-0.1
1.61
-0.81
1.33
-1.07
0.13
0.13
-0.59
0.35
-1.21
-1.45
0.49
-0.36
-1.21
0.21
-0.15
-0.4
-0.52
Anlisis de Regresin
23
6.7
5.9
3.541
0.339
2.359
60
3.01R
Anlisis de Regresin
X
1
1
2
3.3
3.3
4
4
4
4.7
5
5.6
5.6
5.6
6
6
6.5
6.9
Y
10.84
9.3
16.35
22.88
24.35
24.56
25.86
29.16
24.59
22.25
25.9
27.2
25.61
25.45
26.56
21.03
21.46
Fit
15.344
15.344
17.475
20.244
20.244
21.735
21.735
21.735
23.227
23.866
25.144
25.144
25.144
25.996
25.996
27.061
27.914
SE Fit
2.151
2.151
1.67
1.164
1.164
1.014
1.014
1.014
1.007
1.05
1.206
1.206
1.206
1.347
1.347
1.552
1.732
Residual
-4.504
-6.044
-1.125
2.636
4.106
2.825
4.125
7.425
1.363
-1.616
0.756
2.056
0.466
-0.546
0.564
-6.031
-6.454
St Resid
-1.3
-1.74
-0.3
0.67
1.05
0.71
1.04
1.88
0.34
-0.41
0.19
0.53
0.12
-0.14
0.15
-1.6
-1.75
(Y
j
ij
__
Grados de libertad
Y i )2
________________________________________________.
1.0
1.1858
1
3.3
1.0805
1
4.0
11.2467
2
5.6
1.4341
2
6.0
0.6161
1
.
Total
15.5632
7
El error de falta de ajuste se calcul con la frmula:
SS LOF SS E SS PE
61
Anlisis de Regresin
Coef
13.214
2.1304
SE Coef
2.665
0.5645
R-Sq = 48.7%
T
4.96
3.77
P
0.000
0.002
R-Sq(adj) = 45.3%
Source
Regression
Residual Error
Lack of Fit
Pure Error
Total
DF
1
15
8
7
16
SS
237.48
250.13
234.57
15.56
487.61
MS
237.48
16.68
29.32
2.22
F
14.24
P
0.002
13.19
0.001 Significativa
8,7
= 1.70, se
d (eu eu 1 ) / eu
u2
(2.17)
u 2
Donde:
1. 0 d 4
2.- Si los residuos sucesivos estn correlacionados positivamente en serie, d ser
casi 0.
62
Anlisis de Regresin
2.5%
5%
dL
dU
dL
dU
dL
15
20
25
30
40
50
70
100
150
200
0.81
0.95
1.05
1.13
1.25
1.32
1.43
1.56
1.61
1.66
1.07
1.15
1.21
1.26
1.34
1.40
1.49
1.56
1.64
1.68
0.95
1.08
1.18
1.25
1.35
1.42
1.51
1.59
1.23
1.28
1.34
1.38
1.45
1.50
1.57
1.63
1.08
1.20
1.29
1.35
1.44
1.50
1.58
1.65
1.72
1.76
dU
1.36
1.41
1.45
1.49
1.54
1.59
1.64
1.69
1.75
1.78
Outliers
Un outlier entre los residuos es aquel que es mucho ms grande que el resto en valor
absoluto, encontrndose a 3, 4 o ms desviaciones estndar de la media de los
residuos. El outlier indica un punto que no es comn al resto de los datos y debe ser
examinado con cuidado. Algunas veces proporciona informacin vital sobre el
proceso.
63
Anlisis de Regresin
Funcin
linealizables
Transformacin
su
forma
Forma lineal
a,b
Y 0 X 1
c,d
Y 0 e 1 X
Y ' log Y
Y ' ln 0 1 X
e,f
Y 0 1 log X
X ' log X
Y ' 0 1 X '
g,h
X
0 X 1
Y '
1
1
, X '
Y
X
lineal
Y ' 0 1 X '
Y 0 e 1 X
(2.19)
Montgomerey, Douglas C., Introduction to Linear Regression Analysis, John Wiley and Sons, Nueva York, 1992, pp. 90-91
64
Anlisis de Regresin
Se
requiere
que
la
transformada
del
trmino
de
error
sea
normal
Y 0 1
65
Anlisis de Regresin
X
5
6
3.4
2.7
10
9.7
9.6
3.1
8.2
6.2
2.9
6.4
4.6
5.8
7.4
3.6
7.9
8.8
7
5.5
9.1
10.2
4.1
4
2.5
Y
1.582
1.822
1.057
0.5
2.236
2.386
2.294
0.558
2.166
1.866
0.653
1.93
1.562
1.737
2.088
1.137
2.179
2.112
1.8
1.501
2.303
2.31
1.194
1.144
0.123
Fit
1.3366
1.5778
0.9508
0.782
2.5424
2.47
2.4338
0.8664
2.0962
1.626
0.8302
1.6622
1.2402
1.5295
1.9154
0.999
2.0239
2.253
1.8189
1.4451
2.3253
2.5906
1.1196
1.0834
0.7217
SE Fit
0.0519
0.0473
0.0703
0.0806
0.0875
0.0828
0.0804
0.0753
0.0609
0.0472
0.0776
0.0474
0.0555
0.0476
0.053
0.0675
0.0574
0.0694
0.05
0.049
0.0737
0.0907
0.0611
0.0629
0.0845
Residual
0.2454
0.2442
0.1062
-0.282
-0.3064
-0.084
-0.1398
-0.3084
0.0698
0.24
-0.1772
0.2678
0.3218
0.2075
0.1726
0.138
0.1551
-0.141
-0.0189
0.0559
-0.0223
-0.2806
0.0744
0.0606
-0.5987
St Resid
1.07
1.06
0.47
-1.27
-1.4
-0.38
-0.63
-1.38
0.31
1.04
-0.79
1.16
1.4
0.9
0.75
0.61
0.68
-0.62
-0.08
0.24
-0.1
-1.29
0.33
0.27
-2.72R
Coef
0.1309
0.24115
SE Coef
0.1260
0.01905
T
1.04
12.66
66
P
0.310
0.000
Anlisis de Regresin
S = 0.2361
R-Sq = 87.4%
R-Sq(adj) = 86.9%
2.5
0.237095
87.3%
86.8%
2.0
1.5
1.0
0.5
0.0
2
10
11
Residual
0.2
0.0
-0.2
-0.4
-0.6
0.5
1.0
1.5
Fitted Value
2.0
2.5
R-Sq = 87.3%
Variance
DF
SS
1
8.9183
23
1.2929
24 10.2112
R-Sq(adj) = 86.8%
MS
8.91827
0.05621
F
158.65
P
0.000
67
Anlisis de Regresin
El tratar de ajustar los datos, una recta no fue la mejor opcin, por lo que se intenta
un modelo cuadrtico, el cual se muestra a continuacin.
Fitted Line Plot
Y = - 1.166 + 0.7236 X
- 0.03808 X* * 2
2.5
S
R-Sq
R-Sq(adj)
0.127171
96.5%
96.2%
2.0
1.5
1.0
0.5
0.0
2
10
11
Residual
0.1
0.0
-0.1
-0.2
-0.3
0.5
1.0
1.5
Fitted Value
2.0
2.5
R-Sq = 96.5%
Variance
DF
SS
2
9.8554
22
0.3558
24 10.2112
R-Sq(adj) = 96.2%
MS
4.92770
0.01617
F
304.70
P
0.000
68
Anlisis de Regresin
Source
Linear
Quadratic
DF
1
1
SS
8.91827
0.93713
F
158.65
57.95
P
0.000
0.000
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
1/X
0.2
0.167
0.294
0.37
0.1
0.103
0.105
0.328
0.123
0.161
0.345
0.157
0.217
0.172
0.135
0.278
0.127
0.114
0.143
0.183
0.11
0.098
0.244
0.253
0.408
Y
1.582
1.822
1.057
0.5
2.236
2.386
2.294
0.558
2.166
1.866
0.653
1.93
1.562
1.737
2.088
1.137
2.179
2.112
1.8
1.501
2.303
2.31
1.194
1.144
0.123
Fit
1.592
1.8231
0.9393
0.4105
2.2854
2.264
2.2527
0.7052
2.128
1.8604
0.5876
1.8868
1.4713
1.7832
2.0418
1.0526
2.0955
2.1908
1.9882
1.7065
2.2168
2.299
1.2875
1.2233
0.1484
SE Fit
0.0188
0.0199
0.0274
0.0404
0.0276
0.0271
0.0269
0.0329
0.0243
0.0203
0.0358
0.0206
0.0193
0.0195
0.0228
0.0251
0.0237
0.0256
0.0219
0.0191
0.0261
0.0279
0.0211
0.0221
0.0474
69
Residual
-0.01
-0.0011
0.1177
0.0895
-0.0494
0.122
0.0413
-0.1472
0.038
0.0056
0.0654
0.0432
0.0907
-0.0462
0.0462
0.0844
0.0835
-0.0788
-0.1882
-0.2055
0.0862
0.011
-0.0935
-0.0793
-0.0254
St Resid
-0.11
-0.01
1.31
1.05
-0.55
1.35
0.46
-1.67
0.42
0.06
0.75
0.47
0.98
-0.5
0.51
0.93
0.92
-0.87
-2.06R
-2.23R
0.95
0.12
-1.02
-0.87
-0.31 X
Anlisis de Regresin
2.5
S
R-Sq
R-Sq(adj)
2.0
0.0993273
97.8%
97.7%
1.5
1.0
0.5
0.0
0.10
0.15
0.20
0.25
1/ X
0.30
0.35
0.40
Coef
2.98664
-7.0046
S = 0.0993273
SE Coef
0.04763
0.2202
R-Sq = 97.8%
T
62.71
-31.81
Analysis of Variance
Source
DF
SS
Regression
1
9.9843
Residual Error 23
0.2269
Total
24 10.2112
P
0.000
0.000
R-Sq(adj) = 97.7%
MS
9.9843
0.0099
F
1012.00
P
0.000
Unusual Observations
Obs
20
25
1/X
0.182
0.400
Y
1.5010
0.1230
Fit
1.7131
0.1848
SE Fit
0.0201
0.0490
Residual
-0.2121
-0.0618
St Resid
-2.18R
-0.72 X
70
Anlisis de Regresin
95
90
Percent
80
70
60
50
40
30
20
10
5
-0.2
-0.1
0.0
Residual
0.1
0.2
Residual
0.05
0.00
-0.05
-0.10
-0.15
-0.20
-0.25
0.0
0.5
1.0
1.5
Fitted Value
2.0
2.5
71
Anlisis de Regresin
con
la media. Para
transformaciones
estabilizadoras de la varianza.
Si la distribucin de Y es de Poisson, podemos relacionar Y ' Y contra X ya que la
varianza de Y es independiente de la media. Si la variable de respuesta Y es una
proporcin con valores entre [0,1] y la grfica de residuos tiene el patrn de doble
cresta, entonces se usa la transformacin Y ' sin 1 Y .
Otras transformaciones se muestran abajo en la tabla 2.2:
Tabla 2.2 Relaciones para transformar la varianza
Relacin de 2 a E(Y)
Transformacin
2 constante..............................Y ' Y
E (Y ).................................Y '
Datos de Poisson
Proporciones binomiales
2 E (Y ) 3 ...........................Y ' Y 1 / 2
La magnitud de la transformacin, depende del grado de curvatura que induce.
La seleccin de la transformacin se hace en base a la experiencia o de forma
emprica. A continuacin se presenta un ejemplo para este anlisis.
Ejemplo 2.4 Se hizo un estudio entre la demanda (Y) y la
energa elctrica utilizada (X) durante un cierto periodo de
tiempo, procesando los datos con Minitab se obtuvo lo
siguiente:
72
Anlisis de Regresin
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
X
679
292
1012
493
582
1156
997
2189
1097
2078
1818
1700
747
2030
1643
414
354
1276
745
435
540
874
1543
1029
710
Y
0.79
0.44
0.56
0.79
2.7
3.64
4.73
9.5
5.34
6.85
5.84
5.21
3.25
4.43
3.16
0.5
0.17
1.88
0.77
1.39
0.56
1.56
5.28
0.64
4
Fit
1.649
0.308
2.802
1.004
1.312
3.301
2.75
6.88
3.097
6.495
5.595
5.186
1.884
6.329
4.988
0.73
0.523
3.717
1.877
0.803
1.167
2.324
4.642
2.861
1.756
SE Fit
0.351
0.49
0.293
0.412
0.381
0.297
0.294
0.651
0.293
0.6
0.488
0.441
0.333
0.579
0.42
0.441
0.465
0.313
0.333
0.433
0.395
0.307
0.384
0.293
0.343
Residual
-0.859
0.132
-2.242
-0.214
1.388
0.339
1.98
2.62
2.243
0.355
0.245
0.024
1.366
-1.899
-1.828
-0.23
-0.353
-1.837
-1.107
0.587
-0.607
-0.764
0.638
-2.221
2.244
R-Sq = 66.4%
R-Sq(adj) = 64.9%
Analysis of Variance
Source
Regression
Error
Total
DF
1
23
24
SS
97.094
49.136
146.231
Unusual Observations
Obs
X
Y
Fit
8 2189 9.500 6.880
MS
97.0943
2.1364
F
45.45
P
0.000
SE Fit
0.651
Residual
2.620
St Resid
2.00R
73
St Resid
-0.61
0.1
-1.57
-0.15
0.98
0.24
1.38
2.00R
1.57
0.27
0.18
0.02
0.96
-1.42
-1.31
-0.17
-0.25
-1.29
-0.78
0.42
-0.43
-0.53
0.45
-1.55
1.58
Anlisis de Regresin
S
R-Sq
R-Sq(adj)
1.46163
66.4%
64.9%
0
500
1000
1500
2000
95
90
Percent
80
70
60
50
40
30
20
10
5
-3
-2
-1
0
1
Standardized Residual
Standardized Residual
-1
-2
0
3
4
Fitted Value
74
Anlisis de Regresin
X
679
292
1012
493
582
1156
997
2189
1097
2078
1818
1700
747
2030
1643
414
354
1276
745
435
540
874
1543
1029
710
SRES1
-0.63599
-0.25322
-1.7143
-0.20513
1.30713
0.55826
1.52481
0.88812
1.59927
0.02523
0.17965
0.14802
1.27361
-1.08504
-0.87804
-0.43853
-0.98212
-0.92738
-0.81296
0.59981
-0.63592
-0.27173
0.54906
-1.63735
1.80812
TRES1
-0.62755
-0.248
-1.79523
-0.2008
1.3287
0.54973
1.57291
0.88389
1.65908
0.02467
0.17583
0.14483
1.29201
-1.08943
-0.8735
-0.4307
-0.98133
-0.92444
-0.80676
0.59127
-0.62748
-0.26618
0.54054
-1.70373
1.90928
RESI1
-0.280548
-0.108411
-0.763184
-0.089439
0.573465
0.248407
0.678753
0.361359
0.711994
0.010451
0.076952
0.064127
0.563541
-0.452723
-0.38221
-0.189981
-0.423129
-0.411636
-0.359685
0.260318
-0.278218
-0.120724
0.240723
-0.728982
0.798781
R-Sq = 64.3%
R-Sq(adj) = 62.7%
75
FITS1
1.16937
0.77174
1.51152
0.97826
1.0697
1.65947
1.4961
2.72085
1.59885
2.6068
2.33966
2.21841
1.23924
2.55748
2.15985
0.89709
0.83544
1.78277
1.23718
0.91866
1.02655
1.36972
2.0571
1.52898
1.20122
Anlisis de Regresin
3.0
0.454426
64.3%
62.7%
Raiz(Y)
2.5
2.0
1.5
1.0
0.5
500
1000
1500
2000
95
90
Percent
80
70
60
50
40
30
20
10
5
-1.0
-0.5
0.0
Residual
0.5
1.0
Residual
0.5
0.0
-0.5
1.0
1.5
2.0
Fitted Value
2.5
76
3.0
Anlisis de Regresin
Se observa una mejor distribucin normal de los residuos por lo que el modelo es
adecuado. A continuacin se muestra el anlisis de varianza para el modelo:
Analysis of Variance
Source
Regression
Error
Total
DF
1
23
24
SS
8.5401
4.7496
13.2897
MS
8.54008
0.20650
F
41.36
P
0.000
77
Anlisis de Regresin
(3.1)
78
Anlisis de Regresin
(3.2)
Y es un vector N x 1.
X es una matriz de orden N x (k + 1), donde la primera columna es de 1s.
es un vector de orden (k + 1) x 1.
es un vector de orden N x 1.
D es la matriz de Xij con i = 1, 2, ..., N; j = 1, 2, ......, k
Deseamos encontrar el vector de estimadores de mnimos cuadrados b que
minimicen:
n
S ( ) i2 ' (Y X )' (Y X )
i 1
Como ' X ' Y es una matriz 1x1 o un escalar y su transpuesta ( ' X ' Y )' Y ' X es
el mismo escalar, se tiene:
S ( ) Y 'Y 2 ' X 'Y ' X ' X '
(3.3)
2 X ' Y 2 X ' Xb 0
b
XX b = X Y
(3.4)
79
Anlisis de Regresin
b = (XX)-1 XY
(3.5)
(3.5)
(3.6)
2
El elemento (ii) de esta matriz cii Var (bi ) es la varianza del elemento i de b.
se.bi
cii 2
(3.7)
(3.8)
Si los errores estn normalmente distribuidos, entonces b se dice que est distribuido
como:
b N ( , ( X ' X ) 1 2 )
80
Anlisis de Regresin
Y ( x ) x' p b
(3.9)
(3.10)
RESIDUOS
Los residuos se definen como la diferencia entre los valores reales observados y los
valores predichos para estos valores de respuesta usando el modelo de ajuste y
prediccin, o sea:
ru Yu Y ( xu ), u 1,2,..., N
(3.11)
(3.12)
81
Anlisis de Regresin
Como e = Y X b, se tiene:
SSE (Y Xb)' (Y Xb) Y ' Y b' X ' Y Y ' Xb b' X ' Xb Y ' Y 2b' X ' Y b' X ' Xb (3.1
3)
Como XXb = XY, se transforma en:
SSE Y ' Y b' X ' Y
(3.14)
La suma residual de cuadrados tiene n-p grados de libertad asociado con el ya que
se estiman p parmetros en el modelo de regresin. El cuadrado medio de los
residuos es:
s 2 MSE
SSE
Np
(3.15)
,... j 0,1,..., k
(3.16)
82
Anlisis de Regresin
(3.17)
Donde se(bj) es el error estndar del coeficiente de regresin bj.
se(b j )
S 2 C jj
(3.18)
particular
Se puede construir un intervalo de confianza en la respuesta media de un punto en
particular, tal como X01, X02, X03,........, X0K. Definiendo el vector X0 como:
1
X
01
X 0 X 02
.....
X 0K
El valor ajustado en este punto es:
Y0 X ' 0 b
(3.19)
83
Anlisis de Regresin
Con varianza:
Var (Y0 ) S 2 X ' 0 ( X ' X ) 1 X 0
(3.20)
Por tanto el intervalo de confianza para el 100( 1 - ) % es:
Y0 t / 2 ,n p
S 2 X ' 0 ( X ' X ) 1 X 0 Y0 Y0 t / 2 ,n p
S 2 X ' 0 ( X ' X ) 1 X 0
(3.21)
(3.22)
84
Anlisis de Regresin
F0
SSR / k
MSR
SSE /( n k 1) MSE
(3.23)
La suma de cuadrados totales es:
N
__
(3.24)
u 1
N ^
__
SSR (Y ( xu ) Y ) 2
(3.25)
u 1
SSE (Yu Y ( xu )) 2
(3.26)
u 1
(1' Y ) 2
N
(3.27)
(1' Y ) 2
N
(3.28)
(3.29)
85
Anlisis de Regresin
SS
df
MS
F0
Regresin
Residuos
Total
SSR
SSE
SST
K
nk-1
n1
MSR
MSE
MSR/MSE
.
H a : i 0, i 1,2,..., k
F0
MSR
SSR /( p 1)
MSE SSE /( N p )
(3.30)
R2
SSR
SST
(3.31)
86
Anlisis de Regresin
(3.32)
H1 : j 0
Si no se rechaza H0, indica que el regresor Xj puede ser excluido del modelo. El
estadstico de prueba para esta hiptesis es:
t0
bj
(3.33)
se(b j )
t 0 t / 2 ,n k 1 .
Anlisis de Regresin
(3.34)
1,1,1,1
1,1,1,1
1,1,1,1
1
,
1
,
1
,
X
1,1,1,1
1
,
1
,
1
,
1,1,1,1
1
,
1
,
1
,
88
Anlisis de Regresin
Ejemplos:
Ejemplo
3.1
Un
embotellador
servicio
de
mquinas
est
analizando
dispensadoras,
las
est
rutas
de
interesado
en
las
servicio
mquinas
incluye
en
el
local
(Y).
llenar
la
mquina
con
La
actividad
refrescos
de
un
Y_tiempo
16.68
11.5
12.03
14.88
13.75
18.11
8
17.83
79.24
21.5
40.33
21
13.5
19.75
24
29
15.35
19
9.5
35.1
17.9
52.32
18.75
19.83
1075
De manera matricial:
89
Anlisis de Regresin
1's
1
1
1
1
X1
7
3
3
4
X2
560
220
340
80
1
1
6
7
150
330
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
7
30
5
16
10
4
6
9
10
6
7
3
17
10
26
9
8
4
110
210
1460
605
688
215
255
462
448
776
200
132
36
770
140
810
450
635
150
X'
1's 1
1
1
1
1
1
1
1
X1 7
3
3
4
6
7
2
7
X2 560 220 340 80 150 330 110 210
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
30
5
16 10
4
6
9
10
6
7
3 17 10 26
9
8
1460 605 688 215 255 462 448 776 200 132 36 770 140 810 450 635
X'X
25
219
219
3,055
10,232 133,899
10,232
133,899
6,725,688
X'y
560
7,375
337,072
90
Anlisis de Regresin
( X ' X ) 1 X ' y
Con la funcin de Excel MINVERSA
(X'X)-1
0.113215186
-0.004448593
-8.36726E-05
-0.004449
0.0027438
-4.79E-05
-8.367E-05
-4.786E-05
1.229E-06
Betas est,
2.341231145
1.615907211
0.014384826
Regresin
Residuos
Total
Promedio
Grados de
Suma de
de
F
Valor
libertad
cuadrados cuadrados
Critico de F
2 5550.81092
2775.405 261.235 4.6874E-16
22 233.731677
10.62417
24 5784.5426
Intercepcin
X1_envases
X2_Distancia
Coeficiente
s
2.3412311
1.6159072
0.0143848
Error tpico
1.09673017
0.17073492
0.00361309
Estad. t
2.134738
9.464421
3.981313
Inferior
Superior
Probab.
95%
95%
0.04417
0.066752 4.615710293
3.3E-09 1.26182466 1.969989758
0.00063 0.00689174 0.021877908
91
Inferior
95.0%
0.066752
1.26182466
0.00689174
Superior
95.0%
4.61571029
1.96998976
0.02187791
Anlisis de Regresin
11.5
19.75
12.03
24
14.88
29
13.75
15.35
18.11
19
8
9.5
17.83
35.1
79.24
17.9
21.5
52.32
40.33
18.75
La matriz yy es:
y'y
18,310.63
X'y
2.3412 1.6159
0.0144
559.6
7375.44
337072
Xy
18,076.90
SSE =
233.73
2 =
=233.73/(25-3) =10.6239
SSE = yy - X y
2 = MSE = SSE / (n-p)
Matrix Y'Y = 18310.6
Matrix b' = [ 2.34123
1.61591
0.01438 ]
S2
SS E
233.732
10.624
Np
25 3
S 2 C jj
92
21
19.83
10.75
Anlisis de Regresin
M8 = (X'X)-1
0.113215186 -0.004449
-0.004448593 0.0027438
-8.36726E-05 -4.79E-05
-8.367E-05
-4.786E-05
1.229E-06
1
X0 8
275
El valor de respuesta estimada por la ecuacin de ajuste es:
2.34123
Y0 X '0 b 1,8,275 1.61591 19.2 minutos
0.01438
93
Anlisis de Regresin
1
Var (Y0 ) S 2 X '0 (X ' X )1 X 0 10.62391, ,8 275M 8 8 10.6239( .0 05346) .0 56794
275
Por tanto el intervalo al 95% de nivel de confianza es:
19.22 2.074 0.56794 Y0 19.22 2.074 0.56794
Que se reduce a:
17.66 Y0
20.78
Analysis of Variance
De ecuaciones 3.26 a 3.29
2
SST = 18,310.629 - (559.6)
= 5784.5426
2
SSR = 18,076.930 - (559.6)
= 5,550.8166
25
25
F0
MSR 2775.4083
261.24
MSE
10.6239
F0.05, 2 , 22 3.44
94
Anlisis de Regresin
Coef
2.341
1.6159
0.014385
SE Coef
1.097
0.1707
0.003613
S = 3.25947
R-Sq = 96.0%
T
2.13
9.46
3.98
P
0.044
0.000
0.001
R-Sq(adj) = 95.6%
95
Anlisis de Regresin
Analysis of Variance
Source
Regression
Residual Error
Total
Source
X1_envases
X2_Distancia
DF
2
22
24
DF
1
1
SS
5550.8
233.7
5784.5
MS
2775.4
10.6
F
261.24
P
0.000
Seq SS
5382.4
168.4
Unusual Observations
Obs
9
22
X1_envases
30.0
26.0
Y_tiempo
79.240
52.320
Fit
71.820
56.007
SE Fit
2.301
2.040
Residual
7.420
-3.687
St Resid
3.21RX
-1.45 X
Fit
19.224
SE Fit
0.757
95% CI
(17.654, 20.795)
95% PI
(12.285, 26.164)
X1_envases
8.00
X2_Distancia
275
95
90
Percent
80
70
60
50
40
30
20
10
5
-3
-2
-1
0
1
Standardized Residual
96
Anlisis de Regresin
H1 : 2 0
t0
b2
2
S C 22
0.01438
3.98
(10.6239)(0.00000123)
97
Anlisis de Regresin
1
X0 8
275
Xo = [1, 8, 275]
.2 34123
Y0 X '0 b 1, 8, 275 .1 61591 19.22minutos
.0 01438
X '0 ( X ' X ) 1 X 0 0.05346
26.16
Anlisis de Regresin
1
7
560
1
3
220
1
3
340
1
4
80
(X'X)-1
0.1132152
-0.0044486
-8.367E-05
-0.004
0.0027
-5E-05
-8E-05
-5E-05
1E-06
x(XX)-1
primero
0.0352184 0.0120421 0.0003
Segundo
0.0814614 0.0067458 4E-05
x(XX)-1x
Observacin
1
X1_envases
7
X2_Distancia
hii
560
0.10180178
220
0.07070164
99
1
6
150
Anlisis de Regresin
X1_envases
7
X2_Distancia
hii
560
0.10180178
1
1
1
1
3
3
4
6
220
340
80
150
1
1
1
1
1
1
7
2
7
30
5
16
330
110
210
1460
605
688
0.04287
0.0818
0.06373
0.49829 hmax
0.1963
0.08613
1
1
1
1
1
1
1
1
1
1
1
1
1
1
10
4
6
9
10
6
7
3
17
10
26
9
8
4
215
255
462
448
776
200
132
36
770
140
810
450
635
150
0.11366
0.06113
0.07824
0.04111
0.16594
0.05943
0.09626
0.09645
0.10169
0.16528
0.39158
0.04126
0.12061
0.06664
0.07070164
0.09874
0.08538
0.07501
Los puntos para los cuales hoo sea mayor a hmax, se encuentran fuera del elipsoide,
generalmente entre menor sea el valor de hoo es ms probable que se encuentre en
el elipsoide.
En la tabla la observacin 9 tiene el valor mayor de hii. Como el problema solo tiene
dos regresores se puede examinar en un diagrama de dispersin como sigue:
100
Anlisis de Regresin
X1_ envases
25
20
15
10
5
0
0
200
400
600
800
1000
X2_ Distancia
1200
1400
1600
x10
8
20
28
8
x20
275
250
500
1200
h00
0.05346
0.58917
0.89874
0.86736
Todos los puntos se encuentran dentro del rango de los regresores X1 y X2. El punto
a es de interpolacin puesto que hoo <= hmax (0.05346 < 0.49829) todos los dems
son puntos de extrapolacin ya que exceden a hmax, lo que se confirma en la
grfica de dispersin.
Inferencia simultanea en la regresin mltiple
Indica que se puede hacer en forma simultanea inferencias
101
Anlisis de Regresin
siguientes:
1. Residuos en papel de probabilidad normal.
2. Residuos contra cada uno de los regresores Xs.
3. Residuos contra cada Yi , i 1,2,..., k
4. Residuos en secuencia de tiempo ( si se conoce)
Estas grficas se usan para identificar comportamientos anormales, outliers, varianza
desigual, y la especificacin funcional equivocada para un regresor. Se pueden
graficar los residuos sin escalamiento o con un escalamiento apropiado.
Existen algunas tcnicas adicionales de anlisis de residuos tiles en el anlisis de la
regresin mltiple, como se describen a continuacin.
Grficas de residuos contra regresores omitidos en el modelo
Estas grficas podran revelar cualquier dependencia de la variable de
respuesta Y contra los factores omitidos, se esta forma se puede analizar si
su incorporacin mejora la explicacin del modelo.
(3.35)
102
Anlisis de Regresin
*
La grfica de eij contra X ij se denomina Grfica de residuo parcial. Esta grfica
sirve para detectar Outliers y desigualdad de varianza, dado que muestra la relacin
entre Y y el regresor Xj despus de haber removido el efecto de los otros regresores
Xi (I<>j), es el equivalente de la grfica de Y contra Xj en regresin mltiple.
Grficas de regresin parcial
Son grficas de residuos de los cuales se ha removido la dependencia
lineal de Y sobre todos los regresores diferentes de Xj, as como su
dependencia lineal de otros regresores. En forma matricial se pueden
escribir estas cantidades como eY | X ( j ) , e X
j |X
( j)
(3.36)
(3.37)
Anlisis de Regresin
Xi
**
** * *
** *
**
** *
**
***
Xj
Y 5 X 1 1000 X 2
(3.38)
Donde Y esta medida en litros, X1 en mililitros y X2 en litros. Note que a pesar de que
b2 es mucho mayor que b1, su efecto en la variable de respuesta es idntico. Por lo
anterior algunas veces es importante trabajar con regresores y variables de
respuesta con escala cambiada, de tal forma que produzcan coeficientes de
regresin sin dimensiones.
Existen dos tcnicas para esto. La primera se denomina escala unitaria normal,
Z ij
Yi *
X ij X j
Sj
Yi Y
Sy
Con i = 1, 2, ......., n;
j = 1, 2, ........., k
(3.39)
Con i = 1, 2, ......., n
(3.40)
104
i = 1, 2, ........, n
(3.41)
Anlisis de Regresin
(3.42)
Wij
X ij
S jj
i = 1, 2, ......, n; j = 1, 2, ........, k
(3.43)
i = 1, 2, ..........., n
(3.44)
__
Y Y
,
Yi 0 i
SYY
__
S jj ( X ij X j ) 2
(3.45)
Esta ltima es la suma de cuadrados corregida para el regresor Xj. En este caso
cada regresor Wj tiene media cero y longitud uno.
__
W j 0
(3.46)
(Wij W j ) 2 1
i 1
i = 1, 2, ......, n
(3.47)
(3.48)
Anlisis de Regresin
W 'W
.........
r1k , r2k , r3k . . 1
rij
__
__
( X ui X i )( X uj X j )
u 1
S ii S jj
S ij
(3.49)
S ii S jj
De forma similar
r1Y
r
2Y
W 'Y 0
....
rKY
Donde rjy es la correlacin simple entre el regresor Xj y la respuesta Y:
n
r jy
__
__
( X uj X j )(Yu Y )
u 1
S ii SYY
S jY
(3.50)
S jj SYY
106
Anlisis de Regresin
ZZ = (n 1) WW
(3.51)
Por lo que no importa que mtodo se utilice para escalamiento, ambos mtodos
producen el mismo conjunto de coeficientes de regresin sin dimensiones b.
La relacin entre los coeficientes originales y los estandarizados es:
S
b j b j YY
S JJ
j = 1, 2, ....., k
(3.52)
___
___
b0 Y b j X
(3.53)
j 1
107
Anlisis de Regresin
.1 000000, .0 824215
W 'W
.0 824215, .1 000000
Las ecuaciones normales en trminos de los coeficientes de la
regresin estandarizados son:
108
Anlisis de Regresin
b1 3.184,2.57030.96415 0.71627
b2 2.5703,.1840.891670 .301
El modelo ajustado es:
Y 0 0.716267W1 0.301311W2
es
ms
relevante
que
109
la
distancia,
con
ciertas
Anlisis de Regresin
precauciones
dado
que
los
coeficientes
bs
son
slo
R2
SSR
SST
R2
5550.816
0.9596
5784.5426
R 1
SSE /( N p )
N 1
1
(1 R 2 )
SST /( N 1)
Np
R 1
25 1
(1 0 9596) 0.9559
25.3
110
Anlisis de Regresin
di
ei
,
MSE
i = 1, 2, .........., n
(3.54)
(3.55)
donde
H = X (XX)-1X es la matriz sombrero o hat matriz.
Esta matriz tiene las propiedades siguientes:
1. Es simtrica, es decir H = H.
2. Es idempotente, es decir H H = H.
3. En forma similar la matriz I H es simtrica e idempotente.
Por tanto se tiene:
e ( I H )( X ) X HX ( I H ) X X ( X ' X ) 1 X ' X ( I H )
e = (I H)
(3.55)
De esta forma los residuos tienen la misma transformacin lineal para las
observaciones Y y para los errores .
La varianza de los residuos es:
Var ( e) 2 ( I H )
(3.56)
111
Anlisis de Regresin
V ( ei ) 2 (1 hii )
(3.57)
ri
ei
,
MSE (1 hii )
i = 1, 2, .........., n
(3.58)
(3.59)
De tal forma que otra forma de escalamiento de residuos es transformar los residuos
n dependientes en n-p funciones ortogonales de los errores .
Residuos PRESS
La suma de cuadrados del error de prediccin (PRESS) propuesto por Allen (1971)
proporciona un escalamiento til para los residuos. Para calcular PRESS, seleccione
112
Anlisis de Regresin
una observacin, por ejemplo (i), Ajuste el modelo de regresin a las observaciones
remanentes (N 1), usando la ecuacin para predecir la observacin retenida (Yi).
Denotando el error de prediccin como:
e( i ) Yi Y( i )
(3.60)
PRESS e(2i ) Yi Y( i )
i 1
(3.61)
Como:
e( i )
ei
1 hii
(3.62)
Entonces:
ei
PRESS =
i 1 1 hii
(3.63)
De esta forma se observa que los residuos asociados con valores altos de hii sern
puntos de alta influencia, donde si se excluyen mostrarn un ajuste pobre del
modelo.
113
Anlisis de Regresin
Var ( e( i ) )
2
1 hii
(3.64)
ei
(3.65)
(1 hii )
2
S (2i )
i = 1, 2, ..........., n
S (2i ) (1 hii ),
(3.66)
ti
e( i )
S (1 hii )
2
(i )
i = 1, 2, ..........., n
(3.67)
ser ms sensible a este punto. Tambin ofrece una prueba ms formal de prueba de
114
Anlisis de Regresin
2
R Pr
ediccin 1
PRESS
SYY
(3.68)
2
R Pr
ediccin 1
457.4
0.9209
5784.5426
Y-TENT
Alpha-to-Enter: 0.15
on
2 predictors, with N =
Step
Constant
1
3.321
2
2.341
X1-CAS
T-Value
P-Value
2.18
17.55
0.000
1.62
9.46
0.000
X2-DIST
T-Value
P-Value
S
R-Sq
R-Sq(adj)
25
0.0144
3.98
0.001
4.18
93.05
92.75
3.26
95.96
95.59
Montgomery, Douglas C., Peck, Elizabeth A., Introduction to Linear Regression Analysis, 2 edition, John
Wiley and Sons, Nueva York, 1991, p. 176
115
Anlisis de Regresin
C-p
PRESS
R-Sq(pred)
16.9
733.550
87.32
b j ( X ij X i ' j )
MSE
j 1
Dii2
(3.69)
116
Anlisis de Regresin
Los pares de puntos que tienen esta distancia pequea son vecinos cercanos sobre
2
los cuales se puede calcular el error puro, y los que generan Dii 1 estn
(3.70)
Hay una relacin entre el el rango de una muestra de una distribucin normal y la
desviacin estndar de la poblacin. Para muestras de tamao 2, la relacin es:
E
E
0.886 E
d 2 1.128
0.886 m
Eu
m u 1
Anlisis de Regresin
ajuste
embargo
de
una
tabla
10.6239 3.259.
y
en
Por
esperaramos
este
caso
anterior
otro
haber
MSE
lado
se
no
se
encontrado
es
slo
del
haba
calcualdo
observa
falta
que
65%
MSE .
mayor
que
de
Sin
Puntos de apalancamiento
Son observaciones remotas que tienen un apalancamiento desproporcionado
potencial en los parmetros estimados, valores de prediccin, y estadsticas en
general.
Hoaglin y Welsch discuten el papel de la matriz sombrero H donde sus elementos de
la diagonal principal (hij) puede ser interpretado como la cantidad de influencia
ejercida por Yj en Yi . As, enfocando la atencin en los elementos de la diagonal de
n
la matriz H, como
h
i 1
ii
118
Anlisis de Regresin
Di ( M , c )
, i 1,2,......, n
(3.71)
Di ( M , c )
, i 1,2,......, n
(3.72)
Los puntos con valores grandes de Di tienen una influencia considerable en los
estimadores de mnimos cuadrados b. La magnitud de Di puede evaluarse
comparndola con F , p ,n p . Si Di F.5, p ,n p , entonces al borrar el punto i mover a
b al lmite del intervalo de confianza del 50% para con base en el conjunto de datos
completo. Como F.5, p ,n p 1 normalmente se considera que los puntos donde
Di 1 tendrn influencia. Idealmente cada b(i ) deber permanecer dentro de la
Di
ri 2 V (Yi ) ri2 h ii
, i 1,2,......, n
p V ( ei )
p (1 hii )
119
(3.73)
Anlisis de Regresin
As Di est formado por un componente que refleja que tan bien se ajusta el modelo a
la i-sima observacin Yi y un componente que mide que tan lejos se encuentra el
punto del resto de los datos. Uno o ambos componentes pueden contribuir a un valor
grande de Di .
DFFITS i
Yi Y( i )
S (2i ) hii
, i 1,2,........., n
(3.74)
Donde Y( i ) es el valor estimado de Yi obtenido sin el uso de la isima observacin,
el denominador es una estandartizacin, por tanto DFFITS es el nmero de
desviaciones estndar que el valor estimado Yi cambia si la observacin i-sima es
removida. Computacionalmente se tiene:
1/ 2
hii
1 hii
DFFITS i
(3.75)
ti
DFFITS i 2 p
(3.76)
Merece atencin.
Falta ejemplo 4.17
Multicolinealidad
120
Anlisis de Regresin
VIF j
1
1 R 2j
(3.77)
Si Xj es casi linealmente dependiente de algunos de los otros regresores, entonces el
coeficiente de determinacin Rj2 ser carcano a la unidad y el VIF j ser muy grande,
de tal forma que si es mayor a 10 implica que se tienen serios problemas de
multicolinealidad.
Los modelos de regresin que tienen presente multicolinealidad muestran
ecuaciones de prediccin pobres y los coeficientes de regresin son muy sensibles a
los datos en la muestra colectada en particular. En comparacin con el caso de
regresores ortogonales que son muy estables (imaginar un plano encima).
121
Anlisis de Regresin
X1
X2
X1
X2
b) Regresores ortogonales
X2
5
10
5
10
5
10
5
10
20
20
30
30
20
20
30
30
1,0 1
X'X X'( X)
0,1
Las varianzas de los coeficientes estandarizados de regresin b1 , b2 son:
122
Anlisis de Regresin
V (b1 ) V (b2 )
1
2
2
Y un sistema con colinealidad es:
.1 00000, .0 824215
W 'W
.0 824215, .1 00000
donde
.3 1 841, .2 57023
(W'W )
.2 57023, .3 1 841
1
V (b1 ) V (b2 )
3.11841
2
2
Se observa que estn infladas debido a la multicolinealidad.
123
Anlisis de Regresin
Introduccin
124
Anlisis de Regresin
BIBLIOGRAFA
Montgomery, Doglas C., Peck, Elizabeth A., Introduction to Linear Regression
Analysis, John Wiley and Sons, 2 edition, Inc., New York, 1992
Chatterjee, Samprit, Price, Bertram, Regression Analysis by Example, John Wiley
and Sons, Inc., 2 edition, 1991
Draper, Norman R., Smith, Harry, Applied Regression Analysis, John Wiley and Sons,
Inc., New York, 1998
125
Anlisis de Regresin
PROBLEMA 2.1
Calcular lo siguiente (Y vs X8):
a) La recta de regresin
The regression equation is
Y = 21.8 - 0.00703 X8
b) La tabla ANOVA y prueba de significancia
Analysis of Variance
Source
Regression
Residual Error
Total
DF
1
26
27
SS
178.09
148.87
326.96
MS
F
P
178.09 31.10
0.000
5.73
Ftablas=F1,26,0.05=4.23
Coef
21.788
-0.007025
StDev
2.696
0.001260
T
8.08
-5.58
P
0.000
0.000
Anlisis de Regresin
Predicted Values
Fit StDev Fit 95.0%CI para media
7.738
0.473 (
6.766;
8.710)
0.738234 26
5.58055
1 0.545
R-Sq = 54.8%
R-Sq(adj) = 51.1%
127
Anlisis de Regresin
Alfa = 0.1
128
4.936<=Ypuntual<=13.35
Anlisis de Regresin
PROBLEMA 2.3
Calcular lo siguiente:
a) La recta de regresin
The regression equation is
Y1 = 607 - 21.4 X4
b) La tabla ANOVA y prueba de significancia
Analysis of Variance
Source
DF
Regression
1
Residual Error 27
Total
28
SS
10579
4103
14682
MS
F
P
10579
69.61
0.000
152
Ftablas=F1,27,.05=4.21
StDev
42.91
2.565
T
14.15
-8.34
P
0.000
0.000
R-Sq(adj) = 71.0%
129
Anlisis de Regresin
0.84882 27
8.3427
1 0.7205
130
Anlisis de Regresin
PROBLEMA 2.7
a) Ecuacin de regresin
The regression equation is
Y78 = 77.9 + 11.8 X78
b) Probar la hiptesis nula de que Ho: 1 = 0
Analysis of Variance
Source
Regressio
Residual
error
Total
DF
1
18
SS
148.31
232.83
19
MS
148.31
12.94
381.15
F
11.47
P
0.003
Ftablas = F0.05,1,18=4.41
Coef
77.863
11.801
StDev
4.199
3.485
T
18.54
3.39
P
0.000
0.003
t0.025,18 = 2.101
b1 t*std dev (Predict.X78) =11.801 2.101* (3.485) =
4.47699 <= 1 <= 19.12301
e) Encontrar el intervalo de confianza para la pureza media si el % de hidrocarbono
es de 1.00
Predicted Values
Fit StDev Fit 95.0% CI p. la media 95.0% PI p. valor futuro
89.664 1.025
( 87.510; 91.818) ( 81.807; 97.521)
131
Anlisis de Regresin
PROBLEMA 2.8
a) Cul es la correlacin entre las dos variables?
R-Sq = 38.9%
entonces r = 0.6237
0.6237 18
3.38527
1 0.389
PROBLEMA 2.9
a) Ecuacin de regresin
The regression equation is
Y9 = - 6.33 + 9.21 X9
b) Probar la significancia de la regresin
Analysis of Variance
Source
Regressi
Residual
error
Total
DF
1
10
SS
280590
38
11
280627
MS
280590
F
74122.78
P
0.000
132
Anlisis de Regresin
Predicted Values
Fit StDev Fit
421.862 0.562
431.070 0.563
95.0% CI
( 420.610; 423.113)
( 429.816; 432.324)
95.0% PI
( 417.350; 426.374)
( 426.557; 435.583)
99.0% CI
( 525.593; 529.925)
99.0% PI
( 521.220; 534.298)
PROBLEMA 2.10
a) Encontrar el coeficiente de correlacin r
R-Sq = 100.0%
por tanto r = 1
0.999 10
272.25
1 0.999
133
Anlisis de Regresin
(3.1)
(3.2)
S ( ) i2 ' (Y X )' (Y X )
i 1
quedando
XX b = X Y
(3.4)
b = (XX)-1 XY
(3.5)
B) VARIANZAS Y COVARIANZAS DE b
Var(b) = C = (XX)-1 2
(3.6)
2
El elemento (ii) de esta matriz cii Var (bi ) es la varianza del elemento bi .
El error estndar de bi es la raz cuadrada positiva de la varianza de b i o sea:
se.bi cii 2
(3.7)
(3.8)
SSE (Y Xb)' (Y Xb) Y ' Y b' X ' Y Y ' Xb b' X ' Xb Y ' Y 2b' X ' Y b' X ' Xb
134
Anlisis de Regresin
s 2 MSE
SSE
Np
(3.15)
(3.17)
Donde se(bj) es el error estndar del coeficiente de regresin bj.
se(b j )
S 2 C jj
(3.18)
S 2 X ' 0 ( X ' X ) 1 X 0 Y0 Y0 t / 2 ,n p
S 2 X ' 0 ( X ' X ) 1 X 0
(3.21)
Ho se rechazar si Ft >= Fo
Fuente de
variacin
Regresin
Residuos
Total
SS
SSR
SSE
SST=SSR+SSE
df
k= p-1
nk1= N-p
n 1=k+(n-k+1)
MS
MSR
MSE
F0
.
MSR/MSE
Ft=F,p-1,N-p
Donde:
N
__
(3.24)
u 1
N ^
__
SSR (Y ( xu ) Y ) 2
u 1
135
(3.25)
Anlisis de Regresin
SSE (Yu Y ( xu )) 2
(3.26)
u 1
(3.27)
(3.28)
H1 : j 0
Si no se rechaza Ho quiere decir que el regresor Xj puede ser excluido del modelo,
Ho es rechazada si t 0 t / 2 ,n k 1 , donde:
t0
bj
se(b j )
136
S 2 (1 X ' 0 ( X ' X ) 1 X 0 )