Sunteți pe pagina 1din 136

Anlisis de Regresin

P. Reyes / Enero, 2007

UNIVERSIDAD IBEROAMERICANA A.C.


MAESTRA EN INGENIERA DE CALIDAD

ANLISIS DE REGRESIN

Dr. Primitivo Reyes Aguilar


Enero, 2007

Anlisis de Regresin

P. Reyes / Enero, 2007

CONTENIDO
1. REGRESIN LINEAL SIMPLE
1.1 Introduccin
1.2 El modelo de regresin lineal simple
1.3 Usos y abusos de la regresin
2. ADECUACIN DEL MODELO DE REGRESIN LINEAL
2.1 Introduccin
2.2 Prueba de falta de ajuste
2.3 Anlisis de los residuos
2.4 Transformaciones de los datos
2.5 Propuesta de estrategia de ajuste del modelo
3. REGRESIN LINELA MLTIPLE
3.1 El modelo de regresin
3.2 Anlisis de los residuos
3.3 Anlisis de cada observacin
3.4 Propuesta de estrategia de ajuste del modelo
4. TPICOS ADICIONALES
4.1 Calibracin
4.2 Variables independientes cualitativas
4.3 Autocorrelacin
4.4 Algunos usos interesantes de la regresin

Anlisis de Regresin

P. Reyes / Enero, 2007

1. REGRESIN LINEAL SIMPLE


Ajuste de una lnea recta por mnimos cuadrados

1.1 Introduccin
Parece que Sir Francis Galton (1822-1911) un antroplogo y metereolgo britnico
fue responsable de la introduccin de la palabra regresin, mostr que si Y =
estatura de los nios y X = estatura de los padres, una ecuacin de ajuste

2 __
Y Y ( X X ) . El artculo de
3
^

adecuada era

__

Galton es fascinante como se cuenta en

The Story of the Statistics1, el mtodo de mnimos cuadrados aparentemente fue


descubierto por Carl Frederick Gauss (1777-1855) 2.
El mtodo de anlisis llamado anlisis de regresin, investiga y modela la relacin
entre una variable Y dependiente o de respuesta en funcin de otras variables de
prediccin Xs, a travs del mtodo de mnimos cuadrados.
Como ejemplo supngase que un ingeniero industrial de una embotelladora est
analizando la entrega de producto y el servicio requerido por un operador de ruta
para surtir y dar mantenimiento a maquinas dispensadoras. El ingeniero visita 25
locales al azar con mquinas dispensadoras, observando el tiempo de entrega en
minutos y el volumen de producto surtido en cada uno.

Las observaciones se

grafican en un diagrama de dispersin (Fig. 1.1), donde claramente se observa que


hay una relacin entre el tiempo de entrega y el volumen surtido; los puntos casi se
encuentran sobre una lnea recta, con un pequeo error de ajuste.
En general los modelos de regresin tienen varios propsitos como son:

Descripcin de datos a travs de ecuaciones

Estimacin de parmetros para obtener una ecuacin modelo

Prediccin y estimacin.

Stigler, S.M., The Story of the Statistics, Belknap Press, Harvard University, 1986, pp. 294-299
Placket, R.L., Studies in the history of the probability and Statistics XXIX. The discovery of the method of
least squares,, Bometrika, 59, 1972, pp. 239-251.
2

Anlisis de Regresin

1.2

P. Reyes / Enero, 2007

Control.

El modelo de regresin lineal simple

Al tomar observaciones de ambas variables Y respuesta y X prediccin o regresor,


se puede representar cada punto en un diagrama de dispersin.
Y
*
*
*** *
*** **
***

X
Fig. 1.1 Diagrama de dispersin y recta de ajuste
El modelo de ajuste o modelo de regresin lineal es:
Y 0 1 X

Donde los coeficientes 0

(1.1)
y 1

son parmetros del modelo denominados

coeficientes de regresin, son constantes, a pesar de que no podemos determinarlos


exactamente sin examinar todas las posibles ocurrencias de X y Y, podemos usar la
informacin proporcionada por una muestra para hallar sus estimados b0 , b1 . El error
es difcil de determinar puesto que cambia con cada observacin Y. Se asume que
los errores tienen media cero, varianza desconocida 2 y no estn correlacionados
(el valor de uno no depende del valor de otro). Por esto mismo las respuestas
tampoco estn correlacionadas.
Conviene ver al regresor o predictor X como la variable controlada por el analista y
evaluada con el mnimo error, mientras que la variable de respuesta Y es una
variable aleatoria, es decir que existe una distribucin de Y con cada valor de X.

Anlisis de Regresin

P. Reyes / Enero, 2007

La media de esta distribucin es:


E ( y | x ) 0 1 x

(1.1 a)

y su varianza es:
V ( y | x ) V ( 0 1 x ) 2

(1.1b)

De esta forma la media de Y es una funcin lineal de X a pesar de que la varianza de


Y no dependa de los valores de X.

1.2.1 Estimacin de los parmetros por mnimos cuadrados


El mtodo de mnimos cuadrados se usa para estimar 0 y 1 se estimar 0 y 1
de manera que la suma de cuadrados de las diferencias entre la observaciones yi y
la lnea recta sea mnima. Los parmetros 0 y 1 son desconocidos y deben ser
estimados usando datos de una muestra. Supongamos que se tienen n pares de
datos (y1, x1), (y1, x1), (y2, x2),....., (yn, xn) de un experimento o por historia.
De la ecuacin modelo de regresin de la poblacin
Y 0 1 X

Usando los pares de datos se puede establecer el criterio de mnimos cuadrados


como:
n

S ( 0 , 1 ) ( yi 0 1 xi ) 2
i 1

Los estimadores de mnimos cuadrados de 0 y 1 por decir 0 , 1 debe satisfacer


es:

Anlisis de Regresin

S
0

P. Reyes / Enero, 2007

0 , 1

2 ( yi 0 1 xi ) 0
i 1

y
S
1

0 , 1

2 ( yi 0 1 xi ) xi 0
i 1

Simplificando estas dos ecuaciones se obtienen las ecuaciones de mnimos


cuadrados:
n

i 1

i 1

n 0 1 xi yi
n

i 1

i 1

i 1

0 xi 1 x 2 i yi xi

La solucin a las ecuaciones normales anteriores:


0 y 1 x

n
x

i yi
n
i 1

i1
yi xi

n
i 1

x i
i 1

i 1

Donde los promedios para X y para Y son los siguientes::


y

1 n
yi
n i 1

1 n
xi
n i 1

Aplicando el mtodo de mnimos cuadrados del error, se obtiene el modelo que nos
da un valor estimado Y en funcin de X, denominado ecuacin de prediccin o de
regresin lineal, como sigue:
b0 0
b1 1

Anlisis de Regresin

P. Reyes / Enero, 2007

Y b0 b1 X

(1.2)

Donde:
n

b1

S xy
S xx

__ __

X iYi n X Y
i 1
n

X
i 1

__

2
i

(1.3)

__ 2

nX

__

(1.4)

b0 Y b1 X

por tanto:

^ __

__

Y Y b1 ( X X )

(1.5)

__

__

__

Cuando X X se tiene el punto ( X , Y ) que se encuentra en la lnea ajustada y


representa el centro de gravedad de los datos.
Ejemplo 1.1 Se realizaron 25 observaciones de la variable Y y X
como sigue:
Y

10.98
11.13
12.51
8.4
9.27
8.73
6.36
8.5
7.82
9.14
8.24

35.3
29.7
30.8
58.8
61.4
71.3
74.4
76.7
70.7
57.5
46.4

Anlisis de Regresin

12.19
11.88
9.57
10.94
9.58
10.09
8.11
6.83
8.88
7.68
8.47
8.86
10.36
11.08

P. Reyes / Enero, 2007

28.9
28.1
39.1
46.8
48.5
59.3
70
70
74.5
72.1
58.1
44.6
33.4
28.6

Haciendo clculos con el paquete Minitab con X en la columna C2 y Y en la columna


C1 se tiene:

Regression Analysis: C1 versus C2

The regression equation is


C1 = 13.6 - 0.0798 C2

Anlisis de Regresin

Predictor
Constant
C2
S = 0.8901

Coef
13.6230
-0.07983

P. Reyes / Enero, 2007

SE Coef
0.5815
0.01052

R-Sq = 71.4%

T
23.43
-7.59

P
0.000
0.000

R-Sq(adj) = 70.2%

Por lo anterior la ecuacin de regresin obtenida es:


^

(1.6)

Y 13.6 0.0798 X
Despus de obtener esta ecuacin, surgen algunas preguntas:
-

qu tan bien ajusta los datos esta ecuacin?

el til el modelo para hacer predicciones?

se viola alguna condicin como varianza constante y no correlacin en los


errores, de ser as que tan seria es?

Todo esto debe ser aclarado antes de usar el modelo.

1.2.2 Anlisis de Varianza


El anlisis de varianza es una herramienta que sirve para probar la adecuacin del
modelo de regresin, para lo cual es necesario calcular las sumas de cuadrados
correspondientes.
La desviacin estndar S corresponde a la raz cuadrada del valor de MSE o
cuadrado medio residual.

S2

SS E SYY b1 S XY

n2
n2

(1.7)

Donde:

Anlisis de Regresin

P. Reyes / Enero, 2007

i 1

Yi

SYY Yi 2

(1.8)

i 1

i 1

i 1

X i Yi

i 1

S XY X iYi

La expresin

(1.9)

ei Yi Y i es el residuo que expresa la diferencia entre el valor

observado y el valor estimado por la ecuacin de prediccin.


Donde:

__ ^ __

Yi Y i Yi Y (Y i Y )

(1.10)

Y
Yi
^

ei
__

Yi

Yi Y

_
Y
lnea ajustada
^

Y b0 b1 x
X
Xi
Fig. 1.2 Errores involucrados en la recta de ajuste
10

Anlisis de Regresin

P. Reyes / Enero, 2007

__

La cantidad (Yi Y ) es la desviacin de la observacin i-sima respecto a la media.


Por otra parte:

__

^ __

(Y Y ) (Y Y ) (Y Y )
i

i i

(1.11)

Suma de cuadrados = Suma de cuadrados + Suma de cuadrados


respecto a la media
de la regresin
del error o residuos
De tal forma que la tabla de anlisis de varianza queda como:
Tabla de Anlisis de Varianza

Fuente
df
SS
MS = SS/df
Fc
MS
SSR

b
S
Regresin
1
MSreg/s2 =MSreg/MSE
REG
1 XY
2
SSE SS YY b1 S XY S =MSE=SSE/n-2
Residual
n-2
__________________________________________________________.
SYY
Total corregido
n-1
donde:
__

2
S XY
( ( X i X )Yi ) 2

(1.12)
__ 2

__

S XX ( X i X ) 2 X i2 n X

(1.13)

Obtenindose con el Minitab


Source
Regression
Residual Error
Total corrected

DF
1
23
24

SS
45.592
18.223
63.816

MS
45.592
0.792

11

F
57.54

P
0.000

Anlisis de Regresin

P. Reyes / Enero, 2007

El estadstico F se calcula como F = MSEREG / S2 y se compara con la F de tablas con


(1, n-2) grados de libertad y rea en 100(1-)%, para determinar si el parmetro 1 es
significativo que es el caso de Fcalc. > Ftablas.
En este caso Fc = 45.5924 / 0.7923 = 57.24 y F de tablas F(1, 23, 0.95) es igual a
4.28, por tanto se rechaza H0 aceptando que existe una ecuacin de regresin.
El rea de la cola de Fc est descrita por el valor de p que debe ser menor o igual al
valor de , en este caso es casi cero.

1.2.3 Intervalos de confianza para 0 , 1


En base al error estndar para los parmetros se tiene:

__ 2

1 X
X


__

n
S
2
XX

n ( X i X )

se(b0 ) MSE

se(b1 )

MSE

S XX

2
i

1/ 2

S
S XX

(1.14)

(1.15)

Del ejemplo, como s = 0.7963 y SXX = 7154.42


se(b1 )

0.792
0.0105
7154.42

El intervalo de confianza 100 (1 - )% para 0 , 1 , considerando que las


observaciones y los errores siguen un comportamiento normal, es:
Y Para el coeficiente o se tiene:

12

Anlisis de Regresin

0 t a / 2,n 2

P. Reyes / Enero, 2007

__ 2

1 X
MSE
n S XX

(1.16)

1
X

b0 t ( n 2,1 )
__
2 n (X X
2
)
i
2
i

1/ 2

(1.16a)

Para el caso del coeficiente Beta 1:


El error estndar es:
se( 1 )
^

1 t a / 2 , n 2

MSE
S XX

MSE
S XX

(1.17)

1
t ( n 2,1 ).S
2
b1
__
(
X

X
i )2

(1.17)

Suponiendo = 0.05, t(23,0.975) = 2.069, los lmites de


confianza para el parmetro 1 son:
-0.798 (2.069)(0.0105) o sea -0.798 0.0217
y 1 se encuentra en el intervalo (-0.1015, -0.0581).
Para el caso de sigma, si los errores estn distribuidos normalmente y son
independientes, la distribucin del estadstico,
( n 2) MSE / 2

13

Anlisis de Regresin

P. Reyes / Enero, 2007

es Chi-cuadrada con n 2 grados de libertad y de esta forma:

( n 2) MSE

P 12 / 2,n 2
2 / 2,n 2 1
2

Por consecuencia un intervalo de confianza 100 (1 - ) % en 2 es:


( n 2) MSE
( n 2) MSE
2
2
/ 2 ,n 2
12 / 2,n 2

(1.18)

1.2.4 Estimacin del intervalo para la media de la respuesta


Una aplicacin mayor del anlisis de regresin es la estimacin de la media de la
respuesta E(Y) para un valor particular de la variable regresora X. El valor esperado
de la respuesta Y media para un cierto valor de X = X 0 es:
^

(1.19)

E (Y | X 0 ) Y0 b0 b1 X 0

Para obtener un intervalo de confianza con 100(1 - )% para el coeficiente 1 se


aplica la frmula siguiente:

Y0 ta / 2,n2

MSE 1 ( x0 x)2

S XX n S xx

(1.20b)

Ver grfica anterior del ejemplo.

1.2.5 Prediccin de nuevas observaciones

14

Anlisis de Regresin

P. Reyes / Enero, 2007

Esta es otra de las aplicaciones del modelo de regresin, predecir nuevas


observaciones Y correspondientes a un nivel especfico de la variable regresora X.
La banda de prediccin es ms ancha dado que depende tanto del error del modelo
de ajuste y el error asociado con observaciones futuras (Y0 Y0 ) . El intervalo es
__

mnimo en X 0 X y se amplia conforme se incrementa la diferencia entre

__

X0 X .

La variable aleatoria,

Y0 Y0
Est normalmente distribuida con media cero y varianza:

__

1 ( X X )2
V ( ) 1 0

n
S XX

Si se usa Y0 para predecir a Y0 entonces el error estndar de = Y0 - Y0 , es el


estadstico apropiado para establecer un intervalo de prediccin probabilstico, en el
caso de un intervalo 100 (1 - ) % sobre una observacin futura en X 0 se tiene:
Y0 t / 2,n 2

__
__

2
(
X

X
)
(
X

X
)2
1
1
Y0 Y0 t / 2,n 2 MSE 1 0
MSE 1 0
(1.21

n
S XX

n
S XX

Se puede generalizar para encontrar un intervalo de prediccin del 100(1-)


porciento para la media de m observaciones futuras en X = Xo. Sea Ymedia la media
de las observaciones futuras en X = Xo. El intervalo de prediccin estimado es:

Y0 t / 2,n2

__
__

2
(
X

X
)
(
X

X
)2
1
1
1
1
Y0 Y0 t / 2,n2 MSE
MSE
0
0
m n

m n

S XX
S XX

1.2.6 Pruebas de hiptesis para la pendiente e interseccin


15

Anlisis de Regresin

P. Reyes / Enero, 2007

Prueba de Hiptesis para Ho: 0 = 10 contra H1: 0 10


Calculando el estadstico t, considerando que 10 = 0, se tiene:
b0
se(b0 )

(1.22)

Probar la hiptesis para b0 no tiene inters prctico.


Ahora para probar la significancia de b1 se tiene:

b1
MSE

t0

Si

para ( / 2, n 2) grados de libertad

S XX

t 0 t / 2 ,n 2

(1.23)

se rechaza la hiptesis nula, indicando que 1 es significativo y se

tiene regresin lineal.


Del ejemplo:
t

b1
0.798

7.60
se(b1 ) 0.0105

Como

t 7.60

excede el valor crtico de t = 2.069, se rechaza

Ho (o sea el valor de p << 0.05) .Por tanto este coeficiente es


significativo.
Es importante notar que el valor de F = t2.

La salida del Minitab es como sigue:


Predictor
Coef
Constant = b0 13.6230
C2 = b1
-0.07983

SE Coef
0.5815
0.01052

T
23.43
-7.59

16

P
0.000
0.000

Anlisis de Regresin

P. Reyes / Enero, 2007

1.2.7 Inferencia simultanea para los parmetros del modelo


Para una estimacin conjunta de Beta0 y Beta1 en una regin donde estemos
seguros con 100(1-alfa) porciento de que ambos estimados son correctos es:
n

n( 0 0 ) 2 2 xi ( 0 0 )( 1 1 ) x 2 i ( 1 1 )
i 1

i 1

2 MSE

F , 2,n2

1.2.8 Estimacin simultanea de la respuesta media


La estimacin simultanea de la respuesta media es:
Es posible construir m-intervalos de confianza de la respuesta media de un conjunto
de m-valores especficos X, vgr. X1, X2, ., Xm, que tengan un coeficiente de
confianza conjunta de la menos 100(1-alfa) porciento.
Se puede utilizar el mdulo t de Scheff:
u , 2 ,n 2

Donde u , 2,n 2 es el punto de la cola superior alfa de la distribucin del valor


mximo absoluto de dos variables aleatorias t-student cada una basada en n-2
grados de libertad. Estos dan intervalos ms cortos. Para el caso de alfa = 0.10,
m=2,n=18 se tiene de tablas (A.8):
t /( 2 m ),n 2 t 0.025,18 2.101
u ,m ,n u0.10 , 2,18 2.082

La Delta de Boferroni como sigue:


( 2 F , 2,n2 )1/ 2 ( 2 F0.10, 2,18 )1/ 2 (6.02)1 / 2 2.454

1 (xi x )2

E(Y X i ) YXi MSE


n S xx
^

17

Anlisis de Regresin

P. Reyes / Enero, 2007

Note que los intervalos del mximo mdulo t son ms angostos que los de
Bonferroni. Sin embargo cuando m > 2 los intervalos de mximo mdulo t se
siguen ampliando mientras que los de Bonferroni no dependen de m.

1.2.9 Prediccin de nuevas observaciones


El conjunto de intervalos de prediccin para m nuevas observaciones en los niveles
X1, X2,, Xm que tienen un nivel de confianza de al menos (1-alfa) es:
^

1 ( x x )2

y xi YXi MSE 1 i
n
S xx

18

Anlisis de Regresin

P. Reyes / Enero, 2007

1.2.10 Correlacin
Las discusiones anteriores de anlisis de regresin han asumido que X es una
variable controlable medida con un error despreciable y que Y es una variable
aleatoria. Muchas aplicaciones de anlisis de regresin involucran situaciones donde
tanto X como Y son variables aleatorias y los niveles de X no pueden ser
controlados. En este caso se asume que las observaciones (Xi, Yi), i=1, 2,,n son
variables aleatorias distribuidas conjuntamente. Por ejemplo suponiendo que se
desea establecer la relacin entre los refrescos vendidos y la temperatura del da. Se
asume que la distribucin conjunta de Y y X es la distribucin normal divariada, que
es:

1
1

f ( x, y )
exp
2
2 1 2
2(1 p )

y 1
x 2
y 1
x 2


2 p

1
2
1
2

Donde 1 y 12 corresponden a la media y la varianza de Y, y 2 y 22 corresponden


a la media y la varianza de X y

E ( y 1 )( x 2 ) 12

1 2
1 2

Es el coeficiente de correlacin entre Y y X. 12 es la covarianzade Y y X.


La distribucin condicional de Y para un valor de X es:
f ( y x)

1 y x
1
0
1

exp
12
2 12
2

Donde:

0 1 2

1
2

212 12 (1 2 )

19

Anlisis de Regresin

P. Reyes / Enero, 2007

La correlacin es el grado de asociacin que existe las variables X y Y, se indica por


el estadstico cuyo estimador es el coeficiente de correlacin de la muestra r rxy.
Donde:
r

S XY
S XX SYY

S
b1 YY
S XX

(1.24)

1/ 2

(1.25)

Un estadstico til es el valor del ajuste de la regresin R2, coeficiente de


determinacin que se define como:
r = rxy = (signo de b1)R
( SS .de.la.regresin . por.b0 )
R

( SSTotal .corregido. para.la.media)


2

(1.26)
^

__

(Y Y )
(Y Y )
__

SSR
SSE
1
Syy
SYY

(1.27)

Como Syy es una medida de la variabilidad en Y sin considerar el efecto de la


variable regresora X y SSE es una medida de la variabilidad en Y que queda
despus de que se ha considerado X, R 2 mide la proporcin de la variacin total
respecto a la media que es explicada por la regresin. Es frecuente expresarla en
porcentaje. Puede tomar valores entre 0 y 1, los valores cercanos a 1 implican que la
mayora de la variabilidad es explicada por el modelo de regresin.
En el ejemplo:
R-Sq = 71.4%

R-Sq(adj) = 70.2%

Se debe tener cuidado con la interpretacin de R2, ya que su magnitud tambin


depende del rango de variabilidad en la variable regresora. Generalmente se
incrementa conforme se incrementa la dispersin de X y decrece en caso contrario,
de esta forma un valor grande de R2 puede ser resultado de un rango de variacin
no realista de X o puede ser muy pequea debido a que el rango de X fue muy
pequeo y para permitir la deteccin de su relacin con Y.
20

Anlisis de Regresin

P. Reyes / Enero, 2007

Para probar la hiptesis H0: = 0 contra H1: 0, el estadstico apropiado de prueba


es:

t0

r n2

(1.28)

1 r2

que sigue una distribucin t con n-2 grados de libertad. Si

t 0 t / 2 , n 2

se rechaza la

hiptesis Ho, indicando que existe una correlacin significativa.


Por ejemplo si en un grupo de 25 observaciones se obtiene una r
= 0.9646 y se desea probar las Hiptesis:
Ho: = 0
H1: 0
Usando el estadstico de prueba to:

t0

0.9646 25 2
17.55
1 0.9305

como

t0.025,23=2.069,

se

rechaza

Ho

indicando

que

hay

correlacin significativa entre los datos.


Para probar la hiptesis H0: = 0 contra H1: 0 , donde 0 no es cero y Si n 25
se utiliza el estadstico transformacin-z de Fisher:

Z arctanh ( r )

1 1 r
ln
2 1 r

(1.29)

21

Anlisis de Regresin

P. Reyes / Enero, 2007

Con media
Z arctanh ( )

y desviacin estndar

Z2

1
n3

En base a la frmula de la distribucin normal, se calcula el estadstico Zo siguiente


para probar la hiptesis Ho: = 0,
Z 0 ( arctanh ( r ) arctanh ( 0 )( n 3

y rechazar si

(1.30)

Z 0 Z / 2

Obtenindose

1 1 r
1 1 0
ln(
) ln(
)
2 1 0
2 1 r

z ( n 3)1 / 2

(1.31)

y el intervalo de confianza (100 - )% para est dado por:

Z
Z

tanh arctanhr / 2 tanh arctanhr / 2


n3
n3

Del

ejemplo

anterior,

se

puede

(1.32)

construir

un

intervalo

confianza del 95% para .


Siendo que arctanh r = arctanh0.9646 =

22

2.0082, se tiene:

de

Anlisis de Regresin

P. Reyes / Enero, 2007

1.92
1.96

tanh 2.0082
tanh 2.0082

22
22

0.9202 0.9845.

Se simplifica a
Se

requiere

un

anlisis

adicional

para

determinar

si

la

ecuacin de la recta es un ajuste adecuado a los datos y si es


un buen predictor.

1 1 r
1

ln
z 1
2 1 r
2 n 3

1/ 2

1 1
ln
2 1

(1.33)

Otro ejemplo, si n=103, r=0.5,

= 0.05. Se tiene que el

intervalo de confianza es:


(1/2) ln 3 0.196 = (1/2)ln{(1+)/(1-)}
Por tanto se encuentra entre (0.339, 0.632)

23

Anlisis de Regresin

1.3

P. Reyes / Enero, 2007

Riesgos en el uso de la regresin

Hay varios abusos comunes en el uso de la regresin que deben ser mencionados:
1. Los modelos de regresin son vlidos como ecuaciones de interpolacin sobre el
rango de las variables utilizadas en el modelo. No pueden ser vlidas para
extrapolacin fuera de este rango.
2. La disposicin de los valores X juega un papel importante en el ajuste de mnimos
cuadrados. Mientras que todos los puntos tienen igual peso en la determinacin
de la recta, su pendiente est ms influenciada por los valores extremos de X. En
este caso debe hacerse un anlisis minucioso de estos puntos y en todo caso
eliminarlos y re estimar el modelo. En la figura se observan dos puntos que
influyen en el modelo de ajuste, ya que si se quitaran, el modelo de lnea recta se
modificara.
Y
*A
* *
*
*

*
*

Sin A y B

* *
*B

Fig. 1.3 Dos observaciones con mucha influencia (A,B)


3. Los outliers u observaciones malas pueden distorsionar seriamente el ajuste de
mnimos cuadrados. En la figura, la observacin A parece ser un outlier o valor
malo ya que cae muy lejos de la lnea de ajuste de los otros datos. Debe
investigarse esta observacin.

24

Anlisis de Regresin

P. Reyes / Enero, 2007

Y
*A
* *
**
*
** *
**

*
*

* * *
**
* *

Fig. 1.4 Localizacin de un outlier (A)


4. Si se encuentra que dos variables estn relacionadas fuertemente, no implica que
la relacin sea causal, se debe investigar la relacin causa efecto entre ellas.
Por ejemplo el nmero de enfermos mentales vs. nmero de licencias recibidas.
Tabla 1.1 Una relacin de datos sin sentido
Ao

Enfermos mentales

Licencias emitidas

1924

1,350

1926

2,270

1928

11

2,730

1930

12

3,647

1932

18

5,497

1934

20

7,012

1936

22

8,131

5. En algunas aplicaciones el valor de la variable regresora X requerida para


predecir a Y es desconocida, por ejemplo al tratar de predecir la carga elctrica el
da de maana en relacin con la mxima temperatura de maana, primero debe
estimarse cul es esa temperatura.

1.4 Regresin a travs del origen

25

Anlisis de Regresin

P. Reyes / Enero, 2007

Algunas situaciones implican que pase la lnea recta a travs del origen y deben
adecuar a los datos. Un modelo de no interseccin frecuentemente se presenta en
los procesos qumicos y otros procesos de manufactura, el modelo queda como:
Y 1 X

Dadas n observaciones (Yi, Xi), i = 1, 2, ., n, la funcin de mnimos cuadrados:


n

S ( 1 ) ( yi 1 xi ) 2
i 1

La ecuacin normal es:


n

i 1

i 1

1 x 2 i yi xi
y el estimador de mnimos cuadrados de la pendiente es:
n

yx
i 1
n

i i

i 1

Y el modelo estimado de regresin es:


y i x

El estimador de la varianza es:

2 MSE

SS E SYY b1S XY

n 1
n 1

i 1

i 1

yi2 1 yi xi
n 1

El intervalo de confianza (1-alfa) porciento para el coeficiente Beta1 es:

1 ta / 2,n1

MSE
n

x
i 1

2
i

donde el error estndar es:

se( 1 )

MSE
n

x
i 1

2
i

El intervalo de confianza 100(1-alfa) porciento para la respuesta media E(y|Xo), la


respuesta media en X = Xo es:

26

Anlisis de Regresin

Y0 ta / 2,n2

P. Reyes / Enero, 2007

x02 MSE
n

x
i 1

2
i

El intervalo de prediccin del 100(1-alfa) porciento para una observacin futura en X


= Xo por ejemplo Yo es:

Y0 ta / 2,n2

2
0

x
MSE 1 n

2
xi
i1

Ambos el intervalo de confianza y el intervalo de prediccin se amplan conforme se


incrementa Xo. El modelo asume que cuando Xo = 0, Y = 0.
Si la hiptesis Ho: 0 = 0 no se rechaza en el modelo con interseccin, es indiccin
de que el modelo se puede mejorar con este modelo. MSE se puede utilizar para
comparar los modelos de interseccin y de no interseccin.
Ejemplo 1.3
El tiempo requerido por un tendero para surtir su negocio de refrescos as como el
nmero de envases colocados se muestra en la siguiente tabla. En este caso si el
nmero de envases X = 0 entonces el tiempo Y = 0.
Tiempo Minutos
Y
10.15
2.96
3
6.88
0.28
5.06
9.14
11.86
11.69
6.04
7.57
1.74
9.38
0.16

Envases
X
25
6
8
17
2
13
23
30
28
14
19
4
24
1

XY
253.75
17.76
24
116.96
0.56
65.78
210.22
355.8
327.32
84.56
143.83
6.96
225.12
0.16

X2
625
36
64
289
4
169
529
900
784
196
361
16
576
1

27

Anlisis de Regresin

P. Reyes / Enero, 2007

1.84

9.2
1841.98

Suma

25
4575

El diagrama de dispersin es el siguiente:


Regression Plot
Y = -0.0937558 + 0.407107 X
S = 0.305139

R-Sq = 99.5 %

R-Sq(adj) = 99.4 %

10

Regression
95% CI
0
0

10

20

30

El coeficiente Beta 1 es:


n

yx
i 1
n

i i

1841.98
0.4026
4575.00

i 1

La ecuacin del modelo estimado sin interseccin es:


Con Minitab:
Stat > Regresin > Regresin
Responde Y Predictors X
Options: Quitar la seleccin de Fit intercept
Results: dejar opciones de Default
OK
Los resultados de Minitab son:

The regression equation is


Y = 0.403 X
Predictor
Coef
SE Coef
Noconstant
X
0.402619
0.004418
S = 0.2988
Analysis of Variance
Source
DF
SS
Regression
1
741.62
Residual Error
14
1.25
Total
15
742.87

91.13

0.000

MS
741.62
0.09

F
8305.23

28

P
0.000

Anlisis de Regresin

P. Reyes / Enero, 2007

y 0.4026

MSE = 0.0893
Ro2 = 0.9883
El estadstico t para la prueba Ho: 1 = 0 es to = 91.13, por tanto el coeficiente es
significativo a un alfa de 0.01.
Utilizando un modelo con interseccin resultando en:
Stat > Regresin > Regresin
Responde Y Predictors X
Options: Poner la seleccin de Fit intercept
Results: dejar opciones de Default
OK
Los resultados de Minitab son los siguientes:
The regression equation is
Y = - 0.094 + 0.407 X
Predictor
Coef
SE Coef
T
P
Constant
-0.0938
0.1436
-0.65
0.525
X
0.407107
0.008221
49.52
0.000
S = 0.3051
R-Sq = 99.5%
R-Sq(adj) = 99.4%
Analysis of Variance
Source
DF
SS
MS
F
Regression
1
228.32
228.32
2452.13
Residual Error
13
1.21
0.09
Total
14
229.53

P
0.000

y 0.0938 0.4026

El estadstico t para la prueba Ho: 0 = 0 es to = -0.65, por tanto el coeficiente no es


significativo a un alfa de 0.01, implicando que el modelo de no interseccin puede
proporcionar una estimacin superior. Aqu MSE = 0.0931 y R2 = 0.9997. Como MSE
es menor que en el modelo anterior, es superior.

29

Anlisis de Regresin

P. Reyes / Enero, 2007

Ejemplo 1.2:
Un motor se fabrica con dos partes. La resistencia al corte entre las dos partes (Y) es
una caracterstica importante de calidad que se sospecha es funcin de la
antigedad del propelente (X). Los datos se muestran a continuacin:
Y
2158.70
1678.15
2316.00
2061.30
2207.50
1708.30
1784.70
2575.00
2357.90
2256.70
2165.20
2399.55
1779.80
2336.75
1765.30
2053.50
2414.40
2200.50
2654.20
1753.70

X
15.50
23.75
8.00
17.00
5.50
19.00
24.00
2.50
7.50
11.00
13.00
3.75
25.00
9.75
22.00
18.00
6.00
12.50
2.00
21.50

El diagrama de dispersin de la resistencia al corte versus el propelente se muestra a


continuacin
Diagrama de dispersin

30

Anlisis de Regresin

P. Reyes / Enero, 2007

2600

2100

1600
0

10

15

20

25

La figura sugiere que hay una relacin estadstica entre la resistencia al corte
y la antigedad del propelente, y el supuesto de relacin lineal parece ser razonable,
para estimar los parmetros del modelo se calcula Sxx y Sxy:
Sumas de cuadrados
Los clculos en Excel son los siguientes:

Y
2158.70
1678.15
2316.00
2061.30
2207.50
1708.30
1784.70
2575.00
2357.90
2256.70
2165.20
2399.55
1779.80
2336.75
1765.30
2053.50
2414.40
2200.50

X
15.50
23.75
8.00
17.00
5.50
19.00
24.00
2.50
7.50
11.00
13.00
3.75
25.00
9.75
22.00
18.00
6.00
12.50

Dif X2
4.57
107.90
28.76
13.23
61.82
31.78
113.16
117.99
34.37
5.58
0.13
92.40
135.43
13.05
74.61
21.51
54.21
0.74

31

Yi(XiDif Y2
Xprom)
747.61
4614.22
205397.04
17431.78
34092.85
-12419.55
4908.05
7497.98
5797.68
-17356.47
178977.65
9630.54
120171.42
18984.75
196818.67
-27970.94
51321.50
-13823.19
15710.74
-5331.45
1145.31
-784.89
71927.22
-23065.67
123592.68
20712.42
42186.08
-8441.51
133998.09
15247.78
6061.79
9523.11
80113.06
-17776.02
4780.69
-1897.93

Anlisis de Regresin

P. Reyes / Enero, 2007

Suma

2654.20
1753.70
42627.15

2.00
21.50
267.25

Media

2131.36

13.36

129.11
66.22
1106.56

273364.28
142625.19
1693737.60

-30158.35
14270.73
-41112.65

__ 2

S xx X i2 n X = 1106.56
i 1

__ 2

S yy Yi 2 n Y = 1693737.60
i 1

__

S xy X iYi n X Y = -41112.65
i 1

Sxx = 1106.56

Syy = 1693737.60 Sxy = -41112.65

Sumas de cuadrados y ecuacin de regresin


n

b1

S xy
S xx

i 1
n

X
i 1

b1

S xy
S xx

__ __

X iYi n X Y
2
i

__ 2

nX

41112 .65
37.15
1106 .56

La constante bo se determina como sigue:


__

__

b0 Y b1 X = 21131.35

y la ecuacin de regresin queda como sigue:


y 2627.82 37.15

Valores ajustados (fits) y residuos


Y
2158.70
1678.15

FITS1

RESI1

2051.94
1745.42

106.758
-67.275

32

Anlisis de Regresin

2316.00
2061.30
2207.50
1708.30
1784.70
2575.00
2357.90
2256.70
2165.20
2399.55
1779.80
2336.75
1765.30
2053.50
2414.40
2200.50
2654.20
1753.70
42627.15

P. Reyes / Enero, 2007

2330.59
1996.21
2423.48
1921.9
1736.14
2534.94
2349.17
2219.13
2144.83
2488.5
1698.98
2265.57
1810.44
1959.06
2404.9
2163.4
2553.52
1829.02

-14.594
65.089
-215.978
-213.604
48.564
40.062
8.73
37.567
20.374
-88.946
80.817
71.175
-45.143
94.442
9.499
37.098
100.685
-75.32

42627.14

0.00

Suma
Propiedades de la regresin
Hay varias propiedades tiles del ajuste de mnimos cuadrados:
1. La suma de los residuos en cualquier modelo de regresin es siempre cero.
n

i 1

i 1

( yi y i ) ei 0
2. La suma de los valores observados Yi es igual a la suma de los valores estimados
Yi est. o sea (ver tabla de datos como ejemplo):
n

i 1

i 1

yi y i
3. La lnea de regresin siempre pasa por el punto ( y, x ) de los datos.
4. La suma de los residuos multiplicados por los valores correspondientes de la
variables regresora siempre es igual a cero.
n

xe
i 1

i i

5. La suma de los residuos multiplicados por los valores correspondientes de la


variables de estimacin Y siempre es igual a cero.

33

Anlisis de Regresin

ye

i i

i 1

P. Reyes / Enero, 2007

A partir de los valores calculados anteriormente:


Sxx = 1106.56

Syy = 1693737.60 Sxy = -41112.65

Ahora se estima la varianza con:


SS E
S b S
YY 1 XY
n2
n2

SS E
1693737.60 (37.15)(42627.15) 2

n2
22 2
166
,
402
.
65
2
9244.59
20

Forma alterna del modelo:


Si la variable regresora Xi se redefine como la desviacin contra su propia media (XiXmedia), el modelo se transforma en:
yi 0 1 ( xi x ) 1 x
yi ( 0 1 x ) 1 ( xi x )
yi '0 1 ( xi x )

' 0 0 1 x

Y los estimadores de mnimos cuadrados son:


0 y
n

y (x
i

i 1
n

(x
i 1

x)

x )2

S xy
S xx

El modelo ajustado queda como:


y y 1 ( x x )

En este caso el origen de los datos Xi se encuentra en su media,

34

Anlisis de Regresin

P. Reyes / Enero, 2007

Pruebas de hiptesis de la pendiente e intercepcin


Probar la hiptesis para b0 no tiene inters prctico.
Ahora para probar la significancia de b1 se tiene:

t0

t0

Si

b1
MSE

para ( / 2, n 2) grados de libertad

S XX

(1.23)

37.15
3.029
166402.65
1106 .56

t 0 t / 2 ,n 2

se rechaza la hiptesis nula, indicando que 1 es significativo y se

tiene regresin lineal.


t / 2 , n 2 =Distr.t(0.025,18) = 2.445

y To se encuentra en la zona de rechazo de Ho por lo que 1 representa una


regresin vlida
Anlisis de varianza
De
SSR b1 S XY =(-37.15)(-41,112.65)=1,527,334.95

SSE SSYY b1 S XY =166,402.65

Para probar la hiptesis Ho: 1=0 se usa el ANOVA con el estadstico Fo como sigue:

Fo

SSR / 1
MSR 1,527,334.95

165.21
SSE /(n 2) MSE
9,244.59

El estadstico F de Excel es:


Falfa,1,n-2 = 4.413863053
Como Fo > Falfa se rechaza Ho y el coeficiente Beta es significativo.

35

Anlisis de Regresin

P. Reyes / Enero, 2007

La tabla ANOVA queda como sigue:


Fuente de
variacin
Reegresin
Residuos
Total

Suma de
Grados de Cuadrado
cuadrados
libertad
medio
Fo
1,527,334.95
1 1,527,334.95
166,402.65
18
9,244.59
1,693,737.60
19

165.21

La incapacidad de mostrar que la pendiente no es estadsticamente significativa o


diferente de cero, no necesariamente significa que Y y X no estn relacionados.
Puede significar que nuestra habilidad para detectar esta relacin ha sido
obscurecida por la varianza del proceso de medicin o que el rango de la variable X
es inapropiado.
Estimacin por intervalo en 0, 1 y
Para el caso del ejemplo, el intervalo de confianza para 1 es:
^

1 t a / 2 , n 2
se( 1 )

MSE
S XX

donde el error estndar es: se( 1 )

MSE
S XX

9244.59
2.89
1106 .56

El intervalo de confianza para el 95% donde se encuentra el valor verdadero del


coeficiente Beta1 es:
^

1 2.101* 2.89
43 22 1 31.08
El intervalo del 95% de porcentaje de confianza de la
varianza es:
( n 2) MSE
( n 2) MSE
2
2
/ 2 ,n 2
12 / 2,n 2
18(9244.59)
18(9244.59)
2
31.5
8.23
5282.62 2 210219.03

36

Anlisis de Regresin

P. Reyes / Enero, 2007

Intervalo de estimacin para la respuesta media


De la frmula:
^

Y0 ta / 2,n2

1 ( x0 x )2

MSE
n S xx

1 ( x0 13.3625)2

Y0 (2.101) 9244.59
20
1106
.
56

En Xo = 13.3625 se tiene:
2086.23 E ( y 13.3625) 2176.571
Para otros casos auxilindose de Minitab se tiene:

Regression Plot
Y = 2627.82 - 37.1536 X
S = 96.1061

R-Sq = 90.2 %

R-Sq(adj) = 89.6 %

2600

2100

Regression
95% CI
1600
0

10

15

20

25

X
El intervalo de confianza para la respuesta media Yo de varios valores Xo es:
Intervalo de confianza para Yo respuesta media
Xo
CLIM1
CLIM2
3
2438.94
2593.79
6
2341.38
2468.43

37

Anlisis de Regresin

9
12
13.3625
15
18
21
24

P. Reyes / Enero, 2007

2241.1
2136.08
2086.21
2024.29
1905.85
1782.89
1657.35

2345.78
2227.88
2176.51
2116.75
2012.26
1912.31
1814.92

Prediccin de nuevas observaciones:


Una

aplicacin

importante

del

modelo

de

regresin

es

predecir

nuevas

observaciones Y correspondientes a un nivel de la variable regresora X, si Xo es el


valor de la variable de Inters se tiene:
Y0 t / 2,n 2

__
__

2
(
X

X
)
(
X

X
)2
1
1
0
0

MSE 1
Y0 Y0 t / 2,n 2 MSE 1

n
S XX

n
S XX

Para el ejemplo, un intervalo de prediccin del 95% para un valor futuro de la


resistencia al corte Y con un propelente de 10 semanas de antigedad es:

1
(10 13.3625) 2
2256.32 (2.101) 9244.59 1

Y0
20
1106 .56

1
(10 13.3625) 2
2256.32 ( 2.101) 9244.59 1

20
1106 .56

que se simplifica a:
2048.32 y0 2464.32

Por tanto un motor nuevo hecho con un propelente de 10 semanas de antigedad


tendr una resistencia al corte de entre 2048.32 a 2464.32 psi.
Inferencia simultanea para los parmetros del modelo
La regin del 95% de confianza para 0 y 1, si 0est=2627.82 y 1est=-37.15, suma
Xi2=4677.69, MSE=9244.59 y F0.05,2,18=3.55 se tiene de la frmula:

38

Anlisis de Regresin

P. Reyes / Enero, 2007

n( 0 0 ) 2 2 xi ( 0 0 )( 1 1 ) x 2 i ( 1 1 )
i 1

i 1

2 MSE

F , 2,n2

20(2627.82 0 ) 2 2(267.25)(2627.82 0 )(37.15 1 ) ( 4677.69)( 37.15 1 ) 2


3.55
2(9244.59)

Es el lmite de la elipse.
Beta 0

Beta 1

Estimacin simultanea de la respuesta media


Para el caso de la estimacin simultnea de la respuesta media se tiene:

1 (xi x )2

E(Y X i ) YXi MSE


n S xx
^

Determinado el intervalo por el mtodo de Scheff se tiene:


E (Y X i 10) 2256.282 68.633
E (Y X i 18) 1959.050 69.236

Determinando el intervalo por el mtodo de Bonferroni se tiene:


( 2 F , 2,n2 )1/ 2 ( 2 F0.10, 2,18 )1/ 2 (6.02)1 / 2 2.454

Seleccionando el mtodo de mximo modulo t, los intervalos de confianza al 90% de


la respuesta media son:

39

Anlisis de Regresin

P. Reyes / Enero, 2007

i
1
2

Xi
10
18

E(Y|Xi)=Yest en xi = 2627.82-37.15Xi
2256.282
1959.020

E (Y X 1 10) 2256.282 ( 2.082)68.633


2087.857 E (Y X 1 10) 2424.707
E (Y X 2 18) 1959.050 ( 2.082)69.236
1789.145 E (Y X 2 18) 2129.955

Prediccin de nuevas observaciones


Sea Xi = 10 y 18, los estimadores puntuales de estas observaciones futuras son Yest
x1 = 2256.282 psi y Yest x2 = 1959.050 psi, respectivamente. Para la regresin lineal
simple y m = 2 se tiene:
^

1 ( x x )2

y xi YXi MSE 1 i
n
S xx

2256.282 118 .097 y x1 2256.282 118 .097


1959.050 118 .097 y x2 1959.050 118 .097

Seleccionando el valor de =2.082 de Bonferroni se tiene:


1966.472 y x1 2546.092
1668.376 y x2 2249.724

Coeficiente de determinacin
Con los datos del ejemplo para la suma de cuadrados de la regresin y la suma de
cuadrados total se tiene:
R 2

SSR 1,527.334.95

0.9018
Syy 1,693,737.60

40

Anlisis de Regresin

P. Reyes / Enero, 2007

2.0 ADECUACIN DEL MODELO DE REGRESIN LINEAL


2.1 Introduccin
Los principales supuestos que se hacen en el anlisis de regresin lineal son los
siguientes:
1. La relacin entre las variables Y y X es lineal, o al menos bien aproximada por
una lnea recta.
2. El trmino de error tiene media cero.
3. El trmino de error tiene varianza constante 2.
4. Los errores no estn correlacionados.
5. Los errores estn normalmente distribuidos.
Los supuestos 4 y 5 implican que los errores son variables aleatorias independientes
y el supuesto 5 se requiere para pruebas de hiptesis y estimacin de parmetros.
Se analizarn varios mtodos para diagnosticar y tratar violaciones sobre los
supuestos bsicos de la regresin no slo lineal sino tambin la mltiple.

2.2 Anlisis de los residuos


2.2.1 Definicin de los residuos
Los residuos estn definidos como las n diferencias,
^

ei Yi Y i, i 1,2,3..., n

(2.1)

donde Yi son las observaciones reales y Y-gorro los valores estimados con la recta
de regresin.

41

Anlisis de Regresin

P. Reyes / Enero, 2007

Como los residuos son las diferencias entre las observaciones reales y las predichas
o estimadas, son una medida de la variabilidad no explicada por el modelo de
regresin, e el valor observado de los errores. As, cualquier desviacin anormal de
los supuestos acerca de los errores, ser mostrada por los residuos. Su anlisis es
un mtodo efectivo para descubrir varios tipos de deficiencias del modelo.
Los residuos tienen varias propiedades importantes. Su media es cero y su varianza
aproximada es:
__ 2

(e
i 1

e)

n2

e
i 1

2
i

n2

(2.2)

SS E
MS E
n2

En algunos casos es mejor trabajar con residuos estandarizados, que tienen media
cero y varianza unitaria aproximada.

di

ei
,....1 1,2,....., n
MS E

(2.3)

Para el caso de n pequea, donde se pueden tener diferencias apreciables en las


varianzas de los residuos, un mtodo ms apropiado de escalamiento es el de los
residuos estudentizados , donde se toma en cuenta la varianza de cada uno en lugar
de un promedio de las varianzas como en los residuos estandarizados. Para n
grande, ambos residuos son muy parecidos.
Los residuos estudentizados se definen como:

ri

ei

1 ( X i X )2

MSE 1
S XX
n

,
i = 1, 2, ........, n

42

(2.4)

Anlisis de Regresin

P. Reyes / Enero, 2007

Por lo anterior los residuos representan los errores observados si el modelo es


correcto.
Los residuos pueden ser graficados para:
1. Checar normalidad.
2. Checar el efecto del tiempo si su orden es conocido en los datos.
3. Checar la constancia de la varianza y la posible necesidad de transformar los
datos en Y.
4. Checar la curvatura de ms alto orden que ajusta en las Xs.
A continuacin con Minitab se calculan los residuos con los
datos del ejemplo 1.1 y a partir de la recta de ajuste.
Observacines
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

Respuesta
Yi

35.3
29.7
30.8
58.8
61.4
71.3
74.4
76.7
70.7
57.5
46.4
28.9
28.1
39.1
46.8
48.5
59.3
70
70
74.5
72.1
58.1
44.6
33.4
28.6

10.98
11.13
12.51
8.4
9.27
8.73
6.36
8.5
7.82
9.14
8.24
12.19
11.88
9.57
10.94
9.58
10.09
8.11
6.83
8.88
7.68
8.47
8.86
10.36
11.08

Fit
10.805
11.252
11.164
8.929
8.722
7.931
7.684
7.5
7.979
9.033
9.919
11.316
11.38
10.502
9.887
9.751
8.889
8.035
8.035
7.676
7.867
8.985
10.063
10.957
11.34

43

SE Fit
0.255
0.3
0.29
0.19
0.201
0.265
0.29
0.31
0.261
0.185
0.19
0.306
0.313
0.228
0.188
0.183
0.191
0.255
0.255
0.291
0.272
0.187
0.197
0.269
0.309

Residual
0.175
-0.122
1.346
-0.529
0.548
0.799
-1.324
1
-0.159
0.107
-1.679
0.874
0.5
-0.932
1.053
-0.171
1.201
0.075
-1.205
1.204
-0.187
-0.515
-1.203
-0.597
-0.26

St Residual
0.21
-0.15
1.6
-0.61
0.63
0.94
-1.57
1.2
-0.19
0.12
-1.93
1.05
0.6
-1.08
1.21
-0.2
1.38
0.09
-1.41
1.43
-0.22
-0.59
-1.39
-0.7
-0.31

Anlisis de Regresin

P. Reyes / Enero, 2007

2.2.2 Grfica de probabilidad normal

Se utiliza la grfica de probabilidad normal para identificar si algunos residuos


sesgan la respuesta de la normal. Normalmente se requieren 20 puntos para checar
normalidad.
Normplot of Residuals for C1

44

Anlisis de Regresin

P. Reyes / Enero, 2007

Residuals vs Fits for C1

Se sugiere utilizar los residuos estandarizados, ya que son tiles para evaluar
normalidad, es decir que habr normalidad si el 68% de los mismos se encuentran
entre 1 y +1 y el 95% entre 2 y +2, de otra forma habr una violacin de la
normalidad.

La grfica de residuos contra los valores estimados

y i puede

identificar patrones

anormales o no lineales, indicando que tal vez se requiera agregar otra variable
regresora al modelo, o se requiera transformar las variables regresora o de
respuesta. Tambin puede revelar outliers potenciales, si ocurren en los extremos,
indican que la varianza no es constante o que no hay relacin lineal entre variables.
Para el caso del ejemplo 1.2 con los datos X y Y se tienen los residuos
estandarizados y estudentizados son:
Y
2158.70
1678.15
2316.00
2061.30
2207.50
1708.30
1784.70
2575.00
2357.90
2256.70
2165.20
2399.55
1779.80
2336.75
1765.30
2053.50
2414.40
2200.50
2654.20
1753.70

X
15.50
23.75
8.00
17.00
5.50
19.00
24.00
2.50
7.50
11.00
13.00
3.75
25.00
9.75
22.00
18.00
6.00
12.50
2.00
21.50

Utilizando Minitab se tiene:

45

Anlisis de Regresin

P. Reyes / Enero, 2007

Regression Analysis: Y versus X


The regression equation is
Y = 2628 - 37.2 X
Predictor
Coef SE Coef
Constant
2627.82
44.18
X
-37.154
2.889
S = 96.1061
R-Sq = 90.2%
Analysis of Variance
Source
DF
SS
Regression
1 1527483
Residual Error 18
166255
Total
19 1693738

T
P
59.47 0.000
-12.86 0.000
R-Sq(adj) = 89.6%
MS
1527483
9236

F
165.38

P
0.000

No replicates.
Cannot do pure error test.
Unusual Observations
Obs
X
Y
Fit
5
5.5 2207.5 2423.5
6 19.0 1708.3 1921.9

SE Fit
31.3
27.0

Residual
-216.0
-213.6

St Resid
-2.38R
-2.32R

La tabla de valores estimados Fits, Residuos, Residuos estandarizados, Residuos


estudentizados borrados y Residuos estudentizados simples se muestra a
continuacin:

Observacin
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

2158.70
1678.15
2316.00
2061.30
2207.50
1708.30
1784.70
2575.00
2357.90
2256.70
2165.20
2399.55
1779.80
2336.75
1765.30
2053.50
2414.40
2200.50
2654.20
1753.70

15.50
23.75
8.00
17.00
5.50
19.00
24.00
2.50
7.50
11.00
13.00
3.75
25.00
9.75
22.00
18.00
6.00
12.50
2.00
21.50

FITS1
2051.94
1745.42
2330.59
1996.21
2423.48
1921.9
1736.14
2534.94
2349.17
2219.13
2144.83
2488.5
1698.98
2265.57
1810.44
1959.06
2404.9
2163.4
2553.52
1829.02

46

RESI1
106.7580
-67.2750
-14.5940
65.0890
-215.9780
-213.6040
48.5640
40.0620
8.7300
37.5670
20.3740
-88.9460
80.8170
71.1750
-45.1430
94.4420
9.4990
37.0980
100.6850
-75.3200

SRES1
1.1422
-0.7582
-0.1580
0.6993
-2.3766
-2.3156
0.5488
0.4539
0.0948
0.4021
0.2175
-0.9943
0.9244
0.7646
-0.5000
1.0187
0.1041
0.3962
1.1476
-0.8307

TRES1
1.1526
-0.7488
-0.1536
0.6890
-2.7882
-2.6856
0.5379
0.4437
0.0921
0.3926
0.2117
-0.9939
0.9204
0.7554
-0.4893
1.0198
0.1012
0.3867
1.1585
-0.8232

Ri
1.1422
-0.7582
-0.1580
0.6993
-2.3767
-2.3156
0.5488
0.4539
0.0948
0.4021
0.2175
-0.9943
0.9244
0.7646
-0.5000
1.0187
0.1041
0.3962
1.1477
-0.8307

Anlisis de Regresin

P. Reyes / Enero, 2007

Para el clculo de los residuos estudentizados se utiliz la tabla siguiente:


MSE =
Raiz MSE

9236
96.10411021
(XiXmedia)^2

2158.70
1678.15
2316.00
2061.30
2207.50
1708.30
1784.70
2575.00
2357.90
2256.70
2165.20
2399.55
1779.80
2336.75
1765.30
2053.50
2414.40
2200.50
2654.20
1753.70

15.50
23.75
8.00
17.00
5.50
19.00
24.00
2.50
7.50
11.00
13.00
3.75
25.00
9.75
22.00
18.00
6.00
12.50
2.00
21.50

FITS1
2051.94
1745.42
2330.59
1996.21
2423.48
1921.9
1736.14
2534.94
2349.17
2219.13
2144.83
2488.5
1698.98
2265.57
1810.44
1959.06
2404.9
2163.4
2553.52
1829.02

RESI1
106.7580
-67.2750
-14.5940
65.0890
-215.9780
-213.6040
48.5640
40.0620
8.7300
37.5670
20.3740
-88.9460
80.8170
71.1750
-45.1430
94.4420
9.4990
37.0980
100.6850
-75.3200

ResEstan1
1.11086
-0.70002
-0.15186
0.67728
-2.24733
-2.22263
0.50533
0.41686
0.09084
0.39090
0.21200
-0.92552
0.84093
0.74060
-0.46973
0.98271
0.09884
0.38602
1.04767
-0.78373

Sxx
4.56891
107.90016
28.75641
13.23141
61.81891
31.78141
113.15641
117.99391
34.36891
5.58141
0.13141
92.40016
135.43141
13.05016
74.60641
21.50641
54.20641
0.74391
129.10641
66.21891

Las grficas de los residuos normales son las siguientes:

Residual Plots for Y


Normal Probability Plot of the Residuals

Residuals Versus the Fitted Values

99

100
Residual

Percent

90
50

0
-100

10
1

-200
-200

-100

0
Residual

100

200

1800

Histogram of the Residuals

2400

2600

Residuals Versus the Order of the Data

6.0

100

4.5

Residual

Frequency

2000
2200
Fitted Value

3.0

0
-100

1.5
0.0

-200
-200 -150 -100 -50
0
Residual

50

100

6
8 10 12 14 16
Observation Order

Tomado los residuos estandarizados vs fits se tiene:


47

18

20

1/20 +
(XiXmedia)^2/Sxx
0.05413
0.14751
0.07599
0.06196
0.10587
0.07872
0.15226
0.15663
0.08106
0.05504
0.05012
0.13350
0.17239
0.06179
0.11742
0.06944
0.09899
0.05067
0.16667
0.10984

Ri
1.14220
-0.75817
-0.15798
0.69929
-2.37666
-2.31564
0.54883
0.45392
0.09476
0.40212
0.21752
-0.99426
0.92437
0.76460
-0.50000
1.01871
0.10413
0.39619
1.14767
-0.83068

Anlisis de Regresin

P. Reyes / Enero, 2007

Normal Probability Plot of the Residuals


(response is Y)
99

95
90

Percent

80
70
60
50
40
30
20
10
5

-3

-2

-1
0
1
Standardized Residual

Residuals Versus the Fitted Values


(response is Y)

Standardized Residual

1.0
0.5
0.0
-0.5
-1.0
-1.5
-2.0
-2.5
1700

1800

1900

2000

2100
2200
Fitted Value

2300

2400

2500

Y para los residuos estudentizados se tiene:

48

2600

Anlisis de Regresin

P. Reyes / Enero, 2007

Residuals Versus the Fitted Values


(response is Y)

Deleted Residual

-1

-2

-3
1700

1800

1900

2000

2100
2200
Fitted Value

2300

2400

2500

2600

Como se puede observar los puntos 5 y 6 exceden el lmite de dos sigmas.


2.2.3 Grfica de residuos vs Yestimada
La grfica de residuos normales, estandarizados o estudentizados vs los valores
estimados de Y es til para identificar no adecuaciones del modelo.

Patrones de variacin de los residuos


a) Aleatorio; b) Cono (aumenta la varianza); c) Rombo; d) No lineal
49

Anlisis de Regresin

P. Reyes / Enero, 2007

2.2.4 Grfica de residuos vs Xi


Los patrones generados a veces son similares a los de la figura anterior, por ejemplo
para el caso del ejemplo 1.2, se tiene:
En Minitab (Graphs seleccionar Residual vs Fits y Residuals vs Variables X)

Residuals Versus X
(response is Y)

Standardized Residual

1.0
0.5
0.0
-0.5
-1.0
-1.5
-2.0
-2.5
0

10

15

20

25

En este caso los residuos para los puntos 5 y 6 exceden de dos sigmas sin embargo
no muestran indicios de violacin del modelo.
2.2.5 Otras grficas de residuos
Se pueden obtener grficas de los residuales vs el tiempo de ocurrencia u orden:
Residuals Versus the Order of the Data
(response is Y)

Standardized Residual

1.0
0.5
0.0
-0.5
-1.0
-1.5
-2.0
-2.5
2

8
10
12
Observation Order

14

16

18

20

En este caso se puede identificar si existe autocorrelacin positiva o negativa de los


residuos como sigue:

50

Anlisis de Regresin

P. Reyes / Enero, 2007

Residuos vs tiempo: Autocorrelacin positiva

Autocorrelacin negativa

2.2.6 Pruebas estadsticas en los residuos


Las pruebas estadsticas en los residuos son menos prcticas que la observacin de
su comportamiento donde se obtiene ms informacin.
2.3 DETECCIN Y TRATAMIENTO DE OUTLIERS
Un Outilier es una observacin extrema, donde el residuo es considerablemente
grande, por decir con tres o cuatro desviaciones estndar de la media. Estos puntos
no son puntos tpicos de los datos y pueden ocasionar defectos severos en el modelo
de regresin. Las grficas de Y estimada vs residuos ya sea estandarizados o
estudentizados permiten identificar Outliers (puntos aberrantes).
Los outliers deben ser investigados para ver si se puede hallar la razn de su
comportamiento anormal (medicin incorrecta, equipo daado, error de anotacin). Si
se encuentra que se debe a un error se debe descartar de los datos. En otros casos
donde se encuentra una razn se debe mantener en la estimacin del modelo.
En general se espera que la ecuacin de regresin encontrada sea insensible a
algunos puntos particulares, para que sea un modelo robusto. Puede no ser
aceptable que un pequeo porcentaje de los datos tenga un efecto significativo en el
modelo.

51

Anlisis de Regresin

P. Reyes / Enero, 2007

Con los datos del ejemplo 1.2 si omitimos los puntos 5 y 6 que indican Outliers y
compramos nuevo modelo con el modelo anterior se tiene:
Con el modelo original:
The regression equation is
Y = 2628 - 37.2 X
Predictor
Constant
X
S = 96.1061

Coef
2627.82
-37.154

SE Coef
44.18
2.889

R-Sq = 90.2%

T
59.47
-12.86

P
0.000
0.000

R-Sq(adj) = 89.6%

Y con el modelo donde se excluyen los puntos 5 y 6 se tiene:


The regression equation is
Y_1 = 2659 - 37.7 X_1
Predictor
Constant
X_1
S = 62.9653

Coef
2658.97
-37.694

SE Coef
30.53
1.979

R-Sq = 95.8%

T
87.08
-19.05

P
0.000
0.000

R-Sq(adj) = 95.5%

Normal Probability Plot of the Residuals


(response is Y_1)
99

95
90

Percent

80
70
60
50
40
30
20
10
5

-3

-2

-1
0
1
Standardized Residual

52

Anlisis de Regresin

P. Reyes / Enero, 2007

Residuals Versus the Fitted Values


(response is Y_1)
1.5

Standardized Residual

1.0
0.5
0.0
-0.5
-1.0
-1.5
-2.0
1600

1800

2000
2200
Fitted Value

2400

2600

Casi no hubo efecto en la estimacin de los coeficientes de la regresin. La MSE se


redujo mucho, se increment R^2 en 5% y se redujo en 30% el error estndar de 1.
En General a pesar de que los puntos 5 y 6 no afectan la estimacin y aplicacin del
modelo, y el quitarlos mejorara el error de estimacin aunque no hay una razn de
peso.

2.4 PRUEBA DE FALTA DE AJUSTE


Falta de ajuste y el error puro
Se asume que se cumplen los requerimientos de normalidad, independencia y
varianza constante y que slo se tiene en duda si la relacin entre las variables es de
primer orden o sea una lnea recta.
Para el clculo del error puro se requiere hacer rplicas verdaderas, por ejemplo
medir el coeficiente de inteligencia de dos personas con la misma estatura en vez de
hacer dos mediciones repetidas de la misma persona, o realizar dos experimentos en
diferente tiempo con la misma X y registrando el valor de la respuesta.
Suponiendo que se tienen m valores diferentes de Xj, con j=1,2....m, por tanto:

53

Anlisis de Regresin

P. Reyes / Enero, 2007

Y11, Y12,.....,Y1n1 son n1 observaciones repetidas en X1;


Y21, Y22,......,Y2n2 son n2 observaciones repetidas en X2;
...........
Yju es la observacin u-sima (u=1,2,....,nj) en Xj;
Ym1, Ym2,.....,Ymn1 son n observaciones repetidas en Xm.
La suma de cuadrados del error puro de las n 1 observaciones en X1 es la suma de
cuadrados interna de la Y1u con respecto a su media Y1, o sea:

1
(Y1u Y ) Y

n1
u 1
u 1
n1

__

n1

2
1u

n1

1u

i 1

(2.5)

Reuniendo las sumas internas de cuadrados de todos los lugares donde se tomaron
rplicas se tiene el error puro total SS como:
m

SS .error . puro
j 1

n1

(Y
u 1

__

ju

Y j )2

(2.6)

Con grados de libertad:


m

ne n j m

(2.7)

j 1

Para el caso de nj = 2 se tiene:


2

__

(Y ju Y j ) 2
u 1

1
(Y j1 Y j 2 ) 2
2

(2.8)

El cuadrado medio del error puro es:

54

Anlisis de Regresin

P. Reyes / Enero, 2007

s e2 SS .error . puro / n e

(2.9)

De esta forma la suma de cuadrados del error residual se divide en suma de


cuadrados de falta de ajuste y error puro.
SS E ( residual ) SS PE ( error . puro ) SS LOF ( falta.de.ajsute)

(2.10)

El residuo (ij-simo) es:

__

__

Yij Y i (Yij Y i ) (Yi Yi )

(2.11)

__

Donde Y i es el promedio de las ni observaciones en Xi.


La suma de cuadrados del error puro es:

ni

__

SS PE (Yij Y i ) 2
i 1 j 1

(2.12)

La suma de cuadrados de la falta de ajuste:


m

__

SS LOF ni (Y i Y i ) 2

(2.13)

i 1

El estadstico Fo para la falta de ajuste es:

55

Anlisis de Regresin

P. Reyes / Enero, 2007

SS LOF /(m 2) MS LOF

SS PE / n m)
MS PE

(2.14)

El valor esperado de MS PE 2

(2.15)

F0

Ejemplo 2.4.1: Tomando un nuevo grupo de datos en los cuales


hay algunas rplicas por ejemplo se tomaron 2 valores para X =
1.3, 2.0, 3.3, 3.7, 4.7 y 6.0 y se tomaron 3 valores para

=4,5.3. La tabla de datos completa se muestra a continuacin:


Hora
12
23
7
8
17
22
1
11
19
20
5
2
21
15
18
3
6
10
4
9
13
14
16

Y
2.3
1.8
2.8
1.5
2.2
3.8
1.8
3.7
1.7
2.8
2.8
2.2
3.2
1.9
1.8
3.5
2.8
2.1
3.4
3.2
3
3
5.9

X
1.3
1.3
2
2
2.7
3.3
3.3
3.7
3.7
4
4
4
4.7
4.7
5
5.3
5.3
5.3
5.7
6
6
6.3
6.7

La recta de ajuste estimada con Minitab es la siguiente:


Regression Analysis: Y versus X (Pure Error)
The regression equation is
Y = 1.43 + 0.316 X
Predictor
Constant
X

Coef
1.4256
0.3158

SE Coef
0.5127
0.1149

T
2.78
2.75

56

P
0.011
0.012

Anlisis de Regresin

P. Reyes / Enero, 2007

De la frmulas anteriores se tiene:


Para X = 1.3 de la ecuacin 2.8 se tiene:
SSError.puro = (1/2)(2.3-1.8)2 = 0.125 con 1 grado de
libertad, de la misma forma se procede para los dems,
obtenindose:
Para el caso de n1>2 se aplica la frmula normal (2.5), para el
caso de X = 4.0 se tiene:
SSError.puro=(2.8)2+(2.8)2+(2.2)2 (2.8+2.8+2.2)2/3 =0.24
Lo mismo se aplica al X = 5.3.
Por tanto la tabla de datos queda como sigue:
Nivel de X
1.3
1.4
3.3
3.7
4.7
6.0
4.0
5.3

Sserror.puro
0.125
0.845
2.00
2.000
0.845
0.020
0.240
0.980

gl
1
1
1
1
1
1
2
2
57

Anlisis de Regresin

Totales

P. Reyes / Enero, 2007

7.055

10

La suma de cuadrados del error por falta de ajuste se obtiene


restando de la suma de cuadrados del error residual, la suma de
cuadrados del error puro. Ahora se calcula F contra el error
puro medio cuadrtico.
De esta forma se obtiene la tabla de ANOVA siguiente,
utilizando Minitab:
Analysis of Variance
Source
Regression
Residual Error
Lack of Fit
Pure Error
Total correected

DF
1
21
11
10
22

SS
5.4992
15.2782
8.2232
7.0550
20.7774

MS
5.4992
0.7275
0.7476
0.7055

F
7.56

P
0.012 sign. at 0.05%

1.06

0.468 not significant

5 rows with no replicates

En resumen, los pasos a tomar cuando se tienen observaciones replicadas son los
siguientes:
1. Obtener la recta de ajuste del modelo, con ANOVA incluyendo valores para la
regresin y el error residual. Todava no hacer la prueba F.
2. Determinar la suma de cuadrados del error puro y dividir la suma de cuadrados
del error residual en suma de cuadrados de falta de ajuste y de error puro.
3. Realizar la prueba F para la falta de ajuste. Si no es significativo, no hay razn
para dudar de la adecuacin del modelo, ir a paso 4. De otra forma parar el
modelo y buscar otras formas de mejorar el modelo en base a la observacin del
comportamiento de los residuos.
4. Examinar los residuos para identificar si no se violan algunas reglas, si todo est
bien, usar el cuadrado medio del error residual S 2 como un estimado de V(Y) =
2, realizar la prueba F para toda la regresin, obtener bandas de confianza para
la media, evaluar R2, etc.

58

Anlisis de Regresin

P. Reyes / Enero, 2007

Con Minitab se obtuvo


S = 0.8530

R-Sq = 26.5%

R-Sq(adj) = 23.0%

Para reducir los errores en el ajuste debidos a las rplicas se


obtiene un Mximo de R2 como sigue:

MaxR 2

SST .corregido SSError . puro


SST .corregido

(2.16)

o sea:

MaxR 2

20.777 7.055
0.6604
20.777

De esta forma ya tiene un poco ms de sentido el ajuste.


Los datos de los residuos calculados con Minitab se muestran a
continuacin:
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22

X
1.3
1.3
2
2
2.7
3.3
3.3
3.7
3.7
4
4
4
4.7
4.7
5
5.3
5.3
5.3
5.7
6
6
6.3

Y
2.3
1.8
2.8
1.5
2.2
3.8
1.8
3.7
1.7
2.8
2.8
2.2
3.2
1.9
1.8
3.5
2.8
2.1
3.4
3.2
3
3

Fit
1.836
1.836
2.057
2.057
2.278
2.468
2.468
2.594
2.594
2.689
2.689
2.689
2.91
2.91
3.005
3.099
3.099
3.099
3.226
3.32
3.32
3.415

SE Fit
0.376
0.376
0.308
0.308
0.247
0.205
0.205
0.186
0.186
0.179
0.179
0.179
0.187
0.187
0.201
0.219
0.219
0.219
0.249
0.274
0.274
0.301

59

Residual
0.464
-0.036
0.743
-0.557
-0.078
1.332
-0.668
1.106
-0.894
0.111
0.111
-0.489
0.29
-1.01
-1.205
0.401
-0.299
-0.999
0.174
-0.12
-0.32
-0.415

St Resid
0.61
-0.05
0.93
-0.7
-0.1
1.61
-0.81
1.33
-1.07
0.13
0.13
-0.59
0.35
-1.21
-1.45
0.49
-0.36
-1.21
0.21
-0.15
-0.4
-0.52

Anlisis de Regresin

23

6.7

P. Reyes / Enero, 2007

5.9

3.541

0.339

2.359

R denotes an observation with a large standardized residual


Ver grficas en pginas siguientes anexas.

Residuals vs. the fitted values for Y

60

3.01R

Anlisis de Regresin

P. Reyes / Enero, 2007

Ejemplo 2.4.2 Se presenta otro ejemplo corrido en Minitab


(Montgomery, p. 88)con Y = Viscocidad, X = temperatura:
Welcome to Minitab, press F1 for help.
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

X
1
1
2
3.3
3.3
4
4
4
4.7
5
5.6
5.6
5.6
6
6
6.5
6.9

Y
10.84
9.3
16.35
22.88
24.35
24.56
25.86
29.16
24.59
22.25
25.9
27.2
25.61
25.45
26.56
21.03
21.46

Fit
15.344
15.344
17.475
20.244
20.244
21.735
21.735
21.735
23.227
23.866
25.144
25.144
25.144
25.996
25.996
27.061
27.914

SE Fit
2.151
2.151
1.67
1.164
1.164
1.014
1.014
1.014
1.007
1.05
1.206
1.206
1.206
1.347
1.347
1.552
1.732

Residual
-4.504
-6.044
-1.125
2.636
4.106
2.825
4.125
7.425
1.363
-1.616
0.756
2.056
0.466
-0.546
0.564
-6.031
-6.454

St Resid
-1.3
-1.74
-0.3
0.67
1.05
0.71
1.04
1.88
0.34
-0.41
0.19
0.53
0.12
-0.14
0.15
-1.6
-1.75

Note que se tienen varias rplicas en X = 1.0, 3.3, 4.0, 5.6 y


6.
EL error puro se calcul como sigue:
Nivel de X

(Y
j

ij

__

Grados de libertad

Y i )2

________________________________________________.
1.0
1.1858
1
3.3
1.0805
1
4.0
11.2467
2
5.6
1.4341
2
6.0
0.6161
1
.
Total
15.5632
7
El error de falta de ajuste se calcul con la frmula:
SS LOF SS E SS PE

SS LOF 252.9039 15.5632 237.3407

61

Anlisis de Regresin

P. Reyes / Enero, 2007

Regression Analysis: Y versus X


The regression equation is
Y = 13.2 + 2.13 X
Predictor
Constant
X
S = 4.084
A sus

Coef
13.214
2.1304

SE Coef
2.665
0.5645

R-Sq = 48.7%

T
4.96
3.77

P
0.000
0.002

R-Sq(adj) = 45.3%

los cambios Analysis of Variance

Source
Regression
Residual Error
Lack of Fit
Pure Error
Total

DF
1
15
8
7
16

SS
237.48
250.13
234.57
15.56
487.61

MS
237.48
16.68
29.32
2.22

F
14.24

P
0.002

13.19

0.001 Significativa

5 rows with no replicates

CONCLUSIN: Como F0 = 13.19 es mayor que F.25,

8,7

= 1.70, se

rechaza la hiptesis que el modelo encontrado describe los


datos adecuadamente.
La pueba de DURBIN-WATSON
La prueba checa si los residuos tienen una dependencia secuencial en la cual cada
uno de los errores (residuos) est correlacionado con los anteriores y los posteriores.
La prueba se enfoca a las diferencias entre residuos sucesivos como sigue, usando
el estadstico de Durbin - Watson:

d (eu eu 1 ) / eu
u2

(2.17)

u 2

Donde:
1. 0 d 4
2.- Si los residuos sucesivos estn correlacionados positivamente en serie, d ser
casi 0.
62

Anlisis de Regresin

P. Reyes / Enero, 2007

2. SI los residuos sucesivos estn correlacionados negativamente, d ser cercano a


4, de tal forma que 4-d ser casi 0.
3. La distribucin de d es simtrica alrededor de 2.
La prueba se realiza como sigue: comparar d o 4-d, la que est ms cercano a cero
con dL y dU en la tabla mostrada abajo, si d<dL se concluye que existe una correlacin
positiva probable; si d>dU se concluye que no hay correlacin (se aplica el mismo
criterio para 4-d). Si d o 4-d se encuentran entre dL y dU, la prueba es inconclusa. Si
se identifica algn tipo de correlacin, el modelo debe ser reexaminado.
Puntos de significancia de dL y dU para una lnea recta de ajuste.
1%

2.5%

5%

dL

dU

dL

dU

dL

15
20
25
30
40
50
70
100
150
200

0.81
0.95
1.05
1.13
1.25
1.32
1.43
1.56
1.61
1.66

1.07
1.15
1.21
1.26
1.34
1.40
1.49
1.56
1.64
1.68

0.95
1.08
1.18
1.25
1.35
1.42
1.51
1.59

1.23
1.28
1.34
1.38
1.45
1.50
1.57
1.63

1.08
1.20
1.29
1.35
1.44
1.50
1.58
1.65
1.72
1.76

dU
1.36
1.41
1.45
1.49
1.54
1.59
1.64
1.69
1.75
1.78

Outliers
Un outlier entre los residuos es aquel que es mucho ms grande que el resto en valor
absoluto, encontrndose a 3, 4 o ms desviaciones estndar de la media de los
residuos. El outlier indica un punto que no es comn al resto de los datos y debe ser
examinado con cuidado. Algunas veces proporciona informacin vital sobre el
proceso.

63

Anlisis de Regresin

P. Reyes / Enero, 2007

2.5 TRANSFORMACIONES A UNA LINEA RECTA


A veces se detecta no linealidades a travs de la prueba de falta de ajuste descrita
en la seccin anterior o de diagramas de dispersin y grficas de los residuos. En
algunos casos los datos se pueden transformar para que representen una relacin
ms lineal.
Varias funciones linealizables se encuentran en la pgina siguiente (fig. 2.13 ) 3 y sus
correspondientes funciones no lineales, transformaciones y formas lineales
resultantes se muestran en la tabla 2.1. Dependiendo de la curvatura del
comportamiento de la relacin entre las variables X y Y, se puede localizar una
grfica parecida en la figura 3.13 y usar su transformacin.
Tabla
2.1
Funciones
correspondiente.
Figura 2.13

Funcin

linealizables
Transformacin

su

forma

Forma lineal

a,b

Y 0 X 1

Y ' log Y , X ' log X

c,d

Y 0 e 1 X

Y ' log Y

Y ' ln 0 1 X

e,f

Y 0 1 log X

X ' log X

Y ' 0 1 X '

g,h

X
0 X 1

Y '

1
1
, X '
Y
X

lineal

Y ' log 0 1 X '

Y ' 0 1 X '

Por ejemplo la funcin:

Y 0 e 1 X

(2.19)

Puede ser transformada de acuerdo a la tabla 2.1 en:


ln Y ln 0 1 X ln
3

Montgomerey, Douglas C., Introduction to Linear Regression Analysis, John Wiley and Sons, Nueva York, 1992, pp. 90-91

64

Anlisis de Regresin

P. Reyes / Enero, 2007

Y ' 0 ' 1 X '

Se

requiere

que

la

transformada

del

trmino

de

error

sea

normal

independientemente distribuida con media cero y varianza 2.


Varios tipos de transformaciones recprocas pueden ser tiles. Por ejemplo:
1
X

Y 0 1

Puede ser linealizada usando la transformacin recproca X = 1/X, quedando como:


Y 0 1 X '

65

Anlisis de Regresin

P. Reyes / Enero, 2007

Ejemplo 2.3 Un investigador desea determinar la relacin entre


la salida de Corriente Directa (Y) de un generador de molino de
viento y la velocidad del viento (X), para ello colecta 25
pares de datos para ambas variables, utilizando el Minitab para
su proceso. Los datos colectados son los siguientes:
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

X
5
6
3.4
2.7
10
9.7
9.6
3.1
8.2
6.2
2.9
6.4
4.6
5.8
7.4
3.6
7.9
8.8
7
5.5
9.1
10.2
4.1
4
2.5

Y
1.582
1.822
1.057
0.5
2.236
2.386
2.294
0.558
2.166
1.866
0.653
1.93
1.562
1.737
2.088
1.137
2.179
2.112
1.8
1.501
2.303
2.31
1.194
1.144
0.123

Fit
1.3366
1.5778
0.9508
0.782
2.5424
2.47
2.4338
0.8664
2.0962
1.626
0.8302
1.6622
1.2402
1.5295
1.9154
0.999
2.0239
2.253
1.8189
1.4451
2.3253
2.5906
1.1196
1.0834
0.7217

SE Fit
0.0519
0.0473
0.0703
0.0806
0.0875
0.0828
0.0804
0.0753
0.0609
0.0472
0.0776
0.0474
0.0555
0.0476
0.053
0.0675
0.0574
0.0694
0.05
0.049
0.0737
0.0907
0.0611
0.0629
0.0845

Residual
0.2454
0.2442
0.1062
-0.282
-0.3064
-0.084
-0.1398
-0.3084
0.0698
0.24
-0.1772
0.2678
0.3218
0.2075
0.1726
0.138
0.1551
-0.141
-0.0189
0.0559
-0.0223
-0.2806
0.0744
0.0606
-0.5987

St Resid
1.07
1.06
0.47
-1.27
-1.4
-0.38
-0.63
-1.38
0.31
1.04
-0.79
1.16
1.4
0.9
0.75
0.61
0.68
-0.62
-0.08
0.24
-0.1
-1.29
0.33
0.27
-2.72R

R denotes an observation with a large standardized residual


Durbin-Watson statistic = 1.21

El valor del estadstico indica que no podemos llegar a


conclusiones:
Regression Analysis: Y versus X
The regression equation is
Y = 0.131 + 0.241 X
Predictor
Constant
X

Coef
0.1309
0.24115

SE Coef
0.1260
0.01905

T
1.04
12.66

66

P
0.310
0.000

Anlisis de Regresin

S = 0.2361

P. Reyes / Enero, 2007

R-Sq = 87.4%

R-Sq(adj) = 86.9%

Ajustando el modelo con una recta se tiene:


Fitted Line Plot
Y = 0.1269 + 0.2412 X
S
R-Sq
R-Sq(adj)

2.5

0.237095
87.3%
86.8%

2.0

1.5

1.0

0.5

0.0
2

10

11

Residuals Versus the Fitted Values


(response is Y)
0.4

Residual

0.2

0.0

-0.2

-0.4

-0.6
0.5

1.0

1.5
Fitted Value

2.0

2.5

The regression equation is


Y = 0.1269 + 0.2412 X
S = 0.237095
Analysis of
Source
Regression
Error
Total

R-Sq = 87.3%
Variance
DF
SS
1
8.9183
23
1.2929
24 10.2112

R-Sq(adj) = 86.8%

MS
8.91827
0.05621

F
158.65

P
0.000

67

Anlisis de Regresin

P. Reyes / Enero, 2007

El tratar de ajustar los datos, una recta no fue la mejor opcin, por lo que se intenta
un modelo cuadrtico, el cual se muestra a continuacin.
Fitted Line Plot
Y = - 1.166 + 0.7236 X
- 0.03808 X* * 2
2.5

S
R-Sq
R-Sq(adj)

0.127171
96.5%
96.2%

2.0

1.5

1.0

0.5

0.0
2

10

11

Residuals Versus the Fitted Values


(response is Y)
0.2

Residual

0.1

0.0

-0.1

-0.2

-0.3
0.5

1.0

1.5
Fitted Value

2.0

2.5

Polynomial Regression Analysis: Y versus X


The regression equation is
Y = - 1.166 + 0.7236 X - 0.03808 X**2
S = 0.127171
Analysis of
Source
Regression
Error
Total

R-Sq = 96.5%
Variance
DF
SS
2
9.8554
22
0.3558
24 10.2112

R-Sq(adj) = 96.2%

MS
4.92770
0.01617

F
304.70

P
0.000

Sequential Analysis of Variance

68

Anlisis de Regresin
Source
Linear
Quadratic

DF
1
1

P. Reyes / Enero, 2007

SS
8.91827
0.93713

F
158.65
57.95

P
0.000
0.000

A pesar de que la R 2 es adecuada, los residuos muestran un comportamiento


anormal, por lo que ser necesario transformar la variable X. Se observa que los
residuos no siguen una distribucin normal por lo que es necesario transformar la
variable regresora:
Transformando la variable X = 1/X se tiene, utilizando Minitab:

Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

1/X
0.2
0.167
0.294
0.37
0.1
0.103
0.105
0.328
0.123
0.161
0.345
0.157
0.217
0.172
0.135
0.278
0.127
0.114
0.143
0.183
0.11
0.098
0.244
0.253
0.408

Y
1.582
1.822
1.057
0.5
2.236
2.386
2.294
0.558
2.166
1.866
0.653
1.93
1.562
1.737
2.088
1.137
2.179
2.112
1.8
1.501
2.303
2.31
1.194
1.144
0.123

Fit
1.592
1.8231
0.9393
0.4105
2.2854
2.264
2.2527
0.7052
2.128
1.8604
0.5876
1.8868
1.4713
1.7832
2.0418
1.0526
2.0955
2.1908
1.9882
1.7065
2.2168
2.299
1.2875
1.2233
0.1484

SE Fit
0.0188
0.0199
0.0274
0.0404
0.0276
0.0271
0.0269
0.0329
0.0243
0.0203
0.0358
0.0206
0.0193
0.0195
0.0228
0.0251
0.0237
0.0256
0.0219
0.0191
0.0261
0.0279
0.0211
0.0221
0.0474

69

Residual
-0.01
-0.0011
0.1177
0.0895
-0.0494
0.122
0.0413
-0.1472
0.038
0.0056
0.0654
0.0432
0.0907
-0.0462
0.0462
0.0844
0.0835
-0.0788
-0.1882
-0.2055
0.0862
0.011
-0.0935
-0.0793
-0.0254

St Resid
-0.11
-0.01
1.31
1.05
-0.55
1.35
0.46
-1.67
0.42
0.06
0.75
0.47
0.98
-0.5
0.51
0.93
0.92
-0.87
-2.06R
-2.23R
0.95
0.12
-1.02
-0.87
-0.31 X

Anlisis de Regresin

P. Reyes / Enero, 2007

El modelo queda como:


Fitted Line Plot
Y = 2.987 - 7.005 1/X
Regression
95% CI
95% PI

2.5

S
R-Sq
R-Sq(adj)

2.0

0.0993273
97.8%
97.7%

1.5
1.0
0.5
0.0
0.10

0.15

0.20

0.25
1/ X

0.30

0.35

0.40

Regression Analysis: Y versus 1/X


The regression equation is
Y = 2.99 - 7.00 1/X
Predictor
Constant
1/X

Coef
2.98664
-7.0046

S = 0.0993273

SE Coef
0.04763
0.2202

R-Sq = 97.8%

T
62.71
-31.81

Analysis of Variance
Source
DF
SS
Regression
1
9.9843
Residual Error 23
0.2269
Total
24 10.2112

P
0.000
0.000

R-Sq(adj) = 97.7%
MS
9.9843
0.0099

F
1012.00

P
0.000

Unusual Observations
Obs
20
25

1/X
0.182
0.400

Y
1.5010
0.1230

Fit
1.7131
0.1848

SE Fit
0.0201
0.0490

Residual
-0.2121
-0.0618

St Resid
-2.18R
-0.72 X

R denotes an observation with a large standardized residual.


X denotes an observation whose X value gives it large influence.
Durbin-Watson statistic = 1.52151

Como se observa ahora los residuos muestran un comportamiento normal, indicando


que el modelo es adecuado.

70

Anlisis de Regresin

P. Reyes / Enero, 2007

Normal Probability Plot of the Residuals


(response is Y)
99

95
90

Percent

80
70
60
50
40
30
20
10
5

-0.2

-0.1

0.0
Residual

0.1

0.2

Residuals Versus the Fitted Values


(response is Y)
0.15
0.10

Residual

0.05
0.00
-0.05
-0.10
-0.15
-0.20
-0.25
0.0

0.5

1.0
1.5
Fitted Value

2.0

2.5

71

Anlisis de Regresin

P. Reyes / Enero, 2007

2.5 TRANSFORMACIONES PARA ESTABILIZAR LA VARIANZA


La suposicin de varianza constante es un requerimiento bsico del anlisis de
regresin, una razn comn de violacin a de este supuesto es cuando la variable de
respuesta Y sigue una distribucin de probabilidad en la cual la varianza esta
relacionada

con

la media. Para

estos casos se utiliza

transformaciones

estabilizadoras de la varianza.
Si la distribucin de Y es de Poisson, podemos relacionar Y ' Y contra X ya que la
varianza de Y es independiente de la media. Si la variable de respuesta Y es una
proporcin con valores entre [0,1] y la grfica de residuos tiene el patrn de doble
cresta, entonces se usa la transformacin Y ' sin 1 Y .
Otras transformaciones se muestran abajo en la tabla 2.2:
Tabla 2.2 Relaciones para transformar la varianza
Relacin de 2 a E(Y)

Transformacin

2 constante..............................Y ' Y

E (Y ).................................Y '

2 E (Y )1 E (Y )................Y ' sin 1 Y

Datos de Poisson
Proporciones binomiales

2 E (Y ) 2 ..............................Y ' ln(Y )

2 E (Y ) 3 ...........................Y ' Y 1 / 2
La magnitud de la transformacin, depende del grado de curvatura que induce.
La seleccin de la transformacin se hace en base a la experiencia o de forma
emprica. A continuacin se presenta un ejemplo para este anlisis.
Ejemplo 2.4 Se hizo un estudio entre la demanda (Y) y la
energa elctrica utilizada (X) durante un cierto periodo de
tiempo, procesando los datos con Minitab se obtuvo lo
siguiente:

72

Anlisis de Regresin

Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

X
679
292
1012
493
582
1156
997
2189
1097
2078
1818
1700
747
2030
1643
414
354
1276
745
435
540
874
1543
1029
710

P. Reyes / Enero, 2007

Y
0.79
0.44
0.56
0.79
2.7
3.64
4.73
9.5
5.34
6.85
5.84
5.21
3.25
4.43
3.16
0.5
0.17
1.88
0.77
1.39
0.56
1.56
5.28
0.64
4

Fit
1.649
0.308
2.802
1.004
1.312
3.301
2.75
6.88
3.097
6.495
5.595
5.186
1.884
6.329
4.988
0.73
0.523
3.717
1.877
0.803
1.167
2.324
4.642
2.861
1.756

SE Fit
0.351
0.49
0.293
0.412
0.381
0.297
0.294
0.651
0.293
0.6
0.488
0.441
0.333
0.579
0.42
0.441
0.465
0.313
0.333
0.433
0.395
0.307
0.384
0.293
0.343

Residual
-0.859
0.132
-2.242
-0.214
1.388
0.339
1.98
2.62
2.243
0.355
0.245
0.024
1.366
-1.899
-1.828
-0.23
-0.353
-1.837
-1.107
0.587
-0.607
-0.764
0.638
-2.221
2.244

The regression equation is


Y = - 0.7038 + 0.003464 X
S = 1.46163

R-Sq = 66.4%

R-Sq(adj) = 64.9%

Analysis of Variance
Source
Regression
Error
Total

DF
1
23
24

SS
97.094
49.136
146.231

Unusual Observations
Obs
X
Y
Fit
8 2189 9.500 6.880

MS
97.0943
2.1364

F
45.45

P
0.000

SE Fit
0.651

Residual
2.620

St Resid
2.00R

R denotes an observation with a large standardized residual.


Durbin-Watson statistic = 1.49454

73

St Resid
-0.61
0.1
-1.57
-0.15
0.98
0.24
1.38
2.00R
1.57
0.27
0.18
0.02
0.96
-1.42
-1.31
-0.17
-0.25
-1.29
-0.78
0.42
-0.43
-0.53
0.45
-1.55
1.58

Anlisis de Regresin

P. Reyes / Enero, 2007

Fitted Line: Y versus X


Fitted Line Plot
Y = - 0.7038 + 0.003464 X
10

S
R-Sq
R-Sq(adj)

1.46163
66.4%
64.9%

0
500

1000

1500

2000

Normal Probability Plot of the Residuals


(response is Y)
99

95
90

Percent

80
70
60
50
40
30
20
10
5

-3

-2

-1
0
1
Standardized Residual

Residuals Versus the Fitted Values


(response is Y)

Standardized Residual

-1

-2
0

3
4
Fitted Value

74

Anlisis de Regresin

P. Reyes / Enero, 2007

Notar que y es la cuenta de kilowatts utilizados por un cliente en cierta hora, se


observa que la varianza aumenta conforme aumenta la media de los datos indicando
que sigue el modelo de Poisson, por tanto se puede transformar con la raiz cuadrada
de Y. como sigue:
Raiz(Y)
0.88882
0.66333
0.74833
0.88882
1.64317
1.90788
2.17486
3.08221
2.31084
2.61725
2.41661
2.28254
1.80278
2.10476
1.77764
0.70711
0.41231
1.37113
0.8775
1.17898
0.74833
1.249
2.29783
0.8
2

X
679
292
1012
493
582
1156
997
2189
1097
2078
1818
1700
747
2030
1643
414
354
1276
745
435
540
874
1543
1029
710

SRES1
-0.63599
-0.25322
-1.7143
-0.20513
1.30713
0.55826
1.52481
0.88812
1.59927
0.02523
0.17965
0.14802
1.27361
-1.08504
-0.87804
-0.43853
-0.98212
-0.92738
-0.81296
0.59981
-0.63592
-0.27173
0.54906
-1.63735
1.80812

TRES1
-0.62755
-0.248
-1.79523
-0.2008
1.3287
0.54973
1.57291
0.88389
1.65908
0.02467
0.17583
0.14483
1.29201
-1.08943
-0.8735
-0.4307
-0.98133
-0.92444
-0.80676
0.59127
-0.62748
-0.26618
0.54054
-1.70373
1.90928

RESI1
-0.280548
-0.108411
-0.763184
-0.089439
0.573465
0.248407
0.678753
0.361359
0.711994
0.010451
0.076952
0.064127
0.563541
-0.452723
-0.38221
-0.189981
-0.423129
-0.411636
-0.359685
0.260318
-0.278218
-0.120724
0.240723
-0.728982
0.798781

Regression Analysis: Raiz(Y) versus X


The regression equation is
Raiz(Y) = 0.4717 + 0.001027 X
S = 0.454426

R-Sq = 64.3%

R-Sq(adj) = 62.7%

Durbin-Watson statistic = 1.65249

75

FITS1
1.16937
0.77174
1.51152
0.97826
1.0697
1.65947
1.4961
2.72085
1.59885
2.6068
2.33966
2.21841
1.23924
2.55748
2.15985
0.89709
0.83544
1.78277
1.23718
0.91866
1.02655
1.36972
2.0571
1.52898
1.20122

Anlisis de Regresin

P. Reyes / Enero, 2007

Fitted Line Plot


Raiz(Y) = 0.4717 + 0.001027 X
S
R-Sq
R-Sq(adj)

3.0

0.454426
64.3%
62.7%

Raiz(Y)

2.5
2.0
1.5
1.0
0.5
500

1000

1500

2000

Normal Probability Plot of the Residuals


(response is Raiz(Y))
99

95
90

Percent

80
70
60
50
40
30
20
10
5

-1.0

-0.5

0.0
Residual

0.5

1.0

Residuals Versus the Fitted Values


(response is Raiz(Y))
1.0

Residual

0.5

0.0

-0.5

1.0

1.5

2.0
Fitted Value

2.5

76

3.0

Anlisis de Regresin

P. Reyes / Enero, 2007

Se observa una mejor distribucin normal de los residuos por lo que el modelo es
adecuado. A continuacin se muestra el anlisis de varianza para el modelo:
Analysis of Variance
Source
Regression
Error
Total

DF
1
23
24

SS
8.5401
4.7496
13.2897

MS
8.54008
0.20650

F
41.36

P
0.000

77

Anlisis de Regresin

P. Reyes / Enero, 2007

3. REGRESIN LINEAL MLTIPLE


3.1 Modelos de Regresin Mltiple
Asumiendo que N observaciones de la respuesta se puedan expresar por medio de
un modelo de primer orden
Yu 0 1 X u1 2 X u 2 ....... k X uk u

(3.1)

En la ecuacin 3.1 Yu denota la respuesta observada en el intento u; Xui representa


el nivel del factor i en el intento u; las betas son parmetros desconocidos y u
representa el error aleatorio en Yu. Se asume que los errores u tienen las
caractersticas siguientes:
1. Tienen media cero y varianza comn 2.
2. Son estadsticamente independientes.
3. Estn distribuidos en forma normal.

3.2 Estimacin de los parmetros del modelo


El mtodo de mnimos cuadrados selecciona como estimados para los parmetros
desconocidos beta, los valores b 0, b1, ...., bk respectivamente, los cuales minimizan la
cantidad:
N

R ( 0 , 1 ,..., k ) (Yu 0 1 X u1 2 X u 2 ..... uk ) 2


u 1

Y son las soluciones a un conjunto de (k +1) ecuaciones normales.

78

Anlisis de Regresin

P. Reyes / Enero, 2007

Sobre N observaciones el modelo de primer orden puede expresarse en forma


matricial como:
Y = X + = [1 : D] +

(3.2)

Y es un vector N x 1.
X es una matriz de orden N x (k + 1), donde la primera columna es de 1s.
es un vector de orden (k + 1) x 1.
es un vector de orden N x 1.
D es la matriz de Xij con i = 1, 2, ..., N; j = 1, 2, ......, k
Deseamos encontrar el vector de estimadores de mnimos cuadrados b que
minimicen:
n

S ( ) i2 ' (Y X )' (Y X )
i 1

Que puede ser expresada como:


S ( ) Y ' Y ' X ' Y Y ' X ' X ' X

Como ' X ' Y es una matriz 1x1 o un escalar y su transpuesta ( ' X ' Y )' Y ' X es
el mismo escalar, se tiene:
S ( ) Y 'Y 2 ' X 'Y ' X ' X '

(3.3)

Los estimadores de mnimos cuadrados deben satisfacer:


S

2 X ' Y 2 X ' Xb 0
b

Que se simplifica a las ecuaciones normales de mnimos cuadrados:

XX b = X Y

(3.4)

79

Anlisis de Regresin

P. Reyes / Enero, 2007

Los estimadores de mnimos cuadrados b de los elementos son:

b = (XX)-1 XY

(3.5)

El vector de valores ajustados Y Xb se puede expresar como:


Y Xb X ( X ' X ) 1 X ' Y Hy

(3.5)

Donde la matriz H [n x n] se denomina la matriz sombrero ya que mapea el vector


de valores observados dentro del vector de valores ajustados o predichos.
Como principales caractersticas de los estimadores b se tienen:
La matriz de varianza y covarianza de el vector de estimados b es:
Var(b) = C = (XX)-1 2

(3.6)

2
El elemento (ii) de esta matriz cii Var (bi ) es la varianza del elemento i de b.

El error estndar de bi es la raz cuadrada positiva de la varianza de b i o sea:

se.bi

cii 2

(3.7)

La covarianza del elemento bi y bj de b es Co var(cij ) cij .


2

(3.8)

Si los errores estn normalmente distribuidos, entonces b se dice que est distribuido
como:
b N ( , ( X ' X ) 1 2 )

80

Anlisis de Regresin

P. Reyes / Enero, 2007

Sea xp un vector (1 x p) vector cuyos elementos corresponden a una fila de la matriz


X, p = k + 1, entonces en la regin experimental el valor de prediccin de la
respuesta es:
^

Y ( x ) x' p b

(3.9)

Una medida de la precisin de la prediccin Y ( X ) se puede expresar como:

Var (Y ( x)) Var ( x p b) x' p ( X ' X ) 1 x p 2

(3.10)

RESIDUOS
Los residuos se definen como la diferencia entre los valores reales observados y los
valores predichos para estos valores de respuesta usando el modelo de ajuste y
prediccin, o sea:

ru Yu Y ( xu ), u 1,2,..., N

(3.11)

Si se obtienen valores para los N intentos entonces en forma matricial:


r Y Xb Y HY (1 H )Y

(3.12)

los residuos tienen las propiedades siguientes:


1. 1r = 0, donde 1 es un vector (1 x n) de 1s.
2. Y ( X )' r 0
3. Xr = 0
ESTIMACIN DE

81

Anlisis de Regresin

P. Reyes / Enero, 2007

Para un modelo con p parmetros y teniendo N observaciones (N > p), la varianza se


estima como sigue:
La suma de cuadros de los residuos es:
n

SSE (Yi Y ) 2 ei2 e' e


i 1

Como e = Y X b, se tiene:
SSE (Y Xb)' (Y Xb) Y ' Y b' X ' Y Y ' Xb b' X ' Xb Y ' Y 2b' X ' Y b' X ' Xb (3.1

3)
Como XXb = XY, se transforma en:
SSE Y ' Y b' X ' Y

(3.14)

La suma residual de cuadrados tiene n-p grados de libertad asociado con el ya que
se estiman p parmetros en el modelo de regresin. El cuadrado medio de los
residuos es:

s 2 MSE

SSE
Np

(3.15)

3.3 Intervalos de confianza para los coeficientes de la regresin


Asumiendo que los errores son independientes y distribuidos normalmente con
media cero y desviacin estndar 2 , por tanto las observaciones Yi tambin son
independientes y normalmente distribuidas. Cada uno de los estadsticos:
bj j
S 2 C jj

,... j 0,1,..., k

(3.16)

82

Anlisis de Regresin

P. Reyes / Enero, 2007

Se distribuye con una distribucin t con n-p grados de libertad, donde S2 es la


varianza del error de la ecuacin (3.15). Por tanto un intervalo de confianza 100(1 -
)% para el coeficiente de regresin j, para j = 0, 1, ...., k es:
b j t / 2 ,n p se(b j ) j b j t / 2 ,n p se(b j )

(3.17)
Donde se(bj) es el error estndar del coeficiente de regresin bj.
se(b j )

S 2 C jj

(3.18)

Siendo Cjj el j-simo elemento de la matriz (XX)-1 .


3.3.1 Intervalos de confianza para la respuesta media en un punto en

particular
Se puede construir un intervalo de confianza en la respuesta media de un punto en
particular, tal como X01, X02, X03,........, X0K. Definiendo el vector X0 como:

1
X
01

X 0 X 02

.....
X 0K
El valor ajustado en este punto es:
Y0 X ' 0 b

(3.19)

83

Anlisis de Regresin

P. Reyes / Enero, 2007

Con varianza:
Var (Y0 ) S 2 X ' 0 ( X ' X ) 1 X 0

(3.20)
Por tanto el intervalo de confianza para el 100( 1 - ) % es:

Y0 t / 2 ,n p

S 2 X ' 0 ( X ' X ) 1 X 0 Y0 Y0 t / 2 ,n p

S 2 X ' 0 ( X ' X ) 1 X 0

(3.21)

3.4 Prueba de Hiptesis en Regresin mltiple


Entre las pruebas importantes a realizar se encuentra la prueba de siginificancia de
la regresin, la prueba de coeficientes individuales de la regresin y otras pruebas
especiales. A continuacin se analiza cada una de ellas.
3.6.1 Prueba de significancia para la regresin
La prueba de significancia de la regresin es probar para determinar si hay una
relacin lineal entre la respuesta Y y cualquiera de las variables regresoras Xis, la
hiptesis apropiada es:
H 0 : 1 2 .... k 0

(3.22)

H 0 : j 0....... para.al .menos.una. j

El rechazo de H0 implica que al menos alguno de los regresores contribuye


significativamente al modelo. El mtodo es una generalizacin del utilizado en la
regresin lineal. La suma total de cuadrados S yy se divide en suma de cuadrados
debidos a la regresin y la suma de cuadrados de los residuos, o sea:
SYY SST SSR SSE

84

Anlisis de Regresin

P. Reyes / Enero, 2007

Para la prueba de la hiptesis se utiliza el estadstico F 0 como sigue:

F0

SSR / k
MSR

SSE /( n k 1) MSE

con k = No. de variables regresoras

(3.23)
La suma de cuadrados totales es:
N

__

SST (Yu Y ) 2 con N-1 grados de libertad

(3.24)

u 1

La suma de cuadrados debidos a la regresin es:

N ^

__

SSR (Y ( xu ) Y ) 2

con p (parmetros) 1 grados de libertad

(3.25)

u 1

La suma de cuadrados del error o de los residuos es:


N

SSE (Yu Y ( xu )) 2

con (N-1) (p 1) grados de libertad

(3.26)

u 1

En forma matricial se tiene:


SST Y ' Y

(1' Y ) 2
N

SSR b' X ' Y

(3.27)

(1' Y ) 2
N

(3.28)

SSE Y ' Y b' X ' Y

(3.29)

85

Anlisis de Regresin

P. Reyes / Enero, 2007

La tabla de ANOVA para la significancia de la regresin queda como:


Fuente de
variacin

SS

df

MS

F0

Regresin
Residuos
Total

SSR
SSE
SST

K
nk-1
n1

MSR
MSE

MSR/MSE
.

Para probar la hiptesis de existencia del modelo, se tiene:


H 0 : 1 2 ... k 0

H a : i 0, i 1,2,..., k

Se calcula el estadstico F0 como:

F0

MSR
SSR /( p 1)

MSE SSE /( N p )

(3.30)

Se compara el valor de F con el de tablas para F ,p-1,N-p el cual es la parte superior de


la distribucin F, si F calculada excede a F de tablas se infiere que la variacin
explicada por el modelo es significativa.
El coeficiente de determinacin R2 mide la proporcin de la variacin total de los
valores Yu alrededor de la media Y explicada por el modelo de ajuste. Se expresa en
porcentaje.

R2

SSR
SST

(3.31)

3.4.2 Prueba de los coeficientes individuales de la regresin

86

Anlisis de Regresin

P. Reyes / Enero, 2007

Con frecuencia estamos interesados en probar hiptesis sobre los coeficientes de


regresin individuales. Por ejemplo el modelo podra ser ms efectivo con la inclusin
de regresores adicionales o con la eliminacin de una o ms variables regresoras
presentes en el modelo.
Al agregar una variable al modelo, siempre incrementa la suma de cuadrados de la
regresin y decrementa la suma de cuadrados de los residuos, sin embargo tambin
incrementa la varianza de los valores estimados Yest., de tal forma que se debe tener
cuidado en incluir slo los regresores que mejor expliquen la respuesta. Por otra
parte, al agregar un regresor no importante puede incrementar el cuadrado medio de
los residuos, lo que decrementa la utilidad del modelo.
La hiptesis para probar la significancia de cualquier coeficiente individual de la
regresin j es:
H0 : j 0

(3.32)

H1 : j 0

Si no se rechaza H0, indica que el regresor Xj puede ser excluido del modelo. El
estadstico de prueba para esta hiptesis es:
t0

bj

(3.33)

se(b j )

La hiptesis nula es rechazada si

t 0 t / 2 ,n k 1 .

Esta es una prueba parcial o

marginal de la contribucin de Xj dados los otros regresores en el modelo.


3.4.3 Caso especial de columnas ortogonales en X
Si dentro de la matriz X si las columnas de X 1 son ortogonales a las columnas en X 2,
se tiene que X1X2 = X2 X1 = 0. Entonces los estimadores de mnimos cuadrados b1 y
b2 no dependen si est o no est en el modelo alguno de los otros regresores,
cumplindose:
87

Anlisis de Regresin

P. Reyes / Enero, 2007

SSR( 2 ) SSR( 1 ) SSR( 2 )

(3.34)

Un ejemplo de modelo de regresin con regresores ortogonales es el diseo factorial


23 siguiente:
Y 0 1 X 1 2 X 2 3 X 3

Donde la matriz X es la siguiente:

1,1,1,1
1,1,1,1

1,1,1,1

1
,

1
,

1
,

X
1,1,1,1

1
,

1
,

1
,

1,1,1,1

1
,

1
,

1
,

En este caso, SSR(j), j = 1, 2, 3, mide la contribucin del regresor X j al modelo,


independientemente de cualquier otro regresor est incluido en el modelo de
ajuste.

88

Anlisis de Regresin

P. Reyes / Enero, 2007

Ejemplos:
Ejemplo

3.1

Un

embotellador

servicio

de

mquinas

est

analizando

dispensadoras,

las

est

rutas

de

interesado

en

predecir la cantidad de tiempo requerida por el chofer para


surtir

las

servicio

mquinas

incluye

en

el

local

(Y).

llenar

la

mquina

con

La

actividad

refrescos

de
un

mantenimiento menor. Se tienen como variables el nmero de


envases con que llena la mquina (X1) y la distancia que
tiene que caminar (X2). Se colectaron los datos siguientes,
y se procesaron con el paquete Minitab:
X1_envases X2_Distancia
7
560
3
220
3
340
4
80
6
150
7
330
2
110
7
210
30
1460
5
605
16
688
10
215
4
255
6
462
9
448
10
776
6
200
7
132
3
36
17
770
10
140
26
810
9
450
8
635
4
150

Y_tiempo
16.68
11.5
12.03
14.88
13.75
18.11
8
17.83
79.24
21.5
40.33
21
13.5
19.75
24
29
15.35
19
9.5
35.1
17.9
52.32
18.75
19.83
1075

De manera matricial:

89

Anlisis de Regresin

P. Reyes / Enero, 2007

1's
1
1
1
1

X1
7
3
3
4

X2
560
220
340
80

1
1

6
7

150
330

1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1

2
7
30
5
16
10
4
6
9
10
6
7
3
17
10
26
9
8
4

110
210
1460
605
688
215
255
462
448
776
200
132
36
770
140
810
450
635
150

La transpuesta de X es (Copiar con pegado especial Transponer):

X'
1's 1
1
1
1
1
1
1
1
X1 7
3
3
4
6
7
2
7
X2 560 220 340 80 150 330 110 210

1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
30
5
16 10
4
6
9
10
6
7
3 17 10 26
9
8
1460 605 688 215 255 462 448 776 200 132 36 770 140 810 450 635

Con la funcin de Excel de multiplicacin de matrices MMULT :


Seleccionar el rango de celdas de resultados y al final teclear (Ctrl-Shif-Enter).
final)

X'X
25
219
219
3,055
10,232 133,899

10,232
133,899
6,725,688

X'y
560
7,375
337,072

90

Anlisis de Regresin

P. Reyes / Enero, 2007

El vector estimador de los coeficientes Betas es :

( X ' X ) 1 X ' y
Con la funcin de Excel MINVERSA

(X'X)-1
0.113215186
-0.004448593
-8.36726E-05

-0.004449
0.0027438
-4.79E-05

-8.367E-05
-4.786E-05
1.229E-06

Matrix B = INV(X'X) X'Y

Betas est,
2.341231145
1.615907211
0.014384826

The regression equation is


Y-TENT = 2.34 + 1.62 X1-ENV + 0.0144 X2-DIST
Estadsticas de la regresin
Coeficiente de
0.9795886
correlacion
multiple
Coeficiente de
0.9595937
determinacin R^2
R^2 ajustado
0.9559205
Error tpico
3.2594734
Observaciones
25
ANLISIS DE VARIANZA

Regresin
Residuos
Total

Promedio
Grados de
Suma de
de
F
Valor
libertad
cuadrados cuadrados
Critico de F
2 5550.81092
2775.405 261.235 4.6874E-16
22 233.731677
10.62417
24 5784.5426

Intercepcin
X1_envases
X2_Distancia

Coeficiente
s
2.3412311
1.6159072
0.0143848

Error tpico
1.09673017
0.17073492
0.00361309

Estad. t
2.134738
9.464421
3.981313

Inferior
Superior
Probab.
95%
95%
0.04417
0.066752 4.615710293
3.3E-09 1.26182466 1.969989758
0.00063 0.00689174 0.021877908

91

Inferior
95.0%
0.066752
1.26182466
0.00689174

Superior
95.0%
4.61571029
1.96998976
0.02187791

Anlisis de Regresin

P. Reyes / Enero, 2007

Clculo de la estimacin de la varianza:


Cov() = 2(XX)-1
Si C = (XX)-1
La varianza de i es 2Cjj y la covarianza entre i y j es 2Cij.
Y_tiempo 16.68
13.5

11.5
19.75

12.03
24

14.88
29

13.75
15.35

18.11
19

8
9.5

17.83
35.1

79.24
17.9

21.5
52.32

40.33
18.75

La matriz yy es:

y'y
18,310.63

X'y

2.3412 1.6159

0.0144

559.6
7375.44
337072

Xy
18,076.90
SSE =

233.73

2 =

=233.73/(25-3) =10.6239

SSE = yy - X y
2 = MSE = SSE / (n-p)
Matrix Y'Y = 18310.6
Matrix b' = [ 2.34123

1.61591

0.01438 ]

Matrix b'X'Y = 18076.9


Matrix SSe = Y'Y - b'X'Y = 233.732

S2

SS E
233.732

10.624
Np
25 3

Clculo del error estndar de los coeficientes y del intervalo de confianza


para = 0.05
De ecuacin 3.17 se tiene:
se(b j )

S 2 C jj

Siendo Cjj el j-simo elemento de la matriz (XX)-1 .

92

21
19.83

10.75

Anlisis de Regresin

P. Reyes / Enero, 2007

M8 = (X'X)-1
0.113215186 -0.004449
-0.004448593 0.0027438
-8.36726E-05 -4.79E-05

-8.367E-05
-4.786E-05
1.229E-06

b1 t.025, 22 se( b1 ) 1 b1 t.025, 22 se( b1 )

1.61591 ( 2.074) (10.6239)(0.00274378) 1 1.6191 ( 2.074)( 0.17073)

Por tanto el intervalo de confianza para el 95% es:


1.26181 1 1.97001
Clculo del intervalo de confianza para la respuesta media
El embotellador desea construir un intervalo de confianza sobre
el tiempo medio de entrega para un local requiriendo
X1 = 8 envases y cuya distancia es X2 = 275 pies. Por tanto:

1
X0 8

275
El valor de respuesta estimada por la ecuacin de ajuste es:

2.34123
Y0 X '0 b 1,8,275 1.61591 19.2 minutos

0.01438
93

Anlisis de Regresin

P. Reyes / Enero, 2007

La varianza de Y0 es estimada por (tomando M8=inv(XX)


anterior):

1
Var (Y0 ) S 2 X '0 (X ' X )1 X 0 10.62391, ,8 275M 8 8 10.6239( .0 05346) .0 56794
275
Por tanto el intervalo al 95% de nivel de confianza es:
19.22 2.074 0.56794 Y0 19.22 2.074 0.56794

Que se reduce a:
17.66 Y0

20.78

Analysis of Variance
De ecuaciones 3.26 a 3.29
2
SST = 18,310.629 - (559.6)

= 5784.5426

2
SSR = 18,076.930 - (559.6)

= 5,550.8166

25

25

SSE = SST SSR = 233.7260

F0

MSR 2775.4083

261.24
MSE
10.6239

F0.05, 2 , 22 3.44

94

Anlisis de Regresin

P. Reyes / Enero, 2007

Como la F calculada es mayor que la F de tablas, se concluye


que existe el modelo con alguno de sus coeficientes diferente
de cero.
Con el paquete Minitab se obtuvo lo siguiente:
Regression Analysis: Y_tiempo versus X1_envases, X2_Distancia
The regression equation is
Y_tiempo = 2.34 + 1.62 X1_envases + 0.0144 X2_Distancia
Predictor
Constant
X1_envases
X2_Distancia

Coef
2.341
1.6159
0.014385

SE Coef
1.097
0.1707
0.003613

S = 3.25947

R-Sq = 96.0%

T
2.13
9.46
3.98

P
0.044
0.000
0.001

R-Sq(adj) = 95.6%

95

Anlisis de Regresin

P. Reyes / Enero, 2007

Analysis of Variance
Source
Regression
Residual Error
Total
Source
X1_envases
X2_Distancia

DF
2
22
24
DF
1
1

SS
5550.8
233.7
5784.5

MS
2775.4
10.6

F
261.24

P
0.000

Seq SS
5382.4
168.4

Unusual Observations
Obs
9
22

X1_envases
30.0
26.0

Y_tiempo
79.240
52.320

Fit
71.820
56.007

SE Fit
2.301
2.040

Residual
7.420
-3.687

St Resid
3.21RX
-1.45 X

R denotes an observation with a large standardized residual.


X denotes an observation whose X value gives it large influence.
Predicted Values for New Observations
New
Obs
1

Fit
19.224

SE Fit
0.757

95% CI
(17.654, 20.795)

95% PI
(12.285, 26.164)

Values of Predictors for New Observations


New
Obs
1

X1_envases
8.00

X2_Distancia
275

Normal Probability Plot of the Residuals


(response is Y_tiempo)
99

95
90

Percent

80
70
60
50
40
30
20
10
5

-3

-2

-1

0
1
Standardized Residual

96

Anlisis de Regresin

P. Reyes / Enero, 2007

Prueba de la significancia de los coeficientes particulares


Probando la contribucin del regresor X2 (distancia) dado que
la variable regresora de casos est en el modelo. Las hiptesis
son:
H0 : 2 0

H1 : 2 0

El elemento de la diagonal principal de (XX)-1 correspondiente


a 2 es C22 = 0.00000123, de tal forma que el estadstico t es:

t0

b2
2

S C 22

0.01438
3.98
(10.6239)(0.00000123)

Como t 0.025, 22 2.074 , se rechaza la hiptesis H0, concluyendo que


el regresor de distancia X2 (distancia), contribuye
significativamente al modelo dado que casos X1 tambin est
en el modelo.

3.5 Prediccin de nuevas observaciones


El modelo de regresin puede ser usado para predecir observaciones futuras en y
correspondientes a valores particulares en las variables regresoras, por ejemplo X01,
X02, .., X0k. Si
x '0 [1, x01 , x02 , x013 ,......., x01k ]

Entonces una observacin futura y0 en este punto es:


y 0 x'0

Un intervalo de de prediccin con un nivel de confianza del 100(1-alfa) porciento


para una observacin futura es:
y 0 t / 2,n p 2 (1 x '0 ( X ' X ) 1 x0 y0 y 0 t / 2 ,n p 2 (1 x'0 ( X ' X ) 1 x0

Es una generalizacin del modelo de regresin lineal simple.

97

Anlisis de Regresin

P. Reyes / Enero, 2007

Para el caso del ejemplo del embotellador:


El embotellador desea construir un intervalo de prediccin
sobre el tiempo de entrega para un local requiriendo
X1 = 8 envases y cuya distancia es X2 = 275 pies. Por tanto:

1
X0 8

275

Xo = [1, 8, 275]

El valor de respuesta estimada por la ecuacin de ajuste es:

.2 34123
Y0 X '0 b 1, 8, 275 .1 61591 19.22minutos
.0 01438
X '0 ( X ' X ) 1 X 0 0.05346

Por tanto el intervalo de prediccin al 95% de nivel de


confianza es:
19.22 2.074 10.6239(1 0.05346) Y0 19.22 2.074 10.6239(1 0.05346)

Que se reduce al intervalo de prediccin de:


12.28 Y0

26.16

3.6 Extrapolacin oculta


AL predecir la respuesta promedio en un punto X0, se debe tener cuidado de no
extrapolar ms all de la regin que contiene las observaciones originales, ya que el
ajuste puede no ser adecuado en esas regiones.
98

Anlisis de Regresin

P. Reyes / Enero, 2007

Para un procedimiento formal, se define el conjunto convexo ms pequeo que


contiene todos los n puntos originales (Xi1, Xi2, .., Xik), i=1, 2, 3, .,n, como la
variable regresora cubierta (hull) RVH. Si un punto X01, X02, , X0k se encuentra
fuera de la variable RHV entonces se requiere extrapolacin.
Los elementos diagonales hii de la matriz sombrero H = X(XX)-1X se utilizan para
detectar extrapolacin oculta. En general el punto que tiene el mayor valor de hii o
hmax se encuentra en la frontera de la RVH. El conjunto de puntos X que satisfacen
el modelo:
x(XX)-1x <= hmax
es un elipsoide que engloba todos los puntos dentro de la variable RVH.
Para el caso del ejemplo del embotellador se tiene:
x
Observacin
X1_envases
X2_Distancia

1
7
560

1
3
220

1
3
340

1
4
80

(X'X)-1
0.1132152
-0.0044486
-8.367E-05

-0.004
0.0027
-5E-05

-8E-05
-5E-05
1E-06

x(XX)-1
primero
0.0352184 0.0120421 0.0003
Segundo
0.0814614 0.0067458 4E-05

x(XX)-1x
Observacin
1

X1_envases
7

X2_Distancia
hii
560
0.10180178
220

0.07070164

99

1
6
150

Anlisis de Regresin

P. Reyes / Enero, 2007

La tabla completa se muestra a continuacin:


Observacin
1

X1_envases
7

X2_Distancia
hii
560
0.10180178

1
1
1
1

3
3
4
6

220
340
80
150

1
1
1
1
1
1

7
2
7
30
5
16

330
110
210
1460
605
688

0.04287
0.0818
0.06373
0.49829 hmax
0.1963
0.08613

1
1
1
1
1
1
1
1
1
1
1
1
1
1

10
4
6
9
10
6
7
3
17
10
26
9
8
4

215
255
462
448
776
200
132
36
770
140
810
450
635
150

0.11366
0.06113
0.07824
0.04111
0.16594
0.05943
0.09626
0.09645
0.10169
0.16528
0.39158
0.04126
0.12061
0.06664

0.07070164
0.09874
0.08538
0.07501

Los puntos para los cuales hoo sea mayor a hmax, se encuentran fuera del elipsoide,
generalmente entre menor sea el valor de hoo es ms probable que se encuentre en
el elipsoide.
En la tabla la observacin 9 tiene el valor mayor de hii. Como el problema solo tiene
dos regresores se puede examinar en un diagrama de dispersin como sigue:

100

Anlisis de Regresin

P. Reyes / Enero, 2007

Scatterplot of X1_ envases vs X2_ Distancia


30

X1_ envases

25
20
15
10
5
0
0

200

400

600

800
1000
X2_ Distancia

1200

1400

1600

Se confirma que el punto 9 es el mayor valor de hii en la frontera de la RHV.


Ahora supongamos que se desea considerar la prediccin o estimacin para los
puntos siguientes:
Punto
a
b
c
d

x10
8
20
28
8

x20
275
250
500
1200

h00
0.05346
0.58917
0.89874
0.86736

Todos los puntos se encuentran dentro del rango de los regresores X1 y X2. El punto
a es de interpolacin puesto que hoo <= hmax (0.05346 < 0.49829) todos los dems
son puntos de extrapolacin ya que exceden a hmax, lo que se confirma en la
grfica de dispersin.
Inferencia simultanea en la regresin mltiple
Indica que se puede hacer en forma simultanea inferencias

101

Anlisis de Regresin

P. Reyes / Enero, 2007

3.9 Evaluacin de la adecuacin del modelo


Como se coment anteriormente, los residuos ei del modelo de regresin mltiple,
juegan un papel importante en la evaluacin de la adecuacin del modelo, de forma
similar que en la regresin lineal simple.

Es conveniente graficar los residuos

siguientes:
1. Residuos en papel de probabilidad normal.
2. Residuos contra cada uno de los regresores Xs.
3. Residuos contra cada Yi , i 1,2,..., k
4. Residuos en secuencia de tiempo ( si se conoce)
Estas grficas se usan para identificar comportamientos anormales, outliers, varianza
desigual, y la especificacin funcional equivocada para un regresor. Se pueden
graficar los residuos sin escalamiento o con un escalamiento apropiado.
Existen algunas tcnicas adicionales de anlisis de residuos tiles en el anlisis de la
regresin mltiple, como se describen a continuacin.
Grficas de residuos contra regresores omitidos en el modelo
Estas grficas podran revelar cualquier dependencia de la variable de
respuesta Y contra los factores omitidos, se esta forma se puede analizar si
su incorporacin mejora la explicacin del modelo.

Grficas de residuos parciales


Estas grficas estn diseadas para revelar en forma ms precisa la relacin entre
los residuos y la variable regresora Xj. Se define el residuo parcial i-simo para el
regresor Xj como sigue:
eij* ei b j X ij , i 1,2,...., n

(3.35)

102

Anlisis de Regresin

P. Reyes / Enero, 2007

*
La grfica de eij contra X ij se denomina Grfica de residuo parcial. Esta grfica

sirve para detectar Outliers y desigualdad de varianza, dado que muestra la relacin
entre Y y el regresor Xj despus de haber removido el efecto de los otros regresores
Xi (I<>j), es el equivalente de la grfica de Y contra Xj en regresin mltiple.
Grficas de regresin parcial
Son grficas de residuos de los cuales se ha removido la dependencia
lineal de Y sobre todos los regresores diferentes de Xj, as como su
dependencia lineal de otros regresores. En forma matricial se pueden
escribir estas cantidades como eY | X ( j ) , e X

j |X

( j)

donde X(j) es la matriz original

X con el regresor j-simo removido.

del modelo general en forma matricial:


Y X X ( j ) X j j

(3.36)

Premultiplicando por [ I H ( j ) ] y notando que (1 H ( j ) ) X ( j ) 0 se tiene:


eY | X ( j ) j e X j | X ( j ) (1 H ( j ) )

(3.37)

Algunos programas como SAS generan grficas de regresin parcial. Grficas de


regresores Xi versus Xj.
Estas grficas pueden ser tiles para el anlisis de la relacin entre los regresores y
la disposicin de los datos en el espacio X, donde pueden descubrirse puntos
remotos del resto de los datos y que tienen influencia en el modelo. Si se encuentra
que las variables regresoras estn altamente correlacionadas, puede no ser
necesario incluirlas ambas en el modelo. Si dos o ms regresores estn altamente
correlacionados, se dice que hay multicolinealidad en los datos, esto distorsiona al
modelo.
103

Anlisis de Regresin

P. Reyes / Enero, 2007

Xi
**
** * *
** *
**
** *
**
***
Xj

Fig. 3.1 Grfica de Xi versus Xj

Mtodo de escalamiento de residuos


Es difcil hacer comparaciones directas entre los coeficientes de la regresin debido
a que la magnitud de bj refleja las unidades de medicin del regresor Xj. Por ejemplo:

Y 5 X 1 1000 X 2

(3.38)

Donde Y esta medida en litros, X1 en mililitros y X2 en litros. Note que a pesar de que
b2 es mucho mayor que b1, su efecto en la variable de respuesta es idntico. Por lo
anterior algunas veces es importante trabajar con regresores y variables de
respuesta con escala cambiada, de tal forma que produzcan coeficientes de
regresin sin dimensiones.
Existen dos tcnicas para esto. La primera se denomina escala unitaria normal,

Z ij

Yi *

X ij X j
Sj

Yi Y
Sy

Con i = 1, 2, ......., n;

j = 1, 2, ........., k

(3.39)

Con i = 1, 2, ......., n

(3.40)

De esta forma el modelo de regresin se transforma en:


Yi * b1 Z i1 b2 Z i 2 b3 Z i 3 ......... bk Z ik i

104

i = 1, 2, ........, n

(3.41)

Anlisis de Regresin

P. Reyes / Enero, 2007

En este modelo b0 = 0 y el estimador de mnimos cuadrados para b es:


b ( Z ' Z ) 1 Z ' Y *

(3.42)

El otro mtodo de escalamiento es el escalamiento de longitud unitaria,

Wij

X ij
S jj

i = 1, 2, ......, n; j = 1, 2, ........, k

(3.43)

i = 1, 2, ..........., n

(3.44)

__

Y Y
,
Yi 0 i
SYY

__

S jj ( X ij X j ) 2

(3.45)

Esta ltima es la suma de cuadrados corregida para el regresor Xj. En este caso
cada regresor Wj tiene media cero y longitud uno.
__

W j 0
(3.46)

(Wij W j ) 2 1
i 1

En trminos de las variables de regresin, el modelo queda como:


Yi 0 b1Wi1 b2Wi 2 ........ bk Wik i ,

i = 1, 2, ......, n

(3.47)

El vector de mnimos cuadrados de los coeficientes es:


b (W 'W ) 1W ' Y 0

(3.48)

La matriz de correlacin WW en la escala unitaria tiene la forma:


105

Anlisis de Regresin

P. Reyes / Enero, 2007

1, r12 , r13. . . r1k


r 1, r . . . r
12, 23 2k

W 'W

.........
r1k , r2k , r3k . . 1

Donde rij es la correlacin simple entre Xi y Xj.


n

rij

__

__

( X ui X i )( X uj X j )
u 1

S ii S jj

S ij

(3.49)

S ii S jj

De forma similar

r1Y
r
2Y

W 'Y 0
....

rKY
Donde rjy es la correlacin simple entre el regresor Xj y la respuesta Y:
n

r jy

__

__

( X uj X j )(Yu Y )
u 1

S ii SYY

S jY

(3.50)

S jj SYY

Si se utiliza la escala normal unitaria, la matriz ZZ est relacionada con WW como


sigue:

106

Anlisis de Regresin

P. Reyes / Enero, 2007

ZZ = (n 1) WW

(3.51)

Por lo que no importa que mtodo se utilice para escalamiento, ambos mtodos
producen el mismo conjunto de coeficientes de regresin sin dimensiones b.
La relacin entre los coeficientes originales y los estandarizados es:

S
b j b j YY
S JJ

j = 1, 2, ....., k

(3.52)

___

___

b0 Y b j X

(3.53)

j 1

Si las variables originales difieren mucho en magnitud, los errores de redondeo al


calcular XX pueden ser muy grandes an utilizando computadora, es por esto que
los programas muestran tanto los valores originales como coeficientes de regresin
estandarizados (coeficientes Beta). Por tanto se debe tener cuidado de usar stos
ltimos para medir la importancia relativa del regresor X j.
Ejemplo 3.5
Calculando los coeficientes de correlacin entre las diferentes
variables, se tiene:
r12 = 0.824215
r1y = 0.964615
r2y = 0.891670
La matriz de correlacin para este problema WW es:

107

Anlisis de Regresin

P. Reyes / Enero, 2007

.1 000000, .0 824215
W 'W

.0 824215, .1 000000
Las ecuaciones normales en trminos de los coeficientes de la
regresin estandarizados son:

1.0 0,.82415b1 0.964 15


W' b
0 .824 15,.0 0 b2 0.891670
Por tanto:

108

Anlisis de Regresin

P. Reyes / Enero, 2007

b1 3.184,2.57030.96415 0.71627

b2 2.5703,.1840.891670 .301
El modelo ajustado es:
Y 0 0.716267W1 0.301311W2

De esta forma incrementando el valor estandarizado de envases


W1 en una unidad incrementa la unidad estandarizada de tiempo
en 0.7162. Adems incrementando el valor estandarizado de la
distancia W2 en una unidad, incrementa la respuesta en 0.3013
unidades. Por lo tanto parece ser que el volumen de producto
surtido

es

ms

relevante

que

109

la

distancia,

con

ciertas

Anlisis de Regresin

precauciones

P. Reyes / Enero, 2007

dado

que

los

coeficientes

bs

son

slo

coeficientes parciales de regresin.


El coeficiente de determinacin R2 se calcula como sigue:

R2

SSR
SST

R2

5550.816
0.9596
5784.5426

Por lo anterior el 96% de la variabilidad en tiempo de entrega


es explicada por los dos regresores cantidad de surtimiento X 1
y distancia X2. El ndice R2 siempre se incrementa cuando se
agrega una nueva variable al modelo de regresin, aunque sea
innecesaria.
__

Un ndice ms real es el ndice ajustado R 2, que penaliza al


analista que incluye variables innecesarias en el modelo. Se
calcula como sigue:
__ 2

R 1

SSE /( N p )
N 1
1
(1 R 2 )
SST /( N 1)
Np

Para el ejemplo se tiene:


__ 2

R 1

25 1
(1 0 9596) 0.9559
25.3

Residuos estandarizados y estudentizados


Los residuos se estandarizan como sigue:

110

Anlisis de Regresin

di

ei
,
MSE

P. Reyes / Enero, 2007

i = 1, 2, .........., n

(3.54)

Para los residuos estudentizados, utilizamos el vector de residuos:


e = (I H ) Y

(3.55)

donde
H = X (XX)-1X es la matriz sombrero o hat matriz.
Esta matriz tiene las propiedades siguientes:
1. Es simtrica, es decir H = H.
2. Es idempotente, es decir H H = H.
3. En forma similar la matriz I H es simtrica e idempotente.
Por tanto se tiene:
e ( I H )( X ) X HX ( I H ) X X ( X ' X ) 1 X ' X ( I H )

e = (I H)

(3.55)

De esta forma los residuos tienen la misma transformacin lineal para las
observaciones Y y para los errores .
La varianza de los residuos es:
Var ( e) 2 ( I H )

(3.56)

Como la matriz I H no es diagonal, los residuos tienen diferentes


varianzas y estn correlacionados. La varianza del residuo i-simo es:

111

Anlisis de Regresin

P. Reyes / Enero, 2007

V ( ei ) 2 (1 hii )

(3.57)

Donde hii es el elemento diagonal i-simo de H.


Tomando esta desigualdad de varianza en cuenta, varios autores recomiendan para
escalamiento de los residuos, graficar los residuos estudentizados siguientes en
lugar de ei (o di):

ri

ei
,
MSE (1 hii )

i = 1, 2, .........., n

(3.58)

Los residuos estudentizados tienen varianza constante = 1, independientemente de


la localizacin de Xi, cuando la forma del modelo es correcto. A pesar de que los
residuos estandarizados y los estudentizados proporcionan casi la misma
informacin, como cualquier punto con residuo y hii grande tiene una influencia
potencial en el ajuste de mnimos cuadrados, se recomienda el anlisis de los
residuos estudentizados.
La covarianza entre ei y ej es:
Cov ( ei , e j ) 2 hij

(3.59)

De tal forma que otra forma de escalamiento de residuos es transformar los residuos
n dependientes en n-p funciones ortogonales de los errores .

Residuos PRESS
La suma de cuadrados del error de prediccin (PRESS) propuesto por Allen (1971)
proporciona un escalamiento til para los residuos. Para calcular PRESS, seleccione

112

Anlisis de Regresin

P. Reyes / Enero, 2007

una observacin, por ejemplo (i), Ajuste el modelo de regresin a las observaciones
remanentes (N 1), usando la ecuacin para predecir la observacin retenida (Yi).
Denotando el error de prediccin como:
e( i ) Yi Y( i )

(3.60)

El error de prediccin es normalmente denominado el residuo i-simo PRESS, el


procedimiento se repite para cada una de las observaciones i = 1, 2, ....., N,
produciendo los residuos PRESS correspondientes. As el estadstico PRESS se
define como la suma de cuadrados de los N residuos PRESS, como:

PRESS e(2i ) Yi Y( i )
i 1

(3.61)

As PRESS utiliza cada uno de los posibles subconjuntos de N 1


observaciones como el conjunto de datos de estimacin, y cada
observacin en turno es usada para formar el conjunto de datos de
prediccin.

Como:
e( i )

ei
1 hii

(3.62)

Entonces:

ei
PRESS =
i 1 1 hii

(3.63)

De esta forma se observa que los residuos asociados con valores altos de hii sern
puntos de alta influencia, donde si se excluyen mostrarn un ajuste pobre del
modelo.
113

Anlisis de Regresin

P. Reyes / Enero, 2007

La varizanza del residuo i-simo PRESS es:

Var ( e( i ) )

2
1 hii

(3.64)

Y el residuo PRESS estandarizado es:


e( i )
V ( e( i ) )

ei

(3.65)

(1 hii )
2

Donde si utilizamos MSE para estimar la varianza 2 se convierte en el residuo


estudentizado discutido previamente.
R- STUDENT
Otro mtodo para diagnosticar la presencia de outliers o puntos de alta influencia es
el residuo estudentizado R Student donde la estimacin de la varianza se hace
excluyendo la j-sima observacin, como sigue:

S (2i )

( N p ) MSE ei2 /(1 hii )

i = 1, 2, ..........., n

S (2i ) (1 hii ),

(3.66)

y el residuo estudentizado externamente R Student, est dado por:

ti

e( i )
S (1 hii )
2
(i )

i = 1, 2, ..........., n

(3.67)

En muchas situaciones este residuo puede diferir del residuo estudentizado r i . Si la


2
observacin i-sima tiene influencia, entonces S ( i ) MSE y el estadstico R-student

ser ms sensible a este punto. Tambin ofrece una prueba ms formal de prueba de

114

Anlisis de Regresin

P. Reyes / Enero, 2007

hiptesis de outliers, ya que se puede comparar todos los n valores de


| t i | .versus.t ( / 2 n ),n p 1 .

El estadstico PRESS puede usarse para calcular una R 2 aproximada para


prediccin, o sea:

2
R Pr
ediccin 1

PRESS
SYY

(3.68)

Para el ejemplo de las bebidas se tiene:4

2
R Pr
ediccin 1

457.4
0.9209
5784.5426

Por lo que esperaramos que este modelo explicara


aproximadamente el 92% de la variabilidad al predecir nuevas
observaciones, que se compara con el 95.96% de la variabilidad
en los datos originales explicados por el ajuste de mnimos
cuadrados.
Stepwise Regression: Y-TENT versus X1-CAS; X2-DIST
Forward selection.
Response is

Y-TENT

Alpha-to-Enter: 0.15
on

2 predictors, with N =

Step
Constant

1
3.321

2
2.341

X1-CAS
T-Value
P-Value

2.18
17.55
0.000

1.62
9.46
0.000

X2-DIST
T-Value
P-Value
S
R-Sq
R-Sq(adj)

25

0.0144
3.98
0.001
4.18
93.05
92.75

3.26
95.96
95.59

Montgomery, Douglas C., Peck, Elizabeth A., Introduction to Linear Regression Analysis, 2 edition, John
Wiley and Sons, Nueva York, 1991, p. 176

115

Anlisis de Regresin
C-p
PRESS
R-Sq(pred)

16.9
733.550
87.32

P. Reyes / Enero, 2007


3.0
459.039
92.06

Estimacin del error puro a partir de vecinos cercanos


Para la regresin lineal, la suma de cuadrados del error puro SS PE se calcula
utilizando respuestas replicadas en el mismo nivel de X. La suma de cuadrados del
error o residual se parte en un componente debido al error puro y un componente
debido a la falta de ajuste o sea:
SSE = SSPE + SSLOF
Esto mismo podra extenderse a la regresin mltiple, donde el clculo de SS PE
requiere observaciones replicadas en Y con el mismo nivel de las variables
regresoras X1, X2, ......, Xk, o sea que algunas de las filas de la matriz X deben ser las
mismas. Sin embargo estas condiciones repetidas no son comunes y este mtodo es
poco usado.
Daniel y Wood han sugerido un mtodo para obtener un estimado del error
independiente del modelo donde no hay puntos repetidos exactos. El procedimiento
busca puntos en el espacio X que son vecinos cercanos es decir observaciones
que se han tomado con niveles cercanos de X i1, Xi2, ..., Xik. Las respuestas Yi de tales
vecinos cercanos pueden ser considerados como rplicas a usar para el clculo del
error puro. Como una medida de la distancia entre dos puntos X i1, Xi2, ..., Xik y Xj1, Xj2,
..., Xjk proponen el estadstico de suma de cuadrados ponderados de la distancia
como:

b j ( X ij X i ' j )

MSE
j 1

Dii2

(3.69)

116

Anlisis de Regresin

P. Reyes / Enero, 2007

Los pares de puntos que tienen esta distancia pequea son vecinos cercanos sobre
2
los cuales se puede calcular el error puro, y los que generan Dii 1 estn

ampliamente separados en el espacio X.


El estimado del error puro se obtiene del rango de los residuos en el punto i e i,
como sigue:
E i | ei ei ' |

(3.70)

Hay una relacin entre el el rango de una muestra de una distribucin normal y la
desviacin estndar de la poblacin. Para muestras de tamao 2, la relacin es:

E
E

0.886 E
d 2 1.128

Esta desviacin estndar corresponde al error puro.


Un algoritmo para calcular la desviacin estndar estimada es como sigue:
1. Arreglar los conjuntos de datos de puntos Xs en orden ascendente de Yi-est.
2
2. Calcular los valores de Dii , para todos los N-1 pares de puntos con valores

adyacentes de Y-est. Repetir el procedimiento para los pares de puntos separados


por uno, dos o tres valores intermedios de Y-est. Lo cual producir (4 N 10) valores
2
de Dii .
2
4. Arreglar los (4 N 10) valores de Dii en orden ascendente. Sea Eu, u = 1, 2,...,

4N-10, sea el rango de los residuos en esos puntos.


5. Para los primeros m valores de Eu, calcular un estimado de la desviacin
estndar del error puro como:

0.886 m
Eu
m u 1

No se deben incluir de Eu para los cuales la suma de las distancias cuadradas


ponderadas sea muy grande.
117

Anlisis de Regresin

P. Reyes / Enero, 2007

Ejemplo 3.6 La tabla 4.9 muestra el clculo de Dii2 para pares


de puntos que en trminos de Y son adyacentes, en uno, dos y
tres puntos. Las columnas R en la tabla identifican a los 15
valores ms pequeos de Dii2 .
Los 15 pares de puntos se usan para estimar = 1.969. Sin
embargo
MSE

ajuste
embargo

de

una

tabla

10.6239 3.259.

y
en

Por

esperaramos
este

caso

anterior

otro
haber
MSE

lado

se
no

se

encontrado

es

slo

del

haba

calcualdo

observa

falta

que
65%

MSE .

mayor

que

de
Sin

indicando una cierta falta de ajuste, lo cual puede ser debido


a el efecto de regresores no presentes en el modelo o la
presencia de uno o ms outliers.
Diagnsticos de influencia
A veces un pequeo grupo de puntos ejerce una influencia desproporcionada en el
modelo de regresin, se deben revisar con cuidado, si son valores mal tomados, se
deben eliminar, de otra forma se debe estudiar el porqu de su ocurrencia.

Puntos de apalancamiento
Son observaciones remotas que tienen un apalancamiento desproporcionado
potencial en los parmetros estimados, valores de prediccin, y estadsticas en
general.
Hoaglin y Welsch discuten el papel de la matriz sombrero H donde sus elementos de
la diagonal principal (hij) puede ser interpretado como la cantidad de influencia
ejercida por Yj en Yi . As, enfocando la atencin en los elementos de la diagonal de
n

la matriz H, como

h
i 1

ii

rango( H ) rango( X ) p , el tamao medio de un elemento

118

Anlisis de Regresin

P. Reyes / Enero, 2007

en la diagonal principal es p/n. Por tanto si un elemento de la diagonal principal


hii 2 p / n , la observacin (i) es un punto con apalancamiento alto.

Influencia en los coeficientes de regresin


Cook sugiri medir la distancia cuadrada entre el estimado de mnimos cuadrados
basado en todos los n puntos b y el estimado obtenido al borrar el i-simo punto b(i) ,
esta distancia se expresa como:

Di ( M , c )

(b( i ) b)' M (b( i ) b)


c

, i 1,2,......, n

(3.71)

Donde M = XX y c = pMSe, obtenindose:

Di ( M , c )

(b( i ) b)' X ' X (b( i ) b)


pMSe

, i 1,2,......, n

(3.72)
Los puntos con valores grandes de Di tienen una influencia considerable en los
estimadores de mnimos cuadrados b. La magnitud de Di puede evaluarse
comparndola con F , p ,n p . Si Di F.5, p ,n p , entonces al borrar el punto i mover a
b al lmite del intervalo de confianza del 50% para con base en el conjunto de datos
completo. Como F.5, p ,n p 1 normalmente se considera que los puntos donde
Di 1 tendrn influencia. Idealmente cada b(i ) deber permanecer dentro de la

banda del 10 a 20% de la regin de confianza.


Otra forma de escribir el estadstico Di es:

Di

ri 2 V (Yi ) ri2 h ii

, i 1,2,......, n
p V ( ei )
p (1 hii )

119

(3.73)

Anlisis de Regresin

P. Reyes / Enero, 2007

As Di est formado por un componente que refleja que tan bien se ajusta el modelo a
la i-sima observacin Yi y un componente que mide que tan lejos se encuentra el
punto del resto de los datos. Uno o ambos componentes pueden contribuir a un valor
grande de Di .

Influencia en los valores estimados


Tambin se puede investigar la influencia de la observacin i-sima en la prediccin
de un valor. Un diagnstico razonable es:

DFFITS i

Yi Y( i )
S (2i ) hii

, i 1,2,........., n

(3.74)
Donde Y( i ) es el valor estimado de Yi obtenido sin el uso de la isima observacin,
el denominador es una estandartizacin, por tanto DFFITS es el nmero de
desviaciones estndar que el valor estimado Yi cambia si la observacin i-sima es
removida. Computacionalmente se tiene:
1/ 2

hii
1 hii

DFFITS i

(3.75)

ti

Donde ti es la R-student. Por lo general cualquier observacin donde

DFFITS i 2 p

(3.76)

Merece atencin.
Falta ejemplo 4.17

Multicolinealidad

120

Anlisis de Regresin

P. Reyes / Enero, 2007

La multicolinealidad implica una dependencia cercana entre regresores (columnas de


la matriz X ), de tal forma que si hay una dependencia lineal exacta har que la
matriz XX se singular. La presencia de dependencias cercanamente lineales
impactan dramticamente en la habilidad para estimar los coeficientes de regresin.
La varianza de los coeficientes de la regresin son inflados debido a la
multicolinealidad. Esta es evidente por los valores diferentes de cero que no estan en
la diagonal principal de XX. Los cuales se denominan correlaciones simples entre
los regresores. La multicolinealidad puede afectar seriamente la precisin con la cual
los coeficientes de regresin son estimados.
Los elementos de la diagonal principal de la matriz XX se denominan Factores de
inflacin de varianza (VIFs) y se usan como un diagnstico importante de
multicolinealidad. El factor para el coeficiente j-simo coeficiente de regresin es:

VIF j

1
1 R 2j

(3.77)
Si Xj es casi linealmente dependiente de algunos de los otros regresores, entonces el
coeficiente de determinacin Rj2 ser carcano a la unidad y el VIF j ser muy grande,
de tal forma que si es mayor a 10 implica que se tienen serios problemas de
multicolinealidad.
Los modelos de regresin que tienen presente multicolinealidad muestran
ecuaciones de prediccin pobres y los coeficientes de regresin son muy sensibles a
los datos en la muestra colectada en particular. En comparacin con el caso de
regresores ortogonales que son muy estables (imaginar un plano encima).

121

Anlisis de Regresin

X1

P. Reyes / Enero, 2007

X2

X1

a) Datos con multicolinealidad

X2

b) Regresores ortogonales

Fig. 3.2 Efectos de la colinealidad en la estabilidad del


sistema
En la figura anterior, un sistema ortogonal se obtiene de los datos siguientes:
X1

X2

5
10
5
10
5
10
5
10

20
20
30
30
20
20
30
30

Asumiendo que se utiliza el escalamiento unitario para los coeficientes de regresin,


se obtiene:

1,0 1
X'X X'( X)
0,1
Las varianzas de los coeficientes estandarizados de regresin b1 , b2 son:

122

Anlisis de Regresin

P. Reyes / Enero, 2007

V (b1 ) V (b2 )

1
2
2
Y un sistema con colinealidad es:

.1 00000, .0 824215
W 'W

.0 824215, .1 00000

donde

.3 1 841, .2 57023
(W'W )

.2 57023, .3 1 841
1

Las varianzas de los coeficientes estandarizados de regresin b1 , b2 son:

V (b1 ) V (b2 )

3.11841
2
2
Se observa que estn infladas debido a la multicolinealidad.

123

Anlisis de Regresin

P. Reyes / Enero, 2007

4. MODELOS DE REGRESIN POLINOMIAL


4.1

Introduccin

El modelo de regresin lineal en forma matricial Y X es un modelo general


para estimar cualquier relacin que sea lineal en los parmetros desconocidos .
Esto incluye a los modelos de regresin polinomial de segundo orden en una variable
y en dos variables. Los cuales son ampliamante utilizados en situaciones donde la
respuesta es curvilinea o muy compleja, pero que puede ser modelada por
polinomios en una regin con pequeos rangos en las Xs.
Y 0 1 X 1 2 X 2 11 X 12 22 X 22 12 X 1 X 2

4.2. Modelos polinomiales en una variable


El modelo denominado cuadrtico es el siguiente:
Y 0 1 X 2 X 2

Normalmente se denomina a 1 el parmetro del efecto lineal y 2 el parmetro del


efecto cuadrtico. Como regla general el uso de polinomios de ms alto orden debe
evitarse a menos que no haya otra alternativa.

124

Anlisis de Regresin

P. Reyes / Enero, 2007

BIBLIOGRAFA
Montgomery, Doglas C., Peck, Elizabeth A., Introduction to Linear Regression
Analysis, John Wiley and Sons, 2 edition, Inc., New York, 1992
Chatterjee, Samprit, Price, Bertram, Regression Analysis by Example, John Wiley
and Sons, Inc., 2 edition, 1991
Draper, Norman R., Smith, Harry, Applied Regression Analysis, John Wiley and Sons,
Inc., New York, 1998

125

Anlisis de Regresin

P. Reyes / Enero, 2007

TAREA NO. 1 DE ANALISIS DE REGRESIN


Con apoyo de Minitab
11/11/00

PROBLEMA 2.1
Calcular lo siguiente (Y vs X8):
a) La recta de regresin
The regression equation is
Y = 21.8 - 0.00703 X8
b) La tabla ANOVA y prueba de significancia
Analysis of Variance
Source
Regression
Residual Error
Total

DF
1
26
27

SS
178.09
148.87
326.96

MS
F
P
178.09 31.10
0.000
5.73
Ftablas=F1,26,0.05=4.23

Nota: Como p = 0 equivale a Fc > F tablas y se rechaza la Ho: Beta1 = 0


quiere decir que existe la recta de regresin
c) El intervalo de confianza al 95%
de la pendiente b1
Predictor
Constant
X8

Coef
21.788
-0.007025

StDev
2.696
0.001260

T
8.08
-5.58

P
0.000
0.000

El intervalo de confianza para 1 se calcula como sigue:


t0.025,26 = 2.056
b1 t*std dev (Predict.X8) =-0.007025 2.056* (0.00126) =
-0.0096 <= 1 <= -0.004435;
El iuntervalo de confianza para 0 es:
b0 t*std dev (Constant) =21.788 2.056* (2.696);
d) % de la variabilidad explicada por la
regresin
R-Sq = 54.5%
e) El intervalo de confianza a un 95% para la media
del valor estimado de Y, cuando Xo = 2000 yardas (corresponde a CI).
126

Anlisis de Regresin

P. Reyes / Enero, 2007

Predicted Values
Fit StDev Fit 95.0%CI para media
7.738
0.473 (
6.766;
8.710)

95.0% PI p.valor futuro


(
2.724; 12.752)

f) Probar la hiptesis nula de que el coeficiente de


correlacin es cero. Ho: = 0
t0

0.738234 26
5.58055
1 0.545

Ttablas 0.025,26 = 2.056

Cmo to > ttablas, se rechaza Ho. Es decir que es diferente de cero.


g) Probar la hiptesis nula de que el coeficiente de
correlacin es Ho: 0 = -0.80
Zo = -0.76006
Z tablas = Z0.025 = 1.96
Cmo Zo < |Ztablas| no hay evidencia suficiente para rechazar Ho
h) Encontrar el intervalo de confianza del 95% para .
- 0.87134<= <= - 0.50396
i) Con Minitab construir las sig. grficas de residuos
y comentar acerca de la adecuacin del modelo
- Grfica de probabilidad normal
- Grfica de residuos contra Yi est.
- Grfica de residuos contra Xi8..
Los residuos muestran una variacin normal con varianza constante
j) Graficar los residuos contra el porcentaje de juegos
ganados X7i, se mejora el modelo agregando esta
variable?.
No se mejora la distribucin de los residuos
The regression equation is
Y = 17.9 - 0.00654 X8 + 0.048 X7
S = 2.432

R-Sq = 54.8%

R-Sq(adj) = 51.1%

127

Anlisis de Regresin

P. Reyes / Enero, 2007

Al agregar la nueva variable X7, el modelo no mejora realmente (comparar R^2)


PROBLEMA 2.2
Si las yardas ganadas se limitan a 1800. Hallar el intervalo de prediccin
al 90% en el nmero de juegos ganados (corresponde a PI).
t(0.05,26) = 1.705616
Intervalo

Alfa = 0.1

8.1238 <= Ymedia <=10.16

128

4.936<=Ypuntual<=13.35

Anlisis de Regresin

P. Reyes / Enero, 2007

PROBLEMA 2.3
Calcular lo siguiente:
a) La recta de regresin
The regression equation is
Y1 = 607 - 21.4 X4
b) La tabla ANOVA y prueba de significancia
Analysis of Variance
Source
DF
Regression
1
Residual Error 27
Total
28

SS
10579
4103
14682

MS
F
P
10579
69.61
0.000
152
Ftablas=F1,27,.05=4.21

Como Fc=69.61 es mayor que Ftablas=4.21, se rechaza Ho y existe la


regresin
c) El intervalo de confianza al 99%
de la pendiente 1
Predictor
Coef
Constant
607.10
X4
-21.402

StDev
42.91
2.565

T
14.15
-8.34

P
0.000
0.000

El intervalo de confianza para 1 se calcula como sigue:


t0.005,27 = 2.771
7.1076
b1 t*std dev (Predict.X4) =-21.402 2.771* (2.565) =
-28.5096 <= 1 <= -14.2943
d) % de la variabilidad explicada por la
regresin R^2
R-Sq = 72.1%

R-Sq(adj) = 71.0%

e) El intervalo de confianza a un 95% para la media


del valor estimado de Y, cuando Xo = 16.5 (corresponde a CI).
Predicted Values
Fit StDev Fit 95.0% CI para media 95.0% PI p.valor futuro
253.96 2.35
( 249.15; 258.78) ( 228.21; 279.71)
f) Probar la hiptesis nula de que el coeficiente de

129

Anlisis de Regresin

P. Reyes / Enero, 2007

correlacin es cero. Ho: = 0


t0

0.84882 27
8.3427
1 0.7205

Ttablas 0.025,27 = 2.052

Cmo to > Ttablas, se rechaza Ho. Es decir que es diferente de cero.


g) Probar la hiptesis nula de que el coeficiente de
correlacin es 0 = - 0.80.
Zo = 0.78172
Z tablas = Z0.025 = 1.96
Cmo Zo < |Ztablas| no hay evidencia suficiente para rechazar Ho
h) Encontrar el intervalo de confianza del 95% para .
- 0.927 <= <= - 0.7
i) Con Minitab construir las sig. grficas de residuos
y comentar acerca de la adecuacin del modelo
- Grfica de probabilidad normal
- Grfica de residuos contra Yi est.
- Grfica de residuos contra Xi4.
Unusual Observations
Obs X4
Y1
Fit
StDev Fit
Residual
St Resid
22 17.6 254.50 229.99 3.28
24.51
2.06R
24 19.1 181.50
199.39 6.44
-17.89
-1.70 X
25 16.5 227.50
253.75 2.34
-26.25
-2.17R
R denotes an observation with a large standardized residual
X denotes an observation whose X value gives it large
influence.
Los residuos no muestran una distribucin aleatoria

130

Anlisis de Regresin

P. Reyes / Enero, 2007

PROBLEMA 2.7
a) Ecuacin de regresin
The regression equation is
Y78 = 77.9 + 11.8 X78
b) Probar la hiptesis nula de que Ho: 1 = 0
Analysis of Variance
Source
Regressio
Residual
error
Total

DF
1
18

SS
148.31
232.83
19

MS
148.31
12.94
381.15

F
11.47

P
0.003

Ftablas = F0.05,1,18=4.41

Cmo Fc > F tablas se rechaza la hiptesis Ho, implicando 1 0


c) Calcular R^2
R-Sq = 38.9%
d) Encontrar el intervalo de confianza al 95% para la pendiente:
Predictor
Constant
X78

Coef
77.863
11.801

StDev
4.199
3.485

T
18.54
3.39

P
0.000
0.003

t0.025,18 = 2.101
b1 t*std dev (Predict.X78) =11.801 2.101* (3.485) =
4.47699 <= 1 <= 19.12301
e) Encontrar el intervalo de confianza para la pureza media si el % de hidrocarbono
es de 1.00
Predicted Values
Fit StDev Fit 95.0% CI p. la media 95.0% PI p. valor futuro
89.664 1.025
( 87.510; 91.818) ( 81.807; 97.521)

131

Anlisis de Regresin

P. Reyes / Enero, 2007

PROBLEMA 2.8
a) Cul es la correlacin entre las dos variables?
R-Sq = 38.9%

entonces r = 0.6237

b) Probar la Hiptesis nula Ho: = 0


t0

0.6237 18
3.38527
1 0.389

Ttablas 0.025,18 = 2.101

Cmo to > Ttablas, se rechaza Ho. Es decir que es diferente de cero.


c) Contruir un intervalo de confianza del 95% para .
0.25139 <= <= 0.8356

PROBLEMA 2.9
a) Ecuacin de regresin
The regression equation is
Y9 = - 6.33 + 9.21 X9
b) Probar la significancia de la regresin
Analysis of Variance
Source
Regressi
Residual
error
Total

DF
1
10

SS
280590
38

11

280627

MS
280590

F
74122.78

P
0.000

Como el valor de p es cero, se rechaza la hiptesis Ho: 1 = 0, por tanto existe la


regresin.
c) Si se incrementa la temperatura ambiente promedio en un grado, el consumo de
vapor se incrementa en 10 unidades. se soporta esta afirmacin?.
Column Mean
Mean of X9 = 46.500; se incrementa en un grado

132

Anlisis de Regresin

P. Reyes / Enero, 2007

Predicted Values
Fit StDev Fit
421.862 0.562
431.070 0.563

95.0% CI
( 420.610; 423.113)
( 429.816; 432.324)

95.0% PI
( 417.350; 426.374)
( 426.557; 435.583)

Por los resultados observados se cumple la afirmacin


d) Intervalo de prediccin con un 99% de nivel de confianza para Xo = 58.
Predicted Values
Fit StDev Fit
527.759 0.683

99.0% CI
( 525.593; 529.925)

99.0% PI
( 521.220; 534.298)

PROBLEMA 2.10
a) Encontrar el coeficiente de correlacin r
R-Sq = 100.0%

por tanto r = 1

b ) Probar la Hiptesis nula Ho: = 0


t0

0.999 10
272.25
1 0.999

Ttablas 0.005,10 = 1.812

Cmo to > Ttablas, se rechaza Ho. Es decir que es diferente de cero.


c) Contruir un intervalo de confianza del 95% para .
0.99 <= <= 0.999

133

Anlisis de Regresin

P. Reyes / Enero, 2007

FRMULAS DE REGRESIN LINEAL MLTIPLE


Modelos de Regresin Mltiple
Asumiendo que N observaciones de la respuesta se tiene:
Yu 0 1 X u1 2 X u 2 ....... k X uk u

(3.1)

Para N observaciones el modelo en forma matricial es:


Y = X + = [1 : D] +

(3.2)

k es el nmero de variables independientes o regresores


Y es un vector N x 1.
X es una matriz de orden N x (k + 1), donde la primera columna es de 1s.
es un vector de orden (k + 1) x 1.
es un vector de orden N x 1.
D es la matriz de Xij con i = 1, 2, ..., N; j = 1, 2, ......, k

Se trata de encontrar el vector de estimadores de mnimos cuadrados b que


minimicen:
n

S ( ) i2 ' (Y X )' (Y X )
i 1

quedando

XX b = X Y

(3.4)

A) VECTOR DE ESTIMADORES DE MINIMOS CUADRADOS b de

b = (XX)-1 XY

(3.5)

B) VARIANZAS Y COVARIANZAS DE b
Var(b) = C = (XX)-1 2

(3.6)

2
El elemento (ii) de esta matriz cii Var (bi ) es la varianza del elemento bi .
El error estndar de bi es la raz cuadrada positiva de la varianza de b i o sea:
se.bi cii 2
(3.7)

La covarianza del elemento bi y bj de b es Co var(cij ) cij .


La desviacin estndar se estima como sigue:
2

(3.8)

SSE (Yi Y ) 2 ei2 e' e ; con p = k +1 parmetros del modelo se tiene:


i 1

SSE (Y Xb)' (Y Xb) Y ' Y b' X ' Y Y ' Xb b' X ' Xb Y ' Y 2b' X ' Y b' X ' Xb

134

Anlisis de Regresin

s 2 MSE

P. Reyes / Enero, 2007

SSE
Np

(3.15)

C) INTERVALO DE CONFIANZA PARA LOS COEFICIENTES j


Con intervalo de confianza 100(1 - )% , para j = 0, 1, ...., k es:
b j t / 2 ,n p se(b j ) j b j t / 2 ,n p se(b j )

(3.17)
Donde se(bj) es el error estndar del coeficiente de regresin bj.
se(b j )

S 2 C jj

(3.18)

Siendo Cjj el j-simo elemento de la matriz (XX)-1 .

D) INTERVALO DE CONFIANZA PARA LA RESPUESTA MEDIA Yo en


Xo
El intervalo de confianza para el 100( 1 - ) % es:
Y0 t / 2 ,n p

S 2 X ' 0 ( X ' X ) 1 X 0 Y0 Y0 t / 2 ,n p

S 2 X ' 0 ( X ' X ) 1 X 0

(3.21)

E) TABLA ANOVA PARA LA REGRESIN


H 0 : 1 2 .... k 0 ; H a : i 0, i 1,2,..., k

Ho se rechazar si Ft >= Fo
Fuente de
variacin
Regresin
Residuos
Total

SS
SSR
SSE
SST=SSR+SSE

df
k= p-1
nk1= N-p
n 1=k+(n-k+1)

MS
MSR
MSE

F0
.
MSR/MSE
Ft=F,p-1,N-p

Donde:
N

__

SST (Yu Y ) 2 con N-1 grados de libertad

(3.24)

u 1

N ^

__

SSR (Y ( xu ) Y ) 2

con p (parmetros) 1 grados de libertad

u 1

135

(3.25)

Anlisis de Regresin

P. Reyes / Enero, 2007

SSE (Yu Y ( xu )) 2

con (N-1) (p 1) grados de libertad

(3.26)

u 1

En forma matricial se tiene:


(1' Y ) 2
N
(1' Y ) 2
SSR b' X ' Y
N
SSE Y ' Y b' X ' Y
SST Y ' Y

(3.27)
(3.28)

F) PRUEBA DE LA SIGNIFICANCIA DE LOS COEFICIENTES INDIVIDUALES


BETAx
H0 : j 0

H1 : j 0

Si no se rechaza Ho quiere decir que el regresor Xj puede ser excluido del modelo,
Ho es rechazada si t 0 t / 2 ,n k 1 , donde:
t0

bj
se(b j )

G) INTERVALO DE PREDICCIN PARA LA RESPUESTA Yo en Xo


El intervalo de confianza para el 100( 1 - ) % es:
Y0 t / 2,n p

S 2 (1 X ' 0 ( X ' X ) 1 X 0 ) Y0 Y0 t / 2,n p

136

S 2 (1 X ' 0 ( X ' X ) 1 X 0 )

S-ar putea să vă placă și