Notas de Clase RLS

Regresin Lineal Simple, Estadstica II 3006915
Prof. Nelfi Gonzlez A. Escuela de Estadstica
1.
Introduccin
En muchas ocasiones es posible disear experimentos estadsticos controlados, en los cules es factible el estudio simultneo de varios factores, aplicando procedimientos de aleatorizacin apropiados, en lo que se conoce como diseo y anlisis de experimentos. Sin embargo en otras ocasiones slo se cuenta con un conjunto de datos sobre los cules es difcil esperar que hayan sido observados en condiciones estrictamente controladas, y de los cules tambin en pocas ocasiones se tienen rplicas para calcular el error experimental. Cuando se enfrenta la situacin anterior lo ms apropiado es aplicar los mtodos de regresin. Debe tenerse presente que los mtodos de regresin permiten establecer asociaciones entre variables de inters entre las cules la relacin usual no es necesariamente de causa - efecto. En principio, consideramos una asociacin lineal entre una variable respuesta Y y una variable predictora X (es decir, de la forma y = f ( x ) = 0 + 1 x ).
2.
2.1 Nomenclatura 9 Y 9 X 9 9 0 , 1
9 0
Fundamentos
Variable respuesta o dependiente Variable predictora, independiente o regresora Error aleatorio Parmetros de la regresin. 0 es el intercepto y 1 la pendiente de la lnea recta. Estimador del parmetro 0 Estimador del parmetro 1 Residual, es una estimacin del error aleatorio. Es la estimacin de E (Y | X ) Y |X
9 1
9 e
9 Y
2.2
Significados de la regresin
La regresin tiene dos significados: 9 Primero, podemos verla a partir de la distribucin conjunta de las variables X e Y , en la cual podemos definir la distribucin condicional de Y | X , esto es, f (Y | X ) , y determinar E (Y | X ) . En este caso la regresin pretende ajustar la curva correspondiente a E (Y | X ) .
9 Segundo, dado un conjunto de pares de datos
( X ,Y ) ,
puede asumirse una forma funcional para la curva de
regresin y tratar de ajustarla a los datos minimizando el error de ajuste. El segundo caso es el que ms se da en la prctica. 2.3 Supuestos la variable predictora X en un intervalo de inters. 9 Por lo anterior, la variable predictora X no es considerada como variable aleatoria, sino como un conjunto de valores fijos que representan los puntos de observacin, que se seleccionan con anticipacin y se miden sin error. Sin embargo si esto ltimo no se cumple, el mtodo de estimacin de mnimos cuadrados ordinarios para los parmetros del modelo de regresin puede seguir siendo vlido si los errores en los valores de la variable predictora son pequeos en comparacin con los errores aleatorios del modelo i . 9 Los datos observados, ( xi , yi ) ,i = 1, ,n , constituyen una muestra representativa de un medio acerca del cual se desea generalizar. Si no es as, no es apropiado realizar inferencias en un rango de los datos por fuera del considerado. 9 El modelo de regresin es lineal en los parmetros. Es decir, ningn parmetro de la regresin aparece como el exponente o es dividido o multiplicado por el otro parmetro, o cualquier otra funcin. Sin embargo, la lnea de ajuste puede tener una curvatura (no ser lineal en X y/o en Y ), caso en el cual mediante una transformacin conveniente de las variables ( X y/o Y ), es posible aplicar las tcnicas de regresin lineal sobre estas nuevas variables. 9 Si la ecuacin de regresin seleccionada es correcta, cualquier variabilidad en la variable respuesta que no puede ser explicada exactamente por dicha ecuacin, es debida a un error aleatorio.
9 La variable respuesta Y es una variable aleatoria cuyos valores se observan mediante la seleccin de los valores de
9 Los valores observados de la variable respuesta no son estadsticamente dependientes. Se supone que cada valor observado de Y est constituido por un valor real y una componente aleatoria. 9 El modelo estadstico de regresin con una muestra de n pares ( X i ,Yi ) es:
Y | X i = 0 + 1 X i + i , i = 1, 2 , , n , E (Y | X i ) = 0 + 1 X i
9 Los errores aleatorios 9 Los errores aleatorios
i ~ N ( 0 , 2 ) , i = 1, 2 , , n
i son estadsticamente independientes. Por tanto:
COV i , j = 0 i , j i j , COV Yi ,Y j 0 i , j i j
9 La varianza de los errores aleatorios es 2 , i , i = 1, 2 , , n (supuesto de varianza constante) pero desconocida. Dado que los valores X i de la variable predictora no son considerados aleatorios y que los errores son independientes, la varianza de los Yi tambin es 2 , i y por tanto este parmetro es independiente del punto de observacin (es decir, del valor de X ). Pero en el caso que esta ltima suposicin no pueda aplicarse, entonces el mtodo de regresin empleado ser el de mnimos cuadrados ponderados. Con estas consideraciones y las anteriores, podemos afirmar que:
Y | X i ~ N ( 0 + 1 X i , 2 )
3.
Estimacin por mnimos cuadrados ordinarios
Para una seleccin preliminar de la variable predictora en un modelo de regresin simple (o sea que considera una sola variable predictora) es conveniente realizar el diagrama de dispersin Y vs. X y mirar si existe una tendencia lineal en la nube de puntos. Si la nube de puntos parece mejor ajustada por un curva hay que buscar una transformacin apropiada en X y/o Y que linealice; en este caso el modelo de regresin lineal a ajustar ser: Y * | X i* = 0 + 1 X i* + i , i = 1, 2 , , n donde
Y * y X * son las variables Y y X transformadas.

Debe tenerse claro que el mtodo de mnimos cuadrados es un mtodo numrico, no estadstico; La estadstica opera a partir de los supuestos distribucionales asignados en el modelo de regresin. 3.1 Objetivo
Obtener estimaciones de los parmetros de regresin, es decir hallar 0 y 1 , tales que minimicen la suma de los cuadrados de los errores S ( 0 , 1 ) : 3

n n

2
S ( 0 , 1 ) = i2 = Yi ( 0 + 1 X i )
i =1 i =1
3.2
Valor de los estimadores
Dados los pares de observaciones ( x1 , y1 ) , , siguiente sistema de ecuaciones:
( xn , yn ) , hallar
0 y 1 que minimicen a S ( 0 , 1 ) implica resolver el
S ( 0 , 1 ) =0 0 S ( 0 , 1 ) =0 1
De lo cual surgen las denominadas ecuaciones normales:
y
i =1 n i =1
=n 0 + 1 xi
i =1 n n
xi yi = 0 xi + 1 xi2
i =1 i =1
y de stas tenemos que las estimaciones por mnimos cuadrados de los parmetros son:
= y x 0 1 = 1 n x i yi x i yi
i =1 i =1 i =1 n n n
n x xi i =1 i =1
n 2 i n
x y
i =1 i
nx y nx 2
x
i =1
2 i
o bien:
= 1
( x
i =1 n
x )( yi y )
i
( x
i =1
x)
o bien:
= 1
( x
i =1 n i =1
x ) yi
i
( x
x)
y por tanto una estimacin de la respuesta media (o respuesta ajustada) es:
+ x yi = 0 1 i
o bien:
yi = y + ( x i x ) 1
3.3 Sumas de cuadrados y de productos cruzados Expresin
n n
Tipo de suma de cuadrados Suma de cuadrados corregidos en x Suma de cuadrados corregidos en y. Tambin es conocido como suma de cuadrados totales ( SST o
S xx = ( xi x ) = xi2 nx 2
2 i =1 i =1
S yy = ( yi y ) = yi2 ny 2
2 i =1 i =1
S yy )
Suma de productos cruzados corregidos: Suma de los cuadrados de los errores: Es la estimacin
S xy = ( xi x )( yi y ) = ( xi x ) yi
i =1 i =1 2 S SSE = ei2 = ( yi yi ) = S yy 1 xy i =1 i =1 n n
yi el i-simo residuo, de S ( 0 , 1 ) . Sea ei = yi

entonces:
Suma de cuadrados de regresin SSR
2 2 S , o bien SSR = ( yi y ) , o bien SSR = 1 xx i =1
S SSR = 1 xy
puede ser expresado en funcin de S y de S , as: = S xy NOTA: 1 1 xy xx S xx
4.
Estimacin por mxima verosimilitud (Estimadores MLE)
El mtodo de mnimos cuadrados produce los mejores estimadores lineales insesgados para los parmetros de la recta y puede ser usado para la estimacin de parmetros de un modelo de regresin lineal sin consideraciones distribucionales sobre 5
los errores. Sin embargo, para poder aplicar tests de hiptesis y construir intervalos de confianza, es necesario realizar y validar tales supuestos. Considerando para el modelo de regresin lineal simple los supuestos de normalidad, independencia y varianza constante para los errores, podemos usar el mtodo de estimacin de mxima verosimilitud (MLE). Sea
( x1 , y1 ) , , ( xn , yn )
los
iid
pares de datos observados, donde Y | X i = 0 + 1 X i + i , i = 1, 2 , , n ,
E ( Y | X i ) = 0 + 1 X i y i ~ N 0 , 2 , i = 1, 2 , , n . Asumiendo fijos los niveles o valores en que
vimos que Y | X i ~ N 0 + 1 X i , 2 verosimilitud
) ).
es observada,
Sea
. La funcin de observaciones,
L ( 0 , 1 , 2 | x,y )
es hallada a partir de la distribucin conjunta de las
f ( y1 , , yn | 0 , 1 , 2 ) , que por la condicin de independencia es igual al producto de las densidades de probabilidad

marginales, por tanto, podemos escribir,
El objetivo es hallar los parmetros desconocidos (el logaritmo natural de ).
, que maximicen
, o equivalentemente, que maximicen
Observe que para cualquier valor de que minimizan
fijo,
es maximizado como una funcin de y as, los estimadores MLE y
por aquellos valores y
son iguales a los y en
respectivos estimadores de mnimos cuadrados, , y hallamos que maximiza a,
. Para hallar el estimador MLE para
substituimos
, de donde obtenemos como estimador MLE de a
Resumiendo, bajo el modelo de regresin lineal normal, es decir, con errores independientes e idnticamente distribuidos , los estimadores de mnimos cuadrados para y son tambin estimadores de mxima verosimilitud y en tal caso, podemos construir intervalos de confianza y realizar pruebas de hiptesis basadas en las estimaciones obtenidas.
5.
Estimacin de la varianza 2
Puede demostrarse que bajo los supuestos del modelo en relacin a los errores, un estimador insesgado de la varianza es:
2 = s2 =
esto es, estimador MLE . como,
SSE n2
, es decir, es un estimador sesgado de
tambin recibe el nombre de error cuadrtico medio MSE. Observe que podemos escribir el , por tanto
la varianza, mas asintticamente es insesgado (
). Tambin puede demostrarse que los estimadores
MLE son de mnima varianza cuando son comparados a todos los posibles estimadores insesgados y son consistentes, es decir, a medida que aumenta el tamao de la muestra, la diferencia entre estos y el respectivo parmetro va para cero.
6.
Propiedades de los estimadores de mnimos cuadrados bajo el modelo normal
Bajo los supuestos considerados respecto a los errores tenemos que:

y son los mejores estimadores lineales insesgados de y 1. Los estimadores de mnimos cuadrados 0 1 0 1
respectivamente, y corresponden a los estimadores de mxima verosimilitud bajo los supuestos estadsticos del modelo
+ X es un estimador insesgado para = lineal. Por tanto Y 0 1
Y |X = E [Y | X ] .
y son combinaciones lineales de las variables aleatorias Y , , Y , pues estos pueden escribirse como: 2. 0 1 1 n
Estimadores
Pesos en las combinaciones lineales
= mY ii 0
i =1
n
mi =
1 c x n i
= cY ii 1
i =1
ci =
xi x S xx
y son variables Y por tanto, como Y1 , , Yn son variables normales e incorrelacionadas, entonces 0 1
aleatorias normales.
y , y de la respuesta ajustada en un valor de X = x dado, es: 3. La varianza de los estimadores 0 1 i
Para 1
n V 1 = V ciYi i =1
Para 0
n V 0 = V miYi i =1
Para Y i
+ x = V V Y i 0 1 i
( )
( )
( )
)
) ) ( )
2 2
= = =
c V (Y )
i =1 n 2 i i
= =
m V (Y )
i =1 n 2 i i
n = V m j + c j xi Y j j =1
(
j
c
i =1 2 i
m
i =1 2 i
(m
j =1 2 n
+ c j xi V Y j
2
S xx
x
i =1
2 i
1 = + ( xi x ) c j j =1 n 1 ( x x )2 = + i n S xx
2
nS xx
4. la covarianza entre los estimadores de los parmetros es:

n n COV 0 , 1 = COV miYi , ciYi i =1 i =1
= =
m c COV (Y ,Y ) + m c COV (Y ,Y )
i =1 n i i i i i =1 j i i j i j
m c V (Y )
i =1 i i i n i =1
= 2 m i ci =
2x
S xx
5. la covarianza entre la variable respuesta y su correspondiente estimador en un valor dado de X = xi es:
+ x = COV Y , COV Yi ,Y i i 0 1 i
)
)
n
n = COV Yi , m j + c j xi Y j j =1
= =
( mi + ci xi ) COV (Yi ,Yi ) + m j + c j xi COV Yi ,Y j ( m i + ci x i ) 2 1 ( xi x ) 2 +

S xx
8
ji
= n
6. La suma de los residuales del modelo de regresin con intercepto es siempre cero:
e
i =1 n
=0
7. La suma de los valores observados yi es igual a la suma de los valores ajustados yi :
y y =
i =1 i i =1
8. La lnea de regresin siempre pasa a travs del centroide de los datos ( x , y ) 9. La suma de los residuales ponderados por el correspondiente valor de la variable predictora es cero:
xe
i =1
i i
=0
10. La suma de los residuales ponderados por el correspondiente valor ajustado es siempre igual a cero:
ye
i =1
i i
=0
7.
Inferencias sobre los parmetros del modelo de regresin
Podemos demostrar que bajo los supuestos del modelo de regresin, se cumple que (NOTA: s = MSE ; t n 2 es la v.a TStudent con n 2 grados de libertad, y t / 2 ,n 2 es el percentil de la distribucin T-Student con n 2 grados de libertad tal que P ( t n 2 > t / 2 ,n 2 ) = / 2 ): Parmetro Test de significancia Estadstico de prueba Criterio de rechazo Intervalo de confianza del (1-)100%
T0 =
0 0 s
H0 : 0 = 0 H1 :
0 0
x
i =1
~ t n 2 T0 > t / 2 ,n 2
t 0 / 2 ,n 2 s
2 i
/ nS xx
x
i =1
2 i
/ nS xx
con
0 = 0 en el test de
1 1 s 1 / S xx
significancia
H 0 : 1 = 0 H1 : 1 0 con = 0 en el test de 1
significancia
T0 =
~ t n 2
T0 > t / 2 ,n 2
t 1 / 2 ,n 2 s 1 / S xx
NOTAS: 9 Si la pendiente es significativa, entonces la regresin lo es, es decir, la variabilidad en la variable respuesta explicada por la regresin en X es significativa respecto a la variabilidad total observada. 9 Para otros Testes sobre los parmetros, 0 y 1 toman los valores especificados en H0 en el estadstico de prueba respectivo, y los criterios de rechazo se establecen segn la desigualdad planteada en la hiptesis alternativa.
8.
Inferencias respecto a la respuesta media Y |x0 y valores futuros

n
Desde que los valores ajustados de la variable respuesta tambin son combinaciones lineales de las variables aleatorias
= Y1 , , Yn , esto es, Y m j + c j xi Y j , con las constantes c j y m j como fueron especificadas previamente, bajo los i
j =1
son variables aleatorias normales (mas no supuestos de normalidad e independencia, podemos afirmar que las variables Y i estima a = E Y | X = x . Podemos hacer inferencias sobre esta media, as como independientes). Recuerde que Y Y |xi i i
predecir un valor futuro Y0 de la respuesta en un valor fijo de X = x0 . As, bajo los supuestos del modelo obtenemos: (NOTA: s = MSE ) Para la respuesta media en X = x0 Testes de Cantidad hiptesis Estadstico de prueba Intervalo de confianza del (1-)100%
T0 =
Y 0 Y |x0 s 1 ( x0 x ) + n S xx
2
~ t n 2
Y |x
H 0 : Y |x0 = c
1 ( x0 x ) y0 t / 2 ,n 2 s + n S xx
+ x y0 = con 0 1 0
+ x y =c = con Y Y |x0 0 0 1 0
Para una respuesta futura en X = x0 Intervalo de prediccin Cantidad Pronstico

T0 =
Estadstico
Y Y 0 0 s 1+
2 1 + ( x0 x ) / S xx n
del (1-)100%
~ tn 2
Y0
Y 0
1 ( x x) y0 t / 2 ,n 2 s 1 + + 0 n S xx
+ x y0 = con 0 1 0
+ x = con Y 0 0 1 0
10
Los intervalos de prediccin estiman los posibles valores para un valor particular de la variable respuesta (no para su media) en un valor X = x0 dado. Asumimos que en este valor particular tenemos un valor futuro de la variable aleatoria Y, y por
+ x es su estimador, entonces estas = tanto, no es utilizado en la regresin. Por tanto, si Y0 es un valor futuro y Y 0 0 1 0 y , de ah dos variables aleatorias son estadsticamente independientes, desde que Y0 no fue utilizado para hallar a 0 1
el estadstico y los lmites del intervalo de prediccin resultantes. Precaucin: No realizar extrapolaciones por fuera del rango de variacin observado en el conjunto de datos sobre la variable explicatoria.
9.
Anlisis de varianza para probar la significancia de la regresin
Consiste en la descomposicin de la variabilidad total observada en la variable respuesta, SST, como la suma de componentes o fuentes de variabilidad de acuerdo al modelo propuesto. Para el caso recurdese que el modelo de regresin lineal plantea que la respuesta es igual a la suma de una componente real no aleatoria 0 + 1 X y un error aleatorio . Se espera que la recta ajustada explique en forma significativa la variabilidad observada en Y . Dadas las condiciones de normalidad, e independencia establecidas para los errores, es posible demostrar que:
n n n
( y
i =1
y) = ( yi y ) + ( yi yi )
2 2 i =1 i =1
De donde:
S + SSE = 2 S + SSE SST = SSR + SSE = 1 xy 1 xx

En virtud de la anterior igualdad, podemos tambin establecer la siguiente identidad para los grados de libertad (g.l) de las sumas de cuadrados:
g.l ( SST ) = entonces ( n 1) =
g.l ( SSR ) + g.l ( SSE ) g.l ( SSR ) + ( n 2 )
Por tanto, g.l ( SSR ) = 1 . Si los errores del modelo son independientes, de varianza constante e idnticamente distribuidos como una N 0 , 2 , entonces SSR / 2 y SSE / 2 se distribuyen como variables aleatorias ji-cuadrada con 1 y n-2 grados de libertad, respectivamente. Sea MSR = SSR / g.l ( SSR ) = SSR y MSE = SSE / g.l ( SSE ) = SSE / ( n 2 ) . 11
De lo anterior, bajo la hiptesis H 0 : 1 = 0 , es posible demostrar que el estadstico F0 = MSR / MSE se distribuye como una F con 1 y n-2 grados de libertad:
F0 =
SSR SSR = 2 ~ f1,n 2 SSE / ( n 2 ) s
En el caso de la regresin lineal simple, la prueba sobre la significancia de la regresin (es decir, si la pendiente de la recta es significativamente diferente de cero) puede realizarse mediante el anlisis de varianza usando un valor crtico f ,1,n 2 de la distribucin F, y a un nivel de significancia de rechazamos la hiptesis nula de que la variabilidad en la variable respuesta es debida slo al error aleatorio (para aceptar la hiptesis de que la regresin en x es significativa) si F0 > f ,1,n 2 . El anlisis de varianza suele presentarse en forma de tabla, conocida como tabla ANOVA, donde los cuadrados medios corresponden a las sumas de cuadrados divididas por sus respectivos grados de libertad: Anlisis de varianza Fuente de variacin Regresin Error Total Suma de cuadrados SSR SSE SST Grados de libertad 1 n-2 n-1 Cuadrado medio MSR MSE F calculada F0=MSR/MSE
Tambin podemos evaluar el valor p de la prueba (significancia ms pequea que conduce al rechazo de H0) que es igual a P ( f1,n 2 > F 0 ) y determinamos si ste es pequeo, para rechazar la hiptesis: el modelo lineal de Y en X no es significativo para explicar la variabilidad de Y. La conclusin obtenida por el anlisis de varianza debe ser la misma que la obtenida cuando se prueba la significancia de la pendiente de la recta de regresin.
10.
regresin apropiada.
Pasos en el Anlisis de regresin
1. Realizar anlisis exploratorio de los datos mediante un diagrama de dispersin para establecer el tipo de curva de 2. Desarrollar uno o ms modelos de regresin tentativos. Ajustar los modelos propuestos. 3. Determinar para cada modelo ajustado si la regresin es significativa 4. Analizar grficos de residuales para:
12
9 Verificar si el modelo lineal es adecuado: Grfico de residuos vs. X (chequear ausencia de patrones sistemticos), test de carencia de ajuste. 9 Verificar si los supuestos sobre el trmino de error se cumplen: Grficos de probabilidad normal, grficos de residuos vs. valores predichos (chequear varianza constante y ausencia de patrones sistemticos). 5. Para los modelos que pasen las pruebas en 4, interpretar los parmetros del modelo lineal ajustado (significado de los valores de intercepto y de la pendiente a la luz de los datos). 6. Construir intervalos y realizar inferencias de inters 7. Hacer predicciones: Slo dentro del rango de valores considerados para la variable predictora o valores cercanos a dicho rango.
11.
Consiste en:
Diagnsticos y medidas remediales
11.1 Diagnsticos para la variable predictora 9 Identificar observaciones extremas (alejadas hacia valores muy grandes o pequeos comparadas con el resto de valores) en X que puedan influenciar el ajuste de regresin. Para ello se recurre a un anlisis descriptivo: boxplots, diagramas de puntos. 9 Identificar patrones en X, si se conoce la secuencia de tiempo que corresponde al conjunto de valores, mediante un grfico de X vs. tiempo o algn ndice de secuencia u orden. 11.2 Diagnsticos del modelo Las desviaciones del modelo pueden ser estudiadas a travs de los residuales. Los seis tipos de desviaciones que pueden presentarse son: 9 La funcin de regresin no es lineal (carencia de ajuste) 9 Los errores no tienen varianza constante 9 Los errores no son independientes 9 Los errores no son normales 9 El modelo ajusta bien pero unas pocas observaciones son outliers 9 Una o varias variables predictoras han sido omitidas en el modelo.
13
(a)

(b)
X Y
(c)

X Y
(d)
X2 X
X2 X
(e)

(f)
Figura 1: Patrones comunes en residuales. (a) y (b) Presencia de un efecto cuadrtico no incluido en el modelo. (c) y (d) Varianza no constante del error. (e) y (f) Efecto lineal de una variable omitida. (g) Modelo
Y
(g)
lineal apropiado y varianza constante
14
11.2.1
No linealidad de la funcin de regresin
Puede identificarse grficamente a travs del grfico de residuales vs. valores predichos o versus valores de la variable predictora. Cuando ocurre esta desviacin, el grfico exhibe un patrn en el cual los residuales se desvan de cero en forma sistemtica, por ejemplo, cuando la nube de puntos de estos grficos presentan forma de una U o de una U invertida. Otra forma de probar la no linealidad del modelo, es mediante el test de carencia de ajuste. Este test prueba que un tipo especfico de funcin de regresin ajusta adecuadamente a los datos. El test asume que los valores de Y dado X son: 9 independientes 9 se distribuyen en forma normal 9 tienen varianza constante Esta prueba requiere que en uno o ms valores de X haya ms de una observacin de Y. Los ensayos repetidos de manera independiente para el mismo nivel de la variable predictora son denominados replicaciones. Para explicar en qu consiste esta prueba, es necesario modificar la notacin usada de la siguiente manera:
Yij Xj nj
La respuesta i-sima en el j simo nivel de X. El j-simo nivel de valores de X, supondremos j=1, 2,, k Nmero de observaciones de Y tomadas en el j-esimo nivel de X. Por tanto, el total de observaciones tomadas es
n = nj
j =1 k
Se define primero un modelo lineal general (modelo completo) que corresponde a
Yij = j + ij
donde j = E Yij , es decir, es la media de la variable respuesta en el j-simo nivel de X.
( )
j = Y j , es decir, la media muestral de Y Para el anterior modelo, los estimadores de mxima verosimilitud corresponden a
en el nivel j de X. Esta cantidad tambin corresponde al valor predicho para Y en el nivel j de X. Por tanto, la suma de cuadrados del error del modelo general es dada por
nj
SSPE = Yij Y j
j =1 i =1
15
que corresponde a la suma de cuadrados del error puro cuyos grados de libertad son n k . Se define ahora el modelo lineal reducido para la hiptesis nula de la prueba, el cual, para el caso de la regresin lineal es
E (Y | X ) = 0 + 1 X . Luego la prueba formula que
H 0 : E ( Y | X ) = 0 + 1 X H1 : E ( Y | X ) 0 + 1 X
Es decir, H0 postula que j est relacionado linealmente a Xj, j = 0 + 1 X j . Por tanto, el modelo reducido bajo H0 es:
Yij = 0 + 1 X j + ij
que no es ms que el modelo de regresin lineal para el cual la suma de cuadrados del error es
k nj
SSE = Yij Y ij
j =1 i =1
+ X y los grados de libertad iguales a n 2 . Observe que todas las observaciones de Y en el mismo =Y = con Y ij j 0 1 j , de ah que se pueda escribir la anterior ecuacin del SSE por nivel j de X tienen igual valor ajustado Y j
SSE = Yij Y j
j =1 i =1 k nj
Puede mostrarse, que el procedimiento de prueba realiza la descomposicin:
SSE = SSPE + SSLOF

donde SSLOF es la suma de cuadrados de carencia de ajuste dada por:
SSLOF = SSE SSPE =

j =1 i =1
nj
Yj Y j
) = n (Y
2 k j =1 j
Y j
cuyos grados de libertad son iguales a gl ( SSE ) gl ( SSPE ) = k 2
El estadstico de prueba es
F0 =
SSLOF / ( k 2 ) ~ f k 2 ,n k . SSPE / ( n k )
16
Se rechaza H0, a un nivel de significancia si F0 > f ,k 2 ,n 2 . En tal caso se concluye que el modelo de regresin no es lineal en X. Observe que son necesarios ms de dos niveles de valores en X para probar que el modelo de regresin es lineal. En la tabla ANOVA puede presentarse el test de carencia de ajuste descomponiendo el SSE del modelo: Anlisis de varianza Fuente de variacin Regresin Error Carencia de ajuste Error Puro Total NOTAS: 9 En general, en el clculo del SSPE slo se utilizan aquellos niveles j de X en los cuales hay replicaciones. 9 E ( MSPE ) = 2 sin importar cul sea la verdadera funcin de regresin. 9 E ( MSLOF ) = 2 slo si la funcin de regresin es la especificada en H0, de lo contrario E ( MSLOF ) > 2 9 En general, la prueba de carencia de ajuste puede aplicarse a otras funciones de regresin, slo se requiere modificar los grados de libertad del SSLOF, que en general corresponden a k p , donde p es el nmero de parmetros en la funcin de regresin. Para el caso especfico de la regresin lineal simple, p=2. 9 Cuando se concluye que el modelo de regresin en H0 es apropiado, la prctica usual es usar el MSE y no el MSPE como un estimador de la varianza, debido a que el primero tiene ms grados de libertad. 9 Cualquier inferencia sobre los parmetros del modelo lineal, por ejemplo la prueba de significancia de la regresin, slo debe llevarse a cabo luego de haber probado que el modelo lineal es apropiado. Como soluciones al problema el modelo de regresin lineal no es apropiado se tienen: 9 Abandonar el modelo de regresin lineal y desarrollar un modelo ms apropiado. 9 Emplear alguna transformacin en los datos de manera que el modelo de regresin lineal sea apropiado a los datos transformados. 9 Se pueden usar curvas de regresin no paramtricas tambin llamadas curvas suavizadas, para explorar y/o confirmar la forma de la funcin de regresin, por ejemplo el mtodo LOESS. En este caso la curva suavizada se grafica junto 17 Suma de cuadrados SSR SSE SSLOF SSPE SST Grados de libertad 1 n-2 k-2 n-k n-1 Cuadrado medio MSR MSE MSLOF MSPE F0= MSLOF/ MSPE F calculada F0=MSR/MSE
con las bandas de confianza del modelo de regresin; si la primera cae entre las segundas, entonces se tiene evidencia de que el modelo ajustado es apropiado 11.2.2 No constancia de la varianza de los errores
Esto puede establecerse a travs del grfico de residuales vs. valores ajustados o predichos. La grfica 1 presenta los prototipos de residuales con varianza: constante y no constante. Tambin puede recurrirse a un test de homogeneidad de varianza, como el test de Levene Modificado, el cual no depende del supuesto de normalidad; es aplicable cuando la varianza se incrementa o disminuye con X y los tamaos de muestra necesitan ser suficientemente grandes para que la dependencia entre los residuales pueda ser ignorada. Como soluciones al problema de no homogeneidad de varianza se tienen: 9 Mnimos cuadrados ponderados cuando la varianza del error vara de forma sistemtica. En la funcin objetivo de mnimos cuadrados, las diferencias entre los valores observados y esperados de yi es multiplicada por un peso o factor de ponderacin i , tomado en forma inversamente proporcional a la varianza de yi , esto es, la funcin de mnimos cuadrados considerada es S ( 0 , 1 ) = i ( yi 0 1 xi ) .
2 i =1 n
9 Usar transformaciones en Y que estabilicen la varianza. En algunos tipos de relaciones la asimetra y la varianza del error se incrementan con la respuesta media. Cuando la transformacin es logartmica, a veces es necesario sumar una constante a los valores de Y , especficamente cuando existen valores negativos. Se debe tener en cuenta tambin que cuando la varianza no es constante pero la relacin de regresin es lineal, no es suficiente transformar a Y, pues en ese caso aunque se estabilice la varianza, tambin cambiar la relacin lineal a una curvilnea y por ende, se requerir tambin una transformacin en X ; sin embargo, este caso puede manejarse tambin usando mnimos cuadrados ponderados. 11.2.3 No independencia de los errores
Para probar el supuesto de independencia es necesario conocer el orden de las observaciones en el tiempo. En tal caso, podemos analizar el supuesto a travs del grfico de residuales vs. el tiempo u orden de recoleccin de los datos. Buscamos patrones sistemticos como ciclos, rachas, y cualquier otro comportamiento que indique correlacin entre los valores de la serie o secuencia de los residuales. tambin existen testes para incorrelacin como el test de Durbin Watson para autocorrelacin de orden 1, en donde se define el modelo autorregresivo de orden 1 para los errores del modelo
t = 1 t 1 + at con at ~ N ( 0, 2 ) con 1 1 : y bsicamente se prueba si la constante de autocorrelacin 1 es igual

iid
18
zero. Note que esta prueba slo detecta correlacin entre observaciones sucesivas por tanto el no rechazar 1 = 0 no implica incorrelacin entre observaciones separadas k > 1 unidades (en el tiempo u orden de observacin). RECUERDE QUE: Incorrelacin no implica independencia estadstica, pero independencia estadstica implica incorrelacin, sin embargo si el par de variables incorrelacionadas se distribuyen conjuntamente en forma normal, entonces son independientes!!!. En general, mientras sea desconocido el orden de recoleccin u observacin de los datos, asumimos como vlido el supuesto de independencia. Como soluciones al problema de no independencia de los errores se tienen: 9 Trabajar con modelos con errores correlacionados 9 Adicionar variables de tendencia, estacionalidad. 9 Trabajar con primeras diferencias. 11.2.4 La no normalidad
En las pruebas de normalidad evaluamos:
H 0 : Los errores son normales vs.

H1 : Los errores no son normales,
La validacin de esta prueba puede realizarse bien sea examinando los valores P arrojados por una prueba especfica de normalidad, como el test de Shapiro Wilk, o bien, mediante un grfico de normalidad en cual se evala si la nube de puntos en la escala normal se puede ajustar por una lnea recta. La carencia de normalidad frecuentemente va de la mano con la no homogeneidad de la varianza, por ello, a menudo una misma transformacin de los valores de Y, logra estabilizar la varianza y una aproximacin a la normalidad. En estos casos se debe usar primero una transformacin que estabilice la varianza y evaluar si el supuesto de normalidad se cumple para los datos transformados. Entre las transformaciones que logran corregir la no normalidad se tienen las transformaciones de potencia Box-Cox Y , que comprende la transformacin de logaritmo natural (caso = 0 ). Otra solucin es trabajar con mtodos no paramtricos de regresin. 19
11.2.5
Presencia de outliers
Se has desarrollado mtodos formales y grficos para la identificacin de outliers (puntos atpicos). Entre los mtodos grficos, se utilizan los grficos de residuales vs. X o vs. valores ajustados. Se recomienda trabajar con residuales estandarizados e / MSE . Residuales a ms de dos desviaciones estndar son sospechosas y aquellos a ms de tres desviaciones estndar se consideran outliers. Siempre y cuando un outlier sea originado por un error de registro, de clculo o de medicin ste debe ser eliminado. De otra forma hay que proceder con cautela, porque es posible que tal tipo de observacin contenga informacin valiosa sobre un fenmeno especial que no ha sido capturado por el modelo. 11.2.6 Omisin de variables predictoras importantes
Se puede realizar un anlisis para determinar si el modelo puede ser mejorado adicionando otras variables predictoras. El diagnstico se realiza graficando los residuales del modelo actual vs. niveles de la variable omitida y evaluar si los residuales tienden o no a variar sistemticamente con los niveles de la variable predictora adicional.
12.
Transformaciones: Modelos intrnsecamente lineales
Un modelo de regresin se considera lineal cuando lo es en los parmetros, por ello las transformaciones en las variables no implican modelos no lineales. Modelos intrnsecamente lineales son aquellos que relacionan Y con X por medio de una transformacin en Y y/o en X, originando un modelo de la forma Y * = 0 + 1 X * + , donde Y * y X * son las variables transformadas. Ejemplos: MODELO DENOMINACIN Modelo exponencial multiplicativo TRANSFORMACIN
* ajuste Y * = 0 + 1 X + * con Y * = log (Y ) , * 0 = log ( 0 ) y * = log ( )
log ( Y ) = log ( 0 ) + 1 X + log ( )
Y = 0e 1 X
Y = 0 X
Y = 0 + 1 log ( X ) + Y = 0 + 1 (1 / X ) +
Modelo de potencia multiplicativo Modelo logartmico Modelo recproco
* ajuste Y * = 0 + 1 X * + * con Y * = log (Y ) ,

* 0 = log ( 0 ) ,
log (Y ) = log ( 0 ) + 1 log ( X ) + log ( )
X * = log ( X ) y * = log ( )
ajuste Y = 0 + 1 X * + con X * = log ( X ) ajuste Y = 0 + 1 X * + con X * = 1 / X
20
NOTA: 9 Los modelos exponenciales y de potencia aditivos: Y = 0 e 1 X + , y Y = 0 X 1 + no son intrnsecamente lineales. 9 El supuesto necesario es que cuando el trmino de error es transformado, esta variable transformada deber ser
iid N 0 , 2 , por ello deben examinarse los residuales del modelo transformado.
9 Los parmetros del modelo original no lineal, se pueden estimar al destransformar, cuando resulte necesario, los estimadores hallados para los parmetros del modelo transformado. En los casos con modelos exponenciales y de potencia multiplicativos, si es pequeo se puede obtener un intervalo de confianza aproximado para la respuesta media tomando antilogaritmos sobre los lmites del intervalo hallado para la respuesta media para Y * . Sin embargo cuando hacemos esto, en trminos generales, estamos hallando un intervalo de confianza para la mediana de Y (recordar la distribucin lognormal). 9 Si el modelo lineal transformado satisface todas las suposiciones para la regresin lineal simple, las estimaciones de los parmetros originales a travs de transformaciones inversas resultan razonables aunque no insesgadas.
13.
R2 de una regresin: Coeficiente de determinacin muestral
Esta cantidad que aparece en los resultados de la regresin lineal simple, proviene de la razn SSR/SST y por tanto, podemos interpretarla como la proporcin de la variabilidad total observada en la variable respuesta, que es explicada por la relacin lineal con la variable predictora considerada. Ha sido utilizada errneamente como medida para evaluar la bondad del ajuste lineal, pues si bien valores cercanos a 1 indican una mayor asociacin lineal, no necesariamente garantiza que los supuestos bsicos del modelo lineal se estn cumpliendo y menos que no haya carencia de ajuste lineal.
21
14.
Ejemplo en SAS y R
En SAS el procedimiento bsico para regresin es el PROC REG, el programa ms sencillo es:
proc reg data=uno; model y=x; run;
Lo anterior arroja la tabla de anlisis de varianza y la tabla de parmetros estimados. Este programa bsico puede modificarse para obtener grficos, intervalos residuales, etc. como se ilustra en el siguiente ejemplo: El grabado con plasma es esencial para la transferencia de figuras de lneas finas en los procesos de fabricacin de semiconductores. En un experimento aleatorio se obtuvieron los siguientes datos sobre el flujo de cloro (variable X, en SCMM) en el mecanismo grabador y la rapidez de grabado (Variable Y, en 100A/min). Los datos obtenidos se listan a continuacin:
1.5 23.0 1.5 24.5 2.0 25.0 2.5 30.0 2.5 33.5 3.0 40.0 3.5 40.5 3.5 47.0 4.0 49.0 Veamos el anlisis de regresin con SAS:
OPTIONS nodate nocenter nonumber ps=60 ls=80; GOPTIONS ftext=simplex ftitle=simplex htitle=1.3 htext=1.0 border; /*Entrada de datos (pares x, y)*/ DATA UNO; INPUT X Y @@; CARDS; 1.5 23 1.5 24.5 2 25 2.5 30 2.5 33.5 3 40 3.5 40.5 3.5 47 4 49 ; RUN;
22
/*Procedimiento para regresin Y vs. X*/ /*solicitando residuos, predicciones, intervalos, grficos, etc.*/ /*Por defecto alpha=0.05*/ symbol1 symbol2 symbol3 symbol4 symbol5 symbol6 v=star c=black; c=red l=1; c=blue l=2; c=blue l=2; c=violet l=4; c=violet l=4;
PROC REG DATA=UNO corr; MODEL Y=X/xpx i p r clm cli clb; PLOT y*x/conf95 pred95; PLOT r.*p. r.*x; TITLE "RAPIDEZ DE GRABADO VS. FLUJO DE CLORO"; OUTPUT OUT=residual r=residuos p=predichos u95m=limsup95m l95m=liminf95m u95=limsup95p l95=liminf95p; RUN; QUIT; /*Anlisis de normalidad para residuales*/ PROC UNIVARIATE DATA=residual normaltest noprint; VAR residuos; PROBPLOT residuos/normal; INSET normaltest probn; TITLE'GRAFICO DE NORMALIDAD RESIDUALES'; RUN;QUIT;
Salidas del SAS: a. Matriz de correlacin entre X e Y, producida por la opcin corr en la lnea de invocacin del PROC REG:
RAPIDEZ DE GRABADO VS. FLUJO DE CLORO Procedimiento REG Correlacin Variable X Y X 1.0000 0.9703 Y 0.9703 1.0000
b.
Sistema matricial
producido con la opcin xpx en la lnea de la declaracin MODEL:
RAPIDEZ DE GRABADO VS. FLUJO DE CLORO Procedimiento REG Productos cruzados del modelo X'X X'Y Y'Y Variable Intercept X Intercept 9 24 X 24 70.5 Y 312.5 902.25
Y 312.5 902.25 11626.75
23
c.
Inversa de la matriz X X , parmetros estimados y SSE: obtenidos con la opcin i en la lnea de la declaracin
MODEL. En esta matriz la ltima fila y la ltima columna son iguales y dan (de izquierda a derecha para la fila o de arriba hacia
abajo para la columna) el intercepto y la pendiente estimada y el valor de SSE:

RAPIDEZ DE GRABADO VS. FLUJO DE CLORO Procedimiento REG X'X Inversa, estimadores del parmetro, y SSE Intercept X Y 1.2051282051 -0.41025641 6.4487179487 -0.41025641 0.1538461538 10.602564103 6.4487179487 10.602564103 45.362179487
Variable Intercept X Y
d.
Tabla de anlisis de varianzas, con valor P para la prueba F de significancia de la regresin (Interprete resultados):
Anlisis de varianza Suma de Cuadrado DF cuadrados medio 1 730.69338 730.69338 7 45.36218 6.48031 8 776.05556 2.54565 R-cuadrado 0.9415 34.72222 R-Cuad Adj 0.9332 7.33146
Fuente Modelo Error Total corregido Raz MSE Media dependiente Var Coeff
F-Valor 112.76
Pr > F <.0001
e.
Tabla de parmetros estimados con valores de estadsticos y valor P de las pruebas para significancia de los
= 6.449 + 10.603 X (Interprete resultados): parmetros. El modelo ajustado es Y

Estimadores del parmetro Estimador del Error parmetro estndar 6.44872 2.79457 10.60256 0.99848
Variable Intercept X
DF 1 1
Valor t 2.31 10.62
Pr > |t| 0.0544 <.0001
f.
Intervalo de confianza para los parmetros. Estos son obtenidos mediante la opcin clb de la declaracin MODEL
Estimadores del parmetro DF 95% Lmites de confianza 1 -0.15938 13.05682 1 8.24152 12.96360
(Interprete resultados):
Variable Intercept X
g.
Las siguientes salidas son obtenidas con opciones especificadas en la declaracin MODEL: Valores ajustados o
predichos para Y (Predited Values) y error estndar de valores ajustados (Std Error Mean Predict) son obtenidos con la opcin p; lmites de confianza para la respuesta media (CL Mean) se obtienen con la opcin clm; lmites de prediccin (CL Predict) se obtienen con la opcin cli; residuales (Residual), error estndar de los residuales (Std
24
Error R), residuales estudentizados (Student Residual), y Distancia de Cook (Cooks D) son obtenidos con la opcin r.
Estas dos ltimas medidas sirven para diagnosticar si hay observaciones extremas en los datos:
Variable depend 23.0000 24.5000 25.0000 30.0000 33.5000 40.0000 40.5000 47.0000 49.0000 95% CL 15.4353 15.4353 21.1164 26.5978 26.5978 31.8627 36.9145 36.9145 41.7759 D de Cook 0.022 0.247 0.145 0.099 0.003 0.040 0.257 0.326 0.002 0 45.36218 71.60967 Estadsticos de salida Valor Error std predicho Media predicha 22.3526 1.4412 22.3526 1.4412 27.6538 1.0785 32.9551 0.8647 32.9551 0.8647 38.2564 0.9115 43.5577 1.1884 43.5577 1.1884 48.8590 1.5787 Error std Predicha Residual Residual 29.2698 0.6474 2.098 29.2698 2.1474 2.098 34.1913 -2.6538 2.306 39.3124 -2.9551 2.394 39.3124 0.5449 2.394 44.6501 1.7436 2.377 50.2009 -3.0577 2.251 50.2009 3.4423 2.251 55.9421 0.1410 1.997
Obs 1 2 3 4 5 6 7 8 9 Obs 1 2 3 4 5 6 7 8 9
95% CL Media 18.9447 25.7604 18.9447 25.7604 25.1036 30.2041 30.9104 34.9998 30.9104 34.9998 36.1011 40.4117 40.7475 46.3679 40.7475 46.3679 45.1258 52.5921 Residual de Student -2-1 0 1 2 0.309 | | 1.023 | |** -1.151 | **| -1.234 | **| 0.228 | | 0.734 | |* -1.358 | **| 1.529 | |*** 0.0706 | |
| | | | | | | | |
Obs 1 2 3 4 5 6 7 8 9
Suma de residuales Suma de residuales cuadrados SS de Residual predicho (PRESS)
Los grficos producidos son (Analice relacin Y vs. X y grficos de residuales para validar supuestos de varianza y linealidad del modelo en X)
25
Figura 2: Grfico de dispersin con recta ajustada y bandas de confianza y de prediccin del 95%. Este grfico es obtenido con la declaracin PLOT y*x/conf95 pred95. Note que las bandas de prediccin (L95 y U95) son ms amplias que las de confianza (L95M y U95M), debido a que las predicciones tienen una varianza mayor que los valores medios ajustados.
Figura 3: Grfico residuales vs. valores predichos. Se obtienen con la declaracin PLOT r.*p., el punto despus de la p y de la r son parte de la sintaxis. Note que con los pocos datos es difcil juzgar si la varianza es constante, aunque parece que tal supuesto es razonable.
26
Figura 4: Grfico residuales vs. X obtenido con PLOT r.*x . Todos los grficos de residuales pueden ser solicitados en la misma declaracin plot. El patrn exhibido en este ltimo grfico es similar al del grfico anterior, indicando que no hay patrones sistemticos que hagan pensar que el modelo no es lineal en X.
Con el PROC UNIVARIATE se obtiene el grfico de normalidad de los errores, al cual adems se ha insertado los resultados del test Shapiro Wilk (Analice linealidad del grfico de normalidad y resultados del test)
Figura 5: Grfico de normalidad de residuales. El patrn exhibido nos hace pensar que hay problemas con el supuesto de normalidad. Esto debe mirarse con cautela, dado que an con muestras normales se obtiene no normalidad en el grfico de probabilidad cuando las muestras son pequeas. Pero por otra parte, el test de Shapiro Wilk arroja un valor del estadstico de prueba de 0.903111 con un valor P de 0.270584 con lo cual se acepta la hiptesis de normalidad
27
Veamos ahora el procedimiento de regresin en R a) Creando el conjunto de datos en un data frame con dos columnas, la primera es X y la segunda es Y
b) Editar objeto de datos para cambiar nombres de columnas por X y Y respectivamente (slo si se quiere hacer esto), en la ventana de edicin que aparece en pantalla luego de dar enter al final de la siguiente lnea:
datos<-edit(datos) #al dar enter, abre la ventana donde modificamos los nombres de columna
datos<-data.frame(matrix(scan(),ncol=2,byrow=T)) 1.5 23.0 2.0 25.0 2.5 33.5 3.5 40.5 4.0 49.0 1.5 24.5 2.5 30.0 3.0 40.0 3.5 47.0
> datos #al dar enter, resulta la siguiente tabla 1 2 3 4 5 6 7 8 9 X 1.5 2.0 2.5 3.5 4.0 1.5 2.5 3.0 3.5 Y 23.0 25.0 33.5 40.5 49.0 24.5 30.0 40.0 47.0
28
c) Realizando la regresin lineal. Se asignan resultados de la funcin lm a un objeto R. Observe que la ecuacin del modelo se especifica por Y~1+X, usando los nombres de las variables como aparecen en el data frame datos. El 1 indica regresin con intercepto, si se quiere regresin por el origen la ecuacin es Y~-1+X.
regres1<-lm(Y~1+X,datos)
d)
Para ver la tabla ANOVA:
anova(regres1) Analysis of Variance Table Response: Y Df Sum Sq Mean Sq F value Pr(>F) X 1 730.69 730.69 112.76 1.438e-05 *** Residuals 7 45.36 6.48 --Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
e)
Para ver la tabla de parmetros estimados:
summary(regres1) Call: lm(formula = Y ~ 1 + X, data = datos) Residuals: Min 1Q -3.0577 -2.6538 Median 0.5449 3Q 1.7436 Max 3.4423
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 6.4487 2.7946 2.308 0.0544 . X 10.6026 0.9985 10.619 1.44e-05 *** --Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Residual standard error: 2.546 on 7 degrees of freedom Multiple R-Squared: 0.9415, Adjusted R-squared: 0.9332 F-statistic: 112.8 on 1 and 7 DF, p-value: 1.438e-05
f)
Obtencin de grficos de residuales:
nf<-layout(rbind(c(1,1,2,2),c(3,3,4,4))) plot(predict(regres1),residuals(regres1),xlab=expression(hat(y)),ylab="Residuales",main="Res iduales vs. predichos") abline(h=0,lty=2) qqnorm(rstandard(regres1),ylab="Residuales estandarizados") qqline(rstandard(regres1),lty=2) plot(datos$X,residuals(regres1),xlab="X",ylab="Residuales",main="Residuales vs. X") abline(h=0,lty=2) plot(cooks.distance(regres1),type="h",xlab="No. obs",main="Grfico Distancia de Cook") par(oma=c(1,1,1,1),new=T,font=2) mtext(outer=T, "Grficos bsicos de regresin simple",side=3)
29
g)
Obtencin del grfico de recta ajustada con intervalos de prediccin y de confianza:
X<-datos$X[order(datos$X)] temp3<-predict(regres1,interval="prediction") temp4<-predict(regres1,interval="confidence") interval.pred<-temp3[order(datos$X),] interval.conf<-temp4[order(datos$X),] matriz<-as.matrix(cbind(X,interval.conf,interval.pred[,-1])) matplot(matriz[,1],matriz[,-1],type="l",lty=c(1,2,2,3,3),lwd=2,xlab= "X",ylab= "Y",col=c(1,2,2,4,4),main="Recta de regresin con intervalos de confianza y de prediccin del 95%",cex.main=1) points(datos,type="p",pch=19) legend(locator(1),c("Recta ajustada","Interv.Conf","interv.Pred"),col=c(1,2,4),bty="n",lty=1:3,cex=0.8,lwd=2) #Hacer click sobre grfico resultante, donde se desea colocar leyenda de las lneas
30
h)
Obtencin de la prueba de normalidad Shapiro Wilk, sobre los errores del modelo:
shapiro.test(residuals(regres1)) Shapiro-Wilk normality test data: residuals(regres1) W = 0.9031, p-value = 0.2706
En SAS obtenemos el test de carencia de ajuste (Lack veamos:

PROC RSREG DATA=UNO; MODEL Y=X/COVAR=1 LACKFIT; RUN;QUIT;
of Fit),
mediante otro procedimiento de regresin, el PROC RSREG,
De los resultados que produce este procedimiento slo nos interesa los que aparecen en la siguiente salida SAS
RAPIDEZ DE GRABADO VS. FLUJO DE CLORO The RSREG Procedure Response Surface for Variable Y Response Mean 34.722222 Root MSE 2.545646 R-Square 0.9415 Coefficient of Variation 7.3315 Suma de cuadrados 16.987179 28.375000 45.362179 Cuadrado de la media 4.246795 9.458333 6.480311
Residual Lack of Fit Pure Error Total Error
DF 4 3 7
F-Valor 0.45
Pr > F 0.7726
31
En R el test de carencia de ajuste puede realizarse de la siguiente manera (Compare con resultados de SAS):
regres1<-lm(Y~X,datos) #Ajusta modelo de regresin y da el error total SSE regres2<-lm(Y~factor(X),datos) #Ajusta modelo lineal general o completo y da su error puro #SSPE anova(regres1,regres2) #Compara los dos modelos anteriores y obtenemos el SSLOF, los grados #de libertad correspondientes, estadstico de prueba F0 y el valor P #correspondiente Analysis of Variance Table Model 1: Model 2: Res.Df 1 7 2 3 Y ~ X Y ~ factor(X) RSS Df Sum of Sq F Pr(>F) 45.362 28.375 4 16.987 0.449 0.7726
15.
Problema
Considere el siguiente conjunto de pares de datos (X,Y) para una muestra de n=14. X 110 110 110 230 230 230 360 360 360 360 505 505 505 505 Y 235 198 173 174 149 124 115 130 102 95 122 112 98 96
Observe que la variable explicatoria X fue observada en cuatro niveles: 110, 230, 360 y 505, es decir, tenemos rplicas de la variable respuesta en al menos un nivel de X. En SAS usamos el siguiente programa para obtener los resultados y grficos que se presentan luego.
OPTIONS nodate nocenter nonumber ps=60 ls=80; GOPTIONS ftext=simplex ftitle=simplex htitle=1.3 htext=1.0 border; data uno; input x y @@; cards;
32

110 235 110 198 110 173 230 174 230 149 230 124 360 115 360 130 360 102 360 95 505 122 505 112 505 98 505 96 ; run; symbol1 symbol2 symbol3 symbol4 symbol5 symbol6 v=star c=black; c=red l=1; c=blue l=2; c=blue l=2; c=violet l=4; c=violet l=4;
proc reg data=uno; model y=x/clb; plot y*x r.*p. r.*x; output out=res r=resid; run;quit; proc rsreg data=uno; model y=x/covar=1 lackfit; run;quit; proc univariate data=res normaltest; var resid; probplot resid/normal; inset normaltest probn; title 'grafico de normalidad residuales'; ods select testsfornormality; run;quit;
Los resultados de inters son los siguientes.

ANOVA Y TABLA DE PARMETROS ESTIMADOS DEL MODELO LINEAL REG): Procedimiento REG Modelo: MODEL1 Variable dependiente: y Number of Observations Read 14 Number of Observations Used 14 Anlisis de varianza Suma de Cuadrados Fuente DF cuadrados medios Modelo 1 16634 16634 Error 12 7241.01322 603.41777 Total corregido 13 23875 Raz MSE 24.56456 R-cuadrado 0.6967 Media dependiente 137.35714 R-Cuad Adj 0.6714 Var Coeff 17.88372 Estimadores del parmetro Estimador del Error Variable DF parmetro estndar Intercept 1 212.72093 15.78406 x 1 -0.23551 0.04486 Estimadores del parmetro Variable DF 95% Lmites de confianza Intercept 1 178.33042 247.11144 x 1 -0.33324 -0.13778 , (PRODUCIDOS POR EL PROC
F-Valor 27.57
Pr > F 0.0002
Valor t 13.48 -5.25
Pr > |t| <.0001 0.0002
33

CARENCIA DE AJUSTE (PRODUCIDO POR EL PROC RSREG): Sistema SAS The RSREG Procedure Response Surface for Variable y Response Mean 137.357143 Root MSE 24.564563 R-Square 0.6967 Coefficient of Variation 17.8837 Suma de cuadrados 2880.013219 4361.000000 7241.013219 Cuadrados medios 1440.006609 436.100000 603.417768
Residual Lack of Fit Pure Error Total Error
DF 2 10 12
F-Valor 3.30
Pr > F 0.0792
TESTES PARA NORMALIDAD (PRODUCIDOS POR EL PROC UNIVARIATE): Procedimiento UNIVARIATE Variable: resid (Residual) Tests para normalidad Test --Estadstico------P-valor-----Shapiro-Wilk 0.971238 Pr < W 0.8928 Kolmogorov-Smirnov D 0.106262 Pr > D >0.1500 Cramer-von Mises W-Sq 0.022342 Pr > W-Sq >0.2500 Anderson-Darling A-Sq 0.170296 Pr > A-Sq >0.2500
Grfico de Y. vs. X con lnea de la recta ajusta
Grfico de residuales vs. Valores ajustados o predichos
34
Grfico de residuales vs. valores de X
Grfico de normalidad para residuales, con informacin sobre el test Shapiro-Wilk
Indique qu informacin nos proporciona el anlisis del grfico de Y vs. X acerca de: a) El tipo de relacin funcional entre Y vs. X (lineal o no lineal?) b) El comportamiento de la varianza de Y en cada nivel de X observado Es constante o no? Si no es constante, cmo cambia? 2. En la tabla del modelo ajustado determine lo siguiente a) Cul es el modelo ajustado? (Escriba la ecuacin con los parmetros ajustados). b) Interprete los valores ajustados de los parmetros. c) Realice la prueba de significancia de la regresin (mediante la tabla ANOVA) d) Realice los test de significancia de cada parmetros (pruebas t). 3. Ahora considere Los grficos de los residuales: a) De acuerdo a los grficos de residuales, determine si el supuesto de varianza constante para los respectivos errores se cumple o no. b) Ahora realice los test de normalidad sobre los errores del modelo, use e interprete los resultados del test de Shapiro Wilk y el grfico de probabilidad. 4. Considere de nuevo los grficos de residuales vs. X y con las salidas para el test de carencia de ajuste del modelo, determine si a) Hay carencia de ajuste del modelo postulado para la respectiva respuesta media? (Formule completamente el test de hiptesis, el estadstico de prueba y los resultados) b) Caso que exista carencia de ajuste Qu modelos seran ms apropiados? Por qu?
1.
Bibliografa
CANAVOS, George C. Probabilidad y Estadstica. Aplicaciones y Mtodos. McGraw-Hill,. DEVORE, Jay L. Probabilidad y Estadstica para Ingeniera y Ciencias. International Thomson. NETER, N. et. Al. (1996) Applied Linear Statistical Models. Irwin.
35

Notas de Clase RLS

Încărcat de

Informații document

Descriere originală:

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Notas de Clase RLS

Încărcat de

Drepturi de autor:

Formate disponibile

Regresin Lineal Simple, Estadstica II 3006915

Prof. Nelfi Gonzlez A. Escuela de Estadstica

Regresin Lineal Simple, Estadstica II 3006915

Prof. Nelfi Gonzlez A. Escuela de Estadstica

9 Segundo, dado un conjunto de pares de datos

puede asumirse una forma funcional para la curva de

Regresin Lineal Simple, Estadstica II 3006915

Prof. Nelfi Gonzlez A. Escuela de Estadstica

i son estadsticamente independientes. Por tanto:

Estimacin por mnimos cuadrados ordinarios

Y * y X * son las variables Y y X transformadas.

Regresin Lineal Simple, Estadstica II 3006915

Prof. Nelfi Gonzlez A. Escuela de Estadstica

Valor de los estimadores

Dados los pares de observaciones ( x1 , y1 ) , , siguiente sistema de ecuaciones:

0 y 1 que minimicen a S ( 0 , 1 ) implica resolver el

Regresin Lineal Simple, Estadstica II 3006915

Prof. Nelfi Gonzlez A. Escuela de Estadstica

y por tanto una estimacin de la respuesta media (o respuesta ajustada) es:

yi el i-simo residuo, de S ( 0 , 1 ) . Sea ei = yi

Suma de cuadrados de regresin SSR

2 2 S , o bien SSR = ( yi y ) , o bien SSR = 1 xx i =1

Estimacin por mxima verosimilitud (Estimadores MLE)

Regresin Lineal Simple, Estadstica II 3006915

Prof. Nelfi Gonzlez A. Escuela de Estadstica

pares de datos observados, donde Y | X i = 0 + 1 X i + i , i = 1, 2 , , n ,

E ( Y | X i ) = 0 + 1 X i y i ~ N 0 , 2 , i = 1, 2 , , n . Asumiendo fijos los niveles o valores en que

vimos que Y | X i ~ N 0 + 1 X i , 2 verosimilitud

es hallada a partir de la distribucin conjunta de las

f ( y1 , , yn | 0 , 1 , 2 ) , que por la condicin de independencia es igual al producto de las densidades de probabilidad

El objetivo es hallar los parmetros desconocidos (el logaritmo natural de ).

, o equivalentemente, que maximicen

Observe que para cualquier valor de que minimizan

es maximizado como una funcin de y as, los estimadores MLE y

por aquellos valores y

son iguales a los y en

respectivos estimadores de mnimos cuadrados, , y hallamos que maximiza a,

. Para hallar el estimador MLE para

, de donde obtenemos como estimador MLE de a

Regresin Lineal Simple, Estadstica II 3006915

Prof. Nelfi Gonzlez A. Escuela de Estadstica

la varianza, mas asintticamente es insesgado (

). Tambin puede demostrarse que los estimadores

Propiedades de los estimadores de mnimos cuadrados bajo el modelo normal

Bajo los supuestos considerados respecto a los errores tenemos que:

+ X es un estimador insesgado para = lineal. Por tanto Y 0 1

Pesos en las combinaciones lineales

Regresin Lineal Simple, Estadstica II 3006915

Prof. Nelfi Gonzlez A. Escuela de Estadstica

4. la covarianza entre los estimadores de los parmetros es:

5. la covarianza entre la variable respuesta y su correspondiente estimador en un valor dado de X = xi es:

( mi + ci xi ) COV (Yi ,Yi ) + m j + c j xi COV Yi ,Y j ( m i + ci x i ) 2 1 ( xi x ) 2 +

Regresin Lineal Simple, Estadstica II 3006915

Prof. Nelfi Gonzlez A. Escuela de Estadstica

7. La suma de los valores observados yi es igual a la suma de los valores ajustados yi :

Inferencias sobre los parmetros del modelo de regresin

Regresin Lineal Simple, Estadstica II 3006915

Prof. Nelfi Gonzlez A. Escuela de Estadstica

Inferencias respecto a la respuesta media Y |x0 y valores futuros

Para una respuesta futura en X = x0 Intervalo de prediccin Cantidad Pronstico

Regresin Lineal Simple, Estadstica II 3006915

Prof. Nelfi Gonzlez A. Escuela de Estadstica