Regresión Lineal Simple

Regresión Lineal Simple, Curso: Regresión y Diseño de Experimentos Prof. Nelfi González A.
– Escuela de Estadística
1. Introducción
En muchas ocasiones es posible diseñar experimentos estadísticos controlados, en los cuáles es factible el estudio simultáneo
de varios factores, aplicando procedimientos de aleatorización apropiados, en lo que se conoce como diseño y análisis de
experimentos. Sin embargo en otras ocasiones sólo se cuenta con un conjunto de datos sobre los cuáles es difícil esperar que
hayan sido observados en condiciones estrictamente controladas, y de los cuáles también en pocas ocasiones se tienen
réplicas para calcular el error experimental.
Cuando se enfrenta la situación anterior lo más apropiado es aplicar los métodos de regresión. Debe tenerse presente que los
métodos de regresión permiten establecer asociaciones entre variables de interés entre las cuáles la relación usual no es
necesariamente de causa - efecto. En principio, consideramos una asociación lineal entre una variable respuesta Y y una
variable predictora X (es decir, de la forma y  f  x    0  1 x ).
2. Fundamentos
2.1 Nomenclatura
 Y Variable respuesta o dependiente
 X Variable predictora, independiente o regresora
  Error aleatorio
  0 , 1 Parámetros de la regresión.  0 es el intercepto y 1 la pendiente de la línea recta.
 ̂ 0 Estimador del parámetro  0
 ̂1 Estimador del parámetro 1
 e Residual, es una estimación del error aleatorio.

 Ŷ Es la estimación de E Y | X  ó Y |X
2.2 Significados de la regresión

La regresión tiene dos significados:
 Primero, podemos verla a partir de la distribución conjunta de las variables X e Y , en la cual podemos definir la
distribución condicional de Y | X , esto es, f Y | X  , y determinar E Y | X  . En este caso la regresión pretende
ajustar la curva correspondiente a E Y | X  .
1
Regresión Lineal Simple, Curso: Regresión y Diseño de Experimentos Prof. Nelfi González A. – Escuela de Estadística
 Segundo, dado un conjunto de pares de datos  X ,Y  , puede asumirse una forma funcional para la curva de
regresión y tratar de ajustarla a los datos minimizando el error de ajuste.
El segundo caso es el que más se da en la práctica.
2.3 Supuestos
 La variable respuesta Y es una variable aleatoria cuyos valores se observan mediante la selección de los valores de
la variable predictora X en un intervalo de interés.
 Por lo anterior, la variable predictora X no es considerada como variable aleatoria, sino como un conjunto de valores
fijos que representan los puntos de observación, que se seleccionan con anticipación y se miden sin error. Sin
embargo si esto último no se cumple, el método de estimación de mínimos cuadrados ordinarios para los parámetros
del modelo de regresión puede seguir siendo válido si los errores en los valores de la variable predictora son
pequeños en comparación con los errores aleatorios del modelo  i .
 Los datos observados,  xi , yi  ,i  1, ,n , constituyen una muestra representativa de un medio acerca del cual se
desea generalizar. Si no es así, no es apropiado realizar inferencias en un rango de los datos por fuera del
considerado.
 El modelo de regresión es lineal en los parámetros. Es decir, ningún parámetro de la regresión aparece como el
exponente o es dividido o multiplicado por el otro parámetro, o cualquier otra función. Sin embargo, la línea de ajuste
puede tener una curvatura (no ser lineal en X y/o en Y ), caso en el cual mediante una transformación conveniente
de las variables ( X y/o Y ), es posible aplicar las técnicas de regresión lineal sobre estas nuevas variables.
 Si la ecuación de regresión seleccionada es correcta, cualquier variabilidad en la variable respuesta que no puede ser
explicada exactamente por dicha ecuación, es debida a un error aleatorio.
2
 Los valores observados de la variable respuesta son estadísticamente independientes. Se supone que cada valor
observado de Y está constituido por un valor real y una componente aleatoria.
 El modelo estadístico de regresión con una muestra de n pares  X i ,Yi  es:
Y | X i   0  1 X i   i , i  1, 2 ,  , n , E Y | X i    0  1 X i
 Los errores aleatorios  i ~ N  0 , 2  , i  1, 2 ,  , n

 Los errores aleatorios  i son estadísticamente independientes. Por tanto:
   
COV  i , j  0  i , j i  j , COV Yi ,Y j  0  i , j i  j
 La varianza de los errores aleatorios es  2 ,  i , i  1, 2 ,  , n (supuesto de varianza constante) pero
desconocida. Dado que los valores X i de la variable predictora no son considerados aleatorios y que los errores son
independientes, la varianza de los Yi también es  2 ,  i y por tanto este parámetro es independiente del punto de
observación (es decir, del valor de X ). Pero en el caso que esta última suposición no pueda aplicarse, entonces el
método de regresión empleado será el de mínimos cuadrados ponderados. Con estas consideraciones y las
anteriores, podemos afirmar que:
Y | X i ~ N   0  1 X i , 2 
3. Estimación por mínimos cuadrados ordinarios

Para una selección preliminar de la variable predictora en un modelo de regresión simple (o sea que considera una sola
variable predictora) es conveniente realizar el diagrama de dispersión Y vs. X y mirar si existe una tendencia lineal en la nube
de puntos. Si la nube de puntos parece mejor ajustada por un curva hay que buscar una transformación apropiada en X y/o Y
que linealice; en este caso el modelo de regresión lineal a ajustar será: Y * | X i*   0  1 X i*   i , i  1, 2 ,  , n donde
Y * y X * son las variables Y y X transformadas.
Debe tenerse claro que el método de mínimos cuadrados es un método numérico, no estadístico; La estadística opera a partir
de los supuestos distribucionales asignados en el modelo de regresión.
3.1 Objetivo
Obtener estimaciones de los parámetros de regresión, es decir hallar  0 y 1 , tales que minimicen la suma de los cuadrados
de los errores S   0 , 1  :
3
n n
S   0 , 1       Yi    0  1 X i  
2 2
i
i 1 i 1
3.2 Valor de los estimadores

Dados los pares de observaciones  x1 , y1  ,  ,  xn , yn  , hallar  0 y 1 que minimicen a S   0 , 1  implica resolver el
siguiente sistema de ecuaciones:
 S   0 , 1 
0
 0
 S   0 , 1 
0
 1
De lo cual surgen las denominadas ecuaciones normales:
n n
 yi n 0  1  xi
i 1 i 1
n n n
x y
i 1
i i   0  xi  1  xi2
i 1 i 1
y de éstas tenemos que las estimaciones por mínimos cuadrados de los parámetros son:
ˆ 0  y  ˆ1 x
n n n n
n  x i yi   x i  yi x y i i n x y
ˆ1  i 1 i 1 i 1
2
 i 1
n
 
x
n n
n x    xi   nx 2
2 2
i i
i 1  i 1  i 1
o bien:
n
 x i  x  yi  y 
ˆ1  i 1
n
 x  x
2
i
i 1
o bien:
4
 x i  x  yi
ˆ1  i 1
n
 x  x
2
i
i 1
y por tanto una estimación de la respuesta media (o respuesta ajustada) es:
ŷi  ˆ 0  ˆ1 xi
o bien:
ŷi  y   xi  x  ˆ1
3.3 Sumas de cuadrados y de productos cruzados

Tipo de suma de cuadrados Expresión
n n
S xx    xi  x    xi2  nx 2
2
Suma de cuadrados corregidos en x
i 1 i 1
Suma de cuadrados corregidos en y. También es

n n
S yy    yi  y    yi2  ny 2
2
conocido como suma de cuadrados totales ( SST o
i 1 i 1
S yy )
n n
Suma de productos cruzados corregidos: S xy    xi  x  yi  y     xi  x  yi
i 1 i 1
Suma de los cuadrados de los errores: Es la estimación

n n
de S   0 , 1  . Sea ei  yi  ˆyi el i-ésimo residuo, SSE   e    yi  ˆyi   S yy  ˆ1 S xy
2 2
i
i 1 i 1
entonces:
n
SSR    ˆyi  y  , o bien SSR  ˆ12 S xx , o bien
2
Suma de cuadrados de regresión SSR i 1
SSR  ˆ1 S xy
S xy
NOTA: ̂1 puede ser expresado en función de Sxy y de Sxx, así: ˆ1 
S xx
4. Estimación por máxima verosimilitud (Estimadores MLE)

El método de mínimos cuadrados produce los mejores estimadores lineales insesgados para los parámetros de la recta y
puede ser usado para la estimación de parámetros de un modelo de regresión lineal sin consideraciones distribucionales sobre
5
los errores. Sin embargo, para poder aplicar testes de hipótesis y construir intervalos de confianza, es necesario realizar y
validar tales supuestos. Considerando para el modelo de regresión lineal simple los supuestos de normalidad, independencia y
varianza constante para los errores, podemos usar el método de estimación de máxima verosimilitud (MLE). Sea
 x1 , y1  ,  ,  xn , yn  los pares de datos observados, donde Y | X i   0  1 X i   i , i  1, 2 ,  , n ,
 
E Y | X i    0  1 X i y  i ~ N 0 , 2 , i  1, 2 ,  , n . Asumiendo fijos los niveles o valores en que
iid
es observada,

vimos que Y | X i ~ N  0  1 X i , 2 . Sea y . La función de
verosimilitud L   0 , 1 ,  2 | x,y  es hallada a partir de la distribución conjunta de las observaciones,
f  y1 , , yn |  0 , 1 ,  2  , que por la condición de independencia es igual al producto de las densidades de probabilidad
marginales, por tanto, podemos escribir,
El objetivo es hallar los parámetros desconocidos , que maximicen , o equivalentemente, que maximicen
(el logaritmo natural de ).
Observe que para cualquier valor de fijo, es maximizado como una función de y por aquellos valores y
que minimizan y así, los estimadores MLE y son iguales a los
respectivos estimadores de mínimos cuadrados, y . Para hallar el estimador MLE para substituimos y en
, y hallamos que maximiza a,
de donde obtenemos como estimador MLE de a
6
Resumiendo, bajo el modelo de regresión lineal normal, es decir, con errores independientes e idénticamente distribuidos
, los estimadores de mínimos cuadrados para y son también estimadores de máxima verosimilitud y en tal
caso, podemos construir intervalos de confianza y realizar pruebas de hipótesis basadas en las estimaciones obtenidas.
5. Estimación de la varianza  2
Puede demostrarse que bajo los supuestos del modelo en relación a los errores, un estimador insesgado de la varianza es:
SSE
ˆ 2  s 2 
n2
esto es, . también recibe el nombre de error cuadrático medio MSE. Observe que podemos escribir el
estimador MLE como, , por tanto , es decir, es un estimador sesgado de
la varianza, mas asintóticamente es insesgado ( ). También puede demostrarse que los estimadores
MLE son de mínima varianza cuando son comparados a todos los posibles estimadores insesgados y son consistentes, es
decir, a medida que aumenta el tamaño de la muestra, la diferencia entre estos y el respectivo parámetro va para cero.
6. Propiedades de los estimadores de mínimos cuadrados bajo el modelo

normal
Bajo los supuestos considerados respecto a los errores tenemos que:
1. Los estimadores de mínimos cuadrados ̂ 0 y ̂1 son los mejores estimadores lineales insesgados de  0 y 1
respectivamente, y corresponden a los estimadores de máxima verosimilitud bajo los supuestos estadísticos del modelo
lineal. Por tanto Ŷ  ˆ 0  ˆ1 X es un estimador insesgado para Y |X  E Y | X  .

2. ̂ 0 y ̂1 son combinaciones lineales de las variables aleatorias Y1 ,  , Yn , pues estos pueden escribirse como:
Estimadores Pesos en las combinaciones lineales

n
1
ˆ 0   miYi mi  c x
i 1 n i
n
xi  x
ˆ1   ciYi ci 
i 1 S xx
Y por tanto, como Y1 ,  , Yn son variables normales e incorrelacionadas, entonces ̂ 0 y ̂1 son variables
aleatorias normales.
3. La varianza de los estimadores ̂ 0 y ̂1 , y de la respuesta ajustada en un valor de X  xi dado, es:
7
Para ̂1 Para ̂ 0 Para Ŷi
   n 
V 1  V   ciYi 
ˆ
   n 
V ˆ 0  V   miYi   
V Yî  V ˆ 0  ˆ1 xi 
 i 1   i 1   n 
n n

 V   m j  c j xi Y j  
  c V Y 
i 1
2
i i   m V Y  2
i i  j 1 
i 1
m   
n 2
n n
 j  c j xi
c 
V Yj

i 1
2
i
2
 m 
i 1
2
i
2
j 1
2
2 1 n

      xi  x  c j 
n
 2  xi2
2

S xx j 1  n 
 i 1
nS xx  1  x  x 2 
    i 2

 n S xx 

4. la covarianza entre los estimadores de los parámetros es:
 n 
 
n
COV ˆ 0 , ˆ1  COV   miYi ,  ciYi 
 i 1 i 1 
 
n n n
  mi ci COV Yi ,Yi    mi c jCOV Yi ,Y j
i 1 i 1 j  i
n
  m c V Y 
i 1
i i i
n
  2  m i ci
i 1
 2x
 
S xx
5. la covarianza entre la variable respuesta y su correspondiente estimador en un valor dado de X  xi es:
 
COV Yi ,Yî  COV Yi , ˆ 0  ˆ1 xi  
 
 
n
 COV  Yi ,  m j  c j xi Y j 
 j 1 
 mi  ci xi  COV Yi ,Yi     m j  c j xi  COV  Yi ,Y j 

n

ji
  m i  ci x i   2
 1  xi  x   2
    
n S xx 
8
6. La suma de los residuales del modelo de regresión con intercepto es siempre cero:
n
ei 1
i 0
7. La suma de los valores observados yi es igual a la suma de los valores ajustados ŷi :
n n
 yi   ˆyi
i 1 i 1
8. La línea de regresión siempre pasa a través del centroide de los datos  x , y 
9. La suma de los residuales ponderados por el correspondiente valor de la variable predictora es cero:
n
xe
i 1
i i 0
10. La suma de los residuales ponderados por el correspondiente valor ajustado es siempre igual a cero:
n
 ŷ e
i 1
i i 0
7. Inferencias sobre los parámetros del modelo de regresión

Podemos demostrar que bajo los supuestos del modelo de regresión, se cumple que (NOTA: s  MSE ; t n  2 es la v.a t-
Student con n  2 grados de libertad, y t / 2 ,n 2 es el percentil de la distribución t-Student con n  2 grados de libertad tal
que P  t n 2  t / 2 ,n 2    / 2 ):
Test de Criterio de Intervalo de confianza

Parámetro Estadístico de prueba
significancia rechazo del (1-)100%
ˆ 0   0
T0  ~ t n 2
n
H0 : 0  0 s x 2
/ nS xx n
0 ˆ 0  t / 2 ,n 2  s x
i
i 1 T0  t / 2 ,n 2 2
/ nS xx
H1 :  0  0 i 1
i
con  0  0 en el test de
significancia
ˆ1  1
T0 
~ t n 2
H 0 : 1  0 s 1 / S xx
1 T0  t / 2 ,n 2 ˆ1  t / 2 ,n 2  s 1 / S xx
H1 : 1  0 con   0 en el test de
1
significancia
9
NOTAS:
 Si la pendiente es significativa, entonces la regresión lo es, es decir, la variabilidad en la variable respuesta explicada
por la regresión en X es significativa respecto a la variabilidad total observada.
 Para otros Testes sobre los parámetros,  0 y 1 toman los valores especificados en H0 en el estadístico de prueba
respectivo, y los criterios de rechazo se establecen según la desigualdad planteada en la hipótesis alternativa.
8. Inferencias respecto a la respuesta media Y |x0 y valores futuros

Desde que los valores ajustados de la variable respuesta también son combinaciones lineales de las variables aleatorias
 
n
Y1 ,  , Yn , esto es, Ŷi   m j  c j xi Y j , con las constantes c j y m j como fueron especificadas previamente, bajo los
j 1
supuestos de normalidad e independencia, podemos afirmar que las variables Ŷi son variables aleatorias normales (mas no
independientes). Recuerde que Ŷi estima a Y |xi  E Y | X  xi  . Podemos hacer inferencias sobre esta media, así como
predecir un valor futuro Y0 de la respuesta en un valor fijo de X  x0 . Así, bajo los supuestos del modelo obtenemos:
(NOTA: s  MSE )
Para la respuesta media en X  x0
Testes de Intervalo de confianza

Cantidad hipótesis Estadístico de prueba del (1-)100%
Ŷ0  Y |x0
T0  ~ t n 2 1  x0  x 
2
1  x0  x 
2
ŷ0  t / 2 ,n 2  s 
Y |x H 0 : Y |x0  c s  n S xx
0
n S xx
con ŷ0  ˆ 0  ˆ1 x0
con Ŷ0  ˆ 0  ˆ1 x0 y Y |x0  c
Para una respuesta futura en X  x0
Intervalo de predicción
Cantidad Pronóstico Estadístico del (1-)100%
Ŷ0  Y0
1  x  x
2
T0  ~ tn 2
ŷ0  t / 2 ,n 2  s 1   0
  x0  x  / S xx 
1  2
Y0 s 1 n S xx
Ŷ0 n  
con Ŷ0  ˆ 0  ˆ1 x0 con ŷ0  ˆ 0  ˆ1 x0
10
Los intervalos de predicción estiman los posibles valores para un valor particular de la variable respuesta (no para su media)
en un valor X  x0 dado. Asumimos que en este valor particular tenemos un valor futuro de la variable aleatoria Y, y por
tanto, no es utilizado en la regresión. Por tanto, si Y0 es un valor futuro y Ŷ0  ˆ 0  ˆ1 x0 es su estimador, entonces estas
dos variables aleatorias son estadísticamente independientes, desde que Y0 no fue utilizado para hallar a ̂ 0 y ̂1 , de ahí
el estadístico y los límites del intervalo de predicción resultantes.

Precaución: No realizar extrapolaciones por fuera del rango de variación observado en el conjunto de datos sobre la
variable explicatoria.
9. Análisis de varianza para probar la significancia de la regresión

El análisis de varianza o ANOVA consiste en la descomposición de la variabilidad total observada en la variable respuesta,
SST, como la suma de componentes o fuentes de variabilidad de acuerdo al modelo propuesto. Para el caso recuérdese que
el modelo de regresión lineal plantea que la respuesta es igual a la suma de una componente real no aleatoria  0  1 X y un
error aleatorio  . Se espera que la recta ajustada explique en forma significativa la variabilidad observada en Y . Dadas las
condiciones de normalidad, e independencia establecidas para los errores, es posible demostrar que:
n n n
  yi  y     ˆyi  y     yi  ˆyi 
2 2 2
i 1 i 1 i 1
De donde:
SST  SSR  SSE  ˆ1 S xy  SSE  ˆ12 S xx  SSE
En virtud de la anterior igualdad, podemos también establecer la siguiente identidad para los grados de libertad (g.l) de las
sumas de cuadrados:
g.l  SST   g.l  SSR   g.l  SSE 
entonces  n  1  g.l  SSR    n  2 
Por tanto, g.l  SSR   1 . Si los errores del modelo son independientes, de varianza constante e idénticamente distribuidos
como una N  0 , 2  , entonces SSR /  2 y SSE /  2 se distribuyen como variables aleatorias ji-cuadrada con 1 y n-2
grados de libertad, respectivamente.
Sea MSR  SSR / g.l  SSR   SSR y MSE  SSE / g.l  SSE   SSE /  n  2  .
11
De lo anterior, bajo la hipótesis H 0 : 1  0 , es posible demostrar que el estadístico F0  MSR / MSE se distribuye como
una F con 1 y n-2 grados de libertad:

SSR SSR
F0   2 ~ f1,n 2
SSE /  n  2  s
En el caso de la regresión lineal simple, la prueba sobre la significancia de la regresión (es decir, si la pendiente de la recta es
significativamente diferente de cero) puede realizarse mediante el análisis de varianza usando un valor crítico f ,1,n 2 de la
distribución F, y a un nivel de significancia de  rechazamos la hipótesis nula de que la variabilidad en la variable respuesta es
debida sólo al error aleatorio (para aceptar la hipótesis de que la regresión en x es significativa) si F0  f ,1,n 2 .
El análisis de varianza suele presentarse en forma de tabla, conocida como tabla ANOVA, donde los cuadrados medios
corresponden a las sumas de cuadrados divididas por sus respectivos grados de libertad:
Análisis de varianza
Fuente de Suma de Grados de Cuadrado
variación cuadrados libertad medio F calculada
Regresión SSR 1 MSR F0=MSR/MSE
Error SSE n-2 MSE
Total SST n-1
También podemos evaluar el valor p de la prueba (significancia más pequeña que conduce al rechazo de H0) que es
igual a P  f1,n 2  F 0  y determinamos si éste es “pequeño”, para rechazar la hipótesis: “el modelo lineal de Y en X no es
significativo para explicar la variabilidad de Y”. La conclusión obtenida por el análisis de varianza debe ser la misma que la
obtenida cuando se prueba la significancia de la pendiente de la recta de regresión.
10. Pasos en el Análisis de regresión

1. Realizar análisis exploratorio de los datos mediante un diagrama de dispersión para establecer el tipo de curva de
regresión apropiada.
2. Desarrollar uno o más modelos de regresión tentativos. Ajustar los modelos propuestos.
3. Determinar para cada modelo ajustado si la regresión es significativa
4. Analizar gráficos de residuales para:
12
 Verificar si el modelo lineal es adecuado: Gráfico de residuos vs. X (chequear ausencia de patrones sistemáticos), test
de carencia de ajuste.
 Verificar si los supuestos sobre el término de error se cumplen: Gráficos de probabilidad normal, gráficos de residuos
vs. valores predichos (chequear varianza constante y ausencia de patrones sistemáticos).
5. Para los modelos que pasen las pruebas en 4, interpretar los parámetros del modelo lineal ajustado (significado de los
valores de intercepto y de la pendiente a la luz de los datos).
6. Construir intervalos y realizar inferencias de interés
7. Hacer predicciones: Sólo dentro del rango de valores considerados para la variable predictora o valores cercanos a
dicho rango.
11. Diagnósticos y medidas remediales

11.1 Diagnósticos para la variable predictora
Consiste en:
 Identificar observaciones extremas (alejadas hacia valores muy grandes o pequeños comparadas con el resto de
valores) en X que puedan influenciar el ajuste de regresión. Para ello se recurre a un análisis descriptivo: boxplots,
diagramas de puntos.
 Identificar patrones en X, si se conoce la secuencia de tiempo que corresponde al conjunto de valores, mediante un
gráfico de X vs. tiempo o algún índice de secuencia u orden.
11.2 Diagnósticos del modelo

Las desviaciones del modelo pueden ser estudiadas a través de los residuales. Los seis tipos de desviaciones que pueden
presentarse son:
 La función de regresión no es lineal (carencia de ajuste)
 Los errores no tienen varianza constante
 Los errores no son independientes
 Los errores no son normales
 El modelo ajusta bien pero unas pocas observaciones son outliers
 Una o varias variables predictoras han sido omitidas en el modelo.
13
ˆ
ˆ
X X
(a) (b)
ˆ ˆ
ŶX ŶX
(c) (d)
ˆ ˆ
X2
X X2X
(e) (f)
ˆ
Figura 1: Patrones comunes en residuales. (a) y (b)
Presencia de un efecto cuadrático no incluido en el
modelo. (c) y (d) Varianza no constante del error. (e) y
(f) Efecto lineal de una variable omitida. (g) Modelo
X
Ŷ lineal apropiado y varianza constante
(g)
14
11.2.1 No linealidad de la función de regresión

Puede identificarse gráficamente a través del gráfico de residuales versus los valores predichos o versus valores de la variable
predictora. Cuando ocurre esta desviación, el gráfico exhibe un patrón en el cual los residuales se desvían de cero en forma
sistemática, por ejemplo, cuando la nube de puntos de estos gráficos presentan forma de una U o de una U invertida como en
los casos (a) y (b) de la Figura 1.
Otra forma de probar la no linealidad del modelo, es mediante el test de carencia de ajuste. Este test prueba que un tipo
específico de función de regresión ajusta adecuadamente a los datos. El test asume que los valores de Y dado X son:
 independientes
 se distribuyen en forma normal
 tienen varianza constante
Esta prueba requiere que en uno o más valores de X haya más de una observación de Y. Los ensayos repetidos de manera
independiente para el mismo nivel de la variable predictora son denominados replicaciones.
Para explicar en qué consiste esta prueba, es necesario modificar la notación usada de la siguiente manera, asumiendo que
tenemos réplicas de la respuesta en un valor o nivel dado de X:
Yij La respuesta i-ésima en el j –ésimo nivel de X.
Xj El j-ésimo nivel de valores de X, supondremos j=1, 2,…, k
nj Número de observaciones de Y tomadas en el j-esimo nivel de X. Por tanto, el total de observaciones tomadas es
k
n   nj
j 1
Se define primero un modelo lineal general (modelo completo) que corresponde a

Yij   j   ij
 
donde  j  E Yij , es decir, es la media de la variable respuesta en el j-ésimo nivel de X.
Para el anterior modelo, los estimadores de máxima verosimilitud corresponden a ˆ j  Y j , es decir, la media muestral de Y
en el nivel j de X. Esta cantidad también corresponde al valor predicho para Y en el nivel j de X. Por tanto, la suma de
cuadrados del error del modelo general es dada por
15
nj
 
k
SSPE   Yij  Y j
2
j 1 i 1
que corresponde a la suma de cuadrados del error puro cuyos grados de libertad son n  k .
Se define ahora el modelo lineal reducido para la hipótesis nula de la prueba, el cual, para el caso de la regresión lineal es
E Y | X    0  1 X . Luego la prueba formula que
H 0 : E  Y | X    0  1 X
H1 : E  Y | X    0   1 X
Es decir, H0 postula que  j está relacionado linealmente a Xj,  j   0  1 X j . Por tanto, el modelo reducido bajo H0 es:
Yij   0  1 X j   ij
que no es más que el modelo de regresión lineal para el cual la suma de cuadrados del error es
nj
 
k
SSE   Yij  Yîj
2
j 1 i 1
con Yîj  Yˆ j  ˆ 0  ˆ1 X j y los grados de libertad iguales a n  2 . Observe que todas las observaciones de Y en el mismo
nivel j de X tienen igual valor ajustado Ŷ j , de ahí que se pueda escribir la anterior ecuación del SSE por
 
k nj
SSE    Yij  Yˆ j
2
j 1 i 1
Puede mostrarse, que el procedimiento de prueba realiza la descomposición:

SSE  SSPE  SSLOF
donde SSLOF es la suma de cuadrados de carencia de ajuste dada por:

nj
    n Y 
k k
SSLOF  SSE  SSPE  
2 2
Y j  Yˆ j j j  Yˆ j
j 1 i 1 j 1
cuyos grados de libertad son iguales a gl  SSE   gl  SSPE   k  2
El estadístico de prueba es
16
SSLOF /  k  2 
F0  ~ f k  2 ,n k .
SSPE /  n  k 
Se rechaza H0, a un nivel de significancia  si F0  f ,k  2 ,n 2 . En tal caso se concluye que el modelo de regresión no es
lineal en X. Observe que son necesarios más de dos niveles de valores en X para probar que el modelo de regresión es lineal.
En la tabla ANOVA puede presentarse el test de carencia de ajuste descomponiendo el SSE del modelo:
Fuente de Suma de Grados de Cuadrado
variación cuadrados libertad medio F calculada
Regresión SSR 1 MSR F0=MSR/MSE
Error SSE n-2 MSE
Carencia de ajuste SSLOF k-2 MSLOF F0= MSLOF/ MSPE
Error Puro SSPE n-k MSPE
Total SST n-1
NOTAS:
 En general, en el cálculo del SSPE sólo se utilizan aquellos niveles j de X en los cuales hay replicaciones.
 E  MSPE    2 sin importar cuál sea la verdadera función de regresión.
 E  MSLOF    2 sólo si la función de regresión es la especificada en H0, de lo contrario E  MSLOF    2
 En general, la prueba de carencia de ajuste puede aplicarse a otras funciones de regresión, sólo se requiere modificar
los grados de libertad del SSLOF, que en general corresponden a k  p , donde p es el número de parámetros en la
función de regresión. Para el caso específico de la regresión lineal simple, p=2.
 Cuando se concluye que el modelo de regresión en H0 es apropiado, la práctica usual es usar el MSE y no el MSPE
como un estimador de la varianza, debido a que el primero tiene más grados de libertad.
 Cualquier inferencia sobre los parámetros del modelo lineal, por ejemplo la prueba de significancia de la regresión,
sólo debe llevarse a cabo luego de haber probado que el modelo lineal es apropiado.
Como soluciones al problema “el modelo de regresión lineal no es apropiado” se tienen:

 Abandonar el modelo de regresión lineal y desarrollar un modelo más apropiado.
 Emplear alguna transformación en los datos de manera que el modelo de regresión lineal sea apropiado a los datos
transformados.
17
 Se pueden usar curvas de regresión no paramétricas también llamadas curvas suavizadas, para explorar y/o confirmar
la forma de la función de regresión, por ejemplo el método LOESS. En este caso la curva suavizada se grafica junto
con las bandas de confianza del modelo de regresión; si la primera cae entre las segundas, entonces se tiene
evidencia de que el modelo ajustado es apropiado
11.2.2 No constancia de la varianza de los errores

Esto puede establecerse a través del gráfico de residuales vs. valores ajustados o predichos. La gráfica 1 presenta los
prototipos de residuales con varianza: constante y no constante. También puede recurrirse a un test de homogeneidad de
varianza, como el test de Levene Modificado, el cual no depende del supuesto de normalidad; es aplicable cuando la varianza
se incrementa o disminuye con X y los tamaños de muestra necesitan ser suficientemente grandes para que la dependencia
entre los residuales pueda ser ignorada. Se procede como sigue:
1. Dividir los datos en dos grupos, de acuerdo a los niveles de X, de modo que un grupo conste de los casos donde el
nivel de X es comparativamente bajo y el otro grupo de los casos donde el nivel de X es comparativamente alto, o
bien, de forma que los dos grupos tenga aproximadamente igual rango. El tamaño del grupo 1 se denota por n1 y el
tamaño del grupo 2 por n2 , por tanto n  n1  n2 .
2. Sea ei1 el i-ésimo residual para el grupo 1 y ei 2 el i-ésimo residual para el grupo 2. Se calculan las medianas
muestrales de los residuales de cada grupo, las cuales se representarán por e1 y e2 respectivamente.
3. El test usa las desviaciones absolutas de los residuales respecto a la mediana del respectivo grupo, las cuales
denotamos por d i1  ei1  e1 y d i 2  ei 2  e2 .
1 n1
4. Se calculan las medias muestrales de las desviaciones absolutas en cada grupo: d1  d y
n1 i 1 i1
1 n2
d2   di 2
n2 i 1
5. Se prueba la hipótesis de homogeneidad de varianza realizando una prueba t sobre la igualdad de medias de las
desviaciones absolutas de la mediana para los dos grupos, siendo el estadístico de la prueba:
d1  d 2
t *L  ~ t n 2
1 1
sp 
n1 n2
18
n1 n2
d  d1     d i 2  d 2 
2 2
i1
donde s p  i 1 i 1
. Para un nivel de significancia  se rechaza la hipótesis de
2
n2
homogeneidad si t L  t / 2 ,n 2
*
Como soluciones al problema de “no homogeneidad de varianza” se tienen:

 Mínimos cuadrados ponderados cuando la varianza del error varía de forma sistemática. En la función objetivo de
mínimos cuadrados, las diferencias entre los valores observados y esperados de yi es multiplicada por un peso o
factor de ponderación  i , tomado en forma inversamente proporcional a la varianza de yi , esto es, la función de
n
mínimos cuadrados considerada es S   0 , 1     i  yi   0  1 xi  .
2
i 1
 Usar transformaciones en Y que estabilicen la varianza. En algunos tipos de relaciones la asimetría y la varianza del
error se incrementan con la respuesta media. Cuando la transformación es logarítmica, a veces es necesario sumar
una constante a los valores de Y , específicamente cuando existen valores negativos. Se debe tener en cuenta
también que cuando la varianza no es constante pero la relación de regresión es lineal, no es suficiente transformar a
Y, pues en ese caso aunque se estabilice la varianza, también cambiará la relación lineal a una curvilínea y por ende,
se requerirá también una transformación en X ; sin embargo, este caso puede manejarse también usando mínimos
cuadrados ponderados.
11.2.3 No independencia de los errores

Para probar el supuesto de independencia es necesario conocer el orden de las observaciones en el tiempo. En tal caso,
podemos analizar el supuesto a través del gráfico de residuales vs. el tiempo u orden de recolección de los datos. Buscamos
patrones sistemáticos como ciclos, rachas, y cualquier otro comportamiento que indique correlación entre los valores de la
serie o secuencia de los residuales. también existen testes para incorrelación como el test de Durbin Watson para
autocorrelación de orden 1, en donde se define el modelo autorregresivo de orden 1 para los errores del modelo
 t  1 t 1  at con at ~ N  0,  2  con 1  1 y básicamente se prueba si la constante de autocorrelación 1 es igual

iid
zero. Note que esta prueba sólo detecta correlación entre observaciones sucesivas por tanto el no rechazar 1  0 no implica
incorrelación entre observaciones separadas k  1 unidades (en el tiempo u orden de observación).
19
Hipótesis y criterios de decisión El estadístico de prueba
H 0 : 1  0 o equivalentemente H 0 :  1  0 versus: 2

  et  et 1 
n
d t 2
con et  Yt  Yˆt , Pero puede
a) H1 : 1  0 o equivalentemente H1 :  1  0
n
e
2
t
t 1
o bien
aproximarse por:
b) H1 : 1  0 o equivalentemente H1 :  1  0
d  2 1   et et 1 /  et2   2 1  ˆ 1  ,
n n
o bien donde el
 i2 t 1 
c) H1 : 1  0 o equivalentemente H1 :  1  0
ˆ 1   et et 1 /  et2
n n
estadístico es la autocorrelación
Donde  1  corr   t 1 ,  t  es la autocorrelación de orden 1. t 2 t 1
La elección de la hipótesis alternativa generalmente se da entre las estimada de orden 1 de los errores. Por tanto el estadístico de
opciones a) que prueba autocorrelación positiva de orden 1 y b) que prueba se mueve en el intervalo 0  d  4 .
prueba autocorrelación negativa de orden 1, esta elección se hace con
base en el valor del estadístico de prueba. Si d  2 se elige la Note que si  1  0 entonces ̂ 1  0 y d  2 en cuyo
hipótesis alternativa en a) (autocorrelación positiva). Si d  2 se elige caso la hipótesis nula no es rechazada.
la hipótesis alternativa en b) (autocorrelación negativa).
El criterio de rechazo mediante el uso de un valor P es: Si ˆ 1  0 entonces 2  d  4 y esto puede ser evidencia
de autocorrelación negativa. Si ˆ 1  0 entonces 0  d  2
Para a) H1 :  1  0 , vp  P  DW  d    y esto puede ser evidencia de autocorrelación positiva.
Para b) H1 :  1  0 , vp  P  DW  d   
DW es la variable aleatoria de la distribución Durbin-Watson

NOTA 1: La prueba Durbin Watson sólo detecta autocorrelación de primer orden entre los términos de la serie de errores, por
tanto no rechazar H 0 : 1  0 no excluye la posibilidad de la presencia de autocorrelaciones de orden superior y por
consiguiente esta prueba no establece que la serie de los errores del modelo constituyan ruido blanco. Existe una versión
generalizada de la prueba Durbin Watson la cual considera un modelo autorregresivo en los errores de orden superior a 1.
NOTA 2: Si no conocemos el orden en que fueron tomadas las observaciones, no aplicamos esta o cualquier otra prueba de
incorrelación y asumimos como válido el supuesto de independencia.
RECUERDE QUE: Incorrelación no implica independencia estadística, pero independencia estadística implica incorrelación,
sin embargo si el par de variables incorrelacionadas se distribuyen conjuntamente en forma normal, entonces son
independientes!!!.
Como soluciones al problema de “no independencia de los errores” se tienen:

 Trabajar con modelos con errores correlacionados
 Adicionar variables de tendencia, estacionalidad.
 Trabajar con primeras diferencias.
20
11.2.4 La no normalidad
En las pruebas de normalidad evaluamos:
H 0 : Los errores son normales vs.
H1 : Los errores no son normales,
La validación de esta prueba puede realizarse bien sea examinando los valores P arrojados por una prueba específica de
normalidad, como el test de Shapiro Wilk, o bien, mediante un gráfico de normalidad en cual se evalúa si la nube de puntos en
la escala normal se puede ajustar por una línea recta.
La carencia de normalidad frecuentemente va de la mano con la no homogeneidad de la varianza, por ello, a menudo una
misma transformación de los valores de Y, logra estabilizar la varianza y una aproximación a la normalidad. En estos casos se
debe usar primero una transformación que estabilice la varianza y evaluar si el supuesto de normalidad se cumple para los
datos transformados.
Entre las transformaciones que logran corregir la no normalidad se tienen las transformaciones de potencia Box-Cox Y  , que
comprende la transformación de logaritmo natural (caso   0 ). Otra solución es trabajar con métodos de regresión no
paramétricos.
11.2.5 Presencia de outliers

Se has desarrollado métodos formales y gráficos para la identificación de outliers (puntos atípicos). Entre los métodos
gráficos, se utilizan los gráficos de residuales vs. X o vs. valores ajustados. Se recomienda trabajar con residuales
estandarizados e / MSE . Residuales a más de dos desviaciones estándar son sospechosas y aquellos a más de tres
desviaciones estándar se consideran outliers.
Siempre y cuando un outlier sea originado por un error de registro, de cálculo o de medición éste debe ser eliminado. De otra
forma hay que proceder con cautela, porque es posible que tal tipo de observación contenga información valiosa sobre un
fenómeno especial que no ha sido capturado por el modelo.
11.2.6 Omisión de variables predictoras importantes

Se puede realizar un análisis para determinar si el modelo puede ser mejorado adicionando otras variables predictoras. El
diagnóstico se realiza graficando los residuales del modelo actual vs. niveles de la variable omitida y evaluar si los residuales
tienden o no a variar sistemáticamente con los niveles de la variable predictora adicional.
21
12. Transformaciones: Modelos intrínsecamente lineales

Un modelo de regresión se considera lineal cuando lo es en los parámetros, por ello las transformaciones en las variables no
implican modelos no lineales. Modelos intrínsecamente lineales son aquellos que relacionan Y con X por medio de una
transformación en Y y/o en X, originando un modelo de la forma Y *   0  1 X *   , donde Y * y X * son las variables
transformadas. Ejemplos:
MODELO DENOMINACIÓN TRANSFORMACIÓN
log Y   log   0   1 X  log   

Modelo exponencial ajuste Y *   0*  1 X   * con Y *  log Y  ,
Y   0 e 1 X 
multiplicativo
 0*  log   0  y  *  log   
log Y   log   0   1 log  X   log   
1 Modelo de potencia ajuste Y *   0*  1 X *   * con Y *  log Y  ,

Y  0 X 
multiplicativo  0*  log   0  ,
X *  log  X  y  *  log   
Y   0  1 log  X    Modelo logarítmico ajuste Y   0  1 X *   con X *  log  X 
Y   0  1 1 / X    Modelo recíproco ajuste Y   0  1 X *   con X *  1 / X
NOTA:
 Los modelos exponenciales y de potencia aditivos: Y   0e 1 X   , y Y   0 X 1   no son intrínsecamente
lineales.
 El supuesto necesario es que cuando el término de error  es transformado, esta variable transformada deberá ser
 
iid N 0 , 2 , por ello deben examinarse los residuales del modelo transformado.
 Los parámetros del modelo original no lineal, se pueden estimar al destransformar, cuando resulte necesario, los
estimadores hallados para los parámetros del modelo transformado. En los casos con modelos exponenciales y de
potencia multiplicativos, si  es pequeño se puede obtener un intervalo de confianza aproximado para la respuesta
media tomando antilogaritmos sobre los límites del intervalo hallado para la respuesta media para Y * . Sin embargo
cuando hacemos esto, en términos generales, estamos hallando un intervalo de confianza para la mediana de Y
(recordar la distribución lognormal).
 Si el modelo lineal transformado satisface todas las suposiciones para la regresión lineal simple, las estimaciones de
los parámetros originales a través de transformaciones inversas resultan razonables aunque no insesgadas.
22
13. R2 de una regresión: Coeficiente de determinación muestral

Esta cantidad que aparece en los resultados de la regresión lineal simple, proviene de la razón SSR/SST y por tanto, podemos
interpretarla como la proporción de la variabilidad total observada en la variable respuesta, que es explicada por la relación
lineal con la variable predictora considerada. Ha sido utilizada erróneamente como medida para evaluar la bondad del ajuste
lineal, pues si bien valores cercanos a 1 indican una mayor asociación lineal, no necesariamente garantiza que los supuestos
básicos del modelo lineal se estén cumpliendo y menos que no haya carencia de ajuste lineal.
14. Ejemplo en R y SAS

El grabado con plasma es esencial para la transferencia de figuras de líneas finas en los procesos de fabricación de
semiconductores. En un experimento aleatorio se obtuvieron los siguientes datos sobre el flujo de cloro (variable X, en SCMM)
en el mecanismo grabador y la rapidez de grabado (Variable Y, en 100A/min). Los datos obtenidos se listan a continuación:
X Y X Y
1.5 23.0 1.5 24.5
2.0 25.0 2.5 30.0
2.5 33.5 3.0 40.0
3.5 40.5 3.5 47.0
4.0 49.0
Veamos ahora el procedimiento de regresión en R para este conjunto de datos:

a) Creando el conjunto de datos en un data frame con dos columnas, la primera es X y la segunda es Y
datos=data.frame(matrix(scan(),ncol=2,byrow=T))
1.5 23.0
2.0 25.0
2.5 33.5
3.5 40.5
4.0 49.0
1.5 24.5
2.5 30.0
3.0 40.0
3.5 47.0
b) Definir nombres de columnas en objeto datos por X y Y respectivamente,

names(datos)=c("X","Y")
23
datos #al ejecutar, resulta la siguiente tabla

X Y
1 1.5 23.0
2 2.0 25.0
3 2.5 33.5
4 3.5 40.5
5 4.0 49.0
6 1.5 24.5
7 2.5 30.0
8 3.0 40.0
9 3.5 47.0
attach(datos) #Disponibiliza los elementos guardados en data.frame datos
c) Realizando la regresión lineal. Se asignan resultados de la función lm a un objeto R. Observe que la ecuación del
modelo se especifica por Y~X, usando los nombres de las variables como aparecen en el data frame datos. La regresión es
con intercepto, si se quiere regresión por el origen la ecuación es Y~-1+X.
regres1=lm(Y~X)
d) Para ver la tabla ANOVA:

anova(regres1)
Analysis of Variance Table

Response: Y
Df Sum Sq Mean Sq F value Pr(>F)
X 1 730.69 730.69 112.76 1.438e-05 ***
Residuals 7 45.36 6.48
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
e) Para ver la tabla de parámetros estimados:

summary(regres1)
Call:
lm(formula = Y ~ 1 + X, data = datos)
Residuals:
Min 1Q Median 3Q Max
-3.0577 -2.6538 0.5449 1.7436 3.4423
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.4487 2.7946 2.308 0.0544 .
X 10.6026 0.9985 10.619 1.44e-05 ***
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
Residual standard error: 2.546 on 7 degrees of freedom

Multiple R-Squared: 0.9415, Adjusted R-squared: 0.9332
F-statistic: 112.8 on 1 and 7 DF, p-value: 1.438e-05
f) Obtención de gráficos de residuales:

nf=layout(rbind(c(1,1,2,2),c(0,3,3,0)))
plot(fitted(regres1),residuals(regres1),xlab=expression(hat(y)),ylab="Residuales",
main="Residuales vs. ajustados")
abline(h=0,col=2)
24
plot(X,residuals(regres1),xlab="X",ylab="Residuales",main="Residuales vs. X")

abline(h=0,col=2)
qqnorm(rstandard(regres1),ylab="Residuales estandarizados")
qqline(rstandard(regres1),col=2)
par(oma=c(1,1,1,1),new=T,font=2)
mtext(outer=T, "Gráficos básicos de regresión simple",side=3)
Gráficos básicos de regresión simple
Residuales vs. ajustados Residuales vs. X
3
3
2
2
1
1
Residuales
Residuales
0
0
-1
-1
-2
-2
-3
-3
25 30 35 40 45 1.5 2.0 2.5 3.0 3.5 4.0
y^ X
Normal Q-Q Plot

1.5
1.0
Residuales estandarizados
0.5
0.0
-0.5
-1.0
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5
Theoretical Quantiles
g) Obtención del gráfico de recta ajustada con intervalos de predicción y de confianza del 95%:
library(HH) #Descargar librería HH previamente
ci.plot(regres1)
25
95% confidence and prediction intervals for regres1

x
50
40
observed
fit
Y
conf int
pred int
30
20
x
1.5 2.0 2.5 3.0 3.5 4.0
h) Obtención de la prueba de normalidad Shapiro Wilk, sobre los errores del modelo:
shapiro.test(residuals(regres1))
Shapiro-Wilk normality test
data: residuals(regres1)
W = 0.9031, p-value = 0.2706
i) Obtención de la prueba de autocorrelación Durbin Watson, sobre los errores del modelo (Se aplica sólo si los datos
están en el orden de observación en el tiempo):
library(car) #Descargar librería car previamente
durbinWatsonTest(regres1,method="normal") #prueba de autocorrelación cero
lag Autocorrelation D-W Statistic p-value

1 -0.2304812 2.190502 0.924
Alternative hypothesis: rho != 0
durbinWatsonTest(regres1,method="normal",alternative="negative") #prueba de autocorrelación

#negativa

1 -0.2304812 2.190502 0.444
Alternative hypothesis: rho < 0
durbinWatsonTest(regres1,method="normal",alternative="positive") #prueba de autocorrelación

#positiva
1 -0.2304812 2.190502 0.572
Alternative hypothesis: rho > 0
26
En R el test de carencia de ajuste puede realizarse de la siguiente manera (Compare con resultados de SAS):
regres1=lm(Y~X) #Ajusta modelo de regresión y da el error total SSE
regres2=lm(Y~factor(X)) #Ajusta modelo lineal general o completo y da su error puro
#SSPE
anova(regres1,regres2) #Compara los dos modelos anteriores y obtenemos el SSLOF, los grados
#de libertad correspondientes, estadístico de prueba F0 y el valor P
#correspondiente
Analysis of Variance Table
Model 1: Y ~ X
Model 2: Y ~ factor(X)
Res.Df RSS Df Sum of Sq F Pr(>F)
1 7 45.362
2 3 28.375 4 16.987 0.449 0.7726
#Nota: También podemos ajustar el modelo lineal general de la siguiente forma

regres2=aov(Y~factor(X))
detach(datos) # indisponibiliza los elementos en data.frame datos
Veamos ahora cómo se procede en SAS. El procedimiento básico para regresión es el PROC REG, el programa más sencillo
es:
proc reg data=uno;
model y=x;
run;
Lo anterior arroja la tabla de análisis de varianza y la tabla de parámetros estimados. Este programa básico puede modificarse
para obtener gráficos, intervalos residuales, etc. como se ilustra a seguir con el conjunto de datos del ejemplo:
OPTIONS nodate nocenter nonumber ps=60 ls=80;
GOPTIONS ftext=simplex ftitle=simplex htitle=1.3 htext=1.0 border;
/*Entrada de datos (pares x, y)*/
DATA UNO;
INPUT X Y @@;
CARDS;
1.5 23 1.5 24.5 2 25 2.5 30 2.5 33.5
3 40 3.5 40.5 3.5 47 4 49
;
RUN;
/*Procedimiento para regresión Y vs. X*/
/*solicitando residuos, predicciones, intervalos, gráficos, etc.*/
/*Por defecto alpha=0.05*/
symbol1 v=star c=black;
symbol2 c=red l=1;
symbol3 c=blue l=2;
symbol4 c=blue l=2;
symbol5 c=violet l=4;
symbol6 c=violet l=4;
27
PROC REG DATA=UNO corr;

MODEL Y=X/p r clm cli clb SPEC DW DWPROB;
PLOT y*x/conf95 pred95;
PLOT r.*p. r.*x;
TITLE "RAPIDEZ DE GRABADO VS. FLUJO DE CLORO";
OUTPUT OUT=residual r=residuos p=predichos u95m=limsup95m l95m=liminf95m u95=limsup95p
l95=liminf95p;
RUN;
QUIT;
/*Análisis de normalidad para residuales*/

PROC UNIVARIATE DATA=residual normaltest noprint;
VAR residuos;
PROBPLOT residuos/normal;
INSET normaltest probn;
TITLE'GRAFICO DE NORMALIDAD RESIDUALES';
RUN;QUIT;
Salidas del SAS:

a. Matriz de correlación entre X e Y, producida por la opción corr en la línea de invocación del PROC REG:
RAPIDEZ DE GRABADO VS. FLUJO DE CLORO
Procedimiento REG
Correlación
Variable X Y
X 1.0000 0.9703
Y 0.9703 1.0000
b. Tabla de análisis de varianzas, con valor P para la prueba F de significancia de la regresión (Interprete resultados):
Suma de Cuadrado
Fuente DF cuadrados medio F-Valor Pr > F
Modelo 1 730.69338 730.69338 112.76 <.0001
Error 7 45.36218 6.48031
Total corregido 8 776.05556
Raíz MSE 2.54565 R-cuadrado 0.9415
Media dependiente 34.72222 R-Cuad Adj 0.9332
Var Coeff 7.33146
c. Tabla de parámetros estimados con valores de estadísticos y valor P de las pruebas para significancia de los
parámetros. El modelo ajustado es Ŷ  6.449  10.603 X (Interprete resultados):
Estimadores del parámetro
Estimador del Error
Variable DF parámetro estándar Valor t Pr > |t|
Intercept 1 6.44872 2.79457 2.31 0.0544
X 1 10.60256 0.99848 10.62 <.0001
d. Intervalo de confianza para los parámetros. Estos son obtenidos mediante la opción clb de la declaración MODEL
(Interprete resultados):
28
Estimadores del parámetro

Variable DF 95% Límites de confianza
Intercept 1 -0.15938 13.05682
X 1 8.24152 12.96360
e. Estadístico Chi cuadrado para test de homogeneidad de varianza, resultante con la opción SPEC de la declaración
MODEL (Interprete resultados). La hipótesis nula establece que los errores son homocedásticos, independientes de los
regresores y que la especificación del modelo es correcta. Así, cuando el modelo ha sido especificado correctamente y los
errores son independientes de los regresores, el rechazo de la hipótesis nula es evidencia de heterocedasticidad:
Test de primera y segunda
especificación de momento
DF Chi-cuadrado Pr > ChiSq
2 1.79 0.4091
f. Teste Durbin Watson para autocorrelación de primer orden: Los resultados para este test, son obtenidos con las
opciones DW y DWPROB de la declaración MODEL. Los resultados producidos son los siguientes:
D de Durbin-Watson 2.541
Pr < DW 0.6774
Pr > DW 0.3226
Número de observaciones 9
1 Autocorrelación de orden -0.276
NOTA: Pr<DW is the p-value for testing positive autocorrelation, and Pr>DW is
the p-value for testing negative autocorrelation.
g. Las siguientes salidas son obtenidas con opciones especificadas en la declaración MODEL: Valores ajustados o
predichos para Y (Predited Values) y error estándar de valores ajustados (Std Error Mean Predict) son obtenidos
con la opción p; límites de confianza para la respuesta media (CL Mean) se obtienen con la opción clm; límites de
predicción (CL Predict) se obtienen con la opción cli; residuales (Residual), error estándar de los residuales (Std
Error R), residuales estudentizados (Student Residual), y Distancia de Cook (Cook’s D) son obtenidos con la opción r.
Estas dos últimas medidas sirven para diagnosticar si hay observaciones extremas en los datos:
Estadísticos de salida
Variable Valor Error std
Obs depend predicho Media predicha 95% CL Media
1 23.0000 22.3526 1.4412 18.9447 25.7604
2 24.5000 22.3526 1.4412 18.9447 25.7604
3 25.0000 27.6538 1.0785 25.1036 30.2041
4 30.0000 32.9551 0.8647 30.9104 34.9998
5 33.5000 32.9551 0.8647 30.9104 34.9998
6 40.0000 38.2564 0.9115 36.1011 40.4117
7 40.5000 43.5577 1.1884 40.7475 46.3679
8 47.0000 43.5577 1.1884 40.7475 46.3679
9 49.0000 48.8590 1.5787 45.1258 52.5921
Error std Residual
Obs 95% CL Predicha Residual Residual de Student -2-1 0 1 2
1 15.4353 29.2698 0.6474 2.098 0.309 | | |
2 15.4353 29.2698 2.1474 2.098 1.023 | |** |
3 21.1164 34.1913 -2.6538 2.306 -1.151 | **| |
4 26.5978 39.3124 -2.9551 2.394 -1.234 | **| |
29
5 26.5978 39.3124 0.5449 2.394 0.228 | | |

6 31.8627 44.6501 1.7436 2.377 0.734 | |* |
7 36.9145 50.2009 -3.0577 2.251 -1.358 | **| |
8 36.9145 50.2009 3.4423 2.251 1.529 | |*** |
9 41.7759 55.9421 0.1410 1.997 0.0706 | | |
D
Obs de Cook
1 0.022
2 0.247
3 0.145
4 0.099
5 0.003
6 0.040
7 0.257
8 0.326
9 0.002
Suma de residuales 0
Suma de residuales cuadrados 45.36218
SS de Residual predicho (PRESS) 71.60967
Los gráficos producidos son (Analice relación Y vs. X y gráficos de residuales para validar supuestos de varianza y linealidad
del modelo en X)
Figura 2: Gráfico de dispersión con recta ajustada y bandas de confianza y de predicción del 95%. Este gráfico es obtenido con la declaración PLOT
y*x/conf95 pred95. Note que las bandas de predicción (L95 y U95) son más amplias que las de confianza (L95M y U95M), debido a que las
predicciones tienen una varianza mayor que los valores medios ajustados.
30
Figura 3: Gráfico residuales vs. valores predichos. Se obtienen con la declaración PLOT r.*p., el punto después de la p y de la r son parte de la
sintaxis. Note que con los pocos datos es difícil juzgar si la varianza es constante, aunque parece que tal supuesto es razonable.
Figura 4: Gráfico residuales vs. X obtenido con PLOT r.*x . Todos los gráficos de residuales pueden ser solicitados en la misma declaración plot.
El patrón exhibido en este último gráfico es similar al del gráfico anterior, indicando que no hay patrones sistemáticos que hagan pensar que el modelo
no es lineal en X.
Con el PROC UNIVARIATE se obtiene el gráfico de normalidad de los errores, al cual además se ha insertado los resultados
del test Shapiro Wilk (Analice linealidad del gráfico de normalidad y resultados del test)
31
Figura 5: Gráfico de normalidad de residuales. El patrón exhibido nos hace pensar que hay problemas con el supuesto de normalidad. Esto debe
mirarse con cautela, dado que aún con muestras normales se obtiene “no normalidad” en el gráfico de probabilidad cuando las muestras son pequeñas.
Pero por otra parte, el test de Shapiro Wilk arroja un valor del estadístico de prueba de 0.903111 con un valor P de 0.270584 con lo cual se acepta la
hipótesis de normalidad
En SAS obtenemos el test de carencia de ajuste (Lack of Fit), mediante otro procedimiento de regresión, el PROC RSREG,
veamos:
PROC RSREG DATA=UNO;
MODEL Y=X/COVAR=1 LACKFIT;
RUN;QUIT;
De los resultados que produce este procedimiento sólo nos interesa los que aparecen en la siguiente salida SAS
RAPIDEZ DE GRABADO VS. FLUJO DE CLORO
The RSREG Procedure
Response Surface for Variable Y
Response Mean 34.722222
Root MSE 2.545646
R-Square 0.9415
Coefficient of Variation 7.3315
Suma de Cuadrado de
Residual DF cuadrados la media F-Valor Pr > F
Lack of Fit 4 16.987179 4.246795 0.45 0.7726
Pure Error 3 28.375000 9.458333
Total Error 7 45.362179 6.480311
15. Problema
Los siguientes datos se recolectaron con el fin de determinar la relación existente entre el peso corporal del ganado vacuno (X)
y la rapidez de eliminación metabólica/peso corporal (Y). Los datos que aparecen a continuación son el resultado de varias
realizaciones del experimento, en distintos niveles del peso.
32
Y: Rapidez de Eliminación
X: Peso Corporal
Metabólica/Peso Corporal
110 235
110 198
110 173
230 174
230 149
230 124
360 115
360 130
360 102
360 95
505 122
505 112
505 98
505 96
Observe que la variable explicatoria X fue observada en cuatro niveles: 110, 230, 360 y 505, es decir, tenemos réplicas de la
variable respuesta en al menos un nivel de X.
1. Indique qué información nos proporciona el análisis del gráfico de Y vs. X acerca de:
a) El tipo de relación funcional entre Y vs. X (¿lineal o no lineal?)
b) El comportamiento de la varianza de Y en cada nivel de X observado ¿Es constante o no? ¿Si no es constante,
cómo cambia?
2. Ajuste el modelo de regresión lineal simple y determine lo siguiente
a) Interprete los valores ajustados de los parámetros.
b) Realice la prueba de significancia de la regresión (mediante la tabla ANOVA)
c) Realice los test de significancia de cada parámetros (pruebas t).
3. Calcule los residuales y responda lo siguiente:
a) De acuerdo a los gráficos de residuales, determine si el supuesto de varianza constante para los respectivos
errores se cumple o no.
b) Ahora realice los test de normalidad sobre los errores del modelo, use e interprete los resultados del test de
Shapiro Wilk y el gráfico de probabilidad.
4. Considere de nuevo los gráficos de residuales vs. X, calcule la ANOVA para el test de carencia de ajuste del modelo y
determine si
a) ¿Hay carencia de ajuste del modelo postulado para la respectiva respuesta media? (Formule completamente el
test de hipótesis, el estadístico de prueba y los resultados)
b) Caso que exista carencia de ajuste ¿Qué modelos serían más apropiados? ¿Por qué?
33
Bibliografía
CANAVOS, George C. Probabilidad y Estadística. Aplicaciones y Métodos. McGraw-Hill,.
DEVORE, Jay L. Probabilidad y Estadística para Ingeniería y Ciencias. International Thomson.
NETER, N. et. Al. (1996) Applied Linear Statistical Models. Irwin.
34

Regresión Lineal Simple

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Regresión Lineal Simple

Încărcat de

Drepturi de autor:

Formate disponibile

Regresión Lineal Simple, Curso: Regresión y Diseño de Experimentos Prof. Nelfi González A.

 ̂ 0 Estimador del parámetro  0

 ̂1 Estimador del parámetro 1

 e Residual, es una estimación del error aleatorio.

2.2 Significados de la regresión

ajustar la curva correspondiente a E Y | X  .

regresión y tratar de ajustarla a los datos minimizando el error de ajuste.

El segundo caso es el que más se da en la práctica.

 Los errores aleatorios  i ~ N  0 , 2  , i  1, 2 ,  , n

 La varianza de los errores aleatorios es  2 ,  i , i  1, 2 ,  , n (supuesto de varianza constante) pero

3. Estimación por mínimos cuadrados ordinarios

Y * y X * son las variables Y y X transformadas.

3.2 Valor de los estimadores

y por tanto una estimación de la respuesta media (o respuesta ajustada) es:

3.3 Sumas de cuadrados y de productos cruzados

Suma de cuadrados corregidos en y. También es

Suma de los cuadrados de los errores: Es la estimación

Suma de cuadrados de regresión SSR i 1

4. Estimación por máxima verosimilitud (Estimadores MLE)

verosimilitud L   0 , 1 ,  2 | x,y  es hallada a partir de la distribución conjunta de las observaciones,

f  y1 , , yn |  0 , 1 ,  2  , que por la condición de independencia es igual al producto de las densidades de probabilidad

marginales, por tanto, podemos escribir,

que minimizan y así, los estimadores MLE y son iguales a los

de donde obtenemos como estimador MLE de a

estimador MLE como, , por tanto , es decir, es un estimador sesgado de

6. Propiedades de los estimadores de mínimos cuadrados bajo el modelo

lineal. Por tanto Ŷ  ˆ 0  ˆ1 X es un estimador insesgado para Y |X  E Y | X  .

Estimadores Pesos en las combinaciones lineales

Para ̂1 Para ̂ 0 Para Ŷi

 mi  ci xi  COV Yi ,Yi     m j  c j xi  COV  Yi ,Y j 

8. La línea de regresión siempre pasa a través del centroide de los datos  x , y 

7. Inferencias sobre los parámetros del modelo de regresión

Test de Criterio de Intervalo de confianza

8. Inferencias respecto a la respuesta media Y |x0 y valores futuros

Para la respuesta media en X  x0

Testes de Intervalo de confianza

Para una respuesta futura en X  x0

con Ŷ0  ˆ 0  ˆ1 x0 con ŷ0  ˆ 0  ˆ1 x0

el estadístico y los límites del intervalo de predicción resultantes.

9. Análisis de varianza para probar la significancia de la regresión

SST  SSR  SSE  ˆ1 S xy  SSE  ˆ12 S xx  SSE

grados de libertad, respectivamente.

una F con 1 y n-2 grados de libertad:

10. Pasos en el Análisis de regresión

11. Diagnósticos y medidas remediales

11.2 Diagnósticos del modelo

11.2.1 No linealidad de la función de regresión

Xj El j-ésimo nivel de valores de X, supondremos j=1, 2,…, k

Se define primero un modelo lineal general (modelo completo) que corresponde a

Puede mostrarse, que el procedimiento de prueba realiza la descomposición:

donde SSLOF es la suma de cuadrados de carencia de ajuste dada por:

cuyos grados de libertad son iguales a gl  SSE   gl  SSPE   k  2

 E  MSLOF    2 sólo si la función de regresión es la especificada en H0, de lo contrario E  MSLOF    2

Como soluciones al problema “el modelo de regresión lineal no es apropiado” se tienen:

11.2.2 No constancia de la varianza de los errores

tamaño del grupo 2 por n2 , por tanto n  n1  n2 .

denotamos por d i1  ei1  e1 y d i 2  ei 2  e2 .

Como soluciones al problema de “no homogeneidad de varianza” se tienen:

11.2.3 No independencia de los errores

 t  1 t 1  at con at ~ N  0,  2  con 1  1 y básicamente se prueba si la constante de autocorrelación 1 es igual

incorrelación entre observaciones separadas k  1 unidades (en el tiempo u orden de observación).

Hipótesis y criterios de decisión El estadístico de prueba

H 0 : 1  0 o equivalentemente H 0 :  1  0 versus: 2

/Entrada de datos (pares x, y)/

/Análisis de normalidad para residuales/