Validación Regresión Lineal

Curso: Estadística Multivariable
Clase 2: Validación Regresión Lineal Simple

Estructura del curso
Clase 1: Estimación de la regresión
Clase 2: Validación de la regresión

Unidad 1: Regresión Lineal
Clase 3: Estimación de parámetros matricialmente
Clase 4: Validación de la regresión lineal múltiple
Clase 5: Anovaa experimentos de 1 factor
Clase 6: Solemne
Curso Unidad 2: Análisis de Varianza Clase 7: Validación de supuestos del análisis de varianza
Clase 8: Anova de experimentos de 2 factores
Clase 9: Anova de 2𝑘 factores
Clase 10: Validación de supuestos de la Anova
Clase 11: Nombre clase
Clase 12: Nombre clase.
Unidad 3: Análisis Factorial Clase 13: Solemne

Resultado de Aprendizaje de la Clase
Analiza la validez y
significancia de la regresión
lineal simple
¿Por qué es importante este tema?
La mayoría de los fenómenos están relacionados entre ellos, es

necesario determinar un buen modelo que represente los datos.
Validar el modelo de regresión le permite tomar buenas decisiones.

Introducción
• Los modelos de regresión sirven para predecir el comportamiento de
ciertas variables de interés. Ejemplo: el promedio de producción agrícola
de arroz en un cierto periodo sabiendo la cantidad de lluvias caídas a la
fecha.
• Estas predicciones pueden diferir de la cantidad real, pero tendré mayor

seguridad y cercanía de mi valor predicho si se cumple la validez de mi
modelo.
• Una vez estimado los parámetros de un modelo, es necesario validar el

modelo y el cumplimiento de los supuestos.
Preguntas de contexto y comprensión.
• ¿Para que sirve el análisis de varianza?
• ¿Cómo interpreto el estadístico F?
• ¿Qué representa el valor P?
• ¿Qué importancia tiene validar los supuestos?
• ¿Cuándo hago una transformación de los datos?

Análisis de Varianza para la regresión
• Usaremos el análisis de varianza para probar la significancia de una
regresión.
• El procedimiento particiona la varianza total:
𝑛 𝑛 𝑛
෍ 𝑦𝑖 − 𝑦ത 2 = ෍ 𝑦ො𝑖 − 𝑦ത 2 + ෍ 𝑦𝑖 − 𝑦ො𝑖 2
𝑖=1 𝑖=1 𝑖=1

Simplificando la notación
𝑆𝑇𝐶𝐶 = 𝑆𝐶𝑅 + 𝑆𝐶𝐸
Dónde, 𝑆𝑇𝐶𝐶 representa la suma total de cuadrado corregida de 𝒚
𝑛
𝑆𝑇𝐶𝐶 = ෍ 𝑦𝑖 − 𝑦ത 2
𝑖=1
𝑆𝐶𝑅 representa la suma cuadrado de la regresión y refleja la cantidad de
variación de 𝑦 que se explica con el modelo
𝑛
𝑆𝐶𝑅 = ෍ 𝑦ො𝑖 − 𝑦ത 2
𝑖=1
𝑆𝐶𝐸 representa la variación alrededor de la recta e regresión
𝑛
𝑆𝐶𝐸 = ෍ 𝑦𝑖 − 𝑦ො𝑖 2
𝑖=1
Además, se cumple que

𝑆𝐶𝐸
𝑆2 =
𝑛−2
• Puede demostrarse que 𝑆𝐶𝑅/𝜎 2 y 𝑆𝐶𝐸/𝜎 2 son variables ji-cuadrado
independientes con 1 y 𝑛 − 2 grados de libertad, respectivamente.
Supongamos que nos interesa probar
𝐻0 : 𝛽1 = 0
𝐻1 : 𝛽1 ≠ 0
Para probar la hipótesis anterior calculamos
𝑆𝐶𝑅/1
𝑓=
𝑆𝐶𝐸/ 𝑛 − 2
Rechazamos 𝐻0 cuando 𝑓 > 𝑓𝛼 1, 𝑛 − 2 . Es común referirse a las sumas de

cuadrado dividido por sus g.l como cuadrados medios
• Los cálculos del análisis de varianza se resume en la siguiente tabla
conocida como ANOVA.
Fuente de Suma de Grados de Cuadrado 𝑓

Variación cuadrados libertad medio
Regresión 𝑆𝐶𝑅 1 𝑆𝐶𝑅 𝑆𝐶𝑅
𝑠2
Error 𝑆𝐶𝐸 𝑛−2 𝑆𝐶𝐸
𝑠2 =
𝑛−2
Total 𝑆𝑇𝐶𝐶 𝑛−1
Cuando se rechaza 𝐻0 , es decir cuando 𝑓 > 𝑓𝛼 1, 𝑛 − 2 se concluye que hay

una cantidad significativa de variación que es explicada por el modelo.
Regresión lineal simple: Ejemplo
Considerando el problema de la pureza del oxígeno, ajustar el modelo de
regresión y sabiendo 𝑆𝐶𝑅 = 152,13 y 𝑆𝐶𝐸 = 21,25
Nivel de Nivel de
hidrocarburos Pureza hidrocarburos Pureza
0,99 90,01 1,19 93,54
1,02 89,05 1,15 92,52
1,15 91,43 0,98 90,56
1,29 93,74 1,01 89,54
1,46 96,73 1,11 89,85
1,36 94,45 1,2 90,39
0,87 87,59 1,26 93,25
1,23 91,77 1,32 93,41
1,55 99,42 1,43 94,98
1,4 93,65 0,95 87,33
Solución
Dado que de la información se puede obtener 𝑆𝐶𝑅 = 152,13 y 𝑆𝐶𝐸 = 21,25
Cumpliendo la identidad
𝑆𝑇𝐶𝐶 = 𝑆𝐶𝑅 + 𝑆𝐶𝐸
𝑆𝑇𝐶𝐶 = 152,13 + 21,25

Regresión 152,13 1 152,13 128,9
Error 21,25 18 𝑠 2 = 1,18
Total 173,63 19
Análisis de varianza para la regresión
• Considerando el ejemplo
De la tabla se observa que el valor del estadístico 𝑓 es 128,86, y el valor de

𝑓0,01 1,18 =8,29, así existe una cantidad significativa de variación explicada
por el modelo
Predicción de nuevas observaciones
• Los modelos de regresión se usan para hacer predicciones. Si 𝑥0 es el valor
de la variable de interés, entonces
𝑌෠0 = 𝛽መ0 + 𝛽መ1 𝑥0
Debido a que se obtiene 𝑌෠0 como estimador de 𝑌0 , las observaciones futuras

estimadas tienen un intervalo de confianza de 𝑦0 para el valor 𝑥0 dado por
1 𝑥0 − 𝑥ҧ 2
𝑦ො0 −𝑡𝛼,𝑛−2 𝑠 2 1+ + ≤ 𝑦0
2 𝑛 𝑆𝑥𝑥
1 𝑥0 − 𝑥ҧ 2
≤ 𝑦ො0 +𝑡𝛼,𝑛−2 𝑠2 1+ +
2 𝑛 𝑆𝑥𝑥
Evaluando la adecuación del modelo
• Uno de los supuestos del modelo de regresión lineal es que los errores 𝜀𝑖
son 𝑁𝐼𝐷 0, 𝜎 2 .
• Las pruebas de hipótesis y estimación de los intervalos requieren que los
errores se distribuyan normal.
Análisis de los residuales
Los residuales de un modelo de regresión 𝑒𝑖 = 𝑦𝑖 − 𝑦ො𝑖 , es necesario probar la

normalidad de los residuales, puede usarse un histograma o gráfica de
probabilidad normal de los residuales.
Se pueden analizar visualmente, una forma es verificar que el 95% de los
residuales estandarizados debe estar entre −2,2 , estandarizado 𝑒𝑖
𝑒𝑖
𝑑𝑖 =
𝑠
Análisis de los residuales: ejemplo
prototipo
2
Coeficiente de determinación 𝑅
• Se le llama coeficiente de determinación a
2
SCR SCE
𝑅 = =1−
STCC 𝑆𝑇𝐶
𝑅2 es el cuadrado del coeficiente de correlación entre 𝑋 e 𝑌. Dónde:
0 ≤ 𝑅2 ≤ 1
Con frecuencia se hace referencia 𝑅2 como la cantidad de variabilidad

explicada por el modelo de regresión.
El estadístico 𝑹𝟐 debe usarse con cuidado, ya que muchas veces se puede
mejorar agregando variables, pero a veces esto aumenta 𝑺𝟐 debido a la
pérdida de grados de libertad.
Prueba de falta de ajuste
• Muchas veces los modelos se ajustan a los datos para proporcionar un
modelo empírico cuando la verdadera relación entre las variables es
desconocida.
• Nos interesa determinar si el modelo propuesto es correcto.
• Una prueba de bondad de ajuste del modelo de regresión, la hipótesis
que quiere probarse sería:
𝐻0 : El modelo de regresión simple es correcto
𝐻1 : El modelo de regresión simple no es correcto
• La prueba implica hacer la partición de la 𝑆𝐶𝐸 en los componentes:
𝑆𝐶𝐸 = 𝑆𝐶𝐸𝑝𝑢𝑟𝑜 + 𝑆𝐶𝐸 𝐿𝑂𝐹
Dónde,
𝑆𝐶𝐸𝑝𝑢𝑟𝑜 : corresponde al error puro
𝑆𝐶𝐸 𝐿𝑂𝐹 : Es la parte atribuible a la falta de ajuste
• Para calcularse la 𝑆𝐶𝐸𝑝𝑢𝑟𝑜 es necesario tener observaciones repetidas de la
respuesta 𝑌 para al menos una observación de 𝑥.
Supongamos
𝑦11 , 𝑦12 , … , 𝑦1𝑛1 observaciones de 𝑥1
𝑦21 , 𝑦22 , … , 𝑦2𝑛2 observaciones de 𝑥2
⋮
𝑦𝑚1 , 𝑦𝑚2 , … , 𝑦𝑚𝑛𝑚 observaciones de 𝑥𝑚
La contribución del error puro de cada 𝑥𝑖 es
𝑛𝑖
2
෍ 𝑦𝑖𝑢 − 𝑦ത𝑖
𝑢=1
La suma total del error puro
𝑚 𝑛𝑖
2
𝑆𝐶𝐸𝑝𝑢𝑟𝑜 = ෍ ෍ 𝑦𝑖𝑢 − 𝑦ത𝑖
𝑖=1 𝑢=1
Así, los grados de libertad debidos al error puro
𝑚
𝑛𝑝𝑢𝑟𝑜 = ෍ 𝑛𝑖 − 1 = 𝑛 − 𝑚
𝑖=1
el error debido a a la falta de ajuste es

𝑆𝐶𝐸𝐿𝑂𝐹 = 𝑆𝐶𝐸 − 𝑆𝐶𝐸𝑝𝑢𝑟𝑜
Los grados de libertad
𝑛 − 2 − 𝑛𝑝𝑢𝑟𝑜 = 𝑚 − 2
El estadístico de prueba de falta de ajuste
𝑆𝐶𝐸𝐿𝑂𝐹
𝑚 − 2 𝐶𝑀𝐸𝐿𝑂𝐹
𝐹0 = =
𝑆𝐶𝐸𝑝𝑢𝑟𝑜 𝐶𝑀𝐸𝑝𝑢𝑟𝑜
𝑛−𝑚
• La prueba de hipótesis de que el modelo se ajusta adecuadamente a los datos se
rechazaría si 𝑓0 > 𝑓𝛼,𝑚−2,𝑚−𝑛
Regresión 𝑆𝐶𝑅 1 𝑆𝐶𝑅 𝑆𝐶𝑅
𝑠2
Error 𝑆𝐶𝐸 𝑛−2 𝑆𝐶𝐸
𝑠2 =
𝑛−2
Falta de 𝑆𝐶𝐸 − 𝑆𝐶𝐸𝑝𝑢𝑟𝑜 𝑚−2 𝑆𝐶𝐸𝐿𝑂𝐹 𝐶𝑀𝐸𝐿𝑂𝐹
ajuste 𝑚−2 𝐶𝑀𝐸𝑝𝑢𝑟𝑜
Error puro 𝑆𝐶𝐸𝑝𝑢𝑟𝑜 𝑛−𝑚 𝑆𝐶𝐸𝑝𝑢𝑟𝑜
𝑛−𝑚
Total 𝑆𝑇𝐶𝐶 𝑛−1
Prueba de Falta de ajuste
Prueba de falta de ajuste: Ejemplo
• Considérense los siguientes datos. Ajuste un modelo de regresión lineal
simple y haga una prueba de ajuste a un 𝛼 = 0,05
x y x y
1,0 2,3; 1,8 5,6 3,5; 2,8; 3,1
2,0 2,8 6,0 3,4; 3,2
3,3 1,8; 3,7 6,5 3,4
4,0 2,6; 2,6; 2,2 6,9 5,0
5,0 2,0
Solución
Considerando la Anova y descomponiendo la 𝑆𝐶𝐸
Regresión 3,493 1 3,493 6,66
Error 7,34 14 𝑠 2 = 0,524

Falta de 𝑺𝑪𝑬 − 𝑺𝑪𝑬𝒑𝒖𝒓𝒐 𝒎−𝟐 𝑺𝑪𝑬𝑳𝑶𝑭 𝑪𝑴𝑬𝑳𝑶𝑭
ajuste 𝒎−𝟐 𝑪𝑴𝑬𝒑𝒖𝒓𝒐
Error puro 𝑺𝑪𝑬𝒑𝒖𝒓𝒐 𝒏−𝒎 𝑺𝑪𝑬𝒑𝒖𝒓𝒐
𝒏−𝒎
Total 10,83 15
Solución
Calculando el error puro
x y SC gl
1 2,3 1,8 0,13 1
2 2,8 0,00 0
3,3 1,8 3,7 1,81 1
4 2,6 2,6 2,2 0,11 2
5 2 0,00 0
5,6 3,5 2,8 2,1 0,98 2
6 3,4 3,2 0,02 1
6,5 3,4 0,00 0
6,9 5 0,00 0
SCE puro 3,04 7
Solución
Considerando la Anova
Regresión 3,493 1 3,493 6,66
Error 7,34 14 𝑠 2 = 0,524

Falta de 𝟒, 𝟑 𝟕 𝟎, 𝟔𝟏𝟒 𝟏, 𝟒𝟏 < 𝟑, 𝟕𝟗
ajuste
Error puro 𝟑, 𝟎𝟒 𝟕 𝟎, 𝟒𝟑𝟒
Total 10,83 15
Transformaciones lineales
Transformaciones lineales
Transformación: Ejemplo
Densidad, x Rigidez, y Densidad, x Rigidez, y
9,50 14814,00 8,40 17502,00
9,80 14007,00 11,00 19443,00
8,30 7573,00 9,90 14191,00
8,60 9714,00 6,40 8076,00
7,00 5304,00 8,20 10728,00
17,40 43243,00 15,00 25319,00
15,20 28028,00 16,40 41792,00
16,70 49499,00 15,40 25312,00
15,00 26222,00 14,50 22148,00
14,80 26751,00 13,60 18036,00
25,60 96305,00 23,40 104170,00
24,40 72594,00 23,30 49512,00
19,50 32207,00 21,20 48218,00
22,80 70453,00 21,70 47661,00
19,80 38138,00 21,30 53045,00
Salida R
lm(Rigidez..y ~ Densidad..x)
Residuals vs Fitted Normal Q-Q
20000 40000
4
26 26
Standardized residuals
3
11 11
Residuals
2
1
0
0
-20000
-1
13
13
0 20000 40000 60000 -2 -1 0 1 2
Fitted values Theoretical Quantiles
Scale-Location Residuals vs Leverage
4
26
Standardized residuals 26 1
3
1.5
11 0.5
2
1.0 13 11
1
0
0.5
-1
27
Cook's distance
0.0
-2
0 20000 40000 60000 0.00 0.04 0.08 0.12
Fitted values Leverage

Solución
• Debido a que el gráfico de los residuales sugiere el no cumplimiento del
supuesto de aleatoriedad de los residuos, por lo que requiere una
transformación de los datos.
11.5
100000
11.0
80000
10.5
Rigidez..y
60000
Ln.y.
10.0
40000
9.5
20000 9.0
8.5
10 15 20 25 10 15 20 25
Densidad..x Densidad..x
Modelo transformado
lm(Ln.y. ~ Densidad..x)
Residuals vs Fitted Normal Q-Q
2
16 8 8 16
0.2
1
Residuals
0
-0.2
-1
-2
-0.6
5
5
9.0 9.5 10.0 10.5 11.0 11.5 -2 -1 0 1 2
Fitted values Theoretical Quantiles
Scale-Location Residuals vs Leverage

0.5
1.5
5
2
16
16 8
26
1
1.0
0
0.5
-1
-2
Cook's distance 5 0.5
0.0
9.0 9.5 10.0 10.5 11.0 11.5 0.00 0.04 0.08 0.12
Fitted values Leverage

Resumen de la clase
• Se revisaron los conceptos de :
 Análisis de varianza,
 Validación de los supuestos de la regresión,
 Prueba de falta de ajuste y
 Transformación de datos
 Se determinó la significancia de la regresión lineal simple

Bibliografía
Montgomery, D. y Runger, D. (2007). Probabilidad y estadística
aplicadas a la ingeniería. (2da ed.). México: Limusa
Walpole, R., Myers, S. y Myers R. (2007) Probabilidad y

estadística para Ingeniería. (8va ed.). México: Pearson Education.

Validación Regresión Lineal

Încărcat de

Informații document

Descriere originală:

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Validación Regresión Lineal

Încărcat de

Drepturi de autor:

Formate disponibile

Curso: Estadística Multivariable

Clase 2: Validación Regresión Lineal Simple

Clase 2: Validación de la regresión

Clase 4: Validación de la regresión lineal múltiple

Clase 5: Anovaa experimentos de 1 factor

Clase 8: Anova de experimentos de 2 factores

Clase 9: Anova de 2𝑘 factores

Clase 10: Validación de supuestos de la Anova

Clase 11: Nombre clase

Clase 12: Nombre clase.

Unidad 3: Análisis Factorial Clase 13: Solemne

La mayoría de los fenómenos están relacionados entre ellos, es

Validar el modelo de regresión le permite tomar buenas decisiones.

• Estas predicciones pueden diferir de la cantidad real, pero tendré mayor

• Una vez estimado los parámetros de un modelo, es necesario validar el

• ¿Cómo interpreto el estadístico F?

• ¿Qué representa el valor P?

• ¿Qué importancia tiene validar los supuestos?

• ¿Cuándo hago una transformación de los datos?

𝑖=1 𝑖=1 𝑖=1

Además, se cumple que

Rechazamos 𝐻0 cuando 𝑓 > 𝑓𝛼 1, 𝑛 − 2 . Es común referirse a las sumas de

Fuente de Suma de Grados de Cuadrado 𝑓

Cuando se rechaza 𝐻0 , es decir cuando 𝑓 > 𝑓𝛼 1, 𝑛 − 2 se concluye que hay

Fuente de Suma de Grados de Cuadrado 𝑓

De la tabla se observa que el valor del estadístico 𝑓 es 128,86, y el valor de

𝑌෠0 = 𝛽መ0 + 𝛽መ1 𝑥0

Debido a que se obtiene 𝑌෠0 como estimador de 𝑌0 , las observaciones futuras

Los residuales de un modelo de regresión 𝑒𝑖 = 𝑦𝑖 − 𝑦ො𝑖 , es necesario probar la

𝑅2 es el cuadrado del coeficiente de correlación entre 𝑋 e 𝑌. Dónde:

Con frecuencia se hace referencia 𝑅2 como la cantidad de variabilidad

el error debido a a la falta de ajuste es

Error 7,34 14 𝑠 2 = 0,524

Error 7,34 14 𝑠 2 = 0,524

Residuals vs Fitted Normal Q-Q

0 20000 40000 60000 -2 -1 0 1 2

Fitted values Theoretical Quantiles

Scale-Location Residuals vs Leverage

Fitted values Leverage

Residuals vs Fitted Normal Q-Q

9.0 9.5 10.0 10.5 11.0 11.5 -2 -1 0 1 2

Fitted values Theoretical Quantiles

Scale-Location Residuals vs Leverage

Fitted values Leverage

 Se determinó la significancia de la regresión lineal simple

Walpole, R., Myers, S. y Myers R. (2007) Probabilidad y

S-ar putea să vă placă și