Sunteți pe pagina 1din 34

Curso: Estadística Multivariable

Clase 2: Validación Regresión Lineal Simple


Estructura del curso
Clase 1: Estimación de la regresión

Clase 2: Validación de la regresión


Unidad 1: Regresión Lineal
Clase 3: Estimación de parámetros matricialmente

Clase 4: Validación de la regresión lineal múltiple

Clase 5: Anovaa experimentos de 1 factor

Clase 6: Solemne

Curso Unidad 2: Análisis de Varianza Clase 7: Validación de supuestos del análisis de varianza

Clase 8: Anova de experimentos de 2 factores

Clase 9: Anova de 2𝑘 factores

Clase 10: Validación de supuestos de la Anova

Clase 11: Nombre clase

Clase 12: Nombre clase.

Unidad 3: Análisis Factorial Clase 13: Solemne


Resultado de Aprendizaje de la Clase

Analiza la validez y
significancia de la regresión
lineal simple
¿Por qué es importante este tema?

La mayoría de los fenómenos están relacionados entre ellos, es


necesario determinar un buen modelo que represente los datos.

Validar el modelo de regresión le permite tomar buenas decisiones.


Introducción
• Los modelos de regresión sirven para predecir el comportamiento de
ciertas variables de interés. Ejemplo: el promedio de producción agrícola
de arroz en un cierto periodo sabiendo la cantidad de lluvias caídas a la
fecha.

• Estas predicciones pueden diferir de la cantidad real, pero tendré mayor


seguridad y cercanía de mi valor predicho si se cumple la validez de mi
modelo.

• Una vez estimado los parámetros de un modelo, es necesario validar el


modelo y el cumplimiento de los supuestos.
Preguntas de contexto y comprensión.
• ¿Para que sirve el análisis de varianza?

• ¿Cómo interpreto el estadístico F?

• ¿Qué representa el valor P?

• ¿Qué importancia tiene validar los supuestos?

• ¿Cuándo hago una transformación de los datos?


Análisis de Varianza para la regresión
• Usaremos el análisis de varianza para probar la significancia de una
regresión.
• El procedimiento particiona la varianza total:

𝑛 𝑛 𝑛

෍ 𝑦𝑖 − 𝑦ത 2 = ෍ 𝑦ො𝑖 − 𝑦ത 2 + ෍ 𝑦𝑖 − 𝑦ො𝑖 2

𝑖=1 𝑖=1 𝑖=1


Simplificando la notación
𝑆𝑇𝐶𝐶 = 𝑆𝐶𝑅 + 𝑆𝐶𝐸
Dónde, 𝑆𝑇𝐶𝐶 representa la suma total de cuadrado corregida de 𝒚
𝑛

𝑆𝑇𝐶𝐶 = ෍ 𝑦𝑖 − 𝑦ത 2

𝑖=1
Análisis de Varianza para la regresión
𝑆𝐶𝑅 representa la suma cuadrado de la regresión y refleja la cantidad de
variación de 𝑦 que se explica con el modelo
𝑛

𝑆𝐶𝑅 = ෍ 𝑦ො𝑖 − 𝑦ത 2

𝑖=1
𝑆𝐶𝐸 representa la variación alrededor de la recta e regresión
𝑛

𝑆𝐶𝐸 = ෍ 𝑦𝑖 − 𝑦ො𝑖 2

𝑖=1

Además, se cumple que


𝑆𝐶𝐸
𝑆2 =
𝑛−2
Análisis de Varianza para la regresión
• Puede demostrarse que 𝑆𝐶𝑅/𝜎 2 y 𝑆𝐶𝐸/𝜎 2 son variables ji-cuadrado
independientes con 1 y 𝑛 − 2 grados de libertad, respectivamente.
Supongamos que nos interesa probar
𝐻0 : 𝛽1 = 0
𝐻1 : 𝛽1 ≠ 0
Para probar la hipótesis anterior calculamos

𝑆𝐶𝑅/1
𝑓=
𝑆𝐶𝐸/ 𝑛 − 2

Rechazamos 𝐻0 cuando 𝑓 > 𝑓𝛼 1, 𝑛 − 2 . Es común referirse a las sumas de


cuadrado dividido por sus g.l como cuadrados medios
Análisis de Varianza para la regresión
• Los cálculos del análisis de varianza se resume en la siguiente tabla
conocida como ANOVA.

Fuente de Suma de Grados de Cuadrado 𝑓


Variación cuadrados libertad medio
Regresión 𝑆𝐶𝑅 1 𝑆𝐶𝑅 𝑆𝐶𝑅
𝑠2
Error 𝑆𝐶𝐸 𝑛−2 𝑆𝐶𝐸
𝑠2 =
𝑛−2
Total 𝑆𝑇𝐶𝐶 𝑛−1

Cuando se rechaza 𝐻0 , es decir cuando 𝑓 > 𝑓𝛼 1, 𝑛 − 2 se concluye que hay


una cantidad significativa de variación que es explicada por el modelo.
Regresión lineal simple: Ejemplo
Considerando el problema de la pureza del oxígeno, ajustar el modelo de
regresión y sabiendo 𝑆𝐶𝑅 = 152,13 y 𝑆𝐶𝐸 = 21,25

Nivel de Nivel de
hidrocarburos Pureza hidrocarburos Pureza
0,99 90,01 1,19 93,54
1,02 89,05 1,15 92,52
1,15 91,43 0,98 90,56
1,29 93,74 1,01 89,54
1,46 96,73 1,11 89,85
1,36 94,45 1,2 90,39
0,87 87,59 1,26 93,25
1,23 91,77 1,32 93,41
1,55 99,42 1,43 94,98
1,4 93,65 0,95 87,33
Solución
Dado que de la información se puede obtener 𝑆𝐶𝑅 = 152,13 y 𝑆𝐶𝐸 = 21,25
Cumpliendo la identidad
𝑆𝑇𝐶𝐶 = 𝑆𝐶𝑅 + 𝑆𝐶𝐸
𝑆𝑇𝐶𝐶 = 152,13 + 21,25

Fuente de Suma de Grados de Cuadrado 𝑓


Variación cuadrados libertad medio
Regresión 152,13 1 152,13 128,9
Error 21,25 18 𝑠 2 = 1,18
Total 173,63 19
Análisis de varianza para la regresión
• Considerando el ejemplo

De la tabla se observa que el valor del estadístico 𝑓 es 128,86, y el valor de


𝑓0,01 1,18 =8,29, así existe una cantidad significativa de variación explicada
por el modelo
Predicción de nuevas observaciones
• Los modelos de regresión se usan para hacer predicciones. Si 𝑥0 es el valor
de la variable de interés, entonces

𝑌෠0 = 𝛽መ0 + 𝛽መ1 𝑥0

Debido a que se obtiene 𝑌෠0 como estimador de 𝑌0 , las observaciones futuras


estimadas tienen un intervalo de confianza de 𝑦0 para el valor 𝑥0 dado por

1 𝑥0 − 𝑥ҧ 2
𝑦ො0 −𝑡𝛼,𝑛−2 𝑠 2 1+ + ≤ 𝑦0
2 𝑛 𝑆𝑥𝑥

1 𝑥0 − 𝑥ҧ 2
≤ 𝑦ො0 +𝑡𝛼,𝑛−2 𝑠2 1+ +
2 𝑛 𝑆𝑥𝑥
Evaluando la adecuación del modelo
• Uno de los supuestos del modelo de regresión lineal es que los errores 𝜀𝑖
son 𝑁𝐼𝐷 0, 𝜎 2 .
• Las pruebas de hipótesis y estimación de los intervalos requieren que los
errores se distribuyan normal.
Análisis de los residuales

Los residuales de un modelo de regresión 𝑒𝑖 = 𝑦𝑖 − 𝑦ො𝑖 , es necesario probar la


normalidad de los residuales, puede usarse un histograma o gráfica de
probabilidad normal de los residuales.
Se pueden analizar visualmente, una forma es verificar que el 95% de los
residuales estandarizados debe estar entre −2,2 , estandarizado 𝑒𝑖
𝑒𝑖
𝑑𝑖 =
𝑠
Análisis de los residuales: ejemplo
prototipo
2
Coeficiente de determinación 𝑅
• Se le llama coeficiente de determinación a

2
SCR SCE
𝑅 = =1−
STCC 𝑆𝑇𝐶

𝑅2 es el cuadrado del coeficiente de correlación entre 𝑋 e 𝑌. Dónde:

0 ≤ 𝑅2 ≤ 1

Con frecuencia se hace referencia 𝑅2 como la cantidad de variabilidad


explicada por el modelo de regresión.
El estadístico 𝑹𝟐 debe usarse con cuidado, ya que muchas veces se puede
mejorar agregando variables, pero a veces esto aumenta 𝑺𝟐 debido a la
pérdida de grados de libertad.
Prueba de falta de ajuste
• Muchas veces los modelos se ajustan a los datos para proporcionar un
modelo empírico cuando la verdadera relación entre las variables es
desconocida.
• Nos interesa determinar si el modelo propuesto es correcto.
• Una prueba de bondad de ajuste del modelo de regresión, la hipótesis
que quiere probarse sería:
𝐻0 : El modelo de regresión simple es correcto
𝐻1 : El modelo de regresión simple no es correcto
• La prueba implica hacer la partición de la 𝑆𝐶𝐸 en los componentes:
𝑆𝐶𝐸 = 𝑆𝐶𝐸𝑝𝑢𝑟𝑜 + 𝑆𝐶𝐸 𝐿𝑂𝐹
Dónde,
𝑆𝐶𝐸𝑝𝑢𝑟𝑜 : corresponde al error puro
𝑆𝐶𝐸 𝐿𝑂𝐹 : Es la parte atribuible a la falta de ajuste
Prueba de falta de ajuste
• Para calcularse la 𝑆𝐶𝐸𝑝𝑢𝑟𝑜 es necesario tener observaciones repetidas de la
respuesta 𝑌 para al menos una observación de 𝑥.
Supongamos
𝑦11 , 𝑦12 , … , 𝑦1𝑛1 observaciones de 𝑥1
𝑦21 , 𝑦22 , … , 𝑦2𝑛2 observaciones de 𝑥2

𝑦𝑚1 , 𝑦𝑚2 , … , 𝑦𝑚𝑛𝑚 observaciones de 𝑥𝑚
La contribución del error puro de cada 𝑥𝑖 es
𝑛𝑖
2
෍ 𝑦𝑖𝑢 − 𝑦ത𝑖
𝑢=1
La suma total del error puro
𝑚 𝑛𝑖
2
𝑆𝐶𝐸𝑝𝑢𝑟𝑜 = ෍ ෍ 𝑦𝑖𝑢 − 𝑦ത𝑖
𝑖=1 𝑢=1
Prueba de falta de ajuste
Así, los grados de libertad debidos al error puro
𝑚

𝑛𝑝𝑢𝑟𝑜 = ෍ 𝑛𝑖 − 1 = 𝑛 − 𝑚
𝑖=1

el error debido a a la falta de ajuste es


𝑆𝐶𝐸𝐿𝑂𝐹 = 𝑆𝐶𝐸 − 𝑆𝐶𝐸𝑝𝑢𝑟𝑜
Los grados de libertad
𝑛 − 2 − 𝑛𝑝𝑢𝑟𝑜 = 𝑚 − 2
El estadístico de prueba de falta de ajuste

𝑆𝐶𝐸𝐿𝑂𝐹
𝑚 − 2 𝐶𝑀𝐸𝐿𝑂𝐹
𝐹0 = =
𝑆𝐶𝐸𝑝𝑢𝑟𝑜 𝐶𝑀𝐸𝑝𝑢𝑟𝑜
𝑛−𝑚
Prueba de falta de ajuste
• La prueba de hipótesis de que el modelo se ajusta adecuadamente a los datos se
rechazaría si 𝑓0 > 𝑓𝛼,𝑚−2,𝑚−𝑛
Fuente de Suma de Grados de Cuadrado 𝑓
Variación cuadrados libertad medio
Regresión 𝑆𝐶𝑅 1 𝑆𝐶𝑅 𝑆𝐶𝑅
𝑠2
Error 𝑆𝐶𝐸 𝑛−2 𝑆𝐶𝐸
𝑠2 =
𝑛−2
Falta de 𝑆𝐶𝐸 − 𝑆𝐶𝐸𝑝𝑢𝑟𝑜 𝑚−2 𝑆𝐶𝐸𝐿𝑂𝐹 𝐶𝑀𝐸𝐿𝑂𝐹
ajuste 𝑚−2 𝐶𝑀𝐸𝑝𝑢𝑟𝑜
Error puro 𝑆𝐶𝐸𝑝𝑢𝑟𝑜 𝑛−𝑚 𝑆𝐶𝐸𝑝𝑢𝑟𝑜
𝑛−𝑚
Total 𝑆𝑇𝐶𝐶 𝑛−1
Prueba de Falta de ajuste
Prueba de falta de ajuste: Ejemplo
• Considérense los siguientes datos. Ajuste un modelo de regresión lineal
simple y haga una prueba de ajuste a un 𝛼 = 0,05

x y x y
1,0 2,3; 1,8 5,6 3,5; 2,8; 3,1
2,0 2,8 6,0 3,4; 3,2
3,3 1,8; 3,7 6,5 3,4
4,0 2,6; 2,6; 2,2 6,9 5,0
5,0 2,0
Solución
Considerando la Anova y descomponiendo la 𝑆𝐶𝐸
Fuente de Suma de Grados de Cuadrado 𝑓
Variación cuadrados libertad medio
Regresión 3,493 1 3,493 6,66

Error 7,34 14 𝑠 2 = 0,524


Falta de 𝑺𝑪𝑬 − 𝑺𝑪𝑬𝒑𝒖𝒓𝒐 𝒎−𝟐 𝑺𝑪𝑬𝑳𝑶𝑭 𝑪𝑴𝑬𝑳𝑶𝑭
ajuste 𝒎−𝟐 𝑪𝑴𝑬𝒑𝒖𝒓𝒐
Error puro 𝑺𝑪𝑬𝒑𝒖𝒓𝒐 𝒏−𝒎 𝑺𝑪𝑬𝒑𝒖𝒓𝒐
𝒏−𝒎
Total 10,83 15
Solución
Calculando el error puro
x y SC gl
1 2,3 1,8 0,13 1
2 2,8 0,00 0
3,3 1,8 3,7 1,81 1
4 2,6 2,6 2,2 0,11 2
5 2 0,00 0
5,6 3,5 2,8 2,1 0,98 2
6 3,4 3,2 0,02 1
6,5 3,4 0,00 0
6,9 5 0,00 0
SCE puro 3,04 7
Solución
Considerando la Anova
Fuente de Suma de Grados de Cuadrado 𝑓
Variación cuadrados libertad medio
Regresión 3,493 1 3,493 6,66

Error 7,34 14 𝑠 2 = 0,524


Falta de 𝟒, 𝟑 𝟕 𝟎, 𝟔𝟏𝟒 𝟏, 𝟒𝟏 < 𝟑, 𝟕𝟗
ajuste
Error puro 𝟑, 𝟎𝟒 𝟕 𝟎, 𝟒𝟑𝟒

Total 10,83 15
Transformaciones lineales
Transformaciones lineales
Transformación: Ejemplo
Densidad, x Rigidez, y Densidad, x Rigidez, y
9,50 14814,00 8,40 17502,00
9,80 14007,00 11,00 19443,00
8,30 7573,00 9,90 14191,00
8,60 9714,00 6,40 8076,00
7,00 5304,00 8,20 10728,00
17,40 43243,00 15,00 25319,00
15,20 28028,00 16,40 41792,00
16,70 49499,00 15,40 25312,00
15,00 26222,00 14,50 22148,00
14,80 26751,00 13,60 18036,00
25,60 96305,00 23,40 104170,00
24,40 72594,00 23,30 49512,00
19,50 32207,00 21,20 48218,00
22,80 70453,00 21,70 47661,00
19,80 38138,00 21,30 53045,00
Salida R
lm(Rigidez..y ~ Densidad..x)

Residuals vs Fitted Normal Q-Q

20000 40000

4
26 26

Standardized residuals

3
11 11

Residuals

2
1
0

0
-20000

-1
13
13

0 20000 40000 60000 -2 -1 0 1 2

Fitted values Theoretical Quantiles

Scale-Location Residuals vs Leverage

4
26
Standardized residuals 26 1

Standardized residuals

3
1.5
11 0.5

2
1.0 13 11

1
0
0.5

-1
27
Cook's distance
0.0

-2
0 20000 40000 60000 0.00 0.04 0.08 0.12

Fitted values Leverage


Solución
• Debido a que el gráfico de los residuales sugiere el no cumplimiento del
supuesto de aleatoriedad de los residuos, por lo que requiere una
transformación de los datos.

11.5
100000

11.0

80000

10.5
Rigidez..y

60000

Ln.y.
10.0

40000
9.5

20000 9.0

8.5

10 15 20 25 10 15 20 25

Densidad..x Densidad..x
Modelo transformado
lm(Ln.y. ~ Densidad..x)

Residuals vs Fitted Normal Q-Q

2
16 8 8 16

Standardized residuals
0.2

1
Residuals

0
-0.2

-1
-2
-0.6
5
5

9.0 9.5 10.0 10.5 11.0 11.5 -2 -1 0 1 2

Fitted values Theoretical Quantiles

Scale-Location Residuals vs Leverage


0.5

1.5
5

2
Standardized residuals
16

Standardized residuals
16 8
26

1
1.0

0
0.5

-1
-2
Cook's distance 5 0.5
0.0

9.0 9.5 10.0 10.5 11.0 11.5 0.00 0.04 0.08 0.12

Fitted values Leverage


Resumen de la clase
• Se revisaron los conceptos de :

 Análisis de varianza,
 Validación de los supuestos de la regresión,
 Prueba de falta de ajuste y
 Transformación de datos

 Se determinó la significancia de la regresión lineal simple


Bibliografía
Montgomery, D. y Runger, D. (2007). Probabilidad y estadística
aplicadas a la ingeniería. (2da ed.). México: Limusa

Walpole, R., Myers, S. y Myers R. (2007) Probabilidad y


estadística para Ingeniería. (8va ed.). México: Pearson Education.

S-ar putea să vă placă și