Documente Academic
Documente Profesional
Documente Cultură
model<-lm(Volumen~Altura, data=datos)
> summary(model)
Call:
lm(formula = Volumen ~ Altura, data = datos)
Residuals:
Min 1Q Median 3Q Max
-0.10093 -0.06026 -0.02678 0.04186 0.28395
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.26612 0.07006 -3.798 0.00072 ***
Altura 0.02715 0.00430 6.315 7.86e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Interpretación
Podemos visualizar el modelo para la regresión lineal volumen = −0.126612+0.02715(altura), y los valores del
coeficiente de correlación nos da un porcentaje 58.75%. La altura aumenta 0.27 m por cada mes en la plantación
forestal. Y el volumen es -0.26 que es el origen de La ordenada que consume a diario la planta de la parcela forestal.
predict(model)
1 2 3 4 5 6
-0.02444593 -0.05024243 -0.07956899 0.07874010 0.05267205 0.10969591
7 8 9 10 11 12
0.14798336 0.08688637 0.13033312 0.15748733 0.20093408 0.18464155
13 14 15 16 17 18
0.21912741 0.21994203 0.18192613 0.23080372 0.20636492 0.21043806
19 20 21 22 23 24
0.19523170 0.21505427 0.17377986 0.17106444 0.15042724 0.17242215
25 26 27 28 29 30
0.12435919 0.33127433 0.29325842 0.18735697 0.35299770 0.31905493
residuals(model)
1 2 3 4 5 6
0.041445925 0.067242432 0.093568987 -0.051740102 -0.024672053 -0.043695910
7 8 9 10 11 12
-0.098983357 -0.028886367 -0.064333115 -0.074487333 -0.100934081 -0.057641551
13 14 15 16 17 18
-0.061127407 -0.078942034 -0.049926129 -0.077803721 -0.044364925 -0.071438058
19 20 21 22 23 24
-0.003231696 -0.057054275 0.022220136 0.025935558 0.099572763 0.030577847
25 26 27 28 29 30
0.137640812 -0.014274326 0.083741578 0.075643027 0.042002300 0.283945072
Regresión cuadrática
model2<-lm(Volumen~Diametro+(Diametro^2), data=datos)
> summary(model2)
Call:
lm(formula = Volumen ~ Diametro + (Diametro^2), data = datos)
Residuals:
Min 1Q Median 3Q Max
-0.081315 -0.020684 -0.006809 0.026882 0.063030
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.160948 0.017105 -9.41 3.62e-10 ***
Diametro 0.021501 0.001053 20.43 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
model3<-lm(Altura~Diametro+(Diametro^2), data=datos)
> summary(model3)
Call:
lm(formula = Altura ~ Diametro + (Diametro^2), data = datos)
Residuals:
Min 1Q Median 3Q Max
-4.9364 -1.6047 0.7009 1.5245 3.4098
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.31479 1.16648 7.128 9.34e-08 ***
Diametro 0.49880 0.07178 6.949 1.48e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
model4<-lm(Volumen~Diametro+(Diametro^2)+I(Diametro^3), data=datos)
> summary(model4)
Call:
lm(formula = Volumen ~ Diametro + (Diametro^2) + I(Diametro^3),
data = datos)
Residuals:
Min 1Q Median 3Q Max
-0.077804 -0.016478 -0.000489 0.012417 0.061317
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -9.889e-02 2.304e-02 -4.293 0.000203 ***
Diametro 1.529e-02 2.002e-03 7.638 3.24e-08 ***
I(Diametro^3) 6.194e-06 1.787e-06 3.465 0.001786 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Call:
lm(formula = Altura ~ Diametro + (Diametro^2) + I(Diametro^3),
data = datos)
Residuals:
Min 1Q Median 3Q Max
-4.4845 -1.5052 0.6897 1.6239 2.7941
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.0591538 1.7076497 2.963 0.0063 **
Diametro 0.8246305 0.1483877 5.557 6.84e-06 ***
I(Diametro^3) -0.0003249 0.0001325 -2.453 0.0209 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Regresión cuadrática
Diámetro-altura
La primera gráfica (valores residuales vs. valores ajustados) es un simple diagrama de dispersión entre valores
residuales y valores predichos. Debería parecer más o menos aleatorio. Esto es más o menos lo que vemos aquí, con
la excepción de tres valores atípicos en la parte superior izquierda. La segunda gráfica (QQ normal) es una gráfica de
probabilidad normal . Dará una línea recta si los errores se distribuyen normalmente, pero los puntos 28, 27 y 30 se
desvían de la línea recta. El tercer gráfico (Escala-Ubicación), como el primero, debe parecer aleatorio. No hay
patrones. El nuestro no, tenemos un extraño patrón en forma de L. La última gráfica (la distancia de Cook) nos dice
qué puntos tienen la mayor influencia en la regresión (puntos de apalancamiento). Vemos que los puntos 27, 28 y 30
tienen gran influencia en el model.
Diámetro-volumen
En los gráficos de los residuos vemos que los datos no son del todo normales ya que se desvían ligeramente
de la diagonal en el Q-Q plot. También parece que los datos son ligeramente heterocedasticos, como indica el
grafico de residuos frente a valores predichos tanto asumir que nuestro modelo NO es normal.
Regresión cubica
Diámetro-altura
podríamos asumir que nuestro modelo no es normal, además de la heterocedasticidad que se manifiesta en el
gráfico de residuos frente a valores predichos.
jm<-read.csv("tectona2.csv",
head=T, sep = ",")
> head(junior)
Diametro. Altura. Altura
predict(model)
1 2 3 4 5 6
-0.02444593 -0.05024243 -0.07956899 0.07874010 0.05267205 0.10969591
7 8 9 10 11 12
0.14798336 0.08688637 0.13033312 0.15748733 0.20093408 0.18464155
13 14 15 16 17 18
0.21912741 0.21994203 0.18192613 0.23080372 0.20636492 0.21043806
19 20 21 22 23 24
0.19523170 0.21505427 0.17377986 0.17106444 0.15042724 0.17242215
25 26 27 28 29 30
0.12435919 0.33127433 0.29325842 0.18735697 0.35299770 0.31905493
residuals(model)
1 2 3 4 5 6
0.041445925 0.067242432 0.093568987 -0.051740102 -0.024672053 -0.043695910
7 8 9 10 11 12
-0.098983357 -0.028886367 -0.064333115 -0.074487333 -0.100934081 -0.057641551
13 14 15 16 17 18
-0.061127407 -0.078942034 -0.049926129 -0.077803721 -0.044364925 -0.071438058
19 20 21 22 23 24
-0.003231696 -0.057054275 0.022220136 0.025935558 0.099572763 0.030577847
25 26 27 28 29 30
0.137640812 -0.014274326 0.083741578 0.075643027 0.042002300 0.283945072
par(mfrow=c(2,2)) # nos dara dos graficos por fila y dos por columna
> plot(model)
Diámetro-volumen
La primera gráfica (valores residuales vs. valores ajustados) es un simple diagrama de dispersión entre
valores residuales y valores predichos qu no es normal. Debería parecer más o menos aleatorio. Esto
es más o menos lo que vemos aquí, con la excepción de tres valores atípicos en la parte superior
izquierda. La segunda gráfica (QQ normal) es una gráfica de probabilidad normal. Dará una línea recta
si los errores se distribuyen normalmente, pero los puntos superiores extremos se desvían de la línea
recta. El tercer gráfico (Escala-Ubicación), como el primero, debe parecer aleatorio. No hay patrones.
El nuestro no, tenemos un extraño patrón en forma de L. La última gráfica (la distancia de Cook) nos
dice qué puntos tienen la mayor influencia en la regresión (puntos de apalancamiento).
model<-lm(Diametro~Altura, data=datos)
summary(model)
Call:
lm(formula = Diametro ~ Altura, data = datos)
Residuals:
Min 1Q Median 3Q Max
-4.2393 -2.6092 -0.7251 1.7970 10.2405
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -4.9875 2.9757 -1.676 0.105
Altura 1.2690 0.1826 6.949 1.48e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
predict(model)
1 2 3 4 5 6 7
6.306609 5.101059 3.730539 11.128810 9.910569 12.575470 14.364760
8 9 10 11 12 13 14
11.509510 13.539910 14.808910 16.839310 16.077910 17.689540 17.727610
15 16 17 18 19 20 21
15.951010 18.235210 17.093110 17.283460 16.572820 17.499190 15.570310
22 23 24 25 26 27 28
15.443410 14.478970 15.506860 13.260730 22.930511 21.153911 16.204810
29 30
23.945711 22.359461
residuals(model)
1 2 3 4 5 6 7
0.2933909 1.6989411 3.2694612 -4.0288096 -2.4105694 -2.6754697 -3.5647599
8 9 10 11 12 13 14
-0.3095096 -2.2399098 -3.1089100 -4.2393102 -2.0779101 -3.3895403 -3.1276103
15 16 17 18 19 20 21
-1.0510101 -3.2352103 -1.7931102 -1.8834602 -0.3728202 -0.3991903 1.8296900
22 23 24 25 26 27 28
2.5565900 3.6210301 3.6931400 6.5392702 -2.3305108 1.3460894 7.2951899
29 30
-0.1457109 10.2405392
En los gráficos de los residuos vemos que los datos no son del todo normales ya que se desvían ligeramente de la
diagonal en el Q-Q plot. También parece que los datos son ligeramente heterocedasticos, como indica el grafico de
residuos frente a valores predichos. Para comprobar estadísticamente (más que visualmente) si los residuos son
normales podemos utilizar el test de Shapiro-Wilk (función shapiro.test()). Este test comprueba la hipótesis nula de
que los datos son normales. Si rechazamos la hipótesis nula (p-valor < 0.05) podemos por tanto asumir que nuestro
modelo NO es normal.