Documente Academic
Documente Profesional
Documente Cultură
Les régressions
linéaires
Rappel théorique
• Existe-t-il une loi permettant de prévoir
la résistance à la traction Y en fonction
de la teneur en carbone X ?
Est-il possible de trouver une fonction
numérique f telle que :
Y = f ( X ) ?
• yi =yi + ei
• Yi est la composante prévisible par le
modèle.
•
• Calculons les valeurs théoriques prévues
par le modèle, et les résidus :
• Nuage des résidus
• Le nuage des résidus a une forme curviligne
qui indique que le modèle affine n'est pas
adéquat pour représenter le phénomène.
•
résultat
• De : V = log Y = 0.0228 X + 2.2296
•
• on tire : Y = ( 169.657 ) * ( 1.054 )^X
•
• On prendra cette relation comme modèle du
phénomène considéré.
• On aurait pu procéder à un autre changement
de variable en posant :
• U = log X V = log Y
• On obtient : Y = k Xc où k = 10d
Y = ( 169.26 ) X^0.1926
•
• SCA = R * SCT = * n
• On a : σ² ( Y ) = VE + VT
• R =Cov(X,Y)^2/σ² ( X )σ² ( Y )
Les analyses
statistiques avec R
Modèles linéaires ,lm()
Modèles linéaires
généralisés,glm()
ou à aov(sqrt(I[,1]) ~ I[,2])
Les formules
y=3+7*x+rnorm(30,0,100)
Y
[1] 340.61710 254.86969 54.52298 463.78335 379.30676 177.27873 555.98297
[8] -13.48922 273.11081 187.46739 439.59869 380.92303 537.40362 414.12641
[15] 299.09269 494.05965 415.9
plot(x,y)
res.reg=lm(y~x);
Call:
• lm(formula = y ~ x)
Coefficients:
(Intercept) x
13.22 6.71
Droite de régression:
y=6,71 *x +13.22
• De l'objet de classe lm res.reg, on peut
extraire les principaux résultats de la
régréssion estimée,à savoir
• Les coefficients de la régréssion
coef(res.lin) ou res.lin$coef
• Le vecteur des résidus residuals(res.reg)
• La déviance résiduelle deviance(res.reg)
• La formule formula(res.reg)
• Quatre graphiques utiles pour le diagnostic
plot(res.reg)
• Valeurs prédites par le modèle
fitted(res.lin)
plot(x,y);
abline(res.reg)
summary(res.reg)
• Residuals:
Min 1Q Median 3Q Max
-142.29 -58.64 -17.17 63.33 187.99
• Coefficients:
• Estimate Std. Error t value Pr(>|t|)
(Intercept) 13.2213 37.0548 0.357 0.724
x 6.7105 0.6587 10.188 6.37e-11
• Residual standard error: 90.65 on 28 degrees of
freedom
• Multiple R-Squared: 0.7875, Adjusted R-
squared: 0.78
Plus sophistiquée...
t N y
3.316625 2326.625317 1.640357
plot(T$t,T$N)
plot(T$t,T$y)
droite de regression
• ll=lm(y~t,data=T);ll;
Call:
lm(formula = y ~ t, data = T)
Coefficients:
(Intercept) t
3.0142 0.4944
abline(ll);
summary(ll)
• Call:
lm(formula = y ~ t, data = T)
• Residuals:
Min 1Q Median 3Q Max
-0.08656 -0.02117 0.01500 0.02912 0.04802
• Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.014162 0.032947 91.49 1.13e-14 ***
t 0.494419 0.004289 115.27 1.41e-15 ***
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 `
' 1
summary(ll) suite
homme femme
voyant 442 514
aveugle 38 6
X2=chisq.test(tab,correct=FALSE)
data: tab
X-squared = 27.1387, df = 1, p-value = 1.894e-07
attributes(x2)
$names
[1] "statistic" "parameter" "p.value"
"method" "data.name" "observed"
[7] "expected" "residuals"
$class
[1] "htest »
par exemple:
x2$expected
homme femme
voyant 458.88 497.12
aveugle 21.12 22.88
valeurs attendues sous hypothèse
d ’indépendance
x2$residuals
homme femme
voyant -0.787994 0.7570801
aveugle 3.673039 -3.5289413
sum(x2$residuals^2)
27.13874 la somme des carrés des résidus est
la valeur du chi-deux
• Soit le tableau de contingence suivant:
• roux blond brun
• bleu 13 20 7
• marron 24 10 18
• data: m
• X-squared = 10.0494, df = 2, p-value =
0.006574
E=D[,c(1,2)]
cl <- kmeans(E, 4, 20) (donne 4 sous-nuages)
plot(E, col = cl$cluster) (tracé pour un objet de type
résultat de la fct kmeans)
points(cl$centers, col = 1:4, pch = 8)
Autre exemple