Documente Academic
Documente Profesional
Documente Cultură
3. Le modèle linéaire
5. R et la régression
Suivant la nature de Y, le nombre et la nature des Xi, cette modélisation porte différents noms
dits de régression :
Lorsque Y et les Xi sont quantitatives, le modèle le plus simple, le plus connu et le plus étudié
est nommé régression linéaire, en anglais linear regression.
Si Y est qualitative, le modèle est nommé régression logistique, logistic regression en anglais.
Le cas le plus simple est la régression logistique binaire (Y n'a que deux modalités). Si ce
n'est pas le cas, la régression logistique peut être multinomiale, polytomique, ordinale,
nominale...
L'usage historique veut qu'on parle d'analyse de la variance, soit encore ANOVA en anglais
(ANalysis Of VAriance) plutôt que de régression par analyse de la variance lorsqu'on étudie Y
quantitative en fonction de Xi qualitatives.
Il n'y a pas à notre connaissance de terme réservé pour désigner l'étude de Y qualitative en
fonction de Xi qualitatives, dont le cas le plus simple est l'analyse de tri croisé (via un test du
χ² d'indépendance), même si on peut effectuer des régressions logistiques qualitatives. Cela
tient sans doute au fait que les calculs utilisés sont fort différents de toutes les autres
régressions.
Xi Xi quantitatives et
Modélisation Xi qualitatives
quantitatives qualitatives
Y analyse de la
linéaire analyse de la covariance
quantitative variance
régression quali-
Y qualitative logistique logistique
quali ?
Chaque type de régression (linéaire, logistique...) a ses propres calculs et estimateurs pour la
détermination du modèle via la sélection de variables, le ou les tests de qualité de la
régression, l'analyse des résidus. De plus, les variables Xi doivent parfois vérifier certaines
conditions (normalité, non colinéarité, non multi-colinéarité...) pour qu'on ait le droit d'utiliser
le modèle.
3. Le modèle linéaire
Le modèle linéaire (copie locale) vient modéliser Y en fonction de X (un ou plusieurs Xi) par
la relation matricielle Y = Xaβ + ε où Xa est X augmenté d'une colonne de 1, afin de prendre
en compte une constante dans le modèle. Ainsi, en régression linéaire simple on cherche à
relier les yi en fonction des xi par la relation yi = β1xi + β0 + εi où ε est la variable de bruit
(modélisée par une vecteur aléatoire dans Rn de moyenne nulle et de variance σ2In). Bien sûr,
en pratique on ne distingue pas X de Xa et on s'autorise à réécrire le modèle de régression
linéaire simple avec la relation yi = axi + b + εi pour retrouver l'écriture d'une droite des
«petites classes».
Pour résoudre Y = Xaβ, c'est-à-dire pour trouver les βi, on pourrait penser qu'il suffit d'utiliser
l'inverse matriciel de X. Mais en général on ne peut pas calculer l'inverse de la matrice X car
X n'est pas forcément une matrice carrée. Toutefois, si on multiplie de part et d'autre par la
transposée de X notée ici X' (car X' X est toujours une matrice carrée), alors on peut résoudre
matriciellement le problème, ce qui se nomme estimateur MCO (moindres carrés ordinaires,
ou OLS en anglais) car la solution (X' X)-1X'Y -- quand elle existe -- minimise la somme des
carrés des distances euclidiennes entre les yi et les vecteurs (xβ)i. On peut montrer que cet
estimateur est sans biais. Les εi sont nommés résidus de la régression.
Si on ajoute l'hypothèse de normalité des résidus, on peut calculer des intervalles de confiance
pour les paramètres βi et un intervalle de confiance pour la prédiction d'un point xj. Il est alors
possible d'effectuer un test t de Student pour savoir si les coefficients de la régression peuvent
être considérés comme nuls ou non.
http://principlesofeconometrics.com/poe4/poe4.htm
Les données food comprennent deux variables : wfoodexp et winc dont les noms anglais sont
weekly food expenditure exprimée en dollars et weekly income exprimée en hecto dollars (un
hecto dollar=100 dollars) comme on peut le lire sur le site des données de l'ouvrage de Carter
et al. sur la page food.def.