Documente Academic
Documente Profesional
Documente Cultură
Modlisation Statistique
Julien JACQUES http ://labomath.univ-lille1.fr/jacques/
Rgression linaire multiple 2.1 Le modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Estimation des paramtres du modle . . . . . . . . . . . . . . . . 2.2.1 Estimation par moindres carrs . . . . . . . . . . . . . . . . 2.2.2 Estimation par maximum de vraisemblance . . . . . . . . . 2.3 Tests sur le modle linaire . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Tests sur les paramtres . . . . . . . . . . . . . . . . . . . 2.3.2 Analyse de variance de la rgression . . . . . . . . . . . . . 2.4 Prdiction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Slection de variables et choix de modle . . . . . . . . . . . . . . 2.5.1 Critres de comparaison de modle . . . . . . . . . . . . . 2.5.1.1 Limitation du coefcient de dtermination R2 . . 2 . . . . . . 2.5.1.2 Coefcient de dtermination ajust R 2.5.1.3 Critre de validation croise : PRESS (ou CVSS) 2.5.1.4 Cp de Mallows . . . . . . . . . . . . . . . . . . . 2.5.1.5 Critre AIC . . . . . . . . . . . . . . . . . . . . 2.5.1.6 Critre baysien BIC . . . . . . . . . . . . . . . 2.5.2 Algorithme de slection de variables . . . . . . . . . . . . . 2.5.2.1 Recherche exhaustive . . . . . . . . . . . . . . . 2.5.2.2 Recherche descendante pas pas . . . . . . . . . 2.5.2.3 Recherche ascendante pas pas . . . . . . . . . . 2.5.2.4 Recherche stepwise . . . . . . . . . . . . . . . . 2.5.2.5 Algorithme de Furnival et Wilson . . . . . . . . . 3
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . .
4 2.6 Multicolinarit des variables . . . . . . . . . . . . . Matrice de corrlation . . . . . . . . Facteur dination de la variance VIF Conditionnement . . . . . . . . . . . TP 2 : Rgression linaire multiple . . . . . . . . . . 2.7.1 Simulation . . . . . . . . . . . . . . . . . . 2.7.2 Donnes relles . . . . . . . . . . . . . . . . Modle complet . . . . . . . . . . . Recherche dun modle parcimonieux Prediction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.7
Analyse de variance et de covariance 3.1 Analyse de variance un facteur . . . . . . . . . . . . . 3.2 Graphiques prliminaires . . . . . . . . . . . . . . . . . 3.2.1 Le modle . . . . . . . . . . . . . . . . . . . . . 3.2.2 Estimation des effets . . . . . . . . . . . . . . . 3.2.3 Tests . . . . . . . . . . . . . . . . . . . . . . . Comparaison des moyennes deux deux 3.2.4 Contrle des hypothses . . . . . . . . . . . . . 3.3 Analyse de variance deux facteurs . . . . . . . . . . . 3.3.1 Le modle . . . . . . . . . . . . . . . . . . . . . Effet dinteraction . . . . . . . . . . . . 3.3.2 Estimation des effets . . . . . . . . . . . . . . . 3.3.3 Tests . . . . . . . . . . . . . . . . . . . . . . . 3.4 Problmes spciques . . . . . . . . . . . . . . . . . . . 3.4.1 ANOVA pour mesures rptes . . . . . . . . . 3.4.2 Plan sans rptition . . . . . . . . . . . . . . . . 3.4.3 Plans dsquilibrs ou incomplets . . . . . . . . 3.5 Analyse de covariance . . . . . . . . . . . . . . . . . . 3.5.1 Graphiques prliminaires . . . . . . . . . . . . . 3.5.2 Le modle . . . . . . . . . . . . . . . . . . . . . 3.5.3 Tests . . . . . . . . . . . . . . . . . . . . . . . 3.6 TP 3 : Analyse de variance et de covariance . . . . . . . 3.6.1 Analyse de variance deux facteurs . . . . . . . 3.6.2 Analyse de covariance . . . . . . . . . . . . . . 3.6.3 Analyse de variance mesures rptes . . . . . 3.7 Un exemple dapplication de lANOVA et lANCOVA .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . .
Rgression logistique 4.1 Le modle logistique dichotomique (K=2) . . . . . . . . . . . . . 4.1.1 Le modle . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.2 Odds et odds-ratio . . . . . . . . . . . . . . . . . . . . . Exemple . . . . . . . . . . . . . . . . . . . . . . 4.2 Estimation des paramtres et prdiction . . . . . . . . . . . . . . 4.2.1 Estimation des j . . . . . . . . . . . . . . . . . . . . . . 4.2.2 Estimation des odds-ratio . . . . . . . . . . . . . . . . . . 4.2.3 Redressement dans le cas dune modalit rare . . . . . . . 4.2.4 Prvisions . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.4.1 Classement dune nouvelle observation . . . . . 4.2.4.2 Notions de score . . . . . . . . . . . . . . . . . 4.2.4.3 Tableau de classement ou matrice de confusion . Sensibilit et spcicit . . . . . . . . . . . . . . 4.3 Tests, intervalles de conance et choix de modle . . . . . . . . . 4.3.1 Tests sur j . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.2 Intervalles de conance . . . . . . . . . . . . . . . . . . . 4.3.3 Choix de modle . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
4.3.3.1 Algorithme de slection de variables 4.3.3.2 Critres de choix de modles . . . . Un outil dinterprtation : la courbe ROC . . . . . . . Le modle logistique polytomique (K>2) et ordinal . . TP 4 : Rgression logistique . . . . . . . . . . . . . . 4.6.1 Simulation . . . . . . . . . . . . . . . . . . . 4.6.2 Cancer du sein . . . . . . . . . . . . . . . . . 4.6.3 Cancer de la prostate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42 42 42 43 44 44 44 45 47 47 47 47 47 47 47 48 48 49 49 49 50 50 51 51 51 52 52 52 52 52 53 53 53 54 54 54 55 55 55 55 56
Analyse discriminante probabiliste 5.1 Formalisme de la discrimination probabiliste . . . . . 5.1.1 Dnitions . . . . . . . . . . . . . . . . . . Proportion dune classe . . . . . . . . Densit conditionnelle une classe . Densit marginale de X . . . . . . . Probabilit conditionnelle . . . . . . 5.1.2 Rgle daffectation et probabilit derreur . . 5.1.3 Rgle de classement optimale de Bayes . . . Cas de lgalit des cots . . . . . . . Cas de deux classes . . . . . . . . . . 5.2 Discrimination paramtrique gaussienne . . . . . . . 5.2.1 Rgle de classement thorique . . . . . . . . 5.2.2 Taux derreur thorique . . . . . . . . . . . . 5.2.3 Estimation de la rgle de classement . . . . . 5.2.4 Estimation du taux derreur . . . . . . . . . Taux derreur apparent e a . . . . . . Mthode de la partition e p . . . . . . Mthode de la validation croise e cv . 5.2.5 Slection de variables . . . . . . . . . . . . 5.2.6 Choix de modle . . . . . . . . . . . . . . . 5.3 Analyse discriminante pour variables qualitatives . . 5.4 Mise en oeuvre informatique . . . . . . . . . . . . . 5.4.1 SAS : PROC DISCRIM . . . . . . . . . . . 5.4.2 R : fonctions lda et qda du package MASS 5.5 TP 5 : Analyse discriminante probabiliste . . . . . . 5.5.1 Simulation . . . . . . . . . . . . . . . . . . 5.5.2 Iris . . . . . . . . . . . . . . . . . . . . . . Annexes 6.1 Drives de matrice et de vecteurs 6.2 Lois de probabilits . . . . . . . . 6.2.1 Loi multinomiale . . . . . 6.2.2 Loi gaussienne multivarie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Introduction
Pr-requis : la matrise des cours de Probabilits et de Statistique Infrentielle (disponible en ligne sur mon site) de troisime anne GIS est indispensable la bonne comprhension de ce cours.
Les modles
Dans ce cours nous chercherons modliser une variable Y (variable expliquer, rponse) en fonction dune ou plusieurs variables explicatives X1 , . . . , Xp (covariables). Lorsque Y sera quantitative (montant dpargne investit, dure de rmission dune maladie...), nous parlerons de rgression ou encore danalyse de variance (ou covariance) selon la nature des variables explicatives, qui peuvent tre rassembles sous lappellation modle linaire. Lorsque Y est une variable alatoire qualitative (dfaut de remboursement, achat dun produit...), nous parlerons gnralement de classication, supervise lorsque lon dispose dobservation de Y , et non supervise dans le cas contraire. Nous verrons dans ce cours deux mthodes de classication supervise : la rgression logistique, qui est une extension du modle linaire la famille des modles linaires gnraliss, ainsi que lanalyse discriminante probabiliste. Ces notions sont reprises dans la Table 1. Variable expliquer 1 quantitative 1 quantitative 1 quantitative 1 quantitative 1 qualitative 1 qualitative Variables explicatives 1 quantitative plusieurs quantitatives plusieurs qualitatives plusieurs qualitatives et quantitatives plusieurs quantitatives et qualitatives plusieurs quantitatives (voir quali.) Nom de lanalyse rgression simple (Section 1) rgression multiple (Section 2) analyse de variance (Section 3) analyse de covariance (Section 3.5) rgression logistique (Section 4) analyse discriminante probabiliste (Section 5)
TAB . 1 Les diffrentes techniques de modlisation tudies dans ce cours Remarque. Concernant la classication supervise, il existe bien dautres mthodes que les deux mthodes abordes dans ce cours : lanalyse factorielle discriminante qui est une mthode gomtrique cherchant construire de nouvelle variables discriminant au mieux les classes (cours Statistique Exploratoire GIS4) la mthode des k plus proches voisins, les arbres de dcisions (cours Modlisation Avance GIS4), ou encore des mthodes qui estiment directement la frontire de classication (SVM, rseaux de neurones).
Objectifs
Les objectifs dune modlisation statistique peuvent tre de diffrentes natures, que lon peut tenter de rpartir en deux classes, les objectifs prdictifs et les objectifs explicatifs : prdictifs : prvoir partir des renseignements dont on dispose sur un client (ge, catgorie CSP, salaire, situation familiale, statut dans son habitation actuelle...) sil va ou non souscrire un crdit la consommation qui lui est propos. Ces prvisions peuvent galement permettre de cibler les bons clients qui proposer ce crdit. descriptifs slection des variables pertinentes : parmi lge dun patient, son poids, son taux de cholestrol, le nombre de cigarettes fumes par jour (...), quelles sont les variables qui inuent signicativement sur la survenue dun cancer des poumons ? 7
Les tapes
Les diffrentes tapes dune modlisation statistique sont les suivantes (i) identier le problme pour choisir le modle statistique utiliser (en fonction de la nature de Y , de X , des rsultats attendus...), (ii) choisir les variables pertinentes (par des tudes pralables de corrlation par exemple, mais pas seulement), (iii) estimer les paramtres du modle (gnralement par maximum de vraisemblance), (iv) valuer la qualit de la modlisation obtenue (tests statistiques), lapport des diffrentes variables, et ventuellement revenir au point (ii) pour remettre en cause le choix des variables, voir en (i) si cest le modle qui doit tre remis en cause, (v) utiliser enn le modle pour rpondre aux objectifs voulus.
Chapitre 1
La meilleure fonction de X permettant de modliser Y est alors une fonction afne ou linaire de X , do le nom de rgression linaire. Ceci constitue le postulat de base de la rgression linaire. Nous chercherons dans ce chapitre modliser Y par une fonction linaire de X , qui est la meilleure modlisation possible lorsque les variables sont gaussiennes. Il conviendra donc en pratique de sassurer de la normalit des variables (avec un test de Shapiro-Wilk) avant deffectuer une rgression linaire. Si une variable nest pas gaussienne, nous chercherons la transformer de sorte quelle soit la plus gaussienne possible. Remarque 1.1.1. Si X et Y sont indpendantes, leur covariance est nulle et donc 1 galement. La meilleure modlisation de Y que lon peut avoir en fonction de X nest alors que E [Y ].
o 0 (appel intercept) et 1 sont des paramtres xs du modle (0 , 1 R), que nous chercherons estimer par la suite, et o les rsidus i vrient : E [i ] = 0, 9
10
V (i ) = 2 ( 2 tant galement un paramtre du modle). On dit dans ce cas que les rsidus sont homoscdastiques (i.e. variance constante), Cov (i , j ) = 0 si i = j (ce qui implique la non corrlation des rsidus). Ces hypothses sont gnralement appeles hypothses faibles. Les hypothses fortes supposent en plus la normalit des rsidus (ce qui implique donc leur indpendance puisquils sont non corrls), qui nous permettra par la suite deffectuer des tests sur le modle de rgression linaire. Dun point de vue matriciel, le modle de rgression linaire scrit : 1 Y1 1 X1 . . . 0 . . (1.2) . . . = . . . 1 + . n Yn 1 Xn Y = X + (1.3)
et les valeurs observes Y. Nous choisissons traditionnellement le carr de la norme euclidienne comme mesure de lcart :
n n
D( )
= ||Y Y ||2 2 =
i=1
(Yi 0 Xi 1 )2 =
2 i.
i=1
(1.5)
1 = SXY . 2 SX
1 n1 n i=1 (Xi
= Xi , Y
1 n
n i=1
2 Yi , SX = n i=1
)2 , S 2 = X Y
1 n1
n i=1 (Yi
)2 et Y
SXY =
1 n1
)(Yi Y ). (Xi X
On montre que ces estimateurs de 0 et 1 sont des estimateurs sans biais, et de variance minimale parmi les estimateurs fonctions linaires des Yi (resp. parmi tous les estimateurs dans le cas gaussien). i de Y : A chaque valeur Xi de X correspond donc une valeur prdite Y 1 Xi + 0 . i = Y i et Yi est appel rsidu : i Yi . Lcart entre cette prdiction Y i = Y 2 La variance rsiduelle est estime par : n 1 2 2 . S = n 2 i=1 i Remarque. Lutilisation du modle linaire dpasse le cadre simple dune relation linaire entre X et Y . En effet, de nombreux modles non linaires se ramnent facilement au modle linaire par des transformations simples : le modle Y = X trs utilis en conomtrie (lasticit constante de Y par rapport X ) devient un modle linaire en tudiant le logarithme des variables le modle croissance exponentielle Y = eX devient un modle linaire en travaillant avec ln(Y ) ... et bien dautre. Un simple nuage de points (Xi , Yi ) pourra aider identier une relation non linaire.
11
1.4.1.2 Test de non corrlation des rsidus Les proprits de lestimation par moindres carrs reposent notamment sur lhypothse de non corrlation des rsidus. Le test de Durbin-Watson permet de vrier que les i ne sont pas corrls. La statistique utilise est d=
n 2 i=2 (i i1 ) n 2 i=1 i
qui doit tre proche de 2 si les rsidus sont non corrles. Cette statistique ne suit pas de loi particulire, mais ses valeurs critiques ont t tabules.
2 2 2 X + 2 n (n 1)SX
2 dont on estime la variance en remplaant 2 par son estimation S . On peut montrer que n2 2 S 2 n2 2 et que 0 0 1 1 tn2 et tn2 . 2 1 X 1 S (n1) S + 2 2 S n (n1)S
X X
12
Ceci permet donc de construire des intervalles de conance et de tester la nullit de chacun des deux paramtres. A 1 est quivalent au test sur le coefcient de corrlation linaire entre X et Y . noter que le test portant sur
SSReg
exprime le rapport entre la variance explique par le modle de rgression et la variance totale (XY tant le coefcient de corrlation linaire entre X et Y ). Il est compris entre 0 et 1 et est un bon indicateur de la qualit de la rgression, quoi que trs subjectif. Sous lhypothse H0 de non rgression linaire (1 = 0), la statistique suivante F = (n 2) suit une loi de Fisher F1,n2 . R2 SSReg = (n 2) 1 R2 SSR
1.5 Prdiction
Pour une valeur donne x de X , la prdiction de Y est 1 x + 0 . y = On peut dnir deux intervalles de conance de prdiction partir de cette valeur ponctuelle : IC1 (E [Y |X = x ]) IC1 ( y) = y + tn2, 2 y + tn2, 2 )2 (x X 1 + tn2, 2 ; y 2 n (n 1)SX 1+ )2 (x X 1 + 2 n (n 1)SX 1+ )2 (x X 1 + 2 n (n 1)SX
)2 (x X 1 + tn2, 2 ; y 2 n (n 1)SX
13
i = Y
j =1
hij Yj
hij =
Les hij forment la matrice H appele hat matrix. Les termes diagonaux hii mesurent limpact de Yi dans lesi . Cet impact est directement li lloignement de lobservation Xi la moyenne des observations timation Y X.
rsidus studentiss (externe) : une autre standardisation (externe) des rsidus permet dobtenir des rsidus ti suivant une loi de Student : i ti = S(i) 1 hii o S(i) est une estimation de la variance rsiduelle ne prenant pas en compte la iime observation (contrairement S ci-dessus) : S(i) = 2 n2 1 i . S n3 n 3 1 hii
) si son En pratique, une observation sera considre comme atypique (vis--vis de son loignement X rsidu Studendis dpasse les bornes 2.
j )2 Y
j (i) est lestimation de Yj obtenue sans utiliser la iime observation (Xi , Yi ). o Y Une stratgie de dtection classique consiste dans un premier temps reprer les points atypiques en comparant les distances de Cook la valeur 1, puis expliquer cette inuence en considrant, pour ces observations, leur rsidu ainsi que leur effet levier.
14
avec i N (0, 2 ). On choisit 0 = 3 et 1 = 2. Les xi sont supposs tre rpartis uniformment sur lintervalle [0, 1]. (i) Simuler les couples (xi , yi )i=1,...,n pour une taille dchantillon n = 10 et une variance rsiduelle 2 = 1. Stocker vos rsultats dans deux vecteurs x et y. (ii) Dans lcriture matricielle du modle de rgression Y = X + avec = (0 , 1 ), comment est dnie la matrice X ? Construisez-la partir de votre vecteur x. = (X X)1 X Y. Calculer cet estimateur. (iii) Nous avons vu en cours que le meilleur estimateur de tait Que pensez-vous de vos rsultats ? Recommencez la simulation et lestimation plusieurs fois. Indication : la fonction solve(A) sous R permet de calculer linverse de la matrice A. (iv) Reprsentez graphiquement le nuage de point (fonction plot) ainsi que la droite de rgression (avec la fonction lines puis avec la fonction abline). (v) Estimer la variance rsiduelle 2 . (vi) Calculer un intervalle de conance sur 0 et 1 , de niveau 95%. (vii) Crer une fonction mylm(x,y,plot,alpha), qui pour un vecteur x et y effectue la rgression de y sur x. La fonction devra retourner les estimations des coefcients 0 et 1 , des intervalles de conance sur ces derniers de niveau alpha, lestimation de la variance rsiduelle, ainsi quune reprsentation graphique du nuage de point et de la rgression lorsque loption plot est TRUE. (viii) Recommencer avec une taille dchantillon de 100, 1000. (ix) Retrouvez vos rsultats avec la fonction lm de R : res=lm(yx) summary(res) Explorer toutes les informations que contient le rsultat dune procdure lm laide de la fonction str : str(res)
Cet exercice est raliser sous SAS. Le chier immeublesUSA.dat contient pour 47 immeubles dappartements locatifs dune grande ville amricaine, le revenu net en fonction du nombre dappartements (Jobson, 1991). Lobjectif est de modliser le revenu net des immeubles (premire colonne) en fonction du nombre dappartements (seconde colonne), par une rgression linaire. Analyse prliminaire (i) Reprsenter graphiquement les variables (histogramme, boxplot), et donner une estimation de la densit par la mthode du noyau. (ii) Les variables vous semblent-elles gaussiennes ? (iii) Refaire la mme chose en transformant les variables (log et racine). Quelles variables choisir pour notre rgression linaire ? Premire modlisation On considre le modle revenu = 0 + 1 nb_appart. (i) Estimer les paramtres du modle. (ii) Reprsenter le nuage de points ainsi que la droite de rgression. (iii) Effectuer des tests de signicativit des paramtres. (iv) Calculer les rsidus studentiss ainsi que la distance de Cook. Quel est votre diagnostic ?
15
16
Chapitre 2
2.1 Le modle
Soit un chantillon (Xi1 , . . . , Xip , Yi )i=1,n dobservations indpendantes et identiquement distribues. Le modle de la rgression linaire suppose :
p
Yi = 0 +
j =1
j Xij + i
(2.1)
o = (0 , 1 , . . . , p ) sont les paramtres rels du modle estimer, et o les rsidus i vrient comme pour la rgression simple les hypothses faibles : E [i ] = 0, V (i ) = 2 , Cov (i , j ) = 0 si i = j . Nous rappelons que les hypothses fortes supposent de plus la normalit des rsidus (ce qui implique donc leur indpendance puisquils sont non corrls). Lcriture matricielle du modle (2.1) est la suivante : 0 1 1 X11 . . . X1p Y1 1 . . . . . . . (2.2) . . + . . . . . . = . . . n 1 Xn1 . . . Xnp Yn p Y = X + (2.3) La matrice X, dterministe, est souvent appele matrice de design.
18
et les valeurs observes Y. Nous choisissons traditionnellement le carr de la norme euclidienne comme mesure de lcart :
n
D( )
||Y Y ||2 =
2 i.
i=1
(2.5)
(2.6)
Exercice. Faire la dmonstration de lquation (2.7). Montrer galement que lon a bien un minimum de D( ). = Remarque 2.2.1. Notation : la hat matrix dnie dans le chapitre prcdent comme la matrice H telle que Y 1 H Y est donc H = X(X X) X . Remarque 2.2.2. Nous avons suppos que X X tait inversible, ce qui est le cas ds que X est de rang p + 1. Se reporter au paragraphe 2.6 pour le cas contraire. est un estimateur sans biais de . Proprit 2.2.1. Exercice. Faire la preuve. est lestimateur de variance minimale parmi les estimateurs de sans biais et linaires en Y . Proprit 2.2.2. ) = 2 (X X)1 Sa variance est V ( Lestimateur non biais de 2 sera quant lui : 2 = . On notera quil est fonction de ||2 ||Y Y 2 . np1 (2.8)
On montre facilement, aprs passage la log-vraisemblance, que la maximisation de (2.10) en fonction de conduit lestimateur (2.7). Quant 2 , la maximisation conduit un estimateur biais auquel nous prfrerons sa version non biaise (2.8). Exercice. Faire la preuve. Proprit 2.2.3. Les estimateurs du maximum de vraisemblance de et 2 sont efcaces (de variance minimale). De plus, ils sont indpendants et leur lois sont : = (X X)1 X Y N (, 2 (X X)1 ) et (n p 1) 2 2 np1 2 (2.12) (2.11)
19
(2.13)
2 (X X)1 . A partir de cette statistique, il est possible de tester un un la nullit des diffrents paramtres du modle de rgression linaire multiple (penser matriser les risques encourus par une correction de Bonferroni par exemple), ou de construire des intervalles de conance sur ces paramtres, trs utiles lors de la phase dinterprtation du modle. Remarque. Les estimateurs des diffrents paramtres ntant pas indpendants, il est possible de tester la nullit de chaque paramtre sparment mais il ne faut rien en conclure conjointement.
(2.14)
Lanalyse de variance de la rgression est gnralement prsente dans un tableau danalyse de variance Source Rgression Erreur Total Somme des carrs SSReg SSR SST degrs de libert p np1 n1 carr moyen M SReg = SSReg/p M SR = SSR/(n p 1) F F =
MSReg MSR
MSReg MSR ,
qui sous H0 suit une loi de Fisher p et n p 1 degrs de libert, permet de tester
R2 np1 . 1R2 p
2.4 Prdiction
Pour une valeur x = (1, x 1 , . . . , xp ) de X , la prvision de Y sera donne par
y = x .
(2.15)
Un intervalle de conance de niveau 1 pour la valeur y sera construit partir de cette prvision ponctuelle : tnp1,1/2 x 1 + x (X X)1 x . (2.16)
20
(2.17)
1 n
(2.18)
(Xi )) V (h
i=1
1 n
i=1
(2.19)
Un modle trop peu complexe (pas assez de variables) aura un biais fort (et une variance faible), trop complexe (trop de variables) aura une variance forte (et un biais faible), tout lintrt tant davoir un modle ayant un M EQM le plus faible possible, cest--dire ralisant le meilleur compromis biais/variance possible. Malheureusement ce critre thorique nest pas calculable en pratique (h(X ) inconnue) et des critres approximatifs doivent tre utiliss.
2 2 = (n 1)R d R nd1
21
La somme des carrs rsiduelles i=1 2 i souffre du mme problme que le coefcient de dtermination. En notant 2 le i ime rsidu obtenu en estimant les paramtres du modle de rgression sans utiliser la iime observation, (i) le critre PRESS :
n
PRESS =
i=1
2 (i) ,
(2.21)
permet de slectionner les modles ayant un bon pouvoir prdictif (on veut le PRESS le plus petit). Bien qutant un des critres privilgier, ce critre peut parfois tre lourd calculer pour des modles complexes, et on lui prfrera souvent dans ce cas les critres ci-dessous dont le calcul est immdiat. 2.5.1.4 Cp de Mallows Dans le cas dun modle d + 1 variables (intercept 0 y compris), un estimateur de Cp = o SSRd+1 est la somme des carrs rsiduelles pour le modle restreint d + 1 prdicteurs, 2 c est lestimateur de 2 obtenu par le modle le plus complexe. Selon ces critres, les sous-ensembles de d + 1 variables fournissant des Cp proches de d + 1 sont de bons sousensembles. Parmi ceux-ci, plus Cp est grand, moins bon est le sous-ensemble. 2.5.1.5 Critre AIC Lutilisation de la vraisemblance souffre galement du mme problme que le coefcient de dtermination. Le critre AIC pnalise la log-vraisemblance du modle par son nombre de variables : AIC = 2l + 2(d + 1) o l est le maximum de la log-vraisemblance. Ce critre est proche du Cp de Mallows. On retient le modle ayant le plus petit AIC. 2.5.1.6 Critre baysien BIC Dorigine thorique diffrente, le critre BIC pnalise de faon un peu plus forte la log-vraisemblance : BIC = 2l + (d + 1) ln(n). On retient galement le modle ayant le plus petit BIC. (2.24) (2.23) SSRd+1 + 2(d + 1) n 2 c
MEQM 2
On procde de faon inverse : on part du meilleur modle une variable et on introduit ensuite les variables une une. 2.5.2.4 Recherche stepwise Cest une recherche ascendante, qui de plus, effectue chaque pas un test de signicativit de toutes les variables utilises ltape courante pour ventuellement en liminer. Lalgorithme sarrte lorsquon ne peut plus ni ajouter ni supprimer de variables. 2.5.2.5 Algorithme de Furnival et Wilson Cet algorithme est peut tre le plus efcace pour slectionner le meilleur modle pour un nombre de variables d x. Tout lintrt de cet algorithme est de rechercher le meilleur modle (selon les critres prcdents) sans avoir explorer tous les modles possibles. Il est limit p 15 sous SAS.
2 o Rj est le coefcient de dtermination de la rgression de la variable Xj sur les autres variables. Sa racine carr Rj est le coefcient de corrlation multiple entre Xj et les autres variables. Plus Xj est linairement proche des autres variables, plus Rj est proche de 1 et le VIF grand, et donc plus la variance de lestimateur de j est leve. Lavantage du VIF par rapport la matrice de corrlation est quil prend en compte des corrlations multiples.
Conditionnement Soit 1 , . . . , p les valeurs propres de R, classes dans lordre dcroissant. Son dterminent est gal au produit des valeurs propres, et est donc proche de 0 lorsque certaines valeurs propres sont trs petites. On dnit lindice de conditionnement comme le rapport : = 1 . p
Lorsque < 100 il ny a pas de problme, par contre lorsque > 1000 les problmes de mauvais conditionnement sont importants. On regardera donc dans un premier temps lindice de conditionnement, puis on se penchera sur les forts VIF en cas de problme pour dtecter la source de la colinarit.
23
avec i N (0, 2 ). On choisit 0 = 3, 1 = 2, 2 = 2 et 3 = 1. Les xij sont supposes tre rpartis uniformment sur lintervalle [0, 1] et indpendants entre eux. (i) Simuler les couples (xi , yi )i=1,...,n pour une taille dchantillon n = 1000 et une variance rsiduelle 2 = 1. Stocker vos rsultats dans une matrice n 3 x et un vecteur y. = (X X)1 X Y. Donner un intervalle de conance sur ces (ii) Estimer le paramtre = (0 , 1 , 2 , 3 ) par estimations. (iii) Nous allons maintenant introduire une corrlation entre les variables explicatives. Pour cela, nous allons corrler la seconde variable la premire en remplaant les xi2 par xi2 = xi1 + ui o ui N (0, 2 ) est un bruit de variance . Pour plusieurs valeurs de (10,1,0.1,0.01 et 0) estimer les paramtres (0 , 1 , 2 , 3 ) du modle et calculer leur variance. Quen concluez-vous ? (iv) Pour chaque valeur de prcdente, calculer les facteurs dination de la variance (VIF). Interprter les rsultats.
Cet exercice est raliser sous SAS. Le chier ukcomp1.dat (Jobson, 1991) contient les rsultats comptables de 40 entreprises du Royaume-Uni. Dans ce chier, la premire colonne est la variable RETCAP (Return on capital employed), qui est la variable que nous chercherons prdire en fonction des 12 autres variables : WCFTDT : Ratio of working capital ow to total debt LOGSALE : Log to base 10 of total sales LOGASST : Log to base 10 of total assets CURRAT : Current ratio QUIKRAT : Quick ratio NFATAST : Ratio of net xed assets to total assets FATTOT : Gross sixed assets to total assets PAYOUT : Payout ratio WCFTCL : Ratio of working capital ow to total current liabilities GEARRAT : Gearing ratio (debt-equity ratio) CAPINT : Capital intensity (ratio of total sales to total assets) INVTAST : Ratio of total inventories to total assets Lobjectif de ce TP sera de trouver le meilleur modle de rgression en effectuant une slection parmi les 12 variables explicatives disponibles.
24 Modle complet
(i) Vrier graphiquement que les variables ont une distribution approximativement gaussienne. Si besoin, nhsitez pas en transformer certaine. (ii) Estimer un modle de rgression complet utilisant toutes les variables. Semble-t-il y avoir des points atypiques (rsidus studentiss, distance de Cook) ? des problmes de colinarit entre variables (VIF) ? (iii) Calculer le R2 et sa version ajuste. Recherche dun modle parcimonieux On appelle parcimonieux un modle dont le nombre de paramtres (et donc ici le nombre de variables explicatives utilises) est rduit, tout en ayant un bon pouvoir prdictif. Recherche backward : (i) Itrer la main le processus suivant : choisir la variable dont le test de Student (H0 : j = 0) est le moins signicatif (p-value la plus grande), la supprimer et r-estimer le modle. Arrter la procdure lorsque tous les coefcients sont signicatifs (seuil 5%). Attention, on gardera toujours lintercept (0 ), qui ne doit pas tre considr comme les autres variables. (ii) Comparer avec la procdure automatique de SAS utilisant loption backward. (iii) Calculer les critres de choix de modles (Cp , AIC et BIC, R2 et R2 ajust) pour le meilleur modle obtenu. Recherche forward : (i) Itrer la main le processus suivant : commencer par introduire dans le modle la variable la plus corrle avec RETCAP. estimer le modle, choisir la variable la plus corrle avec les rsidus du modle prcdent. Arrter la procdure lorsque la variable ajoute nest plus signicative (seuil 5% voir un peu plus). (ii) Comparer avec la procdure automatique de SAS utilisant loption forward (iii) Calculer les critres de choix de modles (Cp , AIC et BIC, R2 et R2 ajust) pour le meilleur modle obtenu. Recherche automatique par Furnival et Wilson : (i) Estimer le meilleur modle laide de lalgorithme de Furnival et Wilson. (ii) Calculer les critres de choix de modles (Cp , AIC et BIC, R2 et R2 ajust) et comparer avec les modles prcdents (complets et ceux obtenus par slection forward et backward). Prediction Rcuprer le chier ukcomp2.dat. (i) Estimer la variable RETCAP sur ce chier laide du modle complet, du modle maximisant le R2 ajust, celui maximisant le Cp et celui maximisant BIC. (ii) Pour chaque modle, calculer la somme des carrs des erreurs de prdiction. Comparer alors les modles. Pour ce faire, nous vous proposons lastuce suivante (si vous avez dautres ides nhsitez pas) : Concatner les deux chiers ukcomp1.dat et ukcomp2.dat, en appelant diffremment la variable RETCAP dans ces deux chiers (RETCAP1 et RETCAP2 par exemple). Le chier concatn contriendra ainsi 80 lignes, dont les 40 premires (correspondant ukcomp1.dat) auront la variable RETCAP1 renseigne tandis que RETCAP2 ne le sera pas, et vice-versa pour les 40 suivantes. Estimer le modles de rgression de RETCAP1 en fonction des variables explicatives retenues, et demand SAS deffectuer des prdictions (option p indiquer la suite de la ligne model). Ainsi, seules les 40 premires ligne auront servies estimer le modle, car seules celles-ci ont une valeur pour RETCAP1, mais les prdictions seront faites pour les 80 lignes (pour lesquelles les variables explicatives sont renseignes). Il suft ensuite de crer une variable rsidus, comme la diffrence entre la prdiction obtenues et la variable RETCAP2. Seules les 40 dernires lignes auront un rsidus car seules ces lignes disposent de RETCAP2. Il suft nalement de calculer la moyenne des carrs des rsidus ( laide dune PROC MEANS par exemple). Remarquons quil est possible de comparer les modles sur cet chantillon puisquil na pas servi estimer le modle (on parle dchantillon test, alors que lchantillon ukcomp1.dat ayant servi lestimation est appel chantillon dapprentissage). Au contraire, valuer des modles sur lchantillon ayant servi estimer le modle conduirait choisir un modle trop complexe : on parle de sur-apprentissage.
Chapitre 3
3.2.1 Le modle
Soit Y une variable quantitative dont on observe les valeurs pour diffrents niveaux dun facteur qualitatif A. On suppose disposer de J chantillons indpendants de Y de tailles n1 nJ correspondant chacun des J niveaux du facteur A : Y11 , Y21 , . . . , Yn1 1 correspondant au niveau A1 du facteur A, Y12 , Y22 , . . . , Yn2 2 correspondant au niveau A2 du facteur A, ... Y1J , Y2J , . . . , YnJ J correspondant au niveau AJ du facteur A. On note n = J j =1 nj la taille dchantillon totale. On suppose que pour chaque niveau de A, les chantillons sont i.i.d. desprance j et de variance homogne 2 = 2 . On suppose ainsi que le facteur A ninue que sur lesprance des chantillons et non sur leur variance. j Le modle peut alors scrire : Yij = j + ij
2
(3.1)
o les ij sont i.i.d., desprance nulle et de variance constante . On supposera de plus que les ij sont gaussiens pour raliser des tests sur le modle danalyse de variance. Les paramtres du modle danalyse de variance sont donc les esprances j ainsi que la variance 2 . 25
26
20
30
40
50
60
70
Hommes separes
Femmes
Hommes celib.
Hommes maries
F IG . 3.1 Bote moustaches illustrant la distribution des ges des clients dune banque allemande suivant les diffrents statuts maritaux. On note respectivement .j = 1 Y nj
nj
Yij
i=1
et
.. = 1 Y n
nj
Yij ,
j =1 i=1
la moyenne empirique de lchantillon correspondant au j ime niveau du facteur A et la moyenne empirique globale. De mme, on dnit la variance empirique au sein du j ime niveau de A par :
2 Sj
1 = nj 1
nj
i=1
.j )2 . (Yij Y
27
Une solution est alors de considrer un sous-ensemble de variables indicatrices de sorte rendre X X inversible. La faon la plus simple de faire est de ne pas considrer de terme constant : Y = 1 11 + . . . + J 1J + . On a alors j = j (1 j J ), et cest le modle considr en (3.1). Le paramtre j est estim sans biais par la moyenne empirique du j ime niveau : j = .j , Y
tandis que 2 est estime sans biais (sous lhypothse dhomognit des variances) par une moyenne pondre des variances empiriques de chaque niveau : 2 = S2 = 1 nJ
J j =1 2 (nj 1)Sj .
Le problme de ce modle est que les tests dcoulant consisteront tudier la nullit des paramtres tandis que nous sommes intresss par tester leur galit. Une autre solution (base cell model, adopte par SAS) et de considrer le modle Y = J 1 + (1 J ) 11 + . . . + (J 1 J ) 1J 1 + .
0 1 J 1
Ainsi, les paramtres j estims seront des diffrences desprance, en adquation avec ce que lon cherche tester par la suite.
3.2.3 Tests
Le principal objectif de lanalyse de variance est de tester si le facteur A a une inuence sur la variable Y . Sous les hypothses prcdentes, le problme revient donc tester H0 : 1 = . . . = J = contre H1 : 1 i, l J t.q. i = l .
J J nj
j =1 i=1
.. )2 = (Yij Y
SST
j =1
.j Y .. )2 + nj (Y
SSA
j =1 i=1
.j )2 (Yij Y
SSR
qui reprsente la dcomposition de la dispersion totale SST en la dispersion SSA due au facteur A (dispersion inter-groupe) et la dispersion rsiduelle SSR (ou dispersion intra-groupe). Exercice. crire la preuve.
2 En remarquant que VR = SSR 2 J nj Vj2 2 SSR n 1 n J j =1
nj Vj2 o Vj2 =
1 nj
= j =1 suit une loi du 2 n J degrs de libert, car loi du 2 nj 1 degrs de libert. SST 2 De mme, sous H0 cette fois, SST 2 suit une loi du n 1 degrs de libert (car sous H0 n est la variance dun SSA SSA 2 2 n-chantillon de loi N (, )) et 2 suit une loi du J 1 degrs de libert (car n peut tre vue comme 1, . . . , X J )). la variance pondre du J -chantillon (X 2 2 Lquation de lanalyse de variance revient alors 2 n1 = J 1 + nJ , ce qui permet en outre de conclure via le thorme de Cochran (non abord dans ce cours) que SSA et SSR sont indpendantes. La statistique du test est donc F =
SSA J 1 SSR nJ
on montre que
n 2 2 VR
qui suit sous H0 une loi de Fisher-Snedecor FJ 1,nJ , et on rejette lhypothse H0 si la statistique F est suprieure au quantile de la loi FJ 1,nJ dordre 1 . Les rsultats de lanalyse de variance sont gnralement donns dans un tableau analogue celui-ci :
28 Source Modle (inter) Erreur (intra) Total Somme des carrs SSA SSR SST
Comparaison des moyennes deux deux Rejeter H0 permet de dire que toutes les moyennes ne sont pas gales. Il peut cependant tre intressant de tester lgalit des moyennes deux deux. Pour cela, on effectue un test de comparaison multiple des moyennes (pour 1 j, j J ) : H0 : j = j . tant donn le grand nombre de tests que lon va tre amen faire, la problmatique des tests multiples doit tre prise en compte (cf. cours Statistique Infrentielle GIS3). Une solution simple peut tre dappliquer une correction de Bonferroni en ralisant chaque test avec un risque de premire espce gal au risque de premire espce global divis par le nombre de tests effectus. Une mthode plus conservative due Scheff, utilise le fait que j X j (j j )| SR p |X (J 1)fK 1,nJ,1 1 1 + nj nj =1
o fJ 1,nJ,1 est le quantile de la loi de Fisher de paramtres J 1 et n J dordre 1 . On rejette donc lhypothse dgalit des moyennes j et j si j X j | > SR |X (J 1)fJ 1,nJ,1 1 1 + . nj nj
Posons
J
M=
j =1
(nj 1) ln(S
2 /Sj )
et
1 c= 3(J 1)
J 1 j =1 nj 1 1 J j =1 nj 1
Sous H0 , la statistique M 2 J 1 c+1 permet de raliser le test. Dans le cas o lhypothse de normalit est viole, une alternative propose par Levene ralise une analyse de .j |, la statistique de Fisher dcoulant de lANOVA fournissant un bon test variance sur les variables Zij = |Yij Y de lhomognit des variances.
29
3.3.1 Le modle
On note : Yijk la i-me observation de Y pour les j -me et k -me valeurs respectives des facteurs A et B , njk = c le nombre dobservations Xijk , K J J K nj. = k=1 njk = Kc, n.k = j =1 njk = Jc et n = j =1 k=1 njk = JKc. Le modle dANOVA scrit alors Yijk = .. + j + k + jk + ijk , (3.2)
o ijk N (0, 2 ), .. est leffet gnral, j est leffet du niveau j du premier facteur, k celui du niveau k de B , et jk leffet de linteraction entre les niveaux j et k des deux facteurs. Effet dinteraction Leffet dinteraction existe lorsque le niveau dun facteur modie linuence de lautre facteur sur Y . Considrons lexemple suivant : on relve dans diffrentes villes franaises le taux de fumeur (Y ) en fonction de la classe dge (facteur A) et du sexe (facteur B ). En labsence deffet dinteraction, leffet de la classe dge sur le taux de fumeurs serait identique pour les hommes et les femmes. Dans la ralit, il semble (cela reste prouver par une ANOVA !) que les femmes fument en proportion beaucoup plus un certain moment de leur vie (de ladolescence au dbut de lge adulte), tandis que la rpartition de fumeurs chez les hommes est plus constante entre les diffrentes classes dge. Ceci semble mettre en vidence un effet dinteraction entre les facteurs ge et sexe : le fait dtre de tel ou tel sexe modie limpact qu lge sur le taux de fumeurs.
Yijk ,
i=1
..k = 1 Y J
.jk , Y
j =1
.j. = 1 Y K
.jk Y
k=1
... = 1 et Y n
Yijk .
j =1 k=1 i=1
Sous les hypothses de contraintes (assurant lunicit des solutions) k k = j j = k jk = j jk = 0, les paramtres .. , j , k et jk de la dcomposition (3.2) peuvent tre estims par les relations suivantes : ... , .. = Y .j. Y ... , j = Y k = Y ..k Y ... .jk Y .j. Y ..k + Y ... et jk = Y
3.3.3 Tests
Soient les sommes des carrs suivantes :
J K c J K
SST =
j =1 k=1 i=1
... )2 , (Yijk Y
J K
SSA = cK
j =1
SSB = cJ
k=1 J K c
..k Y ... )2 , (Y
SSAB = c
j =1 k=1
j =1 k=1 i=1
.jk )2 , (Yijk Y
30
o SST est la somme des carrs totale, SSA est la somme des carrs relatifs au facteur A, SSB est la somme des carrs relatifs au facteur B , SSAB est la somme des carrs relatifs linteraction entre les facteurs A et B et SSR est la somme des carrs rsiduels.
J K c
variance deux facteurs : SST = SSA + SSB + SSAB + SSR. Exercice. crire la preuve. Comme en analyse de variance un facteur, sous lhypothse H0 : j = 0, les quantits SSA et SSR suivent 2 prs des lois du 2 indpendantes J 1 et n JK degrs de libert. La statistique suivante est donc de loi de Fisher de paramtres J 1 et K 1 : FA = SSA/(J 1) . SSR/(n JK ) SSAB/(K 1)(J 1) SSR/(n JK )
De mme, sous les hypothses respectives H0 : k = 0 et H0 : jk = 0, les statistiques FB = SSB/(K 1) SSR/(n JK ) et FAB =
suivent des lois de Fisher de paramtres K 1 et n JK pour FB , (K 1)(J 1) et n JK pour FAB . Ainsi, on peut donc tester lexistence des effets principaux des deux facteurs et de leur interaction en comparant ces statistiques aux quantiles de la loi de Fisher : si les valeurs observes de ces statistiques sont suprieures au quantile de la loi de Fisher dordre 1 on conclura un effet signicatif. On prsente usuellement lanalyse de variance sous la forme du tableau suivant : Facteur A B Interaction AB Rsidu Total Somme des carrs SSA SSB SSAB SSR SST degrs de libert K 1 J 1 carr moyen SSB/(K 1) SSA/(J 1) FA = F
SSA/(J 1) SSR/(nJK ) SSB/(K 1) FB = SSR/ (nJK ) (K 1)(J 1) FAB = SSAB/ SSR/(nJK )
(J 1)(K 1) n JK n1
31
La solution consiste alors crire le modle dANOVA comme un modle de rgression, de faon similaire ce qui a t fait dans le cas de lANOVA un facteur. Ceci ne sera pas abord dans ce cours, mais nous prcisons nanmoins que la procdure glm de SAS permet de traiter ce cas (se rfrer aux rsultats de type III).
3.5.2 Le modle
On considre un modle de rgression par niveau du facteur A : Yij = 0j + 1j Xij + ij j = 1, . . . , J i = 1 , . . . , nj (3.3)
o ij sont i.i.d. centrs de variance 2 et supposs de loi normale pour raliser les tests. La rsolution simultane des J modles peut tre obtenue en crivant le systme de faon matricielle : + Y=X (3.4)
avec les notations suivantes : Y et sont les vecteurs colonnes des Yij et ij , = (01 , 11 , . . . , 0J , 1J ) , est la matrice n 2J constitue des J blocs [1j |X.1j ] o 1j est lindicatrice de niveau, X est le vecteur X colonnes des Xij , et X.1j correspond au produit terme terme des deux vecteurs. An dobtenir directement les bonnes hypothses pour les tests que nous chercherons effectuer, des logiciels comme SAS utilisent une reparamtrisation du modle (3.4) faisant intervenir des effets diffrentiels par rapport au dernier niveau. Le modle considr scrit alors Y = 0J 1 + 1J X + (01 0J )11 + . . . + (0J 1 0J )1J 1 + (11 1J )X.11 + . . . + (1J 1 1J )X.1J 1 (3.5) effet de X effet de A effet dinteraction
Nous pourrons alors tester directement : leffet de X sur Y, lgalit des intercepts des J modles de rgression en testant leffet de A, lgalit des pentes des J modles de rgression en testant leffet de linteracton entre A et X.
3.5.3 Tests
Des tests de Fisher peuvent tre mis en place en comparant le modle complet (3.5) des modles rduits nintgrant que leffet de X , que leffet de A ou que leffet dinteraction. Ces tests permettent de tester les trois hypothses suivantes :
32
(1)
H0 : 11 = . . . = 1J : il ny a pas dinteraction, les pentes de la rgression de Y sur X sont toutes identiques celle 1J du dernier niveau du facteur A, (2) H0 : 1J = 0, (3) H0 : 01 = . . . = 0J : les ordonnes lorigine de la rgression de Y sur X sont toutes identiques celle 0J du dernier niveau du facteur A. La dmarche danalyse de ces tests est la suivante : (1) on commence par tester linteraction avec H0 . (2) si linteraction nest pas signicative, on teste H0 , qui, sil nest pas non plus signicatif, conduit conclure labsence deffet de X , (3) (1) toujours si H0 nest pas signicative, on teste H0 pour juger de leffet du facteur A.
33
A faire sous SAS laide de la proc GLM. Nous considrons le mme jeu de donnes que prcdemment, mais en prenant en compte dsormais la taille de la famille. Lobjectif de ltude est alors de tester limpact des diffrentes campagnes publicitaires. (i) A partir du chier de donnes, construire un chier plat : data milk1 ; set milk ; array c{4} consommation1-consommation4 ; do pub=1 to 4 ; consom=c{pub} ; output ; end ; drop consommation1-consommation4 ; run ; (ii) Raliser une analyse de covariance tudiant limpact de la taille de la famille et de la campagne publicitaire sur la consommation : proc glm data=milk1 plot ; class pub ; model consom=pub taille pub*taille/ solution ; run ; Interprter les diffrents effets. (iii) Nous avons vu dans lANOVA deux facteurs, que le facteur rgion avait un effet. Refaites lanalyse prcdentes par rgion (on noublira pas de trier la table de donnes au pralable).
A faire sous SAS. Le chier health.dat contient des donnes dune tude sur limpact du rgime alimentaire sur les capacits physiques. Pour cela, on a mesur le rythme cardiaque de 18 sportifs aprs des exercices dchauffement, aprs un jogging lger et aprs une course pied intense (respectivement PULSE1, PULSE2 et PULSE 3). Pour chaque personne, on a not son rgime alimentaire (DIET : 1 pour carnivore et 2 pour vgtarien), ainsi que le type dexercice quelle pratique habituellement (EXERTYPE : 1 pour aerobic (step), 2 pour tennis ou squash et 3 pour tness). (i) Crer un chier plat, qui contiendra entre autre une variable ind identiant de lindividu et une variable time indiquant le numro de la mesure effectue (time=1,2 et 3 pour PULSE1, PULSE2 et PULSE 3). (ii) Donner des reprsentations graphiques signiantes (boxplot). Certains facteurs vous semblent-ils inuencer le rythme cardiaque ? (iii) Analyser limpact des diffrents facteurs intervenant dans ltude, laide dune proc mixed. proc mixed data=health_plat ; class time EXERTYPE DIET ind ; model PULSE=EXERTYPE DIET EXERTYPE*DIET ; repeated time /subject=ind ; run ; Le modle est-il signicatif ? Si oui, quels effets sont signicatifs ?
34
Ils indiquent un effet rgion et un effet campagne publicitaire (au risque 5%), alors que leffet dinteraction est plus contrast. Intgrons dsormais la variable taille de la famille ltude, et concentrons nous sur leffet des campagnes publicitaires. La taille de la famille tant une variable quantitative, nous ralisons une ANCOVA : proc glm data=milk1 plot ; class region pub ; model consom=pub taille pub*taille/ solution ; run ; Loption solution permet dafcher les coefcients des modles estims (cf ci-aprs). Les rsultats sont les suivants (on se rfre bien toujours aux rsultats de type III) : Source pub taille taille*pub DF 3 1 3 Type III SS 227.18067 40926.01565 309.84511 Mean Square 75.72689 40926.01565 103.28170 F value 0.57 306.57 0.77 Pr>F 0.6377 <.0001 0.5111
La seconde ligne indique quil y a un effet signicatif de la taille. Lexamen des valeurs des coefcients (tableau ci-dessous), montre quen effet la consommation augmente globalement de faon assez forte ( 12) avec la taille de la famille. La premire ligne indique quil ny a pas de diffrence signicative entre les intercepts des 4 modles de rgression de la consommation en fonction de la taille, ce qui ce traduit par labsence deffet campagne de publicit. De mme, la dernire ligne indique labsence de diffrence signicative entre les pentes des 4 modles de rgression de la consommation en fonction de la taille, ce qui ce traduit par labsence dinteraction entre le type de campagne de publicit et la taille.
35
1 2 3 4
La gure 3.2 reprsente les 4 modles de rgression correspondants aux 4 campagnes de publicits
F IG . 3.2 Rgression de la consommation en fonction de la taille pour les diffrentes campagnes publicitaires Nanmoins, tant donn leffet rgion dtect dans lanalyse de variance, nous avons envie daller plus en avant dans lanalyse en ralisant la mme ANCOVA mais rgion par rgion cette fois : proc glm data=milk1 plot ; by region ; class pub ; model consom=pub taille pub*taille ; run ; On obtient alors les rsultats suivants : Rgion 1 Source pub taille taille*pub pub taille taille*pub pub taille taille*pub pub taille taille*pub pub taille taille*pub DF 3 1 3 3 1 3 3 1 3 3 1 3 3 1 3 Type III SS 72.029738 7178.321423 217.370477 231.734221 8655.252009 50.150687 79.546880 6993.301603 173.193053 415.666636 9743.378300 361.395564 15.354936 8513.285160 52.751193 Mean Square 24.009913 7178.321423 72.456826 77.244740 8655.252009 16.716896 26.515627 6993.301603 57.731018 138.555545 9743.378300 120.465188 5.118312 8513.285160 17.583731 F value 4.62 1380.25 13.93 30.36 3402.34 6.57 6.01 1585.35 13.09 15.23 1071.32 13.25 0.79 1314.71 2.72 Pr>F 0.0164 <.0001 <.0001 <.0001 <.0001 0.0042 0.0061 <.0001 0.0001 <.0001 <.0001 0.0001 0.5168 <.0001 0.0793
On constate alors, en ralisant les analyses rgion par rgion, que les diffrences dintercept et de pentes sont toujours signicatives (sauf pour la rgion 5 concernant lintercept). Le type de campagne publicitaire inue donc
36
sur le lien entre la consommation et la taille. La gure 3.3 illustre les diffrences entre les diffrentes droites de rgression.
F IG . 3.3 Rgression de la consommation en fonction de la taille pour les diffrentes campagnes publicitaires, rgion par rgion. Lanalyse globale faite prcdemment, prenant en compte toutes les rgions ensemble, avait eu pour effet de cacher les diffrences dinuence des campagnes publicitaires, qui ne sont dcelables quen concentrant ltude rgion par rgion.
Chapitre 4
Rgression logistique
Logiciel SAS : proc logistic. Logiciel R : fonction glm. La n de ce cours est dsormais consacr modliser une variable Y qualitative, K modalits, partir de p variables explicatives X = (X1 , . . . , Xp ) qualitatives ou quantitatives. On parle gnralement dans ce cadre de classication (chaque modalit de Y reprsentant une classe dindividus). Nous verrons deux mthodologies, la rgression logistique ainsi que lanalyse discriminante probabiliste (Chapitre 5). Comme dans le reste de ce chapitre, nous supposons disposer dun chantillon dobservations conjointes de Y et de X : on parle alors dapprentissage supervis, et plus particulirement ici de classication supervise. Nous supposons dans ce chapitre, pour simplicit de prsentation, que les variables explicatives sont quantitatives. Dans le cas de variables qualitatives, il sufra de considrer les variables indicatrices correspondantes. Attention : par soucis didentiabilit, nous ne considrerons que J 1 indicatrices pour une variable J modalits.
4.1.1 Le modle
Lide est alors de ne plus modliser Y , mais les probabilits davoir Y = 0 et Y = 1 conditionnellement la connaissance des variables explicatives X = x : (x) = P (Y = 1|X = x) et 1 (x) = P (Y = 0|X = x).
Mme si nest plus binaire, elle est toujours borne dans lintervalle [0, 1], ce qui ne convient toujours pas un rgresseur linaire X qui prendra a priori des valeurs sur tout R. La rgression logistique consiste donc modliser une certaine transformation de , appele transformation logit, par une fonction linaire des variables explicatives : (x) j xj . = 0 + logit( (x)) = ln 1 (x) j =1 Ce modle scrit galement (x) = exp (0 + 1 + exp (0 + 37
p j =1 j xj ) . p j =1 j xj ) p
(4.1)
38
Dans la suite, nous noterons parfois (x; ) pour signier que la probabilit (x) est paramtre par , et de mme P (Y = 1|X = x; ). Remarque. Justication du modle : dans le cas dune unique variable explicative X , on modlise la probabilit exp x (x) = P (Y = 1|X = x) par une fonction de la forme 1+exp x dont lallure correspond bien la reprsentation du nuage de point (xi , yi ) dans le cas dobservation yi binaire (cf Figure 4.1).
exp x 1+exp x
qui reprsente combien de fois on a plus de chance davoir Y = 1 au lieu davoir Y = 0 lorsque X = x. On dnit de mme les odds-ratio par le rapport odds-ratio(xi , xj ) = odds(xi ) odds(xj )
qui reprsente combien de fois on a plus de chance davoir Y = 1 au lieu davoir Y = 0 lorsque X = xi au lieu de X = xj . Remarque. Bien que lon ait dni les odds et odds-ratio pour une variable explicative X multidimensionnelle, on ne fait gnralement varier quune seule dimension entre les deux valeurs xi et xj , et on dnit donc autant dodds et odds-ratio quil y a de dimensions. Exemple On considre comme variable prdire Y la prsence ou labsence dun cancer des poumons, et comme variable explicative (qualitative) le fait dtre fumeur ou non fumeur. Les donnes sont ctives bien que pas si loignes que cela de la ralit : La probabilit davoir un cancer du poumon chez un fumeur est P (Y = 1|X = fumeur) = 0.01, do P (Y = 0|X = fumeur) = 0.99. On a alors odds(X = fumeur) = 1/99. On dit que lon a une chance sur 99 davoir un cancer des poumons lorsque lon est fumeur.
39
Chez les non fumeurs, la prvalence du cancer du poumons nest que de P (Y = 1|X = non fumeur) = 104 . /99 On a donc odds-ratio(fumeur, non fumeur) = 11 /9999 = 101, do 101 fois plus de chance davoir un cancer des poumons pour un fumeur que pour un non fumeur.
L( ) =
i=1
P (Y = yi |X = xi ).
si yi = 1 si yi = 0
i exp x i 1 + exp x
yi
i exp x i 1 + exp x
1yi
l( ) =
i=1
ln P (Y = yi |X = xi ) =
i=1
i ln(1 + exp x i ). yi x
Exercice. Refaire le calcul. La maximisation de cette vraisemblance se fait en drivant par rapport au vecteur . On obtient l( ) =
n i=1
i x i yi x
i exp x = i 1 + exp x
n i=1
i (yi (xi )) x
qui nest pas une quation linaire en . Sa rsolution peut tre ralise numriquement par un algorithme de type Newton-Raphson. Daprs les proprits du maximum de vraisemblance, la matrice de variance de lestimateur est donne par linverse de la matrice dinformation de Fisher. Ainsi :
2 ) = l( ) ( V 2 1
V X )1 = (X
(4.2)
est la matrice n (p + 1) dont les lignes sont composes des x est la matrice diagonale n n des i et V o X (xi )(1 (xi )).
40
4.2.4 Prvisions
4.2.4.1 Classement dune nouvelle observation Pour une nouvelle observation x , on cherche prdire y . Il existe plusieurs faons deffectuer la prdiction. La rgle du maximum a posteriori (MAP) consiste affecter lobservation la classe la plus probable : on prdit ) : donc la valeur de y par la modalit k maximisant la probabilit P (Y = k |X = xi ;
). y MAP = argmax P (Y = k |X = x ; k{0,1}
Puisquon est en prsence de deux classes, une observation sera classe dans la classe Y = 1 si sa probabilit dtre dans cette classe est suprieur 1/2. Or, ce choix est totalement arbitraire et peut tre remis en cause, notamment lorsque les risques encourus en cas de mauvais classement ne sont pas symtriques (cote-t-il aussi cher daccepter un mauvais client que de ne pas en accepter un bon ?). On dnira plus gnralement la prdiction, ou rgle de classement, au seuil s de la faon suivante :
y s =
1 0
) s si P (Y = 1|X = x ; sinon
4.2.4.2 Notions de score Dans de nombreux domaines, comme le credit-scoring ou la mdecine, ce nest pas tant la prdiction y qui nous intresse que la probabilit (x ) que Y prenne la modalit 1. Cette probabilit est appele score. Elle pourra reprsenter la probabilit quun client achte un produit, la probabilit pour un patient de contracter une maladie, etc. 4.2.4.3 Tableau de classement ou matrice de confusion Le rsultat dun procd de classication est souvent reprsent sous la forme dun tableau de classement (ou matrice de confusion) obtenu en appliquant la mthode de classication sur des observations pour lesquelles la variable Y (i.e. la classe dappartenance) est connue et en comparant aux classes prdites : prdit Y =0 Y =1 VN FP FN VP N P total N P n
rel total
Y =0 Y =1
TAB . 4.1 Matrice de confusion contenant les effectifs de vrais ngatifs (VN), vrais positifs (VP), faux ngatifs (FN) et faux positifs (FP)
Dans ce tableau gurent les effectifs des observations en fonction de leur classe relle et de la prdiction de celle-ci. On parle parfois dobservations classes comme positives lorsquelles ont la modalit 1 de Y (car bien souvent on associe la modalit Y = 1 le caractre que lon cherche dtecter : maladie, achat...), et ngatives dans le cas contraire. Avec ces appellations, le contenu des cases du tableau peut tre dcrit de la faon suivante :
41
Sensibilit et spcicit On appelle sensibilit du modle le pourcentage de vrais positifs, et spcicit le pourcentage de vrais ngatifs.
Plusieurs tests sont disponibles : le test du rapport des vraisemblances maximales : sous H0 2 ln max LH0 ( ) 2 1 max LH1 ( )
o LH0 et LH1 sont respectivement les vraisemblances du modle sans et avec la variable Xj , le test de Wald : sous H0 2 j 2 2 1 j
2 o j est la variance de lestimateur de j , donne par (4.2), et enn le test du score,
H ) 2 H )U ( H ) V ( U ( 0 0 0 1 H ) est le vecteur des drives partielles H ) est linverse de la matrice dinformation de Fisher, et U ( ( o V 0 0 de la log-vraisemblance estime sous H0 . Pour tout ces tests, on rejettera lhypothse de nullit du coefcient j si la statistique du test est suprieure au quantile 2 1,1 . Remarque. Si on conclut la nullit dun coefcient, tous les autres coefcients doivent tre r-estims. Bien souvent, le test du rapport des vraisemblances est le plus puissant, mais ncessite lestimation de sous H0 , ce qui nest pas le cas pour le test de Wald.
42
1 Iy (i) =yi
i=1
Cette courbe permet de voir lvolution des sensibilit et spcicit en fonction du seuil s choisi. Le praticien pourra alors choisir le seuil : la main en fonction dune sensibilit ou spcicit souhaite, de faon minimiser lerreur totale de classement (sans diffrencier les FP et FN), cest--dire le seuil s minimisant : p0 (1 Se(s)) + p1 (1 Sp(s)) o Se(s) et Sp(s) sont les sensibilit et spcicit (en fonction du seuil s), et p0 et p1 sont les proportions de ngatifs et de positifs dans la population totale,
43
en cherchant tre le plus prs possible du point idal de coordonnes (0, 1) (Se = Sp = 1), cest--dire en minimisant : (1 Se(s))2 + (1 Sp(s))2 . La courbe ROC permet galement dvaluer la qualit du modle. Pour cela, on calcule laire sous cette courbe, note AUC (Area Under Curve) :
1
AU C =
0
Se(s)d(1 Sp(s)).
Le meilleur modle sera celui qui se rapprochera le plus de lAUC maximale gale 1. Cette aire correspond la probabilit de dtecter un positif dun ngatif.
jk xj
j =1
1 k K 1.
Cette procdure ne dpend pas du choix du groupe de rfrence (dans les logiciels le groupe de rfrence est gnralement soit le premier soit le K ime). Lorsque la variable est ordinale, on modlise gnralement des logits cumulatifs : ln k+1 (x) + . . . + K (x) jk xj = 0k + 1 (x) + . . . + k (x) j =1
p
1 k K 1.
Ce dernier modle comportant un grand nombre de paramtres, les jk sont souvent supposs constants par classe jk = j 1 k K 1.
44
(ii) Reprsenter graphiquement le nuage de point form par les variables explicatives, en reprsentant les points dune couleur diffrente selon la modalit de Y . Reprsenter galement Y en fonction de X1 , et en fonction de X2 . (iii) Estimer le modle de rgression logistique laide de la fonction glm : glm.res <- glm(y x1+x2, family=binomial) Afchez et commentez les rsultats laide de la commande summary(glm.res) et plot(glm.res). Analyser lapport de chaque variable explicative. (iv) Effectuer les prdictions de Y pour votre chantillon de simulation laide de la commande : predict(glm.res,data.frame(x1=x1,x2=x2),type=response) et reprsenter les rsultats laide dune matrice de confusion : table(ychap,y) Les prdictions seront ralises laide de la rgle du MAP (rgle du seuil avec s = 0.5) (v) Simuler un nouvel chantillon de donnes de taille 100. Evaluer la sensibilit et la spcicit pour s=seq(0.01,0.99,0.01). Tracer la courbe ROC. (vi) Faites la mme chose en utilisant une seule variable explicative dans le modle logistique. Superposez les deux courbes ROC et choisissez le meilleur modle.
(iii) Estimer un premier modle simpli en intgrant que les variables signicative lors de la prcdente rgression ( = 5%). Calculer AIC.
(iv) Estimer un modle simpli laide de lalgorithme forward suivant : pr1.glm = glm(Class1,family=binomial,data=data_app) pr1.step <- step(pr1.glm, direction="forward", scope=list(lower=1, upper=Cl.thickness+Cell.size+Cell.shape+Marg.adhesion+Epith.c.size+Bare.nuclei+ Bl.cromatin+Normal.nucleoli+Mitoses), trace = TRUE) Examiner lordre dintroduction des variables. (v) Estimer un modle simpli laide de lalgorithme forward/backward suivant : pr2.glm = glm(Class1,family=binomial,data=data_app) pr2.step <- step(pr2.glm, direction="both", scope=list(lower=1, upper=Cl.thickness+Cell.size+Cell.shape+Marg.adhesion+Epith.c.size+Bare.nuclei+ Bl.cromatin+Normal.nucleoli+Mitoses), trace = TRUE) Examiner lordre dintroduction des variables.
45
46
Chapitre 5
pk fk (x) = fX (x).
k=1
La probabilit quune observation x Rp provienne de la classe Gk est donne par tk (x) = P (Y = k |X = x) = pk fk (x) . fX (x)
Remarque. Nous supposons dans cette section que toutes les caractristiques des lois sont connues : proportions, densits... Nous verrons dans la section suivante les mthodes destimations de ces quantits. 47
48
La probabilit quun individu de Gk soit mal class avec la rgle r est : ek (r) = P (r(X) = k |Y = k ) = ekl (r) =
l= k
fk (x)dx.
e(r) =
k=1
pk ek (r).
pk
k=1 l=1
C (l, k )
l
fk (x)dx.
On cherche donc la rgle de classement optimale r qui minimise le risque moyen, ce qui revient minimiser le risque conditionnel pour chaque individu car : R(r ) = min EX [R(r(X)|X = x)] EX [min R(r(X)|X = x)].
r r
49
r (x) = k
si
l= k
C (k , l)tl (x)
k = k.
Cas de lgalit des cots Si tous les cots sont gaux c, le risque conditionnel est alors
K
l= k
k = k ou encore k = k.
Lobservation x est donc affecte la classe conditionnellement la plus probable (rgle du maximum a posteriori). Les cots tant gaux, en posant c = 1, le risque moyen de classement
K K K
R(r) =
k=1
pk
l= k l
fk (x)dx =
k=1
pk
fk (x)dx =
k=1
pk ek (r) = e(r)
est gal lerreur globale de classement. Cas de deux classes On a r (x) = 1 et soit en posant g (x) =
C (2,1)t1 (x) C (1,2)t2 (x)
si si
C (1, 2)t2 (x) < C (2, 1)t1 (x), C (2, 1)t1 (x) < C (1, 2)t2 (x),
r (x) = 2
r (x) = 1 et r (x) = 2
si si
|1/2
1 1 exp{ (x k ) k (x k )} 2
50
1 2
|2 | 1 1 ln + (x 2 ) 2 (x 2 ) (x 1 ) 1 (x 1 ) + s. |1 |
Cette quation tant quadratique en x, on dit que la frontire de classement est quadratique. On parle alors danalyse discriminante quadratique (QDA). Lorsque les matrices de variances sont identiques 1 = 2 = (cas homoscdastique par opposition au cas htroscdastique 1 = 2 ), lquation de la surface discriminante est (1 2 ) 1 (x 1 + 2 ) + s = 0, 2
qui est une quation linaire en x. On dit que la frontire de classement est linaire ou plus correctement que la sparation entre les classes est un hyperplan. On parle danalyse discriminante linaire (LDA).
o D2 est la distance de Mahalanobis entre les deux classes. La variance est quant elle V (G(X)) = = = = On a donc G(X) N (D2 /2 + s, D2 ) do e2 (r) = 1 s D 2 D V ((1 2 ) 1 X) (1 2 ) 1 V (X)1 (1 2 )
(1 2 ) 1 (1 2 ) D2
51
Remarque. Lorsque les cots et les proportions sont gales, on obtient e(r) = D 2 , et donc plus les classes sont spares, plus leur distance de Mahalanobis est grande, et plus lerreur globale de classement est petite.
L() =
k=1 xi Gk
pk fk (xi ),
on dduit la log-vraisemblance
K
l() =
k=1 xi Gk
ln pk
p 1 1 1 ln 2 ln |k | (xi k ) k (xi k ). 2 2 2
En drivant puis galant 0 on obtient les estimateurs du maximum de vraisemblance suivant : nk o nk est le nombre dobservations de Gk p k = n 1 k = xi , nk
xi G k
= 1 n k =
Les estimateurs de k tant biais, on en dduit les estimateurs sans biais suivants : = k = 1 nK 1 nk 1
K k=1 xi Gk
(xi k ) (xi k ),
xi G k
(xi k ) (xi k ).
52
Mthode de la partition e p Cela consiste diviser lchantillon en un chantillon dapprentissage (environ 2/3 75% de lchantillon global) et un chantillon test. Lerreur de classement pourra alors tre estime sans biais sur lchantillon test. Remarque. Cette technique demande une taille dchantillon sufsamment grande. Mthode de la validation croise e cv On dnit lestimateur validation croise leave-one-out de lerreur par e cv = 1 n
n
e p (i)
i=1
o e p (i) est lvaluation de lerreur sur une partition test constitue duniquement la iime observation (x, y )i . On parle de validation croise v -fold lorsque lchantillon initial est partag en v sous-chantillons servant chacun tour tour dchantillon test tandis que le reste des chantillons est utilis pour lapprentissage. On montre que lon obtient un estimateur sans biais de lerreur, ayant une variance plus faible que e p avec une partition test rduite une seule observation. Remarque. Cette technique demande de r-estimer les paramtres pour chaque chantillon test considr. Dans le cas de la validation croise leave-one-out, les paramtres du modle sont donc estims n fois. Remarque. Cette technique est privilgier dans le cas de petits chantillons.
...
mp jp =1
j1 ,...,jp = 1.
53
54
5.5.1 Simulation
A faire sous R. Le chier de donnes iris est disponible sous R. Ce clbre jeu de donnes donne les mesures en centimtres des longueur et largeur des spales et des longueur et largeur des ptales pour 150 eurs rparties en trois espces diris. (i) En croisant les variables explicatives deux deux, reprsenter les nuages de point avec des couleurs diffrentes selon les espces. plot(iris[,1 :4],col=iris$Species) Certaines variables semblent-elles plus discriminantes que dautres ? (ii) Calculer les matrices de variance de chaque groupe. Sont-elles semblables ? (iii) Estimer les modles QDA et LDA utilisant les 4 variables. (iv) Calculer les taux derreurs de classement par validation croise leave-one-out. Quel est le meilleur modle ? (v) Estimer maintenant les deux modles QDA et LDA sous SAS laide de la proc discrim. Existe-t-il des procdures pr-dnies permettant de slectionner les variables ?
5.5.2 Iris
Chapitre 6
Annexes
6.1 Drives de matrice et de vecteurs
Nous donnons ici quelques formules de drive par rapport un vecteur ou une matrice, sachant que la drive dun rel x par rapport un vecteur a est un vecteur dont les composantes sont les drives de x x par rapport aux composantes de a : x a i = ai , a i inversement x = a x , i ai a et a ij = bi . Soient a et x deux vecteurs : ax= xa=a x x Soit A et B deux matrices : T r(AB ) A T r(A B ) A T r(A) A T r(ABA ) A ln |A| A o T r est la trace de la matrice. = B = B = I = A(B + B ) = (A1 )
56 Son esprance est E [Y ] = (np1 , . . . , npK ), et sa matrice de variance = (ij )1i,j p dnie par : ii ij = = npi (1 pi ),
CHAPITRE 6. ANNEXES
npi pj
si i = j.
Bibliographie
[1] P. Besse. Pratique de la modlisation statistique, Publications du Laboratoire de Statistique et Probabilits, 2003. Disponible sur http ://www.math.univ-toulouse.fr/besse/pub/modlin.pdf
[2] P. Besse. Apprentissage Statistique & Data mining, Publications du Laboratoire de Statistique et Probabilits, 2009. Disponible sur http ://www.math.univ-toulouse.fr/besse/pub/Appren_stat.pdf [3] G.J. McLachlan. Discriminant analysis and Statistical Pattern Recognition. Wiley, New-York, 1992. [4] J-P. Nakache et J. Confais. Statistique explicative applique. Editions Technip, 2003. [5] G. Saporta. Probabilits, analyse de donnes et statistique. 2me dition, Editions Technip, 2006.
57