Poly 2

Universit Rennes 2 Master de Statistique Anne 2012/2013 Premier Semestre
Rgression linaire
Arnaud Guyader
Ce cours est tir des quatre premiers chapitres du livre de Pierre-Andr Cornillon et Eric MatznerLber, Rgression avec R, paru chez Springer en 2010.
Table des matires

1 La rgression linaire simple 1.1 Modlisation . . . . . . . . . . . . . . . . . . . . . . 1.2 Moindres Carrs Ordinaires . . . . . . . . . . . . . . 1.2.1 Calcul des estimateurs de 1 et 2 . . . . . . 1 et 2 1.2.2 Quelques proprits des estimateurs 1.2.3 Calcul des rsidus et de la variance rsiduelle 1.2.4 Prvision . . . . . . . . . . . . . . . . . . . . 1.3 Interprtations gomtriques . . . . . . . . . . . . . . 1.3.1 Reprsentation des variables . . . . . . . . . . 1.3.2 Le coecient de dtermination R2 . . . . . . 1.4 Cas derreurs gaussiennes . . . . . . . . . . . . . . . 1.4.1 Estimateurs du maximum de vraisemblance . 1.4.2 Rappels sur les lois usuelles . . . . . . . . . . 1.4.3 Lois des estimateurs et rgions de conance . 1.4.4 Prvision . . . . . . . . . . . . . . . . . . . . 1.5 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . 1.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . 1.7 Corrigs . . . . . . . . . . . . . . . . . . . . . . . . . 2 La rgression linaire multiple 2.1 Modlisation . . . . . . . . . . . . . . . . . 2.2 Estimateurs des Moindres Carrs Ordinaires . . . . . . . . . . . . . . 2.2.1 Calcul de 2.2.2 Quelques proprits . . . . . . . . . 2.2.3 Rsidus et variance rsiduelle . . . . 2.2.4 Prvision . . . . . . . . . . . . . . . 2.3 Interprtation gomtrique . . . . . . . . . . 2.4 Exemple . . . . . . . . . . . . . . . . . . . . 2.5 Exercices . . . . . . . . . . . . . . . . . . . 2.6 Corrigs . . . . . . . . . . . . . . . . . . . . 3 Le modle gaussien 3.1 Estimateurs du Maximum de Vraisemblance 3.2 Lois des estimateurs . . . . . . . . . . . . . 3.2.1 Quelques rappels . . . . . . . . . . . 3.2.2 Nouvelles proprits . . . . . . . . . 3.2.3 Intervalles et rgions de conance . . 3.2.4 Prvision . . . . . . . . . . . . . . . 3.3 Tests dhypothses . . . . . . . . . . . . . . 3.3.1 Introduction . . . . . . . . . . . . . . i . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 2 3 4 7 8 9 9 10 11 11 12 13 15 16 16 22 29 30 31 31 33 35 36 37 38 38 42 49 49 50 50 51 53 54 55 55
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ii 3.3.2 Tests entre modles embots . . . . . . . . . . . 3.3.3 Test de Student de signication dun coecient . 3.3.4 Test de Fisher global . . . . . . . . . . . . . . . . 3.3.5 Lien avec le Rapport de Vraisemblance Maximale Estimation sous contraintes . . . . . . . . . . . . . . . . Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . Corrigs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Table des matires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 60 60 60 62 62 63 74 81 81 81 85 85 85 88 90 93 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 131 131 131 131 132 132 132 133 133 133 133 134 135 135 135 137 137 138 139 140 141 143
3.4 3.5 3.6 3.7
4 Validation du modle 4.1 Analyse des rsidus . . . . . . . . . . . . . 4.1.1 Rsidus et valeurs aberrantes . . . 4.1.2 Analyse de la normalit . . . . . . 4.1.3 Analyse de lhomoscdasticit . . . 4.1.4 Analyse de la structure des rsidus 4.2 Analyse de la matrice de projection . . . . 4.3 Autres mesures diagnostiques . . . . . . . A Annales B Rappels dalgbre B.1 Quelques dnitions . . . . . . . . . . . . B.2 Quelques proprits . . . . . . . . . . . . . B.2.1 Les matrices n p . . . . . . . . . B.2.2 Les matrices carres n n . . . . . B.2.3 Les matrices symtriques . . . . . B.2.4 Les matrices semi-dnies positives B.3 Proprits des inverses . . . . . . . . . . . B.4 Proprits des projections . . . . . . . . . B.4.1 Gnralits . . . . . . . . . . . . . B.4.2 Exemple de projection orthogonale B.4.3 Trace et lments courants . . . . . B.5 Drivation matricielle . . . . . . . . . . . . C Rappels de probabilit C.1 Gnralits . . . . . . . . . . . . . . . . . C.2 Vecteurs alatoires gaussiens . . . . . . . . C.3 Tables des lois usuelles . . . . . . . . . . . C.3.1 Loi Normale X N (0, 1) . . . . . C.3.2 Loi de Student X T . . . . . . . C.3.3 Loi du Khi-deux ddl X 2 . 1 C.3.4 Loi de Fisher 1 , 2 ddl X F 2 D Quelques donnes Bibliographie
Arnaud Guyader - Rennes 2
Rgression
Chapitre 1
La rgression linaire simple

Introduction
Commenons par un exemple an de xer les ides. Pour des raisons de sant publique, on sintresse la concentration dozone O3 dans lair (en microgrammes par millilitre). En particulier, on cherche savoir sil est possible dexpliquer le taux maximal dozone de la journe par la temprature T12 midi. Les donnes sont : Temprature 12h O3 max 23.8 115.4 16.3 76.8 27.2 113.8 7.1 81.6 25.1 115.4 27.5 125 19.4 83.6 19.8 75.2 32.2 136.8 20.7 102.8
Table 1.1 10 donnes journalires de temprature et dozone. Dun point de vue pratique, le but de cette rgression est double : ajuster un modle pour expliquer O3 en fonction de T12 ; prdire les valeurs dO3 pour de nouvelles valeurs de T12 . Avant toute analyse, il est intressant de reprsenter les donnes, comme sur la gure 1.1.
100 110 120 130 80 90
O3
10
15
T12
20
25
30
Figure 1.1 10 donnes journalires de temprature et dozone.
Pour analyser la relation entre les xi (temprature) et les yi (ozone), nous allons chercher une fonction f telle que : yi f (xi ). Pour prciser le sens de , il faut se donner un critre quantiant la qualit de lajustement de la fonction f aux donnes. Il conviendra aussi de se donner une classe de fonctions F dans laquelle est suppose vivre la vraie fonction inconnue.
Chapitre 1. La rgression linaire simple Le problme mathmatique peut alors scrire de la faon suivante :
n
arg min
f F i=1
L(yi f (xi )),
o n reprsente le nombre de donnes disponibles (taille de lchantillon) et L(.) est appele fonction de cot ou fonction de perte (Loss en anglais).
1.1
Modlisation
Dans de nombreuses situations, en premire approche, une ide naturelle est de supposer que la variable expliquer y est une fonction ane de la variable explicative x, cest--dire de chercher f dans lensemble F des fonctions anes de dans . Cest le principe de la rgression linaire simple. On suppose dans la suite disposer dun chantillon de n points (xi , yi ) du plan. Dnition 1.1 (Modle de rgression linaire simple) Un modle de rgression linaire simple est dni par une quation de la forme : i {1, . . . , n} yi = 1 + 2 xi + i
Les quantits i viennent du fait que les points ne sont jamais parfaitement aligns sur une droite. On les appelle les erreurs (ou bruits) et elles sont supposes alatoires. Pour pouvoir dire des choses pertinentes sur ce modle, il faut nanmoins imposer des hypothses les concernant. Voici celles que nous ferons dans un premier temps : (H) (H1 ) : [i ] = 0 pour tout indice i (H2 ) : Cov(i , j ) = ij 2 pour tout couple (i, j )
Les erreurs sont donc supposes centres, de mme variance (homoscdasticit) et non corrles entre elles (ij est le symbole de Kronecker, i.e. ij = 1 si i = j , ij = 0 si i = j ). Notons que le modle de rgression linaire simple de la dnition 1.1 peut encore scrire de faon vectorielle : Y = 1 + 2 X + , o : le vecteur Y = [y1 , . . . , yn ] est alatoire de dimension n, le vecteur = [1, . . . , 1] est le vecteur de n dont les n composantes valent toutes 1, le vecteur X = [x1 , . . . , xn ] est un vecteur de dimension n donn (non alatoire), les coecients 1 et 2 sont les paramtres inconnus (mais non alatoires !) du modle, le vecteur = [1 , . . . , n ] est alatoire de dimension n. Cette notation vectorielle sera commode notamment pour linterprtation gomtrique du problme. Nous y reviendrons en Section 1.3 et elle sera dusage constant en rgression linaire multiple, cest pourquoi il convient dores et dj de sy habituer.
1.2
Moindres Carrs Ordinaires
Les points (xi , yi ) tant donns, le but est maintenant de trouver une fonction ane f telle que la quantit n i=1 L(yi f (xi )) soit minimale. Pour pouvoir dterminer f , encore faut-il prciser la fonction de cot L. Deux fonctions sont classiquement utilises : le cot absolu L(u) = |u| ; Arnaud Guyader - Rennes 2 Rgression
1.2. Moindres Carrs Ordinaires le cot quadratique L(u) = u2 . Les deux ont leurs vertus, mais on privilgiera dans la suite la fonction de cot quadratique. On parle alors de mthode destimation par moindres carrs (terminologie due Legendre dans un article de 1805 sur la dtermination des orbites des comtes). Dnition 1.2 (Estimateurs des Moindres Carrs Ordinaires) 1 et 2 les valeurs On appelle estimateurs des Moindres Carrs Ordinaires (en abrg MCO) minimisant la quantit :
n
S (1 , 2 ) =
i=1
(yi 1 2 xi )2 .
Autrement dit, la droite des moindres carrs minimise la somme des carrs des distances verticales 1 + 2 x. des points (xi , yi ) du nuage la droite ajuste y =
1.2.1
Calcul des estimateurs de 1 et 2
La fonction de deux variables S est une fonction quadratique et sa minimisation ne pose aucun problme, comme nous allons le voir maintenant. 1 et 2 ) Proposition 1.1 (Estimateurs Les estimateurs des MCO ont pour expressions : 1 = y 2 x , avec : 2 =
n )(yi i=1 (xi x n )2 i=1 (xi x
y )
n )yi i=1 (xi x . n )2 i=1 (xi x
Preuves. La premire mthode consiste remarquer que la fonction S (1 , 2 ) est strictement 1 , 2 ), lequel est dtermin en convexe, donc quelle admet un minimum en un unique point ( annulant les drives partielles de S . On obtient les quations normales : n S 1 2 xi ) = 0 (yi 1 = 2 La premire quation donne : S 2
i=1 n i=1
= 2
1 2 xi ) = 0 xi (yi
1 n + 2
i=1
xi =
i=1
yi
do lon dduit immdiatement : 1 = y 2 x , (1.1)
o x et y sont comme dhabitude les moyennes empiriques des xi et des yi . La seconde quation donne :
n n n
1
i=1
2 xi +
i=1
x2 i
=
i=1
xi y i Arnaud Guyader - Rennes 2
Rgression
Chapitre 1. La rgression linaire simple 1 par son expression (1.1), nous avons : et en remplaant 2 = xi y i x2 i xi y = xi x xi (yi y ) = xi (xi x ) (xi x )(yi y ) . (xi x )(xi x ) (1.2)
La seconde mthode consiste appliquer la technique de Gauss de rduction des formes quadratiques, cest--dire dcomposer S (1 , 2 ) en somme de carrs, carrs quil ne restera plus qu 1 et 2 . Dans notre cas, aprs calculs, ceci scrit : annuler pour obtenir les estimateurs
n
S (1 , 2 ) =n (1 ( y 2 x ))2 +
n
i=1
(xi x )2 (
n i=1 (xi
n )(yi i=1 (xi x n )2 i=1 (xi x
y )
+
i=1
(yi y )2
x )(yi y ))2 n )2 n )2 i=1 (xi x i=1 (yi y
o apparaissent deux carrs et un troisime terme indpendant de 1 et 2 : ce dernier est donc 2 . Ceci tant fait, le premier incompressible. Par contre, le second est nul si et seulement si 2 = 1 . est alors nul si et seulement si 1 = 2 suppose que le dnominateur n (xi x )2 est non nul. Or ceci ne peut Lexpression (1.2) de i=1 arriver que si tous les xi sont gaux, situation sans intrt pour notre problme et que nous excluons donc a priori dans toute la suite. Remarques : 1 = y 2 x 1. La relation montre que la droite des MCO passe par le centre de gravit du nuage ( x, y ). 1 et 2 montrent que ces deux estimateurs sont linaires par 2. Les expressions obtenues pour rapport au vecteur Y = [y1 , . . . , yn ] . 2 peut aussi scrire comme suit (exercice !) : 3. Lestimateur 2 = 2 + (xi x )i . (xi x )2
(1.3)
2 puisquelle fait Si cette dcomposition nest pas intressante pour le calcul eectif de intervenir les quantits inconnues 2 et i , elle lest par contre pour dmontrer des proprits thoriques des estimateurs (biais et variance). Son avantage est en eet de mettre en exergue la seule source dala du modle, savoir les erreurs i . Avant de poursuivre, notons que le calcul des estimateurs des moindres carrs est purement dterministe : il ne fait en rien appel aux hypothses (H1 ) et (H2 ) sur le modle. Celles-ci vont en fait servir dans la suite expliciter les proprits statistiques de ces estimateurs.
1.2.2
1 et 2 Quelques proprits des estimateurs
Sous les seules hypothses (H1 ) et (H2 ) de centrages, dcorrlations et homoscdasticits des er1 et 2 des moindres reurs i du modle, on peut dj donner certaines proprits des estimateurs carrs.
Rgression
1.2. Moindres Carrs Ordinaires Thorme 1.1 (Estimateurs sans biais) 1 et 2 sont des estimateurs sans biais de 1 et 2 . 2 : Preuve. Partons de lcriture (1.3) pour 2 = 2 + (xi x )i . (xi x )2
Dans cette expression, seuls les bruits i sont alatoires, et puisquils sont centrs, on en dduit 2 ] = 2 . Pour 1 , on part de lexpression : bien que [ 1 = y 2 x , do lon tire : 1 ] = [ 2 ] = 1 + x [ y] x [ 2 x 2 = 1 .
On peut galement exprimer variances et covariance de nos estimateurs. Thorme 1.2 (Variances et covariance) Les variances des estimateurs sont : 1 ) = Var( 2 x2 i = 2 n (xi x )2 1 + n x 2 (xi x )2 & 2 ) = Var( 2 , (xi x )2
tandis que leur covariance vaut : 1 , 2 ) = Cov( 2x . (xi x )2
2 utilise dans la preuve du non-biais : Preuve. On part nouveau de lexpression de 2 = 2 + (xi x )i , (xi x )2
or les erreurs i sont dcorrles et de mme variance 2 donc la variance de la somme est la somme des variances : 2 (xi x )2 2 2 ) = = Var( . ( (xi x )2 )2 (xi x )2 2 scrit : Par ailleurs, la covariance entre y et 2 ) = Cov Cov( y, 1 : do il vient pour la variance de 1 ) = Var Var( cest--dire : 1 ) = Var( yi 2 x n 2 + n = 2 + n x 2 2 2 ), 2 xCov( y, (xi x )2 yi , n (xi x )i (xi x )2 2 (xi x ) = 0, n (xi x )2
Enn, pour la covariance des deux estimateurs :
2 x2 x 2 2 i = . (xi x )2 n (xi x )2 2x . (xi x )2 Arnaud Guyader - Rennes 2
1 , 2 ) = Cov( 2 x 2 ) = Cov( 2 ) x 2 ) = Cov( y , y, Var( Rgression
Chapitre 1. La rgression linaire simple
Remarques : 1. On a vu que la droite des MCO passe par le centre de gravit du nuage ( x, y ). Supposons celui-ci x et x positif, alors il est clair que si on augmente la pente, lordonne lorigine 1 et va baisser et vice versa, on retrouve donc bien le signe ngatif pour la covariance entre 2 . 2. En statistique infrentielle, la variance dun estimateur dcrot typiquement de faon inversement proportionnelle la taille de lchantillon, cest--dire en 1/n. En dautres termes, sa prcision est gnralement en 1/ n. Ceci ne saute pas aux yeux si lon considre par exemple lexpression obtenue pour la variance de 2 : 2 ) = Var( 2 . (xi x )2
Pour comprendre que tout se passe comme dhabitude, il sut de considrer que les xi sont eux-mmes alatoires, avec cart-type x . Dans ce cas trs gnral, le dnominateur est 2 et lon retrouve bien une variance en 1/n. dordre nx Les estimateurs des moindres carrs sont en fait optimaux en un certain sens, cest ce que prcise le rsultat suivant. Thorme 1.3 (Gauss-Markov) j sont de variances minimales. Parmi les estimateurs sans biais linaires en y , les estimateurs 2 = n pi yi , avec pi = (xi x Preuve. Lestimateur des MCO scrit )/ i=1 2 linaire en yi et sans biais, cest--dire : un autre estimateur
n
(xi x )2 . Considrons
2 =
i=1
i y i .
Montrons que
i = 0 et ( 2 ) = 1
i xi = 1. Lgalit i + 2 i x i + i (i ) = 1 i + 2 i x i
Or :
2 ) = 2 pour tout 2 , cest--dire 2 est sans biais donc ( est vraie pour tout 2 . Lestimateur 2 ) Var( 2 ) : que i = 0 et i xi = 1. Montrons que Var( 2 ) = Var( 2 2 + 2 ) = Var( 2 2 ) + Var( 2 ) + 2Cov( 2 2 , 2 ). Var( 2 2 , 2 ) = Cov( 2 , 2 ) Var( 2 ) = Cov(
2
Une variance est toujours positive, donc :
la dernire galit tant due aux deux relations i = 0 et i xi = 1. Ainsi : 2 ) = Var( 2 2 ) + Var( 2 ). Var( 2 ) Var( 2 ). Var(
i (xi x ) (xi x )2
2 = 0, (xi x )2
1 . Le rsultat est dmontr. On obtiendrait la mme chose pour Remarque. Comme nous le verrons au chapitre suivant, on peut en fait montrer un peu mieux : au sens de la relation dordre sur les matrices symtriques relles, la matrice de covariance de = [ 1 , 2 ] est infrieure celle de nimporte quel autre estimateur = [ 1 , 2 ] sans biais et linaire en y . Arnaud Guyader - Rennes 2 Rgression
1.2. Moindres Carrs Ordinaires
1.2.3
Calcul des rsidus et de la variance rsiduelle

150
1 + 2 xi y i =
O3
0 0 50
100
10
15
T12
20
25
xi
30
35
Figure 1.2 Reprsentation des individus. 1 est lordonne lorigine et 2 la pente de la droite Dans 2 (espace des variables xi et yi ), ajuste. Cette droite minimise la somme des carrs des distances verticales des points du nuage 1 + 2 xi lordonne du point de la droite des moindres carrs la droite ajuste. Notons y i = dabscisse xi , ou valeur ajuste. les rsidus sont dnis par (cf. gure 1.2) : 1 2 xi = (yi y 2 (xi x i = yi y i = yi ) ). Par construction, la somme des rsidus est nulle : i ==
i i
(1.4)
2 (yi y )
(xi x ) = 0.
1 et 2 tablies en section Notons maintenant que les variances et covariance des estimateurs prcdente ne sont pas pratiques car elles font intervenir la variance 2 des erreurs, laquelle est en gnral inconnue. Nanmoins, on peut en donner un estimateur sans biais grce aux rsidus. Thorme 1.4 (Estimateur non biais de 2 ) 2 La statistique 2 = n 2 i /(n 2) est un estimateur sans biais de . i=1 1 = y 2 x Preuve. Rcrivons les rsidus en constatant que et 1 = y 2 x , ce qui donne : 1 2 xi i = 1 + 2 xi + i 2 x 2 xi = y 2 x + 2 xi + i y + 2 )(xi x = (2 ) + (i ). 2 = 2 + nous avons : 2 2 i = (2 2 ) 2 )2 = (2 i 2 = Prenons-en lesprance : (i )2 2 ) = (n 2) 2 . (xi x )2 Var( (xi x )2 + (xi x )2 + (xi x )i , (xi x )2 2 ) (i )2 + 2(2 (xi x )(i ) (xi x )2 .
En dveloppant et en nous servant de lcriture vue plus haut :
2 )2 (i )2 2(2
Bien sr, lorsque n est grand, cet estimateur dire trs peu de lestimateur empirique de la variance des rsidus, savoir n 2 i /n. i=1 Rgression Arnaud Guyader - Rennes 2
1.2.4
Prvision
Un des buts de la rgression est de faire de la prvision, cest--dire de prvoir la variable expliquer y en prsence dune nouvelle valeur de la variable explicative x. Soit donc xn+1 une nouvelle valeur, pour laquelle nous voulons prdire yn+1 . Le modle est toujours le mme : yn+1 = 1 + 2 xn+1 + n+1 avec [n+1 ] = 0, Var(n+1 ) = 2 et Cov(n+1 , i ) = 0 pour i = 1, . . . , n. Il est naturel de prdire la valeur correspondante via le modle ajust : 1 + 2 xn+1 . y n+1 = Deux types derreurs vont entacher notre prvision : la premire est due la non-connaissance de 1 et 2 . n+1 , la seconde lincertitude sur les estimateurs Proposition 1.2 (Erreur de prvision) Lerreur de prvision n+1 = (yn+1 y n+1 ) satisfait les proprits suivantes : [ n+1 ] = 0 Var( n+1 ) = 2 1 +
1 n
(xn+1 x )2 n ( x x )2 i i=1
1 Preuve. Pour lesprance, il sut dutiliser le fait que n+1 est centre et que les estimateurs et 2 sont sans biais : [ n+1 ] = 1 ] + [1 2 ]xn+1 + [2 [n+1 ] = 0.
Nous obtenons la variance de lerreur de prvision en nous servant du fait que yn+1 est fonction de n+1 seulement tandis que y n+1 est fonction des autres erreurs (i )1in : Var( n+1 ) = Var (yn+1 y n+1 ) = Var(yn+1 ) + Var( yn+1 ) = 2 + Var( yn+1 ). Calculons le second terme : 1 ) + x2 Var( 2 ) + 2xn+1 Cov 1 + 2 xn+1 = Var( 1 , 2 Var ( yn+1 ) = Var n+1 x2 2 i + x2 n+1 2xn+1 x (xi x )2 n (xi x )2 2 +x 2 + x2 = n+1 2xn+1 x n (xi x )2 1 (xn+1 x )2 = 2 + . n (xi x )2 = Au total, on obtient bien : Var( n+1 ) = 2 1 + )2 1 (xn+1 x + n (xi x )2 .
Ainsi la variance augmente lorsque xn+1 sloigne du centre de gravit du nuage. Autrement dit, faire de la prvision lorsque xn+1 est loin de x est prilleux, puisque la variance de lerreur de prvision peut tre trs grande ! Ceci sexplique intuitivement par le fait que plus une observation xn+1 est loigne de la moyenne x et moins on a dinformation sur elle. Arnaud Guyader - Rennes 2 Rgression
1.3. Interprtations gomtriques
1.3
1.3.1
Interprtations gomtriques
Reprsentation des variables
Si nous abordons le problme dun point de vue vectoriel, nous avons deux vecteurs notre disposition : le vecteur X = [x1 , . . . , xn ] des n observations pour la variable explicative et le vecteur Y = [y1 , . . . , yn ] des n observations pour la variable expliquer. Ces deux vecteurs appartiennent au mme espace n : lespace des variables. Si on ajoute cela le vecteur = [1, . . . , 1] , on voit tout dabord que par lhypothse selon laquelle tous les xi ne sont pas gaux, les vecteurs et X ne sont pas colinaires : ils engendrent donc un sous-espace de n de dimension 2, not M(X ). On peut projeter orthogonalement le vecteur Y ce projet. Puisque (, X ) forme une base de sur le sous-espace M(X ), notons provisoirement Y 1 + 2 X . Par dnition du projet = M(X ), il existe une unique dcomposition de la forme Y , ce qui orthogonal, Y est lunique vecteur de M(X ) minimisant la distance euclidienne Y Y revient au mme que de minimiser son carr. Or, par dnition de la norme euclidienne, cette quantit vaut :
n
Y Y
=
i=1
1 + 2 xi ))2 , (yi (
1 = 1 , 2 = 2 ce qui nous ramne la mthode des moindres carrs ordinaires. On en dduit que 1 , 2 et Y =Y = [ vues prcdemment. et Y y1 , . . . , y n ] , avec les expressions de
Y 2 X y
1 M(X )
Figure 1.3 Reprsentation de la projection dans lespace des variables.
1 et 2 sinterprtent comme les coordonnes de la projection orthogoAutrement dit, dans n , nale Y de Y sur le sous-espace de n engendr par et X (voir gure 1.3). Remarques : 1. Cette vision gomtrique des choses peut sembler un peu abstraite, mais cest en fait lapproche fconde pour comprendre la rgression multiple, comme nous le verrons dans les chapitres suivants. 2. Nous avons suppos que et X ne sont pas colinaires. En gnral, ces vecteurs ne sont pas 1 nest pas la projection orthogonale orthogonaux (sauf si x = 0), ce qui implique que de Y sur (laquelle vaut y ), et que 2 X nest pas la projection orthogonale de Y sur X (laquelle vaut Y,X X ). X 2 Rgression Arnaud Guyader - Rennes 2
10
1.3.2
Le coecient de dtermination R2
= [ Nous conservons les notations du paragraphe prcdent, avec Y y1 , . . . , y n ] la projection orthogonale du vecteur Y sur M(X ) et = [ =Y Y 1 , . . . , n ] le vecteur des rsidus dj rencontrs en section 1.2.3. Le thorme de Pythagore donne alors directement :
n
Y y
2 2
= =
y Y
+
2
2 n
i=1
(yi y )
i=1
( yi y ) +
2 i
i=1
SCT
= SCE + SCR,
o SCT (respectivement SCE et SCR) reprsente la somme des carrs totale (respectivement explique par le modle et rsiduelle). Ceci peut se voir comme une formule typique de dcomposition de la variance. Elle permet en outre dintroduire le coecient de dtermination de faon naturelle. Dnition 1.3 (Coecient de dtermination R2 ) Le coecient de dtermination R2 est dni par : R2 = y Y SCE = SCT Y y
2 2
=1
2 Y y
=1
SCR . SCT
On voit sur la gure 1.3 que R2 correspond au cosinus carr de langle . De faon schmatique, on peut direncier les cas suivants : Si R2 = 1, le modle explique tout, langle vaut zro et Y est dans M(X ), cest--dire que yi = 1 + 2 xi pour tout i : les points de lchantillon sont parfaitement aligns sur la droite des moindres carrs ; Si R2 = 0, cela veut dire que ( yi y )2 = 0, donc y i = y pour tout i. Le modle de rgression linaire est inadapt puisquon ne modlise rien de mieux que la moyenne ; Si R2 est proche de zro, cela veut dire que Y est quasiment dans lorthogonal de M(X ), le modle de rgression linaire est inadapt, la variable x nexplique pas bien la variable rponse y (du moins pas de faon ane). De faon gnrale, linterprtation est la suivante : le modle de rgression linaire permet dexpliquer 100 R2 % de la variance totale des donnes. Remarques : 1. On peut aussi voir R2 comme le carr du coecient de corrlation empirique entre les xi et les yi (cf. exercice 1.2) : R =
2 n i=1 (xi n i=1 (xi
x )2
x )(yi y )
n i=1 (yi
y )2
= 2 X,Y .
y . On vrie en eet 2. Sur la gure 1.3 est not un angle droit entre les vecteurs et Y facilement que ces deux vecteurs sont orthogonaux puisque y nest rien dautre que le projet orthogonal de Y sur (la droite vectorielle engendre par) le vecteur (exercice). Arnaud Guyader - Rennes 2 Rgression
1.4. Cas derreurs gaussiennes
11
1.4
Cas derreurs gaussiennes
Mieux que les expressions des estimateurs et celles de leurs variances, on aimerait connatre leurs lois : ceci permettrait par exemple dobtenir des rgions de conance et deectuer des tests dhypothses. Dans cette optique, il faut bien entendu faire une hypothse plus forte sur notre modle, savoir prciser la loi des erreurs. Nous supposerons ici que les erreurs sont gaussiennes. Les hypothses (H1 ) et (H2 ) deviennent ds lors : (H) (H1 ) : i N (0, 2 ) (H2 ) : i mutuellement indpendants
Le modle de rgression simple devient un modle paramtrique, o les paramtres (1 , 2 , 2 ) sont valeurs dans + . La loi des i tant connue, les lois des yi sen dduisent : et les yi sont mutuellement indpendants puisque les i le sont. Nous pouvons donc calculer la vraisemblance de lchantillon et les estimateurs qui maximisent cette vraisemblance. Cest lobjet de la section suivante. i {1, . . . , n} yi N (1 + 2 xi , 2 ),
1.4.1
Estimateurs du maximum de vraisemblance

1 2 2
n
La vraisemblance vaut L(1 , 2 , 2 ) = = exp

n
1 2 2
n i=1
(yi 1 2 xi )2
1 2 2 Ce qui donne pour la log-vraisemblance :
exp
1 S (1 , 2 ) 2 2
1 n log L(1 , 2 , 2 ) = log (2 2 ) 2 S (1 , 2 ). 2 2 Nous voulons maximiser cette quantit par rapport aux trois variables (1 , 2 , 2 ). Les deux premires variables napparaissent que dans le terme en S (1 , 2 ), quil faut donc minimiser. Or on a dj vu que cette quantit est minimale lorsquon considre les estimateurs des moindres carrs, 1 et 2 = 2 . Bilan : les estimateurs du maximum de vraisemblance de 1 cest--dire pour 1 = et 2 sont gaux aux estimateurs des moindres carrs. 1 , 2 , 2 ) par rapport 2 . Calculons donc Ceci tant vu, il reste simplement maximiser log L( 2 la drive par rapport : 1 , 2 , 2 ) log L( n 1 1 , 2 ) = n + 1 = 2 + 4 S ( 2 2 2 2 2 2 4
n i=1
1 2 xi )2 (yi
Do lon dduit que lestimateur du maximum de vraisemblance de 2 est dirent de lestimateur 2 vu prcdemment et vaut :
2 mv
1 = n
2 i.
i=1 n 2 2 n ,
2 ]= Lestimateur du maximum de vraisemblance de 2 est donc biais. On a en eet [ mv mais ce biais est dautant plus ngligeable que le nombre dobservations est grand.
Avant de passer aux lois des estimateurs et aux intervalles de conance qui sen dduisent, faisons quelques rappels sur les lois usuelles dans ce contexte. Rgression Arnaud Guyader - Rennes 2
12
1.4.2
Rappels sur les lois usuelles
Outre la sacro-sainte gaussienne, trois lois seront dusage constant dans la suite : la loi du 2 , la loi de Student et la loi de Fisher.
Figure 1.4 Densit dun 2 50 (trait gras) et densit dune N (50, 100) (trait n). Dnition 1.4 (Loi du 2 ) Soit X1 , . . . , Xn des variables alatoires i.i.d. suivant une loi normale centre rduite. La loi de la 2 2 2 variable X = n i=1 Xi est appele loi du n degrs de libert (ddl), not X n . On a [X ] = n et Var(X ) = 2n. Lorsque n est grand, on sait par le Thorme Central Limite que X suit approximativement une loi normale de moyenne n et de variance 2n : X 2n). Ainsi, N (n, pour n grand, environ 95% des valeurs de X se situent dans lintervalle [n 2 2n, n + 2 2n]. Ceci est illustr gure 3.1 pour n = 50 ddl. Dnition 1.5 (Loi de Student) Soit Z une variable alatoire suivant une loi normale centre rduite et X une variable suivant une loi du 2 n degrs de libert, avec Z et X indpendantes. La loi de la variable T = Z est
X/n
appele loi de Student n degrs de libert et on note T Tn .
Figure 1.5 Densit dune T10 (trait gras) et densit dune N (0, 1) (trait n). Lorsque n = 1, T suit une loi de Cauchy et na donc pas desprance (ni, a fortiori, de variance). n Pour n = 2, T est centre mais de variance innie. Pour n 3, T est centre et de variance n 2. Arnaud Guyader - Rennes 2 Rgression
1.4. Cas derreurs gaussiennes Dautre part, lorsque n devient grand, on sait par la Loi des Grands Nombres que le dnominateur tend presque srement vers 1. De fait, on peut montrer que pour n grand, T tend en loi vers une gaussienne centre rduite : T N (0, 1). Ceci est illustr gure 1.5 pour n = 10 ddl. Par consquent, lorsque n sera grand, on pourra remplacer les quantiles dune loi de Student Tn par ceux dune loi N (0, 1) (cf. tables en Annexe C.3). Dnition 1.6 (Loi de Fisher) Soit U1 une variable alatoire suivant une loi du 2 n1 degrs de libert et U2 une variable alatoire suivant une loi du 2 n2 degrs de libert, avec U1 et U2 indpendantes. La loi de la 1 /n1 n1 variable F = U U2 /n2 est appele loi de Fisher (n1 , n2 ) degrs de libert et on note F Fn2 .
n1 est n /(n 2). Dans la suite, typiquement, n Pour n2 > 2, la variance dune loi de Fisher Fn 2 2 2 2 sera grand, de sorte qu nouveau la Loi des Grands Nombres implique que U2 /n2 tend vers 1. Dans ce cas, F peut se voir comme un chi-deux normalis par son degr de libert : F 2 n1 /n1 . Ceci est illustr gure 1.6 pour n1 = 2 et n2 = 10.
13
2 (trait gras) et densit dun Figure 1.6 Densit dune F10
2 2 2
(trait n).
1.4.3
Lois des estimateurs et rgions de conance
Nous allons maintenant voir comment les lois prcdentes interviennent dans nos estimateurs. An de faciliter la lecture de cette partie, xons les notations suivantes : c =
2 1 = 2 2 2 =
2 x (xi x )2 n 2 (xi x )2
2 =
x2 i (xi x )2
1 n2
2 i x2 i (xi x )2
2 1 = 2 2 2 =
n 2 . (xi x )2
2 , 2 et c sont les variances et covariance des estimateurs des moindres Comme nous lavons vu, 1 2 2 et 2 correspondent quant elles aux estimateurs des variances carrs ordinaires. les quantits 1 2 de 1 et 2 .
Proprits 1.1 (Lois des estimateurs avec variance connue) Les lois des estimateurs des MCO avec variance 2 connue sont : Rgression Arnaud Guyader - Rennes 2
14 = (i) 1 2 N , 2 V V = (ii) 1 2
o = 1 (xi x )2
et x2 i /n x x 1 1 2
2 c 1 2 c 2
(n 2) 2 2 2 n2 , loi du (n 2) degrs de libert. 2 et (iii) 2 sont indpendants.
Remarque. Ces proprits, comme celles venir, ne sont pas plus faciles montrer dans le cadre de la rgression linaire simple que dans celui de la rgression linaire multiple. Cest pourquoi nous reportons les preuves au Chapitre 3. Le problme des proprits ci-dessus vient de ce quelles font intervenir la variance thorique 2 , gnralement inconnue. La faon naturelle de procder est de la remplacer par son estimateur 2. Les lois intervenant dans les estimateurs sen trouvent de fait lgrement modies. Proprits 1.2 (Lois des estimateurs avec variance estime) Les lois des estimateurs des MCO avec variance 2 estime sont : 1 1 (i) Tn2 , o Tn2 est une loi de Student (n 2) degrs de libert. 1 2 2 T n 2 . (ii) 2 1 ) F 2 , loi de Fisher de paramtres (2, n 2). ( ) V 1 ( (iii) n 2 2 2 Ces dernires proprits nous permettent de donner des intervalles de conance (IC) ou des rgions de conance (RC) des estimateurs. En eet, la valeur ponctuelle dun estimateur est de peu dintrt en gnral et il est intressant de lui associer un intervalle de conance. Les rsultats sont donns pour un gnral, en pratique on prend typiquement = 0, 05.
0
1
Figure 1.7 Comparaison entre ellipse de conance et rectangle de conance.
Rgression
1.4. Cas derreurs gaussiennes Proprits 1.3 (Intervalles et rgions de conance) 1 tn2 (1 /2) (i) IC(1 ) : 1 , o tn2 (1 /2) est le quantile de niveau (1 /2) dune loi de Student Tn2 . 2 tn2 (1 /2) (ii) IC(2 ) : 2 . (iii) RC( ) : Une rgion de conance simultane pour 1 et 2 au niveau (1 ) est 1 1 1 )2 + 2nx 1 1 )( 2 2 ) + n( ( 2 2
2 2 fn x2 2 (1 ), i (2 2 )
15
2 (1 ) est le quantile de niveau (1 ) dune loi F 2 . o fn 2 n 2 (iv) Un intervalle de conance de 2 est donn par :
(n 2) 2 (n 2) 2 , , cn2 (1 /2) cn2 (/2) o cn2 (1 /2) est le quantile de niveau (1 /2) dune loi 2 n 2 . Remarque : Le point (iii) donne la rgion de conance simultane des paramtres (1 , 2 ) de la rgression, appele ellipse de conance, tandis que (i) et (ii) donnent des intervalles de conance pour 1 et 2 pris sparment. La gure 1.7 montre la dirence entre ces deux notions.
1.4.4
Prvision
En matire de prvision dans le cas derreurs gaussiennes, les rsultats obtenus en section 1.2.4 1 , 2 pour lesprance et la variance sont toujours valables. De plus, puisque y n+1 est linaire en et n+1 , on peut prciser sa loi : yn+1 y n+1 N 0, 2 1 + )2 1 (xn+1 x + n (xi x )2 .
A nouveau on ne connat pas 2 et on lestime donc par 2 . Comme (yn+1 y n+1 ) et 2 (n 2)/ 2 sont indpendants, on peut noncer un rsultat donnant des intervalles de conance pour yn+1 . Proposition 1.3 (Loi et intervalle de conance pour la prdiction) Avec les notations et hypothses prcdentes, on a : yn+1 y n+1 1+
1 n
(xn+1 x )2 (xi x )2
T n 2 ,
do lon dduit lintervalle de conance suivant pour yn+1 : y n+1 tn2 (1 /2) 1+ 1 (xn+1 x )2 + . n (xi x )2
Nous retrouvons ainsi la remarque dj faite : plus le point prvoir admet pour abscisse xn+1 une valeur loigne de x , plus lintervalle de conance sera grand. Plus prcisment, la courbe dcrite pas les limites de ces intervalles de conance lorsque xn+1 1 + 2 x. Pour sen persuader, il sut deectuer le varie est une hyperbole daxes x = x et y = changement de variables X =xx 1 + 2 x) Y = y ( Rgression Arnaud Guyader - Rennes 2
16
Chapitre 1. La rgression linaire simple do il ressort quun point (X, Y ) est dans la rgion de conance ci-dessus si et seulement si X2 Y 2 2 1, a2 b avec a= 1+ b= 1+
1 n 1 n
(tn2 (1 /2) )2 (xi x )2
ce qui dnit bien lintrieur dune hyperbole. En particulier, le centre de cette hyperbole est tout bonnement le centre de gravit du nuage de points.
1.5
Exemple
Nous allons traiter les 50 donnes journalires prsentes en Annexe D. La variable expliquer est la concentration en ozone, note O3, et la variable explicative est la temprature midi, note T12. Les donnes sont traites avec le logiciel R. > a <- lm(O3 T12) > summary(a) Call: lm(formula = O3 T12) Residuals: Min -45.256 Coefficients : (Intercept) T12 Estimate 31.4150 2.7010 Std. Error 13.0584 0.6266 t value 2.406 4.311 Pr(>|t|) 0.0200 8.04e-05 * *** 1Q -15.326 Median -3.461 3Q 17.634 Max 40.072
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 20.5 on 48 degrees of freedom Multiple R-Squared: 0.2791, Adjusted R-squared: 0.2641 F-statistic: 18.58 on 1 and 48 DF, p-value: 8.041e-05 1 et 2 des paramtres, leurs cart-types Les sorties du logiciel donnent les valeurs estimes 1 et 2 , les statistiques de tests sous lhypothse H0 : i = 0. Nous rejetons H0 pour les deux paramtres estims.
1.6
Exercices
Exercice 1.1 (QCM) 1. Lors dune rgression simple, si le R2 vaut 1, les points sont-ils aligns ? A. Non ; B. Oui ; C. Pas obligatoirement. 2. La droite des MCO dune rgression simple passe-t-elle par le point ( x, y ) ? Arnaud Guyader - Rennes 2 Rgression
1.6. Exercices A. Toujours ; B. Jamais ; C. Parfois. 3. Nous avons eectu une rgression simple, nous recevons une nouvelle observation xN et nous calculons la prvision correspondante y N . La variance de la valeur prvue est minimale lorsque A. xN = 0 ; B. xN = x ; C. Aucun rapport. est-il orthogonal au vecteur des rsidus estims 4. Le vecteur Y ? A. Toujours ; B. Jamais ; C. Parfois. Exercice 1.2 (R2 et corrlation empirique) Rappeler la formule dnissant le coecient de dtermination R2 et la dvelopper pour montrer quil est gal au carr du coecient de corrlation empirique entre x et y , not x,y , cest--dire quon a : R =
2
17
2 x,y
x )(yi y ) n n 2 ) )2 i=1 (xi x i=1 (yi y
n i=1 (xi
Exercice 1.3 (Poids des pres et des ls) Ltude statistique ci-dessous porte sur les poids respectifs des pres et de leur l an. Pre 65 63 67 64 68 62 70 66 68 67 69 71 Fils 68 66 68 65 69 66 68 65 71 67 68 70 Voici les rsultats numriques que nous avons obtenus :
12 12 12 12 12
pi = 800
i=1 i=1
p2 i = 53418
i=1
pi fi = 54107
i=1
fi = 811
i=1
fi2 = 54849.
1. Calculez la droite des moindres carrs du poids des ls en fonction du poids des pres. 2. Calculez la droite des moindres carrs du poids des pres en fonction du poids des ls. 3. Montrer que le produit des pentes des deux droites est gal au carr du coecient de corrlation empirique entre les pi et les fi (ou encore au coecient de dtermination). Exercice 1.4 (Hauteur dun arbre) Nous souhaitons exprimer la hauteur y (en pieds) dun arbre dune essence donne en fonction de son diamtre x (en pouces) 1m30 du sol. Pour ce faire, nous avons mesur 20 couples (diamtre,hauteur) et eectu les calculs suivants : x = 4.53, y = 8.65 et 1 20
20 i=1
(xi x ) = 10.97
1 20
20 i=1
(yi y ) = 2.24
1 20
20 i=1
(xi x )(yi y ) = 3.77
0 + 1 x la droite de rgression. Calculer 0 et 1 . 1. On note y = Rgression Arnaud Guyader - Rennes 2
18
Chapitre 1. La rgression linaire simple 2. Donner et commenter une mesure de la qualit de lajustement des donnes au modle. Exprimer cette mesure en fonction des statistiques lmentaires. Commenter le rsultat. 0 , 1 , 3. On donne les estimations de lcart-type de 0 = 1.62, et de 1 = 0.05. On suppose les perturbations i gaussiennes, centres, de mme variance et indpendantes. Tester H0 : j = 0 contre H1 : j = 0 pour j = 0, 1. Pourquoi ce test est-il intressant dans notre contexte ? Que pensez-vous du rsultat ? Exercice 1.5 (Droite de rgression et points atypiques) Douze personnes sont inscrites une formation. Au dbut de la formation, ces stagiaires subissent une preuve A note sur 20. A la n de la formation, elles subissent une preuve B de niveau identique. Les rsultats sont donns dans le tableau suivant : Epreuve A 3 4 6 7 9 10 9 11 12 13 15 4 Epreuve B 8 9 10 13 15 14 13 16 13 19 6 19 1. Reprsenter le nuage de points. Dterminer la droite de rgression. Calculer le coecient de dtermination. Commenter. 2. Deux stagiaires semblent se distinguer des autres. Les supprimer et dterminer la droite de rgression sur les dix points restants. Calculer le coecient de dtermination. Commenter. Exercice 1.6 (La hauteur des eucalyptus) On souhaite expliquer la hauteur y (en mtres) dun arbre en fonction de sa circonfrence x (en centimtres) 1m30 du sol. On a relev n = 1429 couples (xi , yi ), le nuage de points tant x, y ) = (47, 3; 21, 2) et : reprsent gure 1.8. On a obtenu (
n i=1 n n
(xi x ) = 102924
28
i=1
(yi y )2 = 8857
i=1
(xi x )(yi y ) = 26466
26
24
22
20
18
16
14
12
hauteur
Circonfrence
10 20 30 40 50 60 70 80
Figure 1.8 Nuage de points pour les eucalyptus.
1. Calculer la droite des moindres carrs pour le modle y = 1 + 2 x + et la reprsenter sur la gure 1.8. Arnaud Guyader - Rennes 2 Rgression
1.6. Exercices 2. Calculer le coecient de dtermination R2 . Commenter la qualit de lajustement des donnes au modle. 3. Avec ces estimateurs, la somme des carrs des rsidus vaut alors n i )2 = 2052. Si i=1 (yi y on suppose les perturbations i gaussiennes, centres, indpendantes et de mme variance 2 , en dduire un estimateur non biais 2 de 2 . 1 . 4. Donner un estimateur 2 de la variance de
1
19
5. Tester lhypothse H0 : 1 = 0 contre H1 : 1 = 0. Exercice 1.7 (Forrest Gump for ever) On appelle frquence seuil dun sportif amateur sa frquence cardiaque obtenue aprs trois quarts dheure dun eort soutenu de course pied. Celle-ci est mesure laide dun cardio-frquencemtre. On cherche savoir si lge dun sportif a une inuence sur sa frquence seuil. On dispose pour cela de 20 valeurs du couple (xi , yi ), o xi est lge et yi la frquence seuil du sportif. On a obtenu ( x, y ) = (35, 6; 170, 2) et :
n i=1 n n
(xi x ) = 1991
i=1
(yi y ) = 189, 2
i=1
(xi x )(yi y ) = 195, 4
1. Calculer la droite des moindres carrs pour le modle y = 1 + 2 x + . 2. Calculer le coecient de dtermination R2 . Commenter la qualit de lajustement des donnes au modle.
n i )2 = 170. Si on 3. Avec ces estimateurs, la somme des carrs des rsidus vaut i=1 (yi y suppose les perturbations i gaussiennes, centres, indpendantes et de mme variance 2 , en dduire un estimateur non biais 2 de 2 . 2 . 4. Donner un estimateur 2 de la variance de 2
5. Tester lhypothse H0 : 2 = 0 contre H1 : 2 = 0 pour un risque de 5%. Conclure sur la question de linuence de lge sur la frquence seuil. Exercice 1.8 (Comparaison destimateurs) Nous considrons le modle statistique suivant : yi = xi + i , i = 1, , n, [i ] = 0 et Cov(i , i ) = 2 i,j .
o nous supposons que les perturbations i sont telles que
1. En revenant la dnition des moindres carrs, montrer que lestimateur des moindres carrs de vaut =
n i=1 xi yi n 2 . i=1 xi
2. Montrer que la droite passant par lorigine et le centre de gravit du nuage de points est y = x, avec =
n i=1 yi . n i=1 xi
et sont tous deux des estimateurs sans biais de . 3. Montrer que Rgression Arnaud Guyader - Rennes 2
20
Chapitre 1. La rgression linaire simple 4. On rappelle lingalit de Cauchy-Schwarz : si u = [u1 , . . . , un ] et v = [v1 , . . . , vn ] sont deux vecteurs de n , alors leur produit scalaire est (en valeur absolue) plus petit que le produit de leurs normes, cest--dire :
n n n
| u, v | u v
i=1
u i vi
i=1
u2 i
2, vi i=1
avec galit si et seulement si u et v sont colinaires. Grce cette ingalit, montrer que ) sauf dans le cas o tous les xi sont gaux. Ce rsultat tait-il prvisible ? V ( ) > V ( Exercice 1.9 (Intervalles de conance vs Rgion de conance) On considre le modle de rgression linaire simple y = 1 + 2 x + . Soit un chantillon (xi , yi )1i100 de statistiques rsumes
100 100 100 100
xi = 0
i=1 i=1
x2 i = 400
i=1
xi yi = 100
i=1
yi = 100
2 = 1.
1. Exprimer les intervalles de conance 95% pour 1 et 2 . 2. Donner lquation de la rgion de conance 95% de (1 , 2 ). (Rappel : lensemble des x0 )2 y0 )2 points (x, y ) tels que (x + (y 1 est lintrieur dune ellipse centre en (x0 , y0 ), a2 b2 dont les axes sont parallles ceux des abscisses et des ordonnes, et de sommets (x0 a, 0) et (0, y0 b).)
3. Reprsenter sur un mme graphique les rsultats obtenus.
Exercice 1.10 (Rgression simple) On dispose de n points (xi , yi )1in et on sait quil existe une relation de la forme : yi = axi + b + i , o les erreurs i sont des variables centres, dcorrles et de mme variance 2 . 1. Rappeler les formules des estimateurs des moindres carrs a et b, ainsi que leurs variances respectives. 2. Dans cette question, on suppose connatre b, mais pas a. (a) En revenant la dnition des moindres carrs, calculer lestimateur a des moindres carrs de a. (b) Calculer la variance de a . Montrer quelle est infrieure celle de a . 3. Dans cette question, on suppose connatre a, mais pas b. (a) En revenant la dnition des moindres carrs, calculer lestimateur b des moindres carrs de b. (b) Calculer la variance de b. Montrer quelle est infrieure celle de b. Exercice 1.11 (Forces de frottement et vitesse) Au 17me sicle, Huygens sest intress aux forces de rsistance dun objet en mouvement dans un uide (eau, air, etc.). Il a dabord mis lhypothse selon laquelle les forces de frottement taient proportionnelles la vitesse de lobjet, puis, aprs exprimentation, selon laquelle elles taient proportionnelles au carr de la vitesse. On ralise une exprience dans laquelle on fait varier la vitesse x dun objet et on mesure les forces de frottement y . Ensuite, on teste la relation existant entre ces forces de frottement et la vitesse. 1. Quel(s) modle(s) testeriez-vous ? Arnaud Guyader - Rennes 2 Rgression
1.6. Exercices 2. Comment feriez-vous pour dterminer le modle adapt ? Exercice 1.12 (Prix dun appartement en fonction de sa supercie) En juin 2005, on a relev dans les petites annonces les supercies (en m2 ) et les prix (en euros) de 108 appartements de type T3 louer sur lagglomration de Rennes (cf. gure 1.9).
21
prix
400 50
600
800
1000
60
70
80
90
100
110
120
superficie
Figure 1.9 Prix de location des appartements en fonction de leur supercie. 1. Daprs le listing du tableau 1.2, donner une estimation du coecient de corrlation entre le prix et la supercie dun appartement T3. 2. Proposer un modle permettant dtudier la relation entre le prix des appartements et leur supercie. Prciser les hypothses de ce modle.
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 134.3450 45.4737 2.954 0.00386 Superficie 6.6570 0.6525 10.203 < 2e-16 Residual standard error: 77.93 on 106 degrees of freedom Multiple R-Squared: 0.4955, Adjusted R-squared: 0.4907 F-statistic: 104.1 on 1 and 106 DF, p-value: < 2.2e-16
Table 1.2 Prix en fonction de la supercie : rsultats de la rgression linaire simple (sortie R). 3. Daprs le tableau 1.2, est-ce que la supercie joue un rle sur le prix des appartements de type 3 ? Considrez-vous ce rle comme important ? 4. Quelle est lestimation du coecient (coecient de la supercie dans le modle) ? Comment interprtez-vous ce coecient ? 5. La supercie moyenne des 108 appartements est de 68.74 m2 et le prix moyen des appartements est de 591.95 euros. Quel est le prix moyen dun mtre carr ? Pourquoi ce prix moyen est dirent de lestimation de ? Rgression Arnaud Guyader - Rennes 2
22
Chapitre 1. La rgression linaire simple 6. Dans lchantillon dont on dispose, comment savoir quels sont les appartements bon march du seul point de vue de la surface ? Exercice 1.13 (Total Least Squares (TLS)) Nous avons un nuage de points observs (xi , yi ) pour i = 1, , n, et nous cherchons un couple ( x, y ) vriant la relation linaire suivante y = x , tel que la norme matricielle [x, y ] [ x, y ]
F
soit minimale (rappel : A

F
Tr(AA )).
1. Que reprsente la norme matricielle [x, y ] [ x, y ]
dun point de vue gomtrique ?
2. Supposons pour simplier que x =y = 0, cest--dire que le centre de gravit du nuage de points est en lorigine du repre. Quel rapport voyez-vous entre TLS et ACP ?
1.7
Corrigs
Exercice 1.1 (QCM) Cest le B.A.-BA. Exercice 1.2 (R2 et corrlation empirique) Le coecient R2 scrit
n n 2 x 2 xi y + y i=1 y i=1 1 + 2 xi y Y 2 = = n n )2 Y y 2 )2 i=1 (yi y i=1 (yi y 2 n (xi x ) 2 [ n )(yi y )]2 n )2 2 i=1 i=1 (xi x i=1 (xi x = n )2 [ n )2 ]2 n )2 i=1 (yi y i=1 (xi x i=1 (yi y 2 2
R2 = = =
)(yi y )]2 [ n i=1 (xi x n n )2 i=1 (yi y )2 i=1 (xi x
= 2 x,y ,
et la messe est dite. Exercice 1.3 (Poids des pres et des ls) 1. La droite des moindres carrs du poids des ls en fonction du poids des pres scrit (cf. gure 1.10 gauche) : f = 1 + 2 p = 35.8 + 0.48p. 2. La droite des moindres carrs du poids des ls en fonction du poids des pres scrit (cf. 1 + 2 f = 3.38 + 1.03f . gure 1.10 droite) : p = 3. Le produit des pentes des deux droites est 2 = 2
2 )(pi p (fi f ) = R2 , n 2 2 (fi f ) ( i=1 (pi p ) )
o R2 est le coecient de dtermination, carr du coecient de corrlation linaire.
Rgression
1.7. Corrigs
23
Figure 1.10 Nuages de points et droites de rgression pour les poids des pres et des ls.
Exercice 1.4 (Hauteur dun arbre) Nous souhaitons exprimer la hauteur y (en pieds) dun arbre dune essence donne en fonction de son diamtre x (en pouces) 1m30 du sol. Pour ce faire, nous avons mesur 20 couples (diamtre,hauteur) et eectu les calculs suivants : x = 4.53, y = 8.65 et 1 20
20 i=1
(xi x )2 = 10.97
1 20
20 i=1
(yi y )2 = 2.24
1 20
20 i=1
(xi x )(yi y ) = 3.77
0 + 1 x sont respectivement : 1. Les estimateurs de la droite des moindres carrs y = 1 = et (xi x )(yi y ) 0.344 2 (xi x ) 0 = y 1 x 7.09
2. Une mesure de la qualit de lajustement des donnes au modle est donne par le coecient de dtermination R2 , dont on a vu quil correspond au carr du coecient de corrlation linaire empirique : R =
2
x )(yi y ) n n 2 ) )2 i=1 (xi x i=1 (yi y
n i=1 (xi
0.58.
Le modle de rgression linaire simple explique donc un peu plus de la moiti de la variance prsente dans les donnes. 3. Sous H0 , on sait que 0 T18 , 0
loi de Student 18 degrs de libert. Pour un niveau de conance de 95%, on compare donc 0 / la valeur absolue obtenue dans notre cas particulier, savoir | 0 | 4.38 au quantile t18 (0.975) 2.1. On en dduit quon rejette lhypothse selon laquelle 0 serait nul. De mme pour le test dhypothse sur 1 , ce qui donne la statistique de test : 1 6.88 > 2.1 1 donc on rejette galement lhypothse selon laquelle 1 serait nul. Rgression Arnaud Guyader - Rennes 2
24
Chapitre 1. La rgression linaire simple A priori, un arbre de diamtre nul a une hauteur gale zro, donc on aurait pu sattendre ce que le coecient 0 soit nul. Ceci est en contradiction avec le rsultat du test dhypothse ci-dessus, mais il ny a rien dtonnant a : le modle de rgression propos est pertinent dans lintervalle considr, cest--dire pour des arbres de hauteur moyenne 8.65 pieds, avec un cart-type gal 2.24 1.5, non pour des arbres tout petits. Exercice 1.5 (Droite de rgression et points aberrants) Douze personnes sont inscrites une formation. Au dbut de la formation, ces stagiaires subissent une preuve A note sur 20. A la n de la formation, elles subissent une preuve B de niveau identique. Les rsultats sont donns dans le tableau suivant : Epreuve A 3 4 6 7 9 10 9 11 12 13 15 4 Epreuve B 8 9 10 13 15 14 13 16 13 19 6 19 1. Pour lexplication de la note B partir de la note A, la droite de rgression (cf. gure 1.11 1 + 2 x, o : gauche) est donne par y = 2 =
n )(yi i=1 (xi x n ( x )2 i=1 i x
y )
0.11
1 = y 2 x et 12.0 Le coecient de dtermination vaut : R2 = ( x )(yi y ))2 0, 01 n )2 ) ( n )2 ) i=1 (xi x i=1 (yi y (
n i=1 (xi
Le modle de rgression linaire expliquerait donc 1% de la variance des donnes, ce qui est trs faible. 2. Si on supprime les deux derniers stagiaires, on obtient cette fois (cf. gure 1.11 droite) y = 1 + 2 x = 5.47 + 0.90x et R2 0.81. Sans ces deux stagiaires, le modle de rgression linaire expliquerait donc 81% de la variance des donnes, ce qui le rend tout fait pertinent. Les deux derniers stagiaires correspondent ce quon appelle des points aberrants.
Figure 1.11 Droites de rgression et points aberrants.
Exercice 1.6 (La hauteur des eucalyptus) Cet exercice est corrig en annexe (dcembre 2009).
Rgression
1.7. Corrigs Exercice 1.7 (Forrest Gump for ever) 1. La mthode des moindres carrs ordinaires donne pour estimateur de 2 : 2 = Et pour estimateur de 1 :
n )(yi i=1 (xi x n )2 i=1 (xi x
25
y )
0, 098.
1 = y 2 x 173.7.
2. Le coecient de dtermination R2 est gal au carr du coecient de corrlation linaire entre les variables x et y , ce qui donne : R2 = ( n )(yi y ))2 i=1 (xi x n n )2 ) ( i=1 (yi y )2 ) i=1 (xi x 0, 101.
On en conclut que 10% de la variance des frquences seuils yi est explique par lge. Ce modle de rgression linaire simple ne semble donc pas ecace. 3. Un estimateur non biais 2 de 2 est tout simplement : 2 =
n i=1 (yi
y i )2 = n2
n i=1 (yi
18
y i )2
9.44.
2 de la variance de 2 est alors donn par : 4. Un estimateur 2 2 2 =
2
n i=1 (xi
x )2
0, 0047.
5. On sait que lestimateur centr et normalis de 2 suit une loi de Student (n 2) = 18 degrs de libert : 2 2 T18 , 2
2 donc sous lhypothse H0 : 2 = 0, ceci se simplie en 2 T18 , et cette statistique de test donne ici : 0, 098 t = T ( ) 1.43 > 2.101 = t18 (0.025). 0, 0047
Ainsi on accepte lhypothse H0 selon laquelle la pente de la droite de rgression est nulle. Ceci signie quau vu des donnes dont nous disposons, on serait tent de considrer que lge na pas dinuence sur la frquence seuil. Vu la valeur du coecient de dtermination, il faut toutefois tenir compte du fait que le modle nexplique pas grand-chose... Exercice 1.8 (Comparaison destimateurs) Nous considrons le modle statistique yi = xi + i , i = 1, , n, [i ] = 0 et Cov(i , i ) = 2 i,j .
o nous supposons que les perturbations i sont telles que
1. Par dnition, lestimateur des moindres carrs de vrie

n
= arg min
i=1
(yi xi )2 = arg min S ( ).
Rgression
26
Chapitre 1. La rgression linaire simple Cette fonction S est strictement convexe et admet donc un unique minimum au point o sa drive sannule :
n n n
S ( ) = 2 Ceci mne bien :
i=1
xi (yi xi ) = 2
i=1
x2 i
xi y i
i=1
2. La droite passant par lorigine et le centre de gravit ( x, y ) du nuage de points admet pour quation y = x, o = y = x
n i=1 yi . n i=1 xi
3. Commencons par rcrire les estimateurs obtenus grce la relation yi = xi + i . Pour le premier, ceci donne : =+ et pour le second : = +
n i=1 i . n i=1 xi n i=1 xi i n 2 , i=1 xi
Puisque par hypothse les erreurs sont centres (i.e. [i ] = 0), il en dcoule que [ ] = , cest--dire que les deux estimateurs sont sans biais.
] = [
4. On rutilise les expressions prcdentes des estimateurs pour cette question. Puisque les vaut erreurs sont dcorrles, la variance de ) = V ( La variance de vaut quant elle V ( ) = (
2. n x ) i i=1 n 2 2 i=1 xi n 2 2 i=1 xi
n 2. i=1 xi
n 2
Lingalit de Cauchy-Schwarz dit que la valeur absolue du produit scalaire de deux vecteurs est infrieure ou gale au produit de leurs normes, cest--dire : pour tous vecteurs u = [u1 , . . . , un ] et v = [v1 , . . . , vn ] de n , | u, v | u v , ou encore en passant aux carrs :
n 2 n n
ui vi
i=1
u2 i
i=1 i=1
2 vi
avec galit si et seulement si u et v sont colinaires. En prenant u = [x1 , . . . , xn ] et ), avec galit si et seulement si u et v sont v = [1, . . . , 1] , on en dduit que V ( ) V ( colinaires, cest--dire si et seulement si tous les xi sont gaux. Puisque les deux estimateurs est celui des moindres carrs, ce rsultat nest pas tonnant si sont linaires en y et que lon repense au thorme de Gauss-Markov.
Rgression
1.7. Corrigs Exercice 1.9 (Intervalles de conance vs Rgion de conance) 1 = y 2 x = 1 et 2 = ( xi yi )/( x2 ) = 1/4. La 1. Il sort des statistiques rsumes que i droite des moindres carrs a donc pour quation y = 1 + x/4. Les estimateurs des variances se calculent facilement
2 1 =
27
2 (xi x)2
2 2 =
x2 2 1 1 i = = 1 = n n 100 10
tandis que
Le quantile dordre 0.975 dune Student 98 degrs de libert est peu prs le mme que celui dune Student 100 degrs de libert, cest--dire environ 1.984 que lon va arrondir 2. Lintervalle de conance 95% pour 1 est donc 1 2 1 + 2 IC (1 ) = [ 1 , 1 ] = [0.8; 1.2] et pour 2 2 2 2 + 2 IC (2 ) = [ 2 , 2 ] = [0.15; 1.35]
1 1 2 = 2 = . 2 400 20 (xi x)
Figure 1.12 Intervalles de conance vs Rgion de conance. 2. Avec les notations du cours, la rgion de conance simultane 95% est lensemble des points (1 , 2 ) tels que 1 1 )2 + 2nx 1 )(2 2 ) + n(1 (1 2 2 2 f 2 (0.95). x2 n 2 i (2 2 )
Le quantile dordre 0.95 dune loi de Fisher (2,100) degrs de libert tant gal 3.09, nous 2 (0.95) 3, de sorte que nous obtenons comme rgion arrondirons nouveau et prendrons f98 de conance lensemble des points (1 , 2 ) tels que 1 (1 1)2 (2 1/4)2 100(1 1)2 + 400(2 1/4)2 3 1. 2 + 2 2 6 6
10 20
1 , 2 ) = (1, 1/4) et de La rgion de conance est donc lintrieur dune ellipse de centre ( sommets (1 6/10, 0) et (0, 1/4 6/20), cest--dire (1.24, 0), (0, 0.37), (0.76, 0), (0, 0.13). Rgression Arnaud Guyader - Rennes 2
28 3. Les rsultats obtenus sont reprsents gure 1.12.
Exercice 1.10 (Rgression simple) Cet exercice est corrig en annexe, sujet de dcembre 2010. Exercice 1.11 (Forces de frottement et vitesse) Cet exercice est corrig en annexe, sujet de dcembre 2010. Exercice 1.12 (Prix dun appartement en fonction de sa supercie) Cet exercice est corrig en annexe, sujet de dcembre 2011.
Rgression
Chapitre 2
La rgression linaire multiple

Introduction
La modlisation de la concentration dozone dans latmosphre voque au Chapitre 1 est relativement simpliste. En eet, dautres variables peuvent expliquer cette concentration, par exemple le vent qui pousse les masses dair. Ce phnomne physique est connu sous le nom dadvectance (apport dozone) ou de dilution. Dautres variables telles le rayonnement, la prcipitation, etc., ont une inuence certaine sur la concentration dozone. Lassociation Air Breizh mesure ainsi en mme temps que la concentration dozone dautres variables susceptibles davoir une inuence sur celle-ci (voir Annexe D). Voici quelques-unes de ces donnes : T12 V N12 O3 23.8 9.25 5 115.4 16.3 -6.15 7 76.8 27.2 -4.92 6 113.8 7.1 11.57 5 81.6 25.1 -6.23 2 115.4 27.5 2.76 7 125 19.4 10.15 4 83.6 19.8 13.5 6 75.2 32.2 21.27 1 136.8 20.7 13.79 4 102.8
Table 2.1 10 donnes journalires de temprature, vent, nbulosit et ozone.
La variable V est une variable synthtique. En eet, le vent est normalement mesur en degrs (direction) et mtres par seconde (vitesse). La variable V que nous avons cre est la projection du vent sur laxe Est-Ouest, elle tient donc compte la fois de la direction et de la vitesse. Pour analyser la relation entre la temprature T , le vent V , la nbulosit midi N et lozone O3 , nous allons chercher une fonction f telle que : O3i f (Ti , Vi , Ni ). An de prciser , il va falloir dnir comme au Chapitre 1 un critre quantiant la qualit de lajustement de la fonction f aux donnes, ou inversement le cot de non-ajustement. Cette notion de cot permet dapprhender de manire aise les problmes dajustement conomique dans certains modles, do son nom. Minimiser un cot ncessite aussi la connaissance de lespace sur lequel on minimise, cest--dire la classe de fonctions F dans laquelle nous supposerons que se trouve la vraie fonction inconnue. Le problme mathmatique peut scrire de la faon suivante :
n
arg min
f F i=1
L(yi f (xi )),
(2.1)
30
Chapitre 2. La rgression linaire multiple o n reprsente le nombre de donnes analyser, L(.) est appele fonction de cot, ou de perte, et xi est une variable vectorielle pour tout i. La fonction de cot sera la mme que celle utilise prcdemment, cest--dire le cot quadratique. En ce qui concerne le choix de la classe F , par analogie avec le chapitre prcdent, nous utiliserons la classe suivante : p j xj . F = f : P , f (x1 , , xp ) =
j =1
En gnral, avec cette convention dcriture, x1 est constant gal 1 et 1 correspond lordonne lorigine. On parle de rgression linaire en raison de la linarit de f en les paramtres 1 , . . . , p , non en les variables explicatives xj . Par exemple, ce modle inclut les fonctions polynomiales dune seule variable x si lon prend x1 = 1, x2 = x, . . . , xp = xp1 . Ce chapitre est donc la gnralisation naturelle du prcdent, mais nous allons cette fois manipuler sytmatiquement des vecteurs et des matrices la place des scalaires.
2.1
Modlisation
Le modle de rgression linaire multiple est une gnralisation du modle de rgression simple lorsque les variables explicatives sont en nombre quelconque. Nous supposons donc que les donnes collectes suivent le modle suivant : yi = 1 xi1 + 2 xi2 + + p xip + i , i = 1, . . . , n (2.2)
o : les xij sont des nombres connus, non alatoires, la variable xi1 valant souvent 1 pour tout i ; les paramtres j du modle sont inconnus, mais non alatoires ; les i sont des variables alatoires inconnues. Remarque. Du fait que la constante appartient gnralement au modle, beaucoup dauteurs crivent plutt le modle sous la forme : yi = 0 + 1 xi1 + 2 xi2 + + p xip + i , i = 1, . . . , n
de sorte que p correspond toujours au nombre de variables explicatives. Avec notre convention dcriture (2.2), si xi1 vaut 1 pour tout i, p est le nombre de paramtres estimer, tandis que le nombre de variables explicatives est, proprement parler, (p 1). En utilisant lcriture matricielle de (2.2) nous obtenons la dnition suivante : Dnition 2.1 (Modle de rgression linaire multiple) Un modle de rgression linaire est dni par une quation de la forme : Y = X + o : Y est un vecteur alatoire de dimension n, X est une matrice de taille n p connue, appele matrice du plan dexprience, est le vecteur de dimension p des paramtres inconnus du modle, est le vecteur de dimension n des erreurs. Arnaud Guyader - Rennes 2 Rgression
2.2. Estimateurs des Moindres Carrs Ordinaires Les hypothses concernant le modle sont (H) (H1 ) : rg(X ) = p (H2 ) : [] = 0, Var() = 2 In
31
Lhypothse (H2 ) signie que les erreurs sont centres, de mme variance (homoscdasticit) et non corrles entre elles. Notation. On notera X = [X1 | . . . |Xp ], o Xj est le vecteur de taille n correspondant la j -me variable. La i-me ligne de la matrice X sera quant elle note x i = [xi1 , . . . , xip ]. Ainsi lquation (2.2) scrit aussi : i {1, . . . , n} y i = x i + i
2.2
Estimateurs des Moindres Carrs Ordinaires
Comme pour la rgression linaire simple, nous allons considrer ici une fonction de cot quadratique, do la dnomination de Moindres Carrs Ordinaires (MCO). Dnition 2.2 (Estimateur des MCO) est dni comme suit : Lestimateur des moindres carrs
n
= arg min p
i=1
p j =1
ainsi que certaines Dans la suite de cette section, nous allons donner lexpression de lestimateur de ses proprits.
yi
Y X 2 . j xij = arg min p

(2.3)
2.2.1
Calcul de
, une mthode consiste se placer dans lespace des variables, comme on la fait Pour dterminer au Chapitre 1, Section 1.3.1. Rappelons brivement le principe : Y = [y1 , . . . , yn ] est le vecteur des variables expliquer. La matrice du plan dexprience X = [X1 | . . . |Xp ] est forme de p vecteurs colonnes (la premire colonne tant gnralement constitue de 1). Le sous-espace de n engendr par les p vecteurs colonnes de X est appel espace image, ou espace des solutions, et not M(X ). Il est de dimension p par lhypothse (H1 ) et tout vecteur de cet espace est de la forme X, o est un vecteur de p : X = 1 X1 + + p Xp M (X ) Y
X X M(X ) X X
dans lespace des variables. Figure 2.1 Reprsentation de X
Rgression
32
Chapitre 2. La rgression linaire multiple Selon le modle de la Dnition 2.1, le vecteur Y est la somme dun lment de M(X ) et dun bruit lment de n , lequel na aucune raison dappartenir M(X ). Minimiser Y X 2 revient chercher un lment de M(X ) qui soit le plus proche de Y au sens de la norme euclidienne classique. Cet unique lment est, par dnition, le projet orthogonal de Y sur M(X ). Il sera = PX Y , o PX est la matrice de projection orthogonale sur M(X ). Il peut aussi scrire not Y , o est lestimateur des MCO de . Lespace orthogonal M(X ), not = X sous la forme Y M (X ), est souvent appel espace des rsidus. En tant que supplmentaire orthogonal, il est de dimension n p = dim(n ) dim(M(X )). ) Proposition 2.1 (Expression de Lestimateur des Moindres Carrs Ordinaires a pour expression : = (X X )1 X Y, et la matrice PX de projection orthogonale sur M(X ) scrit : PX = X (X X )1 X . Remarque. Lhypothse (H1 ) assure que la matrice X X est bien inversible. Supposons en eet quil existe un vecteur de p tel que (X X ) = 0. Ceci impliquerait que X 2 = (X X ) = 0, donc X = 0, do = 0 puisque rg(X ) = p. Autrement dit, la matrice symtrique X X est dnie positive. Preuve. On peut prouver ce rsultat de plusieurs faons. 1. Par direntiation : on cherche p qui minimise la fonction S ( ) = Y X
2
= (X X ) 2Y X + Y
Or S est de type quadratique en , avec X X symtrique dnie positive, donc le problme : cest le point o le gradient de S est nul. Ceci scrit (voir admet une unique solution Annexe, section B.5) : ) = 2 X X 2Y X = 0 (X X ) = X Y. S ( = (X X )1 X Y . Puisque par dniLa matrice X X tant inversible par (H1 ), ceci donne = X (X X )1 X Y et que cette relation est valable pour tout Y n , = PX Y = X tion Y on en dduit que PX = X (X X )1 X . = X 2. Par projection : une autre faon de procder consiste dire que le projet orthogonal Y ) soit orthogonal M(X ). Puisque M(X ) est dni comme lunique vecteur tel que (Y Y ) est orthogonal est engendr par les vecteurs X1 , . . . , Xp , ceci revient dire que (Y Y chacun des Xi : X1 , Y X = 0 . . . =0 Xp , Y X ) = 0, do lon dduit bien lexpresCes p quations se regroupent en une seule : X (Y X sion de , puis celle de PX .
Rgression
2.2. Estimateurs des Moindres Carrs Ordinaires Dornavant nous noterons PX = X (X X )1 X la matrice de projection orthogonale sur M(X ) et PX = (I PX ) la matrice de projection orthogonale sur M (X ). La dcomposition + (Y Y ) = PX Y + (I PX )Y = PX Y + P Y Y =Y X nest donc rien de plus quune dcomposition orthogonale de Y sur M(X ) et M (X ). Achtung ! La dcomposition = 1 X1 + + p Xp = X Y i sont les coordonnes de Y dans la base (X1 , . . . , Xp ) de M(X ). Il ne faudrait signie que les i sont les coordonnes des projections de Y sur les Xi : ceci nest pas croire pour autant que les vrai que si la base (X1 , . . . , Xp ) est orthogonale, ce qui nest pas le cas en gnral. Rappels sur les projecteurs. Soit P une matrice carre de taille n. On dit que P est une matrice de projection si P 2 = P . Ce nom est d au fait que pour tout vecteur x de n , P x est la projection de x sur Im(P ) paralllement Ker(P ). Si en plus de vrier P 2 = P , la matrice P est symtrique, alors P x est la projection orthogonale de x sur Im(P ) paralllement Ker(P ), cest--dire que dans la dcomposition x = P x + (x P x), les vecteurs P x et (x P x) sont orthogonaux. Cest ce cas de gure qui nous concernera dans ce cours. Toute matrice symtrique relle tant diagonalisable en base orthonorme, il existe une matrice orthogonale U (i.e. U U = In , ce qui signie que les colonnes de U forment une base orthonorme de n ) et une matrice diagonale telles que P = U U . On voit alors facilement que la diagonale de est compose de p 1 et de (n p) 0, o p est la dimension de Im(P ), espace sur lequel on projette. Des rappels et complments sur les projections sont donns en Annexe, section B.4.
2 = P et que Revenons nos moutons : on a vu que PX = X (X X )1 X . On vrie bien que PX X PX est symtrique. Ce qui prcde assure galement que Tr(PX ) = p et Tr(PX ) = n p. Cette dernire remarque nous sera utile pour construire un estimateur sans biais de 2 . Dautre part, la matrice PX est souvent note H (comme Hat) dans la littrature anglo-saxonne, car elle met des . De fait, les lements de PX sont nots (hij )1i,j n . chapeaux sur les vecteurs : PX Y = Y
33
2.2.2
Quelques proprits
Comme en rgression simple, lestimateur obtenu est sans biais. On obtient de plus une expression ). On rappelle que la matrice de covariance du trs simple pour sa matrice de covariance Var( , ou matrice de variance-covariance, ou matrice de dispersion, est par dnition : vecteur alatoire ) = Var( [( ])( [ ]) ] = [ ] [ ] [ ] . [
Puisque est de dimension p, elle est de dimension p p. De plus, pour pour toute matrice A de + B ] = A [ ] + B et taille m p et tout vecteur B de dimension m dterministes, on a : [A Var(A + B ) = AVar( )A . Ces proprits lmentaires seront constamment appliques dans la suite. Proposition 2.2 (Biais et matrice de covariance) ] = , et sa matrice de covariance est : des moindres carrs est sans biais, i.e. [ Lestimateur ) = 2 (X X )1 . Var( Rgression Arnaud Guyader - Rennes 2
34 Preuve. Pour le biais il sut dcrire : ] = [ et puisque
Chapitre 2. La rgression linaire multiple
[(X X )1 X Y ] = (X X )1 X [Y ] = (X X )1 X [X + ],
[] = 0, il vient : ] = (X X )1 X X = . [
Pour la variance, on procde de mme : ) = Var((X X )1 X Y ) = (X X )1 X Var(Y )X (X X )1 , Var( or Var(Y ) = Var(X + ) = Var() = 2 In , donc : ) = 2 (X X )1 X X (X X )1 = 2 (X X )1 . Var(
Lestimateur des MCO est optimal en un certain sens. Cest ce que prcise le rsultat suivant, gnralisation de celui vu en rgression linaire simple. Thorme 2.1 (Gauss-Markov) des MCO est de variance minimale parmi les estimateurs linaires sans biais de . Lestimateur Remarques : 1. Linaire signie linaire par rapport Y , cest--dire de la forme AY o A est une matrice des MCO est bien linaire puisque = (X X )1 X Y . (p, n) : en ce sens, lestimateur 2. Rappelons quil existe une relation dordre partielle entre matrices symtriques relles : dire que S1 S2 signie que S = (S2 S1 ) est une matrice symtrique relle positive, cest--dire que pour tout vecteur x, on a x S1 x x S2 x. Ceci revient encore dire que les valeurs propres de S sont toutes suprieures ou gales 0. de linaire et sans biais, Var( ) Preuve. Nous allons montrer que, pour tout autre estimateur Var( ), o lingalit entre matrices de variance-covariance est comprendre au sens prcis cidessus. Rappelons la formule gnrale pour la matrice de covariance de la somme deux vecteurs alatoires U et V : Var(U + V ) = Var(U ) + Var(V ) + Cov(U, V ) + Cov(V, U ), o Cov(U, V ) = [U V ] : [U ] [V ] = Cov(V, U ) . Dcomposons ainsi la variance de
) = Var( + ) = Var( ) + Var( ) + Cov( , ) + Cov(, ). Var( , ) = 0, nous aurons Les variances tant semi-dnies positives, si nous montrons que Cov( est linaire, = AY . De plus, nous savons quil est sans biais, ni la dmonstration. Puisque cest--dire [ ] = pour tout , donc AX = I . La covariance devient : , ) = Cov(AY, (X X )1 X Y ) Var( ) Cov(
= 2 AX (X X )1 2 (X X )1 = 0.
Rgression
2.2. Estimateurs des Moindres Carrs Ordinaires
35
2.2.3
Rsidus et variance rsiduelle

= (I PX )Y = PX Y = PX , = [ 1 , . . . , n ] = Y Y
Les rsidus sont dnis par
) Proprits 2.1 (Biais et Variance de et Y Sous le jeu dhypothses (H), on a : ] = 0. 1. [ 2. Var( ) = 2 PX . ] = X . 3. [Y ) = 2 PX . 4. Var(Y ) = 0. 5. Cov( , Y
car Y = X + et X M(X ). On peut alors noncer les rsultats suivants.
Preuve. ] = [PX ] = PX [] = 0. 1. [ 2 2 2. Var( ) = PX Var()PX = PX Var()PX = PX PX = PX . ] = X , car est sans biais. ] = [X 3. [Y ) = X Var( )X = 2 X (X X )1 X = 2 PX . ) = Var(X 4. Var(Y 5. Rappelons que la covariance entre deux vecteurs alatoires est une application bilinaire et que Cov(U, U ) = Var(U ). Ici, ceci donne : ) = Cov( Cov( , Y , Y ) = Cov( , Y ) Var( ) = Cov(PX Y, Y ) 2 PX et puisque Var(Y ) = 2 In , nous avons : ) = PX Var(Y ) 2 PX = 0. Cov( , Y Comme en rgression linaire simple, un estimateur naturel de la variance rsiduelle est donn par : 1 n
n i=1
(yi y i )2 =
1 n
2 i =
i=1
1 2. n
Malheureusement on va voir que cet estimateur est biais. Ce biais est nanmoins facile corriger, comme le montre le rsultat suivant. Cest une bte gnralisation du rsultat obtenu en rgression linaire simple, en remplaant n 2 par n p. Proposition 2.3 La statistique 2 =
2 n p
SCR n p
est un estimateur sans biais de 2 .
Preuve. Nous calculons ce qui donne :
[ 2 ]. Ruse de sioux : puisque cest un scalaire, il est gal sa trace, [ 2] = [Tr( 2 )] = [Tr( )],
i,j
et puisque pour toute matrice A, on a Tr(AA ) = Tr(A A) = [ 2] =
a2 ij , il vient :
[Tr( )] = Tr( [ ]) = Tr(Var( )) = Tr( 2 PX ).
Et comme PX est la matrice de la projection orthogonale sur un espace de dimension (n p), on a bien : [ 2 ] = (n p) 2 . Rgression Arnaud Guyader - Rennes 2
36
On dduit de cet estimateur de 2 de la variance rsiduelle 2 un estimateur 2 de la variance ) = 2 (X X )1 : Var(

2 2 (X X )1 = =
SCR 1 2 (X X )1 = (X X ) . np np
j du j -me coecient de la rgression En particulier, un estimateur de lcart-type de lestimateur est tout simplement : j = [(X X )1 ]jj .
An dallger les notations, on crira parfois j pour j .
2.2.4
Prvision
Un des buts de la rgression est de proposer des prdictions pour la variable expliquer y lorsque nous avons de nouvelles valeurs de x. Soit donc x n+1 = [xn+1,1 , , xn+1,p ] une nouvelle valeur pour laquelle nous voudrions prdire yn+1 . Cette variable rponse est dnie par yn+1 = x n+1 + n+1 , 2 avec [n+1 ] = 0, Var(n+1 ) = et Cov(n+1 , i ) = 0 pour i = 1, . . . , n. La mthode naturelle est de prdire la valeur correspondante grce au modle ajust, soit : y n+1 = ) + n+1 . . Lerreur de prvision est nouveau dnie par ( = y y = x x n +1 n +1 n +1 n+1 n+1 Deux types derreurs vont alors entacher notre prvision : la premire due lincertitude sur n+1 , . lautre lincertitude inhrente lestimateur Proposition 2.4 (Erreur de prvision) Lerreur de prvision n+1 = (yn+1 y n+1 ) satisfait les proprits suivantes : [ n+1 ] = 0 1 Var( n+1 ) = 2 (1 + x n+1 (X X ) xn+1 ). Preuve. Comme est un estimateur sans biais de , il est clair que [n+1 ] = 0 et puisque
[x n+1 ( ) + n+1 ] = xn+1 (
[ n+1 ] =
]) + [
[n+1 ] = 0.
Autrement dit, en moyenne, notre estimateur ne se trompe pas. Calculons la variance de lerreur de dpend uniquement des variables alatoires (i )1in , dont n+1 est dcorrle, prvision. Puisque il vient :
2 Var ( n+1 ) = Var(n+1 + x n+1 ( )) = + xn+1 Var( )xn+1 1 = 2 (1 + x n+1 (X X ) xn+1 ).
Nous retrouvons bien lincertitude dobservation 2 laquelle vient sajouter lincertitude destimation. Enn, comme en rgression linaire simple, on peut prouver quen prsence de la constante, cette incertitude est minimale au centre de gravit des variables explicatives, cest--dire lorsque 2 , . . . , x p ] et quelle vaut encore 2 (1 + 1/n) (voir exercice 2.7). x n+1 = [1, x Arnaud Guyader - Rennes 2 Rgression
2.3. Interprtation gomtrique
37
2.3
Interprtation gomtrique
M (X ) Y
0 = X Y M(X ) y
Figure 2.2 Reprsentation des variables. partir de la gure 2.2, le thorme de Pythagore donne : SCT Y
2
= SCE + SCR 2+ 2 = Y = X
2
2. + Y X
Si la constante fait partie du modle (ce qui est gnralement le cas), alors nous avons, toujours par Pythagore : SCT Y y
2
Variation totale = V. explique par le modle + V. rsiduelle. Dnition 2.3 Le coecient de dtermination R2 est dni par : R2 = cos2 0 = Y Y
2 2
= SCE + SCR y = Y 2 +
=1
2 2
=1
SCR , SCT
ou plus souvent, si la constante fait partie du modle, par : R2 = cos2 = y V. explique par le modle Y = Variation totale Y y
2 2
=1
2 Y y
=1
SCR . SCT
pris lorigine ou pris Ce coecient mesure le cosinus carr de langle entre les vecteurs Y et Y en y . Nanmoins, on peut lui reprocher de ne pas tenir compte de la dimension de lespace de projection M(X ), do la dnition du coecient de dtermination ajust. Rgression Arnaud Guyader - Rennes 2
38
Chapitre 2. La rgression linaire multiple Dnition 2.4 2 est dni par : Le coecient de dtermination ajust Ra
2 Ra =1
n np Y
2 2
=1
n SCR n =1 (1 R2 ), n p SCT np n 1 SCR n1 =1 (1 R2 ). n p SCT np
ou plus souvent, si la constante fait partie du modle, par :

2 Ra =1
2 n1 np Y y
=1
Avec le logiciel R, le coecient de dtermination R2 est appel Multiple R-Squared, tandis que 2 est appel Adjusted R-Squared (cf. infra). le coecient de dtermination ajust Ra
2.4
Exemple
Nous allons traiter les 50 donnes journalires prsentes en Annexe D. La variable expliquer est la concentration en ozone note O3 et les variables explicatives sont la temprature T12, le vent Vx et la nbulosit Ne12. Les donnes sont traites avec le logiciel R. > a <- lm(O3 T12+Vx+Ne12,data=DONNEE) > summary(a) Call: lm(formula = O3 T12 + Vx + Ne12, data = DONNEE) Residuals: Min -29.0441 Coefficients : (Intercept) T12 Vx Ne12 Estimate 84.5483 1.3150 0.4864 -4.8935 Std. Error 13.6065 0.4974 0.1675 1.0270 t value 6.214 2.644 2.903 -4.765 Pr(>|t|) 1.38e-07 0.01118 0.00565 1.93e-05 *** * ** *** 1Q -8.4833 Median 0.7857 3Q 7.7011 Max 28.2919
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 13.91 on 46 degrees of freedom Multiple R-Squared: 0.6819, Adjusted R-squared: 0.6611 F-statistic: 32.87 on 3 and 46 DF, p-value: 1.663e-11 Les interprtations des sorties sont similaires celles obtenues pour la rgression simple. Noter que le Residual standard error correspond lcart-type rsiduel, cest--dire .
2.5
Exercices
Exercice 2.1 (Rgression simple et Rgression multiple) Soit un chantillon de n couples (xi , yi )1in pour le modle de rgression linaire simple y = 1 + 2 x + . 1 et 2 vues au Chapitre 1. 1. Rappeler les formules de Arnaud Guyader - Rennes 2 Rgression
2.5. Exercices = [ 1 , 2 ] vue au Chapitre 2. 2. Rappeler la formule de 3. Retrouver le rsultat de la question 1 partir de celui de la question 2. 1 et 2 vues au Chapitre 1. 4. Rappeler les formules des variances et covariance de vue au Chapitre 2. 5. Rappeler la formule de la matrice de covariance de 6. Retrouver le rsultat de la question 4 partir de celui de la question 5. Exercice 2.2 (Rle de la constante) la projection orthogonale dun vecteur Y de n Soit X une matrice de dimensions n p. Soit Y sur lespace engendr par les colonnes de X . On note le vecteur de n uniquement compos de la valeur 1. 1. Exprimer le produit scalaire Y, en fonction des yi . et supposons que la constante fait partie du modle, cest--dire que la 2. Soit = Y Y premire colonne de X est . Que vaut , ? 3. En dduire que lorsque la constante fait partie du modle,
n i=1 yi
39
n i . i=1 y
Exercice 2.3 (Le R2 et les modles embots) Soit Z une matrice (n, q ) de rang q et soit X une matrice (n, p) de rang p compose des q vecteurs colonnes de Z et de p q autres vecteurs linairement indpendants. Nous considrons les deux modles suivants : Y Y = Z + = X +
Supposons pour simplier que la constante ne fait partie daucun modle. Notons respectivement PX et PZ les projections orthogonales sur les sous-espaces M(X ) et M(Z ) engendrs par les p colonnes de X et les q colonnes de Z . Notons enn PX Z la projection orthogonale sur le sous-espace M(X ) M(Z ) , orthogonal de M(Z ) dans M(X ), autrement dit :
n = M(X ) M(X ) = M(Z ) M(X ) M(Z )

1. Exprimer PX Y
2
M(X ) .
en fonction de PZ Y
2 et R2 . 2. Comparer alors les coecients de dtermination des deux modles, cest--dire RZ X
et PX Z Y
2.
3. De faon gnrale, quen dduire quant lutilisation du R2 pour le choix de variables ? Exercice 2.4 (Deux variables explicatives) On examine lvolution dune variable rponse yi en fonction de deux variables explicatives xi et zi . Soit X = ( x z ) la matrice n 3 du plan dexprience. 1. Nous avons obtenu les rsultats suivants : 25 0 0 0.04 0 0 X X = ? 9.3 5.4 (X X )1 = 0 0.1428 0.0607 . ? ? 12.7 0 0.0607 0.1046 (a) Donner les valeurs manquantes. (b) Que vaut n ? (c) Calculer le coecient de corrlation linaire empirique entre x et z . Rgression Arnaud Guyader - Rennes 2
40 2. La rgression linaire de Y sur (, x, z ) donne Y = 1.6 + 0.61x + 0.46z + , (a) Dterminez la moyenne empirique y .
SCR =
= 0.3.
(b) Calculer la somme des carrs explique (SCE), la somme des carrs totale (SCT), le coecient de dtermination et le coecient de dtermination ajust. Exercice 2.5 (Rgression sur variables orthogonales) Nous considrons le modle de rgression linaire Y = X + , o Y n , X est une matrice de taille n p compose de p vecteurs orthogonaux, p et n . Considrons Z la matrice des q premires colonnes de X et U la matrice des (p q ) dernires colonnes de X . Nous avons obtenu par les MCO les estimations suivantes : X Y Z Y U Y X X1 + + X Xp = 1 p Z Z = X1 + + Xq
1 U Xq+1 q +1 q
U Xp . + + p
Notons galement SCE (A) la norme au carr de PA Y . 1. Montrer que SCE (X ) = SCE (Z ) + SCE (U ). X en fonction de Y , X1 et X1 . 2. Donner lexpression de 1 X = Z . 3. En dduire que
1 1
Exercice 2.6 (Rgression sur variables centres) Nous considrons le modle de rgression linaire Y = X + , (2.4)
o Y n , X est une matrice de taille n p de rang p, p et n . La premire colonne de X est le vecteur constant . X peut donc scrire X = [, Z ] o Z = [X2 , . . . , Xp ] est la matrice n (p 1) des (p 1) derniers vecteurs colonnes de X . Le modle peut donc scrire sous la forme : Y = 1 + Z(1) + , o 1 est la premire coordonne du vecteur et (1) reprsente le vecteur priv de sa premire coordonne. 1. Donner P , matrice de projection orthogonale sur le sous-espace engendr par le vecteur . 2. En dduire la matrice de projection orthogonale P sur le sous-espace vecteur . 3. Calculer P Z . 4. En dduire que lestimateur de des Moindres Carrs Ordinaires du modle (2.4) peut tre obtenu en minimisant par les MCO le modle suivant : = Z (1) + , Y = P Z . = P Y et Z o Y Arnaud Guyader - Rennes 2 Rgression (2.5)
orthogonal au
2.5. Exercices 5. Ecrire la SCR estime dans le modle (2.5) en fonction des variables du modle (2.5). Vrier que la SCR du modle (2.5) est identique celle qui serait obtenue par lestimation du modle (2.4). Exercice 2.7 (Minimisation de lerreur de prvision) 1. Soit un chantillon de n couples de rels (xi , yi )1in pour le modle de rgression linaire simple yi = 0 + 1 xi + i , o les erreurs i sont supposes centres dcorrles et de mme variance 2 . On estime = (0 , 1 ) par la mthode des moindres carrs ordinaires, ce qui = ( 0 , 1 ). donne (a) Soit xn+1 une nouvelle valeur de la variable explicative pour laquelle on veut prdire la variable rponse yn+1 . Quappelle-t-on erreur de prvision ? Rappeler sa variance telle quelle est nonce dans le chapitre sur la rgression linaire simple. (b) Rappeler sa variance telle quelle est nonce dans le chapitre sur la rgression linaire multiple. (c) Retrouver le rsultat de la question 1a partir de celui de la question 1b. (d) A partir du rsultat de la question 1a, trouver pour quelle valeur de xn+1 la variance de lerreur de prvision est minimale. Que vaut alors cette variance ? 2. Le but de cette partie est de gnraliser le rsultat de la question 1d. Nous considrons dsormais un chantillon (x i , yi )1in , o xi = [1, zi ] avec zi = [xi1 , . . . , xip ]. En notant le vecteur de taille n uniquement compos de 1, nous adoptons lcriture matricielle : 1 z1 1 x11 x1p . . . . . . . . . X= . . = . . . = Z1 Zp = Z , . . . . 1 xn1 xnp 1 zn o Z est donc une matrice de taille n p. Les moyennes de ses colonnes Z1 , . . . , Zp sont regroupes dans le vecteur ligne x = [ x1 , . . . , x p ]. Enn, on considre comme prcdemment le modle de rgression linaire yi = 0 + 1 xi1 + + p xip + i = x i + i , o les erreurs i sont supposes centres indpendantes et de mme variance 2 . Matriciellement, ceci scrit donc Y = X + , avec X donne ci-dessus et suppose telle que X X est inversible. (a) Ecrire la matrice X X sous forme de 4 blocs faisant intervenir Z , x et la taille n de lchantillon. (b) On rappelle la formule dinversion matricielle par blocs : Soit M une matrice inversible telle que M = T V U W
41
avec T inversible, alors Q = W V T 1 U est inversible et linverse de M est : M 1 = T 1 + T 1 U Q 1 V T 1 T 1 U Q 1 Q 1 V T 1 Q1 .
Ecrire la matrice (X X )1 sous forme de 4 blocs dpendant de n, x et 1 , o = 1 x . nZ Z x Rgression Arnaud Guyader - Rennes 2
42

(c) Soit x n+1 = [1, zn+1 ] une nouvelle donne. Montrer que la variance de lerreur de prvision est gale
Var( n+1 ) = 2 1 +
1 1 + (zn+1 x ) 1 (zn+1 x ) . n n
1 Z Z x x est symtrique dnie positive (on rappelle (d) On admet pour linstant que = n que S est symtrique dnie positive si S = S et si pour tout vecteur x non nul, x Sx > 0). Pour quelle nouvelle donne x n+1 la variance de lerreur de prvision est-elle minimale ? Que vaut alors cette variance ?
(e) Justier le fait que si X X est inversible, alors est bien symtrique dnie positive. Exercice 2.8 (QCM) Ce questionnaire fait appel non seulement au cours, mais galement certains des rsultats vus dans les exercices qui prcdent. 1. Nous avons eectu une rgression multiple, une des variables explicatives est la constante, la somme des rsidus calculs vaut : A. 0 ; B. Approximativement 0 ; C. Parfois 0. est-il orthogonal au vecteur des rsidus estims ? 2. Le vecteur Y A. Oui ; B. Non ; C. Seulement si fait partie des variables explicatives. , estimateur des MC de , vaut : 3. Un estimateur de la variance de A. 2 (X X )1 ; B. 2 (X X )1 ; C. 2 (XX )1 . 4. Une rgression a t eectue et le calcul de la SCR a donn la valeur note SCR1. Une variable est ajoute, le calcul de la SCR a donn une nouvelle valeur note SCR2. Nous savons que : A. SCR1 SCR2 ; B. SCR1 SCR2 ; C. Cela dpend de la variable ajoute. 5. Une rgression a t eectue et un estimateur de la variance rsiduelle a donn la valeur 2 . Une variable est rajoute et un estimateur de la variance rsiduelle vaut maintenant note 1 2 2 . Nous savons que : 2; 2 2 A. 1 2 2 2 ; B. 1 C. On ne peut rien dire.
2.6
Corrigs
Exercice 2.1 (Rgression simple et Rgression multiple) On dispose donc dun chantillon de n points (xi , yi )1in . 1 = y 2 x , Arnaud Guyader - Rennes 2
1. On a vu au Chapitre 1 que les estimateurs des MCO ont pour expressions :
Rgression
2.6. Corrigs avec 2 =
43
2. Conformment aux conventions du Chapitre 2, on note X la matrice n 2 dont la premire colonne est uniquement compose de 1 et la seconde est compose des xi . De mme, Y = = [ 1 , 2 ] des [y1 , . . . , yn ] est un vecteur colonne de taille n. On a vu que lestimateur moindres carrs scrit alors : = (X X )1 X Y 3. Les calculs de (X X )1 et de X Y donnent : (X X )1 X Y = do : (X X )1 X Y = Il sut alors de voir que n 1 2 xi n 2 x 2 1 (xi x )2 x2 i nx nx n y ny xi y i ,
n )(yi i=1 (xi x n )2 i=1 (xi x
y )
n )yi i=1 (xi x . n )2 i=1 (xi x
x2 xi y i i x xi y i n x y
xi y i n x y =
(xi x )(yi y )
2 de pour vrier que la seconde composante de ce vecteur correspond bien la formule de la premire question. Pour la premire composante, on crit : y y x2 xi y i i x = (xi x )2 (xi x )2 x ( xi y i n x y ) 2 x =y (xi x )2
et la messe est dite. 1 et 2 vues au Chapitre 1 sont 4. Les formules des variances de 1 ) = Var( 2 x2 i n (xi x )2 & 2 ) = Var( 2 , (xi x )2
tandis que leur covariance vaut : 1 , 2 ) = Cov( 2 x . (xi x )2
est tout bonnement 5. La matrice de covariance de ) = Var( 2 (X X )1 6. Pour retrouver le rsultat de la question 4 partir de celui de la question 5, il sut de voir que 1 x2 i /n x . (X X )1 = 1 (xi x )2 x Exercice 2.2 (Rle de la constante) la projection dun vecteur Y de n sur lespace engendr Soit X(n,p) une matrice de rang p. Soit Y par les colonnes de X . On note le vecteur de n uniquement compos de 1. 1. Par dnition du produit scalaire usuel dans
n , on a tout simplement :
yi
Y, = Rgression
44
Chapitre 2. La rgression linaire multiple est la projection orthogonale de Y sur le sous-espace engendr par les colonnes de 2. Puisque Y est orthogonal toutes les colonnes de X . En particulier, si lune X , le vecteur = Y Y dentre elles est constante et vaut c (c suppos non nul), on en dduit que : , c = 0 , = 0.
Autrement dit, lorsque la constante fait partie du modle, la somme des rsidus vaut 0. 3. Dire que la constante fait partie du modle signie typiquement que la premire colonne de X est le vecteur . Daprs la question prcdente, on sait que dans ce cas : , = 0 yi = y i .
Ainsi, lorsque la constante fait partie du modle, la moyenne des observations yi est la mme que celle de leurs valeurs ajustes. Exercice 2.3 (Le R2 et les modles embots) 1. Par le thorme de Pythagore, on a : PX Y
2
= PZ Y
+ PX Z Y
2. Si la constante ne fait partie daucun modle, alors dans le premier modle, le R2 vaut :
2 RZ =
PZ Y 2 , Y 2
et dans le second :
2 RX =
PX Y Y 2
PZ Y
+ PX Z Y Y 2
PZ Y 2 2 = RZ . Y 2
3. Ceci montre la chose suivante : ds lors que deux modles sont embots, le coecient de dtermination du plus gros sera suprieur celui du plus petit. Autrement dit, ds que lon ajoute une ou des variables un modle, on amliore le pourcentage de variation explique, mme si les variables explicatives supplmentaires ne sont pas pertinentes ! En ce sens, le coecient de dtermination ajust est prfrable, ayant au moins le mrite de tenir compte des dimensions des dirents modles. Plus prcisment, nous verrons au Chapitre 3 comment eectuer des tests dhypothses entre modles embots. Exercice 2.4 (Deux variables explicatives) On examine lvolution dune variable y en fonction de deux variables exognes x et z . On dispose de n observations de ces variables. On note X = [ x z ] o est le vecteur constant et x, z sont les vecteurs des variables explicatives. 1. Nous avons obtenu les rsultats suivants : 25 0 0 0.04 0 0 X X = ? 9.3 5.4 (X X )1 = 0 0.1428 0.0607 . ? ? 12.7 0 0.0607 0.1046 (a) Les 3 valeurs manquantes se dduisent de la symtrie de la matrice X X . (b) Puisque X = [ x z ], il vient n = (X X )1,1 = 25. Arnaud Guyader - Rennes 2 Rgression
2.6. Corrigs (c) Le coecient de corrlation linaire empirique entre x et z se dduit lui aussi de la matrice X X . On remarque tout dabord que les moyennes empiriques sont nulles puisque x = Par consquent rx,z = ce qui donne rx,z = 5.4 0.5 9.3 12.7 (xi x )(zi z ) = xi zi x2 i
2 zi
45
(X X )1,3 (X X )1,2 =0= =z n n
)2 (xi x
)2 (zi z
(X X )2,3 (X X )2,2 (X X )3,3
2. La rgression linaire de Y sur (, x, z ) donne , Y = 1.6 + 0.61x + 0.46z + SCR =

2
= 0.3.
(a) Puisque la constante fait partie du modle, la moyenne empirique des rsidus est nulle : = 0. On en dduit que y = 1.6 + 0.61 x + 0.46 z+ = 1.6 (b) Puisque la constante fait partie du modle, la somme des carrs explique par le modle est y ( yi y )2 = (0.61xi + 0.46zi )2 SCE = Y 2 = cest--dire y SCE = Y
2
= 0.612
x2 i + 2 0.61 0.46
xi zi + 0.462
2 zi
ce qui se calcule nouveau grce la matrice X X : y SCE = Y

2
= 0.612 (X X )2,2 + 2 0.61 0.46(X X )2,3 + 0.462 (X X )3,3 = 9.18
La somme des carrs totale est alors immdiate, en vertu de la sacro-sainte formule de dcomposition de la variance : SCT = SCE + SCR = 9.18 + 0.3 = 9.48 Le coecient de dtermination vaut donc R2 = SCE 0.968 SCT
Autrement dit, 97% de la variance des donnes est explique par ce modle de rgression. Le coecient de dtermination ajust est peine dirent :
2 Ra =1
n1 (1 R2 ) 0.965 np
2 < R2 . et on vrie bien la relation gnrale selon laquelle Ra
Rgression
46
Chapitre 2. La rgression linaire multiple Exercice 2.5 (Rgression sur variables orthogonales) Nous considrons le modle de rgression linaire Y = X + , o Y n , X est une matrice de taille n p compose de p vecteurs orthogonaux, p et n . Considrons Z la matrice des q premires colonnes de X et U la matrice des p q dernires colonnes de X . Nous avons obtenu par les MCO les estimations suivantes : X Y Z Y U Y 1. Nous avons : X X1 + + X Xp = 1 p Z Z = X1 + + Xq
1 q
U Xq+1 + + U Xp . = q +1 p
Notons galement SCE (A) la norme au carr de PA Y . X = PX Y = (PZ + PZ )PX Y = PZ PX Y + PZ PX Y, Y
or dune part PZ PX = PZ X = PZ , dautre part PZ PX = PZ X = PU projection orthogonale sur le sous-espace engendr par les colonnes de U puisque les colonnes de X sont orthogonales. Au total, on obtient la dcomposition orthogonale YX = YZ + YU et le thorme de Pythagore assure donc que SCE (X ) = SCE (Z ) + SCE (U ). X , on part tout simplement de la formule gnrale 2. Pour lexpression de 1 X = (X X )1 X Y Puisque les colonnes de X sont orthogonales, la matrice X X est diagonale, de termes diagonaux Xi 2 . Par ailleurs, X Y est un vecteur colonne de taille p, dont les coordonnes sont les produits scalaires Xi Y = Xi , Y . Ainsi X = Xp , Y X1 , Y ,..., 2 X1 Xp 2
X = X1 , Y . 1 X1 2
X montre que 3. La premire colonne de Z tant X1 , le raisonnement prcdent appliqu 1 Z . Ainsi, lorsque les variables explicatives sont orthogonales, eectuer une rgression X = 1 1 multiple revient eectuer p rgression simples. En pratique, nanmoins, il arrive rarement que les variables explicatives soient eectivement orthogonales... Exercice 2.6 (Rgression sur variables centres) Nous considrons le modle de rgression linaire Y = X + , (2.6)
o Y n , X est une matrice de taille n p de rang p, p et n . La premire colonne de X est le vecteur constant . X peut ainsi scrire X = [, Z ], o Z = [X2 , . . . , Xp ] est la matrice n (p 1) des (p 1) derniers vecteurs colonnes de X . Le modle peut donc scrire sous la forme : Y = 1 + Z(1) + , o 1 est la premire coordonne du vecteur et (1) reprsente le vecteur priv de sa premire coordonne. Arnaud Guyader - Rennes 2 Rgression
2.6. Corrigs 1. La matrice de la projection orthogonale sur le sous-espace engendr par le vecteur P = ( )1 = 1 1 = J, n n
47
scrit
2. La matrice de projection orthogonale P sur le sous-espace 1 donc : P = I n J.
o J = est la matrice n n compose uniquement de 1.
orthogonal au vecteur est
1 JZ . Si on note x 2 , . . . , x n les moyennes empiriques des colonnes 3. On a ainsi P Z = Z n n . 2 , . . . , Xn x X2 , . . . , Xn , P Z est donc la matrice n(p1) dont les colonnes sont X2 x Autrement dit P Z est la matrice (individus variables) pour laquelle chaque variable xi a t centre.
4. Lestimateur de des Moindres Carrs Ordinaires du modle (2.6) est dni par = arg min Y X 2 . p
] , ceci peut encore scrire : En dcomposant le vecteur sous la forme = [1 , (1)
(1 , (1) ) = arg Puisque P + P = In , il vient : (1 , (1) ) = arg

1 ,(1) p1
1 ,(1) p1
min
Y 1 Z(1) 2 .
min
(P Y 1 P Z(1) ) + (P Y P Z(1) ) 2 .
Le premier vecteur entre parenthses est dans le sous-espace engendr par le vecteur second dans son orthogonal, donc par Pythagore : (1 , (1) ) = arg
1 ,(1) p1
, le
min
P Y 1 P Z(1)
+ P Y P Z(1) 2 .
et P Z = Z , donc ceci se rcrit : , P Y = Y y Or P Y = y = Y (1 , (1) ) = arg

1 ,(1) p1
min
y 1 Z(1)
Z (1) 2 . + Y
Minimiser cette somme de deux termes en (1 , (1) ) revient commencer par minimiser le (1) , et prendre ensuite second terme en (1) , ce qui fournit 1 = y (1) . Z Or la minimisation du premier terme revient chercher lestimateur des moindres carrs ordinaires pour le modle suivant : = Z (1) + , Y = P Y et Z = P Z. o Y 5. La SCR estime dans le modle (2.7) est Y SCR = Y Or pour tout i, y i = yi y et : 2 x p x 2 (xi2 x p (xip x y i = i2 + + ip = 2 ) + + p ), Rgression Arnaud Guyader - Rennes 2
n 2
(2.7)
=
i=1
(y i y i )2 .
48 do : SCR =
i=1
2 (xi2 x p (xip x (yi y 2 ) p ))2 .
Lorsque la constante appartient au modle, la somme des rsidus est nulle, donc : 1 + 2 x p x = y =Y 2 + + p , ce qui, report dans lquation prcdente, donne :
n
SCR =
i=1
1 + 2 xi2 + + p xip )2 . (yi (
Autrement dit, la SCR du modle (2.7) est identique celle qui serait obtenue par lestimation du modle (2.6). Mazel tov ! Exercice 2.7 (Minimisation de lerreur de prvision) Cet exercice est corrig en annexe (sujet de dcembre 2012). Exercice 2.8 (QCM) AABBC.
Rgression
Chapitre 3
Le modle gaussien
Introduction
Rappelons le contexte du chapitre prcdent. Nous avons suppos un modle de la forme : y i = x i + i = 1 xi1 + 2 xi2 + + p xip + i , que nous avons rcrit en termes matriciels : Yn1 = Xnp p1 + n1 o les dimensions sont indiques en indices. Les hypothses concernant le modle taient : (H) (H1 ) : rg(X ) = p (H2 ) : [] = 0, Var() = 2 In i = 1, . . . , n
Dans tout ce chapitre, comme ce fut le cas en n de Chapitre 1, nous allons faire une hypothse plus forte, savoir celle de gaussianit des rsidus. Nous supposerons donc dsormais : (H) (H1 ) : rg(X ) = p (H2 ) : N (0, 2 In )
Ceci signie que les rsidus sont indpendants et identiquement distribus. Lintrt de supposer la gaussianit des rsidus est de pouvoir en dduire les lois de nos estimateurs, donc de construire des rgions de conance et des tests dhypothses.
3.1
Estimateurs du Maximum de Vraisemblance
Nous allons commencer par faire le lien entre lestimateur du maximum de vraisemblance et lestimateur des moindres carrs vu au chapitre prcdent. Commenons par remarquer que les yi sont eux-mmes gaussiens :
2 i N (0, 2 ) yi = x i + i N (xi , )
et mutuellement indpendants puisque les erreurs i le sont. La vraisemblance sen dduit :

n
L(Y, , 2 ) = =
fY (yi ) =
i=1
1 2 2
exp
1 2 2
2
n i=1
y i x i
1 2 2
exp
1 Y X 2 2
50 Do lon dduit la log-vraisemblance :
Chapitre 3. Le modle gaussien
n 1 n log L(Y, , 2 ) = log 2 log 2 2 Y X 2 . 2 2 2

2 qui maximisent cette log-vraisemblance. Il est clair quil faut mv et On cherche les estimateurs mv minimiser la quantit Y X 2 , ce qui est justement le principe des moindres carrs ordinaires, donc : mv = = (X X )1 X Y. c Une fois ceci fait, on veut maximiser sur + une fonction de la forme (x) = a + b log x + x , ce qui ne pose aucun souci en passant par la drive :
2 ) L(Y, , 2 do il vient :
n 1 2, + 4 Y X 2 2 2
2 mv =
Y X n
.
Y X n p
2
Si lon compare ce quon a obtenu au chapitre prcdent, o nous avons not 2 = 2 lestimateur de la variance , nous avons donc :
2 mv =
np 2 . n
2 du maximum de vraisemblance est biais, mais dautant moins On voit donc que lestimateur mv que le nombre de variables explicatives est petit devant le nombre n dobservations. Dans la suite, nous continuerons considrer lestimateur 2 des moindres carrs vu au chapitre prcdent et nous conserverons aussi la notation adopte pour les rsidus i , de sorte que :
2 =
n 2 i i=1
np
2 Y X = np np
3.2
Lois des estimateurs
Nous commenons cette section par un rappel sur les vecteurs gaussiens.
3.2.1
Quelques rappels
Un vecteur alatoire Y de n est dit gaussien si toute combinaison linaire de ses composantes est une variable alatoire gaussienne. Ce vecteur admet alors une esprance = [Y ] et une matrice de variance-covariance Y = [(Y )(Y ) ] qui caractrisent compltement sa loi. On note dans ce cas Y N (, Y ). On montre alors que les composantes dun vecteur gaussien Y = [Y1 , , Yn ] sont indpendantes si et seulement si Y est diagonale. Soit Y N (, Y ) un vecteur gaussien. Il admet une densit f sur n si et seulement si sa matrice de dispersion Y est inversible, auquel cas : f (y ) = 1 (2 )n/2 det(Y ) e 2 (y) Y
1 1
(y )
Dans ce cas, on montre aussi la proprit suivante. Arnaud Guyader - Rennes 2 Rgression
3.2. Lois des estimateurs Proposition 3.1 (Vecteur gaussien et Loi du 2 ) Soit Y N (, Y ) un vecteur gaussien. Si Y est inversible, alors
1 2 (Y ) Y (Y ) n
51
loi du chi-deux n degrs de libert. Le thorme de Cochran, trs utile dans la suite, assure que la dcomposition dun vecteur gaussien sur des sous-espaces orthogonaux donne des variables indpendantes dont on peut expliciter les lois. Thorme 3.1 (Cochran) Soit Y N (, 2 In ), M un sous-espace de n de dimension p, P la matrice de projection orthogonale sur M et P = In P la matrice de projection orthogonale sur M . Nous avons les proprits suivantes : (i) P Y N (P , 2 P ) et P Y N (P , 2 P ) ; (ii) les vecteurs P Y et P Y = (Y P Y ) sont indpendants ; ) 2 P (Y ) 2 (iii) P (Y 2 2 2 p et n p . 2 Nous pouvons appliquer ce rsultat dans notre cadre, comme nous allons le voir en section suivante.
3.2.2
Nouvelles proprits
Notons au pralable que, pour ce qui nous concerne, la gaussianit des rsidus implique celle du vecteur Y : N (0, 2 In ) Y = X + N (X, 2 In ). Proprits 3.1 (Lois des estimateurs avec variance connue) Sous les hypothses (H), nous avons : est un vecteur gaussien de moyenne et de variance 2 (X X )1 : N (, 2 (X X )1 ) ; (i) et (ii) 2 sont indpendants ; 2 2 (iii) (n p) 2 n p . Preuve. = (X X )1 X Y = (X X )1 X (X + ), or par hypothse (i) Nous avons vu que 2 est lui aussi un vecteur gaussien, sa N (0, In ) est un vecteur gaussien. On en dduit que loi est donc entirement caractrise par la donne de sa moyenne et de sa matrice de dispersion, lesquelles ont t calcules au Chapitre 2 (Proposition 2.2). (ii) Comme dans le chapitre prcdent, notons M(X ) le sous-espace de n engendr par les colonnes de X et PX = X (X X )1 X la projection orthogonale sur ce sous-espace. On peut noter que : = (X X )1 X Y = (X X )1 X (X (X X )1 X )Y = (X X )1 X PX Y, est un vecteur alatoire fonction de PX Y , tandis que : donc 2 = 2 Y PX Y = np np
2
est une variable alatoire fonction de (Y PX Y ). Par le thorme de Cochran, nous savons que les vecteurs PX Y et (Y PX Y ) sont indpendants, il en va donc de mme pour toutes fonctions de lun et de lautre. Rgression Arnaud Guyader - Rennes 2
52
Chapitre 3. Le modle gaussien (iii) En notant PX la projection orthogonale sur M (X ), sous-espace de dimension (n p) de n , on a : = (Y PX Y ) = PX Y = PX (X + ) = PX , o N (0, 2 In ). Il sensuit par le thorme de Cochran que : (n p) PX 2 = 2 2
2
PX ( 2
[])
2 n p .
Bien entendu le premier point du rsultat prcdent nest pas satisfaisant pour obtenir des rgions de conance sur car il suppose la variance 2 connue, ce qui nest pas le cas en gnral. La proposition suivante pallie cette insusance. Proprits 3.2 (Lois des estimateurs avec variance inconnue) Sous les hypothses (H) : j j j j (i) pour j = 1, . . . , p, nous avons Tj = = T n p . j [(X X )1 ]jj (ii) Soit R une matrice de taille q p de rang q (q p) alors : 1 )) R(X X )1 R (R( q 2
1
) F q . R( n p
Cautious ! Lcriture (X X )1 jj signie le j -me terme diagonal de la matrice (X X )1 , et non linverse du j -me terme diagonal de la matrice (X X ). An dallger les critures, nous 1 1 crirons souvent (X X ) . jj au lieu de (X X ) jj Preuve. j N (j , 2 (X X )1 ), dautre (i) Daprs la proposition prcdente, on sait dune part que jj 2 2 2 sont indpendants. Il reste alors crire Tj sous part que (n p) 2 np et enn que j et la forme : Tj =
j j
1 (X X ) jj
pour reconnatre une loi de Student Tnp . (ii) Commenons par remarquer que la matrice carre R(X X )1 R de taille q est inversible puisque (X X )1 est de rang plein dans p , avec p q . En tant que transforme linaire est un vecteur gaussien de moyenne R et de matrice de covariance dun vecteur gaussien, R 2 1 R(X X ) R . On en dduit que : 1 )) R(X X )1 R (R( 2
1
) 2 . R( q
2 2 2 Il reste remplacer 2 par 2 en se souvenant que (n p) np et du fait que et sont 2 indpendants. On obtient bien alors la loi de Fisher annonce.
De ces rsultats vont dcouler les rgions de conance de la section suivante. Auparavant, donnons un exemple illustrant le second point que lon vient dtablir.
Rgression
3.2. Lois des estimateurs Exemple. Considrons le cas p = q = 2 et la matrice R = I2 , de sorte que ) = R( 1 1 2 2 .
53
Si la constante fait partie du modle, X est la matrice n 2 dont la premire colonne est uniquement compose de 1 et la seconde est compose des xi , si bien que X X = et le point (ii) scrit 1 1 1 )2 + 2nx 1 1 )( 2 2 ) + n( ( 2 2
2 2 Fn x2 2 , i (2 2 )
1 (xi x )2
n xi
xi x2 i
n nx nx x2 i
qui est exactement le rsultat de la Proprit 1.3 (iii), permettant de construire une ellipse de conance pour = (1 , 2 ). Plus gnralement, si p = q et R = Ip , nous avons 1 ) F p , ( ) (X X )( n p p 2 pour . Ce rsultat est la base de la distance dnissant un ellipsode de conance centr en de Cook dnie en Chapitre 4, Section 4.3.
3.2.3
Intervalles et rgions de conance
Les logiciels et certains ouvrages donnent des intervalles de conance (IC) pour les paramtres pris sparment. Cependant ces intervalles de conance ne tiennent pas compte de la dpendance des paramtres, ce qui conduirait construire plutt des rgions de conance (RC). Nous allons donc traiter les deux cas, en considrant que 2 est inconnu. Thorme 3.2 (Intervalles et Rgions de Conance) (i) Pour tout j {1, , p}, un intervalle de conance de niveau (1 ) pour j est : j tnp (1 /2)
1 (X X ) jj , j + tnp (1 /2) 1 (X X ) jj ,
o tnp (1 /2) est le quantile de niveau (1 /2) dune loi de Student Tnp . (ii) Un intervalle de conance de niveau (1 ) pour 2 est : (n p) 2 (n p) 2 , , cnp (1 /2) cnp (/2) o cnp (1 /2) est le quantile de niveau (1 /2) dune loi 2 n p . (iii) Une rgion de conance de niveau (1 ) pour q (q p) paramtres j nots (j1 , , jq ) est lensemble des (j1 , , jq ) tels que 1 )) (R(X X )1 R )1 (R( )) f q (1 ), (R( n p q 2 (3.1)
o R est la matrice de taille q p dont tous les lments sont nuls sauf les Ri,ji , qui valent 1, q q et fn p (1 ) est le quantile de niveau (1 ) dune loi de Fisher Fnp . Preuve. Il sut dappliquer les rsultats de la Proposition 3.2. Rgression Arnaud Guyader - Rennes 2
54
Exemple. Considrons p 2, q = 2 et la matrice R dnie comme suit : R= de sorte que ) = R( 1 0 0 0 0 1 0 0 1 1 2 2 0 0 ,
Si on note cij le terme gnral de (X X )1 , le point (iii) permet dobtenir une rgion de conance simultane RC (1 , 2 ) pour (1 , 2 ) : (1 , 2 ) 2 : 1 1 )2 2c12 ( 1 1 )( 2 2 ) + c11 ( 2 2 )2 c22 ( 2 fn p (1 ) . 2 2 2 (c11 c22 c12 )
1 et 2 . La gure Cette rgion de conance est une ellipse qui tient compte de la corrlation entre 1 et 2 3.1 permet de faire le distinguo entre intervalles de conance considrs sparment pour et rgion de conance simultane pour (1 , 2 ).
0
1
Figure 3.1 Comparaison entre ellipse et rectangle de conance.
3.2.4
Prvision
Soit x n+1 = [xn+1,1 , , xn+1,p ] une nouvelle valeur pour laquelle nous voulons prdire la variable expliquer yn+1 dnie par : yn+1 = x n+1 + n+1 avec n+1 N (0, 2 ) indpendant des (i )1in . A partir des n observations prcdentes, nous de . Nous nous servons de cet estimateur pour prvoir yn+1 avons pu calculer un estimateur par : y n+1 = x n+1 . Arnaud Guyader - Rennes 2 Rgression
3.3. Tests dhypothses Pour quantier lerreur de prvision (yn+1 y n+1 ), on utilise la dcomposition : yn+1 y n+1 = x n+1 ( ) + n+1 , est construit partir des qui est la somme de deux variables gaussiennes indpendantes puisque (i )1in . On en dduit que (yn+1 y n+1 ) est une variable gaussienne, dont moyenne et variance ont t calcules au chapitre prcdent, ce qui donne :
1 yn+1 y n+1 N (0, 2 (1 + x n+1 (X X ) xn+1 ))
55
Mieux, nous pouvons maintenant donner un intervalle de conance pour yn+1 . Proposition 3.2 (Intervalle de Conance pour la prvision) Un intervalle de conance de niveau (1 ) pour yn+1 est donn par : x n+1 + tnp (/2)
1 1 + x n+1 (X X ) xn+1 , xn+1 tnp (/2) 1 1 + x n+1 (X X ) xn+1
Preuve. Daprs ce qui a t dit auparavant, on a : yn+1 y n+1 N (0, 1).
1 1 + x n+1 (X X ) xn+1
On procde donc comme dhabitude en faisant intervenir : yn+1 y n+1 =
yn+1 y n+1 X )1 x 1+x ( X n+1 n+1
1 1 + x n+1 (X X ) xn+1
On remarque que le numrateur suit une loi normale centre rduite, le dnominateur est la racine dun chi-deux (n p) ddl divis par (n p). Il reste voir que numrateur et dnominateur ) + n+1 et (cf. sont indpendants, or yn+1 y n+1 = xn+1 ( est indpendant la fois de Proprits 3.1) et de n+1 (puisque ne dpend que des (i )1in ). On en conclut que :
1 1 + x n+1 (X X ) xn+1
yn+1 y n+1
T n p ,
do se dduit lintervalle de conance de lnonc. Aprs avoir explicit les lois de nos estimateurs et les intervalles ou rgions de conance associs, tout est prt pour construire des tests dhypothses. Cest ce que nous allons faire dans la section suivante.
3.3
3.3.1
Tests dhypothses
Introduction
Reprenons lexemple de la prvision des pics dozone vu en dbut de Chapitre 2. Nous avons dcid de modliser les pics dozone O3 par la temprature midi T , le vent V (ou plus prcisment sa projection sur laxe Est-Ouest) et la nbulosit midi N . Il parat alors raisonnable de se poser par exemple les questions suivantes : 1. Est-ce que la valeur de O3 est inuence par la variable vent V ? Rgression Arnaud Guyader - Rennes 2
56 2. Y a-t-il un eet nbulosit ?
3. Est-ce que la valeur de O3 est inuence par le vent V ou la temprature T ? Rappelons que le modle utilis est le suivant : O3i = 1 + 2 Ti + 3 Vi + 4 Ni + i En termes de tests dhypothses, les questions ci-dessus se traduisent comme suit : 1. correspond H0 : 3 = 0, contre H1 : 3 = 0. 2. correspond H0 : 4 = 0, contre H1 : 4 = 0. 3. correspond H0 : 2 = 3 = 0, contre H1 : 2 = 0 ou 3 = 0. Ces tests dhypothses reviennent tester la nullit dun ou plusieurs paramtres en mme temps. Si lon teste plusieurs paramtres la fois, on parle de nullit simultane des coecients. Ceci signie que, sous lhypthse H0 , certains coecients sont nuls, donc les variables correspondant ceux-ci ne sont pas utiles pour la modlisation du phnomne. Ce cas de gure revient comparer deux modles embots, lun tant un cas particulier de lautre. Le plan dexprience priv de ces variables sera not X0 et les colonnes de X0 engendreront un sous-espace not M0 = M(X0 ). De mme, pour allger les notations, nous noterons M = M(X ) lespace engendr par les colonnes de X . Le niveau de risque des tests sera x de faon classique .
3.3.2
Tests entre modles embots
Rappelons tout dabord le modle : Y = X + sous les hypothses (H) (H1 ) : rg(X ) = p (H2 ) : N (0, 2 In )
En particulier, cela veut dire que [Y ] = X M, sous-espace de dimension p de n engendr par les p colonnes de X . Pour faciliter les notations, on suppose vouloir tester la nullit simultane des q = (p p0 ) derniers coecients du modle (avec q p of course !). Le problme scrit alors de la faon suivante : H0 : p0 +1 = = p = 0 contre H1 : j {p0 + 1, , p} : j = 0.
Que signie H0 : p0 +1 = = p = 0 en termes de modle ? Si les q derniers coecients sont nuls, le modle devient Y = X0 0 + 0 sous les hypothses (H) (H1 ) : rg(X0 ) = p0 (H2 ) : 0 N (0, 2 In )
La matrice X0 , de taille n p0 , est compose des p0 premires colonnes de X et 0 est un vecteur colonne de taille p0 . Puisque X est suppose de rang p, il est clair que X0 est de rang p0 , donc les colonnes de X0 engendrent un sous-espace M0 de n de dimension p0 . Ce sous-espace M0 est bien videmment aussi un sous-espace de M. Sous lhypothse nulle H0 , lesprance de Y , savoir [Y ] = X0 0 , appartiendra ce sous-espace M0 . Maintenant que les hypothses du test sont xes, il faut proposer une statistique de test. Nous allons voir une approche gomtrique et intuitive de laaire. Arnaud Guyader - Rennes 2 Rgression
3.3. Tests dhypothses Approche gomtrique Considrons le sous-espace M0 . Nous avons crit que sous H0 : [Y ] = X0 0 M0 . Dans ce cas, , mais sur M0 la mthode des moindres carrs consiste projeter Y non plus sur M et obtenir Y 0 . Visualisons ces direntes projections sur la gure 3.2. et obtenir Y
57
Y 0 Y M M0
Figure 3.2 Reprsentation des projections. Lide intuitive du test, et donc du choix de conserver ou non H0 , est la suivante : si la projection 0 de Y dans M0 est proche de la projection Y de Y dans M, alors il semble intuitif de conserver Y lhypothse nulle. En eet, si linformation apporte par les deux modles est peu prs la mme, il vaut mieux conserver le modle le plus petit : cest le principe de parcimonie. Il faut videmment quantier le terme proche. Pour ce faire, nous pouvons utiliser la distance 0 et Y , ou son carr Y Y 0 2 . Mais cette distance sera variable selon les euclidienne entre Y donnes et les units de mesures utilises. Pour nous aranchir de ce problme dchelle, nous 2= allons standardiser cette distance en la divisant par la norme au carr de lerreur estime 2 2 nappartenant pas des sous-espaces Y Y = (n p) . Les vecteurs alatoires (Y Y0 ) et de mme dimension, il faut encore diviser chaque terme par son degr de libert respectif, soit q = p p0 et n p. Toute cette tambouille nous mne la statistique de test suivante : F = Y 0 2 /(p p0 ) Y 0 2 /q Y Y = . 2 /(n p) 2 /(n p) Y Y Y Y
Pour utiliser cette statistique de test, il faut connatre au moins sa loi sous H0 . Remarquons quelle correspond au rapport de deux normes au carr. Nous allons dterminer la loi du numrateur, celle du dnominateur et constater leur indpendance. En notant P (resp. P0 ) la matrice de projection orthogonale sur M (resp. M0 ), nous savons que : Y 0 = P Y P0 Y, Y or M0 M donc P0 Y = P0 P Y et :
Y 0 = P Y P0 P Y = (In P0 )P Y = P P Y. Y 0 Arnaud Guyader - Rennes 2
Rgression
58
Chapitre 3. Le modle gaussien Y 0 ) (Y Y ) puisque (Y Y ) M . Y 0 ) M M, donc que (Y Nous en dduisons que (Y 0 La gure 3.2 permet de visualier ces notions dorthogonalit de faon gomtrique. Les vecteurs Y 0 ) et (Y Y ) sont lments despaces orthogonaux, cest--dire quils ont une coalatoires (Y variance nulle. Puisque tout est gaussien, ils sont donc indpendants et les normes du numrateur et du dnominateur sont indpendantes galement. Le thorme de Cochran nous renseigne par ailleurs sur les lois des numrateur et dnominateur. Pour le dnominateur : 1 Y Y 2 et pour le numrateur :
2
1 P Y 2
1 P (X + ) 2
2
1 P 2
2 n p ,
1 P P (Y X ) 2 0
2
2 q.
P X Sous H0 , le paramtre de dcentrage P0
est nul puisque dans ce cas X M0 .
Nous avons alors la loi de F sous H0 :

q F Fn p .
Notons une criture quivalente souvent utilise, donc importante : F = n p SCR0 SCR q Fn p . q SCR
Y 0 2 = (SCR0 SCR) peut se voir facilement en utilisant la gure 3.2 et en La relation Y appliquant le thorme de Pythagore : 0 Y Y
2
= = =
+ P0 PY 2 2+ Y Y 0 2 , Y Y
Y P Y + P Y P0 Y P Y
2
= P Y + (In P0 )P Y
= P Y + P0 PY
cest--dire : Y 0 Y Rsumons ce qui prcde. Proposition 3.3 (Test entre modles embots) Sous lhypothse H0 , on a la statistique de test suivante F = Y 0 np Y q Y Y
2 2 2
0 = Y Y
Y Y
= SCR0 SCR.
n p SCR0 SCR q Fn p , q SCR
loi de Fisher (q, n p) degrs de libert. Preuve. Alternativement la preuve gomtrique ci-dessus, il est possible de dmontrer ce rsultat en appliquant brutalement la Proprit 3.2 (ii) avec pour R la matrice q p dnie par blocs comme suit : R = [0|Iq ]. On sait en eet que 1 )) R(X X )1 R (R( q 2 Arnaud Guyader - Rennes 2
1
) F q . R( n p Rgression
3.3. Tests dhypothses Sous lhypothse H0 , il vient R = 0, donc ) = [ p +1 , . . . , p ] . R( 0 0 ], la formule dinversion matricielle par blocs (B.2) rappele Dautre part, si lon note X = [X0 |X en Annexe assure que 1 (In P0 )X 0 R(X X )1 R =X 0 de sorte que )) R(X X )1 R (R(
1
59
) = [ p +1 , . . . , p ]X p +1 , . . . , p ] (I P0 )X 0 [ R( 0 0 0
Puisque (In P0 ) est le projecteur (orthogonal) sur M 0 , il est idempotent, donc )) R(X X )1 R (R( Il faut maintenant voir que = 1 X1 + + p Xp = ( 1 X1 + + p Xp ) + ( p +1 Xp +1 + + p Xp ) = X Y 0 0 0 tandis que, via M0 M, on a P0 P = P0 donc ) = ( 1 P0 X1 + + p P0 Xp )+( p +1 P0 Xp +1 + + p P0 Xp ) 0 = P0 Y = P0 P Y = P0 Y = P0 (X Y 0 0 0 et puisque P0 X1 = X1 , . . . , P0 Xp0 = Xp0 , il vient 1 X1 + + p Xp ) + ( p +1 P0 Xp +1 + + p P0 Xp ) 0 = ( Y 0 0 0 Ainsi ou encore cest--dire Il reste se souvenir que 2 = pour arriver au rsultat voulu. p +1 Xp +1 + + p Xp ) ( p +1 P0 Xp +1 + + p P0 Xp ) Y 0 = ( Y 0 0 0 0 p +1 Xp +1 + + p Xp ) Y 0 = (In P0 )( Y 0 0 p +1 , . . . , p ] . Y 0 = (In P0 )X 0 [ Y 0 Y Y np
2 1
) = (In P0 )X p +1 , . . . , p ] 0 [ R( 0
Remarque. En supposant que la constante fait partie des deux modles (ou ne fait partie daucun dentre eux), la statistique de test prcdente peut aussi scrire en fonction des coecients de 2 comme suit (exercice) : dtermination respectifs R2 et R0 F =
2 n p R 2 R0 . q 1 R2
Ainsi, si lon dispose des coecients de dtermination dans deux modles embots, il sut de calculer cette statistique et de la comparer au quantile dune loi de Fisher pour eectuer le test dhypothse. Nous allons maintenant expliciter cette statistique de test dans deux cas particuliers. Rgression Arnaud Guyader - Rennes 2
60
3.3.3
Test de Student de signication dun coecient
Nous voulons tester H0 : j = 0 contre H1 : j = 0, appel test bilatral de signicativit de j . Selon ce quon vient de voir, la statistique de test est : Y 0 2 Y . 2 Nous rejetons H0 si lobservation de la statistique de test, note F (w), est telle que : F =
1 F (w) > fn p (1 ), 1 (1 ) est le quantile dordre (1 ) dune loi de Fisher 1 et (n p) degrs de libert. o fn p
Ce test est en fait quivalent au test de Student (n p) degrs de libert qui permet de tester H0 : j = 0 contre H1 : j = 0, avec cette fois la statistique de test : T = j , j
o tnp (1 /2) est le quantile dordre (1 /2) dune loi de Student (n p) degrs de libert. Cest sous cette forme que le test de signicativit dun coecient apparat dans tous les logiciels de statistique. Il est donc compltement quivalent au test gnral que nous avons propos, lorsquon spcialise celui-ci la nullit dun seul coecient.
1 2 o j = (X X ) j = jj est lcart-type estim de j . On peut en eet montrer que F = T (voir exercice 3.3). Nous rejetons H0 si lobservation de la statistique de test, note T (w), est telle que : |T (w)| > tnp (1 /2),
3.3.4
Test de Fisher global
Si des connaissances a priori du phnomne assurent lexistence dun terme constant dans la rgression, alors pour tester linuence des autres rgresseurs (non constants) sur la rponse Y , on regarde si [Y ] = 1 . En dautres termes, on teste si tous les coecients sont nuls, except la constante. 0 = y Ce test est appel test de Fisher global. Dans ce cas Y et nous avons la statistique de test suivante : y Y 2 /(p 1) p 1 Fn F = p . 2 Y Y /(n p) On peut aussi lexprimer partir du coecient de dtermination R2 vu au Chapitre 2 : F = np R2 . p 1 1 R2
Ce test est appel le test du R2 par certains logiciels statistiques.
3.3.5
Lien avec le Rapport de Vraisemblance Maximale
Nous allons maintenant faire le lien entre le test gnral que nous avons propos et le test du rapport de vraisemblance maximale. Nous avons vu en dbut du chapitre que la vraisemblance scrit de la faon suivante : L(Y, , ) = Arnaud Guyader - Rennes 2
2
1 2 2
n/2
exp
1 Y X 2 2
. Rgression
3.3. Tests dhypothses

2 est lestimateur des MCO et que 2 = Cette vraisemblance est maximale lorsque = mv = 2 ||Y X || /n. Nous avons alors : ,2 2 sup L(Y, , 2 ) = L(Y, , mv )
61
= =
n n 2SCR ||2 2 ||Y X

n/2
n
n/2
e 2
e 2 ,
||2 . Sous lhyo SCR correspond la somme des carrs rsiduels, cest--dire SCR = ||Y X pothse H0 , nous obtenons de faon vidente le rsultat suivant : sup L0 (Y, 0 , ) =
2
,2
n 2SCR0
n/2
n 2 0 , e 2 = L0 (Y, 0 ),
0 ||2 , o SCR0 correspond la somme des carrs rsiduels sous H0 , cest--dire SCR0 = ||Y X0 2 et 0 = SCR0 /n. On dnit alors le test du Rapport de Vraisemblance Maximale par la rgion critique : D = Y n : =
2) 0 , L0 (Y, 0 < 0 L(Y, , 2 ) mv
La statistique du Rapport de Vraisemblance Maximale vaut donc ici : = SCR0 SCR

n/2
Le test du Rapport de Vraisemblance Maximale rejette H0 lorsque la statistique est infrieure une valeur 0 dnie de faon avoir le niveau du test gal . Il reste connatre la distribution (au moins sous H0 ) de . Dnissons, pour positif, la fonction g suivante : g() = 2/n 1. La fonction g est dcroissante donc < 0 si et seulement si g() > g(0 ). Cette fonction g va nous permettre de nous ramener des statistiques dont la loi est connue. Nous avons en eet : g() > g(0 ) o f0 est dtermin par : np SCR0 SCR SCR0 SCR > g(0 ) > f0 , SCR p p0 SCR np SCR0 SCR > f0 p p0 SCR
H0
= ,
q q cest--dire f0 = fn p (1 ), quantile de la loi de Fisher Fnp (cf. section prcdente). Le test du Rapport de Vraisemblance Maximale est donc quivalent au test qui rejette H0 lorsque la statistique :
F =
SCR0 SCR np p p0 SCR
est suprieure f0 , o f0 la valeur du quantile dordre (1 ) de la loi de Fisher (p p0 , n p) degrs de libert. Ainsi le test gomtrique que nous avons propos est quivalent au test du Rapport de Vraisemblance Maximale. Rgression Arnaud Guyader - Rennes 2
62
3.4
Estimation sous contraintes
Lespace des solutions est M. Tous les vecteurs de M peuvent scrire comme combinaisons linaires des vecteurs colonnes de X . Il arrive parfois que nous souhaitions imposer des contraintes linaires , par exemple que la premire coordonne de soit gale 1. Nous supposerons en gnral que nous imposons q contraintes linairement indpendantes , ce qui scrit sous la forme : R = r , o Rqp est une matrice de rang q < p et r un vecteur de taille q . Proprits 3.3 c , vaut : Lestimateur des Moindres Carrs Ordinaires sous contrainte, not c = + (X X )1 R [R(X X )1 R ]1 (r R ). Preuve. Nous voulons minimiser S ( ) sous la contrainte R = r . Ecrivons le lagrangien : L = S ( ) (R r ). Les conditions de Lagrange permettent dobtenir un minimum : L c R = 0, = 2X Y + 2X X c r = 0, L = R
Multiplions gauche la premire galit par R(X X )1 , nous obtenons c R(X X )1 R = 0 2R(X X )1 X Y + 2R(X X )1 X X c R(X X )1 R = 0 2R(X X )1 X Y + 2R = 0. 2R(X X )1 X Y + 2r R(X X )1 R
: Nous obtenons alors pour = 2 R(X X )1 R

1
r R(X X )1 X Y .
par cette expression dans la premire quation : Remplaons ensuite c 2R R(X X )1 R 2X Y + 2X X c : do nous dduisons c = (X X )1 X Y + (X X )1 R R(X X )1 R + (X X )1 R R(X X )1 R =
1 1 1
r R(X X )1 X Y = 0,
). (r R
) (r R
3.5
Exemple
Nous allons traiter 50 donnes journalires prsentes en annexe. La variable expliquer est la concentration en ozone note O3 et les variables explicatives sont la temprature T12, le vent Vx et la nbulosit Ne12. > a <- lm(O3 T12+Vx+Ne12,data=DONNEE) > summary(a) Arnaud Guyader - Rennes 2 Rgression
3.6. Exercices Call: lm(formula = O3 T12 + Vx + Ne12, data = DONNEE)) Residuals: Min -29.0441 Coefficients : (Intercept) T12 Vx Ne12 Estimate 84.5483 1.3150 0.4864 -4.8935 Std. Error 13.6065 0.4974 0.1675 1.0270 t value 6.214 2.644 2.903 -4.765 Pr(>|t|) 1.38e-07 0.01118 0.00565 1.93e-05 *** * ** *** 1Q -8.4833 Median 0.7857 3Q 7.7011 Max 28.2919
63
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 13.91 on 46 degrees of freedom Multiple R-Squared: 0.6819, Adjusted R-squared: 0.6611 F-statistic: 32.87 on 3 and 46 DF, p-value: 1.663e-11 Pour tous les coecients pris sparment, nous refusons au seuil = 5% lhypothse H0 : j = 0. La dernire ligne de la sortie du logiciel donne la statistique du test de Fisher global : Tous les coecients sont nuls sauf la constante. Nous avions 50 observations, nous avons estim 4 paramtres et donc les degrs de libert de la loi de Fisher sont bien (3,46). Nous refusons nouveau H0 . De faon gnrale, il est clair qu moins davoir propos nimporte quoi comme rgresseurs, ce test est toujours rejet...
3.6
Exercices
Exercice 3.1 (QCM) 1. Nous pouvons justier les MC quand N (0, 2 I ) via lapplication du maximum de vraisemblance : A. Oui ; B. Non ; C. Aucun rapport entre les deux mthodes. des MC et du maximum de vraisemblance ? 2. Y a-t-il une dirence entre les estimateurs A. Oui ; B. Non ; C. Pas toujours, cela dpend de la loi des erreurs. 3. Y a-t-il une dirence entre les estimateurs 2 des MC et 2 du maximum de vraisemblance 2 quand N (0, I ) ? A. Oui ; B. Non ; C. Pas toujours, cela dpend de la loi des erreurs. 4. Le rectangle form par les intervalles de conance de niveau individuels de 1 et 2 correspond la rgion de conance simultane de niveau de la paire (1 , 2 ). A. Oui ; B. Non ; C. Cela dpend des donnes. Rgression Arnaud Guyader - Rennes 2
64
Chapitre 3. Le modle gaussien 5. Nous avons n observations et p variables explicatives, nous supposons que suit une loi normale, nous voulons tester H0 : 2 = 3 = 4 = 0. Quelle va tre la loi de la statistique de test ? A. Fp3,np ; B. F3,np ; C. Une autre loi. Exercice 3.2 (Analyse de sorties logiciel) Nous voulons expliquer la concentration de lozone sur Rennes en fonction des variables T9, T12, Ne9, Ne12 et Vx. Les sorties donnes par R sont ( une vache prs) : Coefficients : (Intercept) T9 T12 Ne9 Ne12 Vx Estimate 62 -4 5 -1.5 -0.5 0.8 Std. Error 10 2 0.75 1 0.5 0.15 t value 1 -5 3 4 5 5.3 Pr(>|t|) 0 0 0 0.13 0.32 0
Multiple R-Squared: 0.6233, Adjusted R-squared: 0.6081 Residual standard error: 16 on 124 degrees of freedom F-statistic: 6 on 7 and 8 DF, p-value: 0
1. Complter approximativement la sortie ci-dessus. 2. Rappeler la statistique de test et tester la nullit des paramtres sparment au seuil de 5 %. 3. Rappeler la statistique de test et tester la nullit simultane des paramtres autres que la constante au seuil de 5 %. 4. Les variables Ne9 et Ne12 ne semblent pas inuentes et nous souhaitons tester la nullit simultane de Ne9 et Ne12 . Proposer un test et leectuer partir des rsultats numriques suivants : Coefficients : (Intercept) T9 T12 Vx Estimate 66 -5 6 1 Std. Error 11 1 0.75 0.2 t value 6 -5 8 5 Pr(>|t|) 0 0 0 0
Multiple R-Squared: 0.5312, Adjusted R-squared: 0.52 Residual standard error: 16.5 on 126 degrees of freedom Exercice 3.3 (Equivalence du test T et du test F ) On souhaite montrer lquivalence entre les tests de Student et de Fisher pour la nullit dun paramtre. On considre donc le modle Y = X + sous les hypothses classiques, pour lequel on veut tester la nullit du dernier coecient p . Arnaud Guyader - Rennes 2 Rgression
3.6. Exercices 1. Rappeler la statistique T du test de Student sous lhypothse H0 : p = 0. 2. Donner la statistique F du test de Fisher pour les modles embots correspondants. 3. Soit Tn une variable suivant une loi de Student n degrs de libert. Rappeler sa dnition 2. et en dduire la loi suivie par la variable Fn = Tn 4. On note la matrice du plan dexprience sous forme bloc X = [X0 |Xp ], o X0 = [X1 | . . . |Xp1 ] est la matrice n (p 1) des (p 1) premires colonnes de X , et Xp est sa dernire colonne. Ecrire la matrice X X sous forme de 4 blocs. 5. Grce la formule dinversion matricielle par blocs, en dduire que
[(X X )1 ]pp = (Xp (In P0 )Xp )1
65
o P0 est la matrice n n de projection orthogonale sur lespace M0 engendr par les colonnes de X0 . et Y 0 les projets orthogonaux de Y sur M et M0 , et en justiant le fait que 6. En notant Y 0 = P0 Y = P0 P Y = P0 Y Y montrer que p (In P0 )Xp Y 0 = Y
7. En dduire que F = T 2 et conclure. Exercice 3.4 (Un modle 3 variables explicatives) On considre un modle de rgression de la forme : yi = 1 + 2 xi,2 + 3 xi,3 + 4 xi,4 + i , 1 i n.
On admettra que
Un calcul prliminaire a donn 50 0 0 0 0 20 15 4 X X = 0 15 30 10 0 4 10 40
Les xi,j sont supposes non alatoires. Les erreurs i du modle sont supposes alatoires indpendantes gaussiennes centres de mme variance 2 . On pose comme dhabitude : 1 y1 1 x1,2 x1,3 x1,4 2 . . . . . . X= . , Y = . . , = . . . . 3 yn 1 xn,2 xn,3 xn,4
4
100 50 X Y = 40 , 80
Y Y = 640.
, estimateur des moindres carrs de , la somme des carrs des rsidus 1. Calculer et donner lestimateur de 2 .
1 20 15 4 1100 560 30 1 15 30 10 = 560 784 140 . 13720 4 10 40 30 140 375
50 2 i, i=1
2. Donner un intervalle de conance pour 2 , au niveau 95%. Faire de mme pour 2 (on donne c1 = 29 et c2 = 66 pour les quantiles dordre 2,5% et 97,5% dun chi-deux 46 ddl). Rgression Arnaud Guyader - Rennes 2
66

3 (0, 95) = 3. Tester la validit globale du modle (2 = 3 = 4 = 0) au niveau 5% (on donne f46 2.80 pour le quantile dordre 95% dune Fisher (3,46) ddl).
4. On suppose x51,2 = 1, x51,3 = 1 et x51,4 = 0, 5. Donner un intervalle de prvision 95% pour y51 . Exercice 3.5 (Modle de Cobb-Douglas) Nous disposons pour n entreprises de la valeur du capital Ki , de lemploi Li et de la valeur ajoute Vi . Nous supposons que la fonction de production de ces entreprises est du type Cobb-Douglas :
Vi = L i Ki ,
soit en passant en logarithmes : log Vi = + log Li + log Ki . Le modle linaire associ est : log Vi = + log Li + log Ki + i , o les i sont supposes i.i.d. de loi N (0, 2 ). 1. Ecrivez le modle sous la forme matricielle Y = Xb + en prcisant Y , X et b. Rappelez lexpression de lestimateur des MCO b. Donnez sa matrice de variance-covariance. Donnez un estimateur sans biais de 2 et un estimateur sans biais de Var( b). 2. Pour 1658 entreprises, nous avons obtenu par les MCO les rsultats suivants : log Vi = 3.136 + 0.738 log Li + 0.282 log Ki R2 = 0.945 SCR = 148.27. Nous donnons aussi : (X X )1 0.0288 0.0012 0.0034 = 0.0012 0.0016 0.0010 0.0034 0.0010 0.0009 (3.2)
Calculez 2 et une estimation de Var( b). 3. Donnez un intervalle de conance au niveau 95% pour . Mme question pour . 4. Testez au niveau 5% H0 : = 0, contre H1 : > 0. 5. Nous voulons tester lhypothse selon laquelle les rendements dchelle sont constants (une fonction de production F est rendement dchelle constant si + , F (L, K ) = F (L, K )). Quelles sont les contraintes vries par le modle lorsque les rendements dchelle sont constants ? Tester au niveau 5% H0 : les rendements sont constants, contre H1 : les rendements sont croissants. Exercice 3.6 (Modle deux variables explicatives) On considre le modle de rgression suivant : yi = 1 + 2 xi,2 + 3 xi,3 + i , Arnaud Guyader - Rennes 2 1 i n. Rgression
3.6. Exercices Les xi,j sont des variables exognes du modle, les i sont des variables alatoires indpendantes, de loi normale centre admettant la mme variance 2 . En posant : y1 1 x1,2 x1,3 . . . . . . X= . . , . et Y = . . . yn 1 xn,2 xn,3 30 20 0 X X = 20 20 0 , 0 0 10 15 X Y = 20 , 10
67
on a observ :
Y Y = 59.5.
1. Dterminer la valeur de n, la moyenne des xi,3 , le coecient de corrlation des xi,2 et des xi,3 . 2. Estimer 1 , 2 , 3 , 2 par la mthode des moindres carrs ordinaires. 3. Calculer pour 2 un intervalle de conance 95% et tester lhypothse 3 = 0.8 au niveau 10%. 4. Tester 2 + 3 = 3 contre 2 + 3 = 3, au niveau 5%. 5. Que vaut y , moyenne empirique des yi ? En dduire le coecient de dtermination ajust 2 Ra . 6. Construire un intervalle de prvision 95% de yn+1 connaissant : xn+1,2 = 3 et xn+1,3 = 0, 5. Exercice 3.7 (Modle htroscdastique) On considre n observations y1 , . . . , yn dune variable dnie sur une certaine population, et n kuplets xi (x i = [xi1 , . . . , xik ]) correspondant aux valeurs prises par k autres variables sur les mmes lments de cette population. On suppose que pour tout i, yi est la valeur prise par une variable alatoire Yi , et quil existe k pour lequel :
2 Y i N x i , i
1 i n,
o : reprsente un vecteur de k : = [1 , . . . , k ] , Les Yi sont supposes indpendantes entre elles. 2 des variances dpendent de lappartenance p sous-populations des lments Enn, les valeurs i sur lesquels les variables sont observes. En regroupant les indices des Yi selon ces sous-populations, on posera : I1 = {1, . . . , n1 }, indices des n1 lments de la premire sous-population ; I2 = {n1 + 1, . . . , n1 + n2 }, indices des n2 lments de la deuxime sous-population ; ... ; I = {n1 + . . . + n1 + 1, . . . , n1 + . . . + n1 + n }, indices des n lments de la -me souspopulation ; ... ; Ip = {n1 + . . . + np1 + 1, . . . , n}, indices des np lments de la dernire sous-population.
2 = 2 . Autrement dit, pour les n variables On admettra lhypothse suivante : si i I , i 1 correspondant aux lments de la premire sous-population la valeur est 2 , pour les n2 variables correspondant aux lments de la deuxime sous-population la valeur est 2 2 , etc., jusqu p 2 pour la variance des variables correspondant aux lments de la dernire sous-population. On veut , estimer et 2 par la mthode du maximum de vraisemblance. On notera 2 ces estimateurs.
Rgression
68

2 1. Que vaut fYi (yi ), fYi reprsentant la densit de la loi normale N x i , i et 2. Montrer que 2 sont solutions du systme dquations : p 1 =1 iI (yi p 1 =1 2 2 x i ) = n iI (yi xi ) xij = 0.
j = 1, . . . , k
(3.3)
3. Montrer que le systme (3.3) quivaut : A (Y X ) 2 = n 2 X A2 (Y X ) = 0. (3.4)
et 4. En supposant que X A2 X est inversible, exprimer 2. 5. Montrer que n 2 = V 6. En dduire que V

2 2
o . 2 reprsente la norme euclidienne usuelle dans n , X la matrice (n k) du plan dexprience, Y le vecteur (n 1) des observations yi , A la matrice (n n) diagonale dont 1 llment (i, i) vaut si i Il . l , o V suit une loi gaussienne centre. est la trace de la matrice de variance-covariance de V .
8. On note X la matrice (n k) forme par les lignes dindices I de X , suppose de rang = plein, Y le vecteur colonne (n 1) des composantes dindices I de Y . En posant 1 (X X ) X Y , montrer que est un estimateur sans biais de . et de ? 9. Que peut-on dire de la dirence des matrices de variance-covariance de Exercice 3.8 (La hauteur des eucalyptus) On souhaite expliquer la hauteur y (en mtres) dun arbre en fonction de sa circonfrence x (en centimtres) 1m30 du sol et de la racine carre de celle-ci. On a relev n = 1429 couples (xi , yi ), le nuage de points tant reprsent gure 3.3. On considre donc le modle de rgression suivant :
28
7. Montrer que n 2 /(n k) est un estimateur sans biais de 2 .
26
24
22
20
18
16
14
12
hauteur
Circonfrence
10 20 30 40 50 60 70 80
Figure 3.3 Nuage de points pour les eucalyptus.
yi = 1 + 2 xi + 3 xi + i , Arnaud Guyader - Rennes 2
1 i n. Rgression
3.6. Exercices Les i sont des variables alatoires indpendantes, de loi normale centre admettant la mme variance 2 . En posant : x1 y1 1 x1 . . . . . X= . . . . . et Y = . . , 1 xn xn yn on a observ : ? ? 9792 X X = ? 3306000 ? , ? 471200 67660 30310 X Y = 1462000 , 209700 Y Y = 651900.
69
1. Dterminer les ? dans la matrice X X . 2. Que vaut la circonfrence moyenne empirique x ? 3. Le calcul donne (en arrondissant !) 4.646 0.101 1.379 1 X X = 0.101 0.002 0.030 et 1.379 0.030 0.411 4. 5. 6. 7. 8. 9. 10.
1 , 2 , 3 par la mthode des moindres carrs ? Grce au calcul Que valent les estimateurs de quelques points, reprsenter la courbe obtenue sur la gure 3.3. Calculer lestimateur de 2 pour les moindres carrs. Calculer pour 3 un intervalle de conance 95%. Tester lhypothse 2 = 0 au niveau de risque 10%. Que vaut la hauteur moyenne empirique y ? En dduire le coecient de dtermination ajust 2 Ra . Construire un intervalle de prvision 95% de yn+1 connaissant xn+1 = 49. Construire un intervalle de prvision 95% de yn+1 connaissant xn+1 = 25. Des deux intervalles prcdents, lequel est le plus grand ? Pouvait-on sy attendre ?
16.8 (X X )1 X Y = 0.30 . 7.62
Exercice 3.9 (Consommation de gaz) Mr Derek Whiteside de la UK Building Research Station a collect la consommation hebdomadaire de gaz et la temprature moyenne externe de sa maison au sud-est de lAngleterre pendant une saison. Une rgression pour expliquer la consommation de gaz en fonction de la temprature est ralise avec le logiciel R. Les rsultats numriques sont les suivants. Residuals: Min 1Q -0.97802 -0.11082 Median 0.02672 3Q 0.25294 Max 0.63803
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.72385 0.12974 ? < 2e-16 *** Temp -0.27793 ? -11.04 1.05e-11 *** --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 0.3548 on 28 degrees of freedom Multiple R-Squared: 0.8131, Adjusted R-squared: 0.8064 F-statistic: 121.8 on 1 and 28 DF, p-value: 1.046e-11 Rgression Arnaud Guyader - Rennes 2
70 1. Donner le modle et les hypothses de la rgression. 2. Complter le tableau.
4. Prciser les lments du test correspondant la ligne Temp du tableau (H0 , H1 , la statistique de test, sa loi sous H0 , la rgle de dcision). 5. Interprter le nombre Multiple R-Squared: 0.8131 du tableau. 6. Donner une estimation de la variance du terme derreur dans le modle de rgression simple. 7. Expliquer et interprter la dernire ligne du tableau : F-statistic: 121.8 on 1 and 28 DF, p-value: 1.046e-11. Voyez-vous une autre faon dobtenir cette p-value ? 8. Pensez-vous que la temprature extrieure a un eet sur la consommation de gaz ? Justiez votre rponse. Exercice 3.10 (Tests) Nous nous intressons au modle Y = X + sous les hypothses classiques. Nous avons obtenu sur 21 donnes : y = 6.683(2.67) + 0.44(2.32) x1 + 0.425(2.47) x2 + 0.171(2.09) x3 + 0.009(2.24) x4 , R2 = 0.54 o, pour chaque coecient, le nombre entre parenthses reprsente la valeur absolue de la statistique de test. 1. Quelles sont les hypothses utilises ? 2. Tester la nullit de 1 au seuil de 5%. 3. Pouvez-vous tester H0 : 3 = 1 contre H1 : 3 = 1 ? 4. Tester la nullit simultane des paramtres associs aux variables x1 , . . . , x4 au seuil de 5%. Exercice 3.11 (Moindres carrs ordinaires) 1. Nous considrons le modle de rgression linaire Y = X + , o Y n , X est une matrice de taille n p de rang p, p et N (0, 2 In ). de ? Rappeler sa formule. (a) Quappelle-t-on estimateur des moindres carrs (faites un dessin) ? = X (b) Quelle est linterprtation gomtrique de Y , Y et . (c) Rappeler esprances et matrices de covariance de 2. Nous considrons dornavant un modle avec 4 variables explicatives (la premire variable tant la constante). Nous avons observ : 100 20 0 0 60 20 20 0 0 , X Y = 20 , Y Y = 159. X X = 0 0 10 0 10 0 0 0 1 1 (a) Estimer et 2 . Arnaud Guyader - Rennes 2
3. Soit Z une variable alatoire de loi de Student de degr de libert 28. Quelle est la probabilit que |Z | soit suprieure 11.04 ?
Rgression
3.6. Exercices . (b) Donner un estimateur de la variance de (c) Donner un intervalle de conance pour 2 , au niveau 95%. (d) Calculer un intervalle de prvision de yn+1 au niveau 95% connaissant : xn+1,2 = 3, xn+1,3 = 0.5 et xn+1,4 = 2. Exercice 3.12 (Moindres carrs pondrs) On suppose le modle suivant Y = X + , o X est la matrice (n p) du plan dexprience, = [1 , . . . , p ] un vecteur de p , Y le vecteur (n 1) des observations yi , le vecteur (n 1) des erreurs i supposes centres et de matrice de covariance Var() = 2 2 , o est une matrice (n n) diagonale dont llment (i, i) vaut i > 0. Dans ce modle, les valeurs i sont supposes connues, mais les paramtres et 2 sont inconnus. 1. On considre le modle transform Y = X + , o : , . . . , y ] , avec y = y / ; Y = [y1 i i n i X est la matrice (n p) de terme gnrique x ij = xij /i ; ] , avec = / ; , . . . , = [ i i n 1 i (a) Donner les relations entre X (respectivement Y , ), X (respectivement Y , ) et . (b) Dterminer la moyenne et la matrice de covariance du vecteur alatoire . de (c) En supposant X 2 X inversible, dterminer lestimateur des moindres carrs . Prciser son biais et sa matrice de covariance.
2 de 2 . (d) Proposer un estimateur sans biais
71
2. En revenant au modle initial Y = X + , on suppose maintenant les erreurs i gaussiennes, plus prcisment N (0, 2 2 ).
2 sont solutions mv et (b) En dduire que les estimateurs au maximum de vraisemblance mv de : 2 1 (Y X ) = n 2 X 2 (Y X ) = 0. 2 dautre part. 2 et mv et dune part, entre (c) En dduire les relations entre mv 2? . Que dire de celle de (d) Prciser alors la loi de
(a) Donner la vraisemblance L(Y, , 2 ) du modle.
3. Supposons maintenant le modle classique de rgression linaire Y = X + , avec les erreurs centres et de matrice de covariance Var() = 2 In . Nanmoins, on nobserve pas comme dhabitude les x i et yi , mais des moyennes par classe. Spciquement, les n donnes sont rparties en L classes C1 , . . . , CL deectifs respectifs connus n1 , . . . , nL et on a seulement accs aux moyennes par classe, savoir pour tout {1, . . . , L} : y = (a) En notant = . X +
1 n
1 n
yi
iC
&
x j =
1 n
xij
iC
iC i ,
= vrier que le modle peut se mettre sous la forme Y
. (b) Donner la moyenne et la matrice de covariance de (c) Dduire des questions prcdentes des estimateurs de et 2 . Rgression Arnaud Guyader - Rennes 2
72
Chapitre 3. Le modle gaussien Exercice 3.13 (Octopuss Garden) On cherche mettre en uvre une stratgie de prdiction du poids utile du poulpe, cest--dire son poids viscr, partir de son poids non viscr. Cest en eet le poulpe viscr qui est commercialis. Pour cela, un chantillon de poulpes a t collect en 2003 lors des oprations de pche dans les eaux mauritaniennes. Vu limportante dirence de poids entre les poulpes mles et les poulpes femelles, on tudie ici uniquement les donnes concernant 240 poulpes femelles.
2000 Poids viscr 0 0 500 1000 1500
500
1000
1500
2000
2500
Poids non viscr
Figure 3.4 Poids de poulpe viscr en fonction du poids non viscr (en grammes). 1. Lensemble de ces donnes est reprsent gure 3.4. (a) Proposer un modle reliant le poids viscr et le poids non viscr dun poulpe. (b) Rappeler les formules des estimateurs des paramtres du modle.
(Intercept) Poids non viscr Estimate -2.312146 0.853169 Std. Error 5.959670 0.007649 t value -0.388 111.545 Pr(>|t|) 0.698 <2e-16
Residual standard error: 52.73 on 238 degrees of freedom Multiple R-Squared: 0.9812, Adjusted R-squared: 0.9812 F-statistic: 1.244e+04 on 1 and 238 DF, p-value: < 2.2e-16
Table 3.1 Poids de poulpes viscrs et non viscrs : rsultats de la rgression linaire simple (sortie R). (c) A partir du tableau 3.1, donner les estimations numriques des paramtres du modle. (d) Que reprsente la valeur 0.698 du tableau 3.1 ? Comment la retrouver ( peu prs) partir de -0.388 et de la table de la loi normale donne en annexe (faire un dessin). (e) Au vu de cette valeur 0.698, proposer un autre modle reliant les poids viscr et non viscr. 2. De faon gnrale, considrons un chantillon de n couples de rels (xi , yi ) suivant le modle yi = xi + i , o les erreurs i sont supposes gaussiennes indpendantes centres et de mme variance 2 . de minimisant la somme des carrs des carts au modle. (a) Dterminer lestimateur Arnaud Guyader - Rennes 2 Rgression
3.6. Exercices (b) Retrouver le rsultat prcdent partir de la formule gnrale de lestimateur de rgression linaire multiple en considrant la projection du vecteur Y = [y1 , . . . , yn ] sur la droite vectorielle engendre par le vecteur X = [x1 , . . . , xn ] . . Proposer un estimateur non biais (c) En dduire la variance de 2 de 2 .
Poids non viscr Estimate Std. Error t value Pr(>|t|) 0.85073 0.00436 195.1 <2e-16
73
Table 3.2 Poids de poulpes viscrs et non viscrs : rsultats de la rgression linaire simple avec le modle simpli (sortie R). (d) Les rsultats de lanalyse de ce nouveau modle sont fournis dans le tableau 3.2. Localiser et 2 dans ce tableau. (e) On veut prdire le poids viscr dun poulpe de poids non viscr x0 . Quelle est la variance de lerreur de prvision ? Donner un intervalle de conance 90% autour de la prvision. Exercice 3.14 (Comparaison de modles) On eectue une rgression de y sur deux variables explicatives x et z partir dun chantillon de n individus, cest--dire que X = [, x, z ], o est le vecteur de taille n compos de 1. On a obtenu le rsultat suivant : 5 3 0 X X = 3 3 1 . 0 1 1 1. Que vaut n ? 2. Que vaut le coecient de corrlation linaire empirique entre x et z ? 3. La rgression par moindres carrs ordinaires a donn le rsultat suivant y i = 1 + 3xi + 4zi + i
2 = 3. et la somme des carrs rsiduelle vaut , et calculer X Y . En dduire y (a) Exprimer X Y en fonction de (X X ) et . 2 2 (b) Calculer Y . En dduire Y . (c) Calculer la somme des carrs totale Y y 2 , le coecient de dtermination R2 et le coecient de dtermination ajust. 4. On sintresse maintenant au modle priv du rgresseur z , cest--dire Y = X0 0 + 0 , o X0 = [, x]. X et X Y . En dduire 0 . (a) Dterminer X0 0 0 0 2 . (b) Calculer Y 0 2 + 2+ 0 2 = Y 2 . En dduire 0 2 , le coecient de (c) Justier lgalit Y 2 dtermination R0 et le coecient de dtermination ajust. 5. On veut maintenant comparer les deux modles prcdents. (a) Eectuer un test de Fisher entre ces deux modles grce aux coecients de dtermination. Quen concluez-vous au niveau de risque 5% ? (b) Proposer un autre moyen darriver au mme rsultat.
Rgression
74
3.7
Corrigs
Exercice 3.1 (QCM) ACABB. Exercice 3.2 (Analyse de sorties logiciel) 1. Les rsultats sont dans lordre : 6.2, 0.8, 6.66, 1.5, 1, 41, 5, 124. 2. La statistique de test de nullit du paramtre se trouve dans la troisime colonne, nous conservons H0 pour les paramtres associs Ne9 et Ne12, et la rejetons pour les autres. 3. La statistique de test de nullit simultane des paramtres autres que la constante vaut F ( ) = R2 124 0.6233 np = 41 p 1 1 R2 5 1 0.6233
Nous rejetons H0 . 4. Nous sommes en prsence de modles embots, nous pouvons appliquer la formule vue dans le cours : 2 np R 2 R0 F = p p0 1 R2 124 0.6233 0.5312 = 15. 2 1 0.6233 Nous rejettons H0 , i.e. nous conservons le premier modle. Ainsi, bien que considrs sparment, les paramtres associs Ne9 et Ne12 ntaient pas signicativement dirents de 0, ce test montre quil serait imprudent de rejeter ces deux variables en mme temps. Ceci nest pas tonnant : les variables Ne9 et Ne12 sont fortement corrles (peu de changement de nbulosit en 3 heures), si bien que lorsque lune est dans le modle, lautre apporte peu dinformation supplmentaire. Or le test de Student de nullit dun coecient teste justement la pertinence dune variable lorsque toutes les autres sont prsentes. Le test de Fisher, par contre, nous apprend que linformation apporte par ces variables nest pas ngligeable. Au total, la solution serait donc de conserver lune des deux variables et de supprimer lautre. Dernire remarque : la preuve de la Proposition 3.3 montre que le test de Fisher entre modles embots est li aux rgions de conance simultanes dnies par la Proprit 3.2 (ii). Dans notre cas prcis, la conclusion est la suivante : si lon traait le rectangle de conance 95% issu des intervalles de conance de Ne9 et Ne12 , alors le point (0, 0) serait dans ce rectangle. Par contre, il ne serait pas dans lellipse de conance 95%. On voit donc sur cet exemple la pertinence des rgions de conance simultanes lorsquon a aaire des variables trs corrles. Exercice 3.3 (Equivalence du test T et du test F ) 1. Sous lhypothse H0 : p = 0, le test de Student scrit T = p T n p p
p , cest--dire o p est lestimateur de lcart-type de p = p = Arnaud Guyader - Rennes 2

1 (X X ) p,p .
Rgression
3.7. Corrigs 2. Sous lhypothse H0 : p = 0, le test de Fisher scrit F = Y 0 Y 2

2 1 Fn p
75
0 est le projet orthogonal de Y sur le sous-espace engendr par les (p 1) premires o Y colonnes de X . 3. Soit Z N (0, 1) indpendante de Sn 2 n , alors par dnition Tn = Z Sn /n Tn ,
loi de Student n degrs de libert. Il sut alors de voir que Z 2 suit une loi du chi-deux un seul degr de libert pour en dduire que
2 Fn = Tn =
Z2 1 Fn , Sn /n
loi de Fisher 1 et n degrs de libert. En particulier, les quantiles dune loi de Fisher 1 et n degrs de libert sont les carrs des quantiles dune loi de Student n degrs de libert. 4. Avec les notations de lnonc, la matrice X X sous forme blocs comme suit X X =
X X0 0 X0 Xp Xp X0 Xp Xp
5. La formule dinversion matricielle par blocs (B.2) rappele en Annexe donne alors pour le dernier coecient diagonal
[(X X )1 ]pp = Xp Xp Xp X0 (X0 X0 )1 X0 Xp 1 = Xp (In X0 (X0 X0 )1 X0 )Xp 1
do
1 [(X X )1 ]pp
= Xp (In P0 )Xp
6. Puisque les (p 1) colonnes de X0 correspondent aux p premires colonnes de X , il est clair 0 = P0 Y et que M0 est un sous-espace de M donc que P0 P = P0 . Puisque par dnition Y Y = P Y , on en dduit que 0 = P0 Y = P0 P Y = P0 Y . Y sur la base des p vecteurs de M Dcomposons Y = 1 X1 + + p1 Xp1 + p Xp = X Y alors par linarit de P0 et puisque P0 Xj = Xj pour tout j {1, . . . , p 1} 1 X1 + + p1 Xp1 + p Xp ) = 1 X1 + + p1 Xp1 + p P0 Xp 0 = P0 Y = P0 ( Y de sorte que p Xp p P0 Xp = p (In P0 )Xp Y 0 = Y Rgression Arnaud Guyader - Rennes 2
X )1 X est la matrice n n de projection orthogonale sur lespace M o P0 = X0 (X0 0 0 0 engendr par les (p 1) colonnes de X0 .
76 7. La question prcdente permet dcrire Y 0 Y

2
p (In P0 )Xp =
2 ((In P0 )Xp ) ((In P0 )Xp ) = 2 X (In P0 )Xp = p p p
la dernire galit venant de ce que (In P0 ) est la projection orthogonale sur M 0 (In P0 ) (In P0 ) = (In P0 )2 = (In P0 ). La comparaison montre bien que F = T 2 . En dautres termes, les deux tests de nullit du coecient p sont compltement quivalents. Notons cependant que si on veut eectuer un test unilatral, cest Student qui simpose. Exercice 3.4 (Un modle 3 variables explicatives) = (X X )1 X Y . La matrice (X X )1 1. Lestimateur des moindres carrs de est donn par a la mme forme que X X , cest--dire diagonale par blocs avec pour premier bloc diagonal le coecient ((X X )1 )1,1 = 1/50 et comme second bloc diagonal la matrice 3 3 donne dans lnonc : 1100 560 30 1 560 784 140 . 13720 30 140 375 Il en rsulte que 2 2.55 . 0.57 1.89
2
La somme des carrs des rsidus

2
50 2 i i=1
scrit encore = Y
2
= Y Y
cette dernire relation dcoulant de Pythagore. Le premier terme ne pose pas problme puisque Y 2 = Y Y = 640. Pour le second, il sut de remarquer que Y
2
= X
(X X ) = Y X 458. =
2 182. On en dduit que lestimateur de 2 Ainsi la somme des carrs des rsidus vaut vaut 2 3.96. 2 = 46 2. Puisquon sait que : 2 2 2 2 Tn4 = T46 , = 1 2 (X X ) 2,2 on en dduit quun intervalle de conance 95% pour 2 est : 2 t46 (0.975) I (2 ) = cest--dire : I (2 ) 2.55 2.0 3.96 Arnaud Guyader - Rennes 2 1100/13720; 2.55 + 2.0 3.96 1100/13720 [1.42; 3.68]. Rgression
1 (X X ) 2,2 ; 2 + t46 (0.975) 1 (X X ) 2,2 ,
3.7. Corrigs Un intervalle de conance 95% pour 2 est : I ( 2 ) = 46 2 46 2 , = c2 c1 2 2 , , c2 c1
77
o c1 et c2 sont tels que (c1 2 46 c2 ) = 0.95. En loccurrence, on trouve c1 29 et 2 c2 66, ce qui donne I ( ) [2.76; 6.28]. 3. Le test de validit globale du modle au niveau 5% peut se faire via la statistique de Fisher. Sous lhypothse de nullit de tous les coecients sauf la constante, on a en eet : F ( ) = y Y np p1 Y Y
2 2
Or y = 100/50 = 2 se lit sur la premire coordonne du vecteur X Y , et la constante faisant partie du modle, il vient y Y
2
y 46 Y 3 Y Y
2 2
3 F46
= Y
2 182. Do F ( ) 21.7. Or le quantile dordre 0.95 Dautre part, on a dj vu que Y Y dune Fisher (3, 46) degrs de libert vaut environ 2.81. Lhypothse (2 = 3 = 4 = 0) est donc rejete. 4. En notant x 51 = [1, 1, 1, 0.5], la valeur prdite pour y51 est : y 51 = x 51 6.07 et un intervalle de prvision 95% pour y51 est : I (y51 ) = y 51 t46 (0.975) soit I [1.61; 10.53]. Exercice 3.5 (Modle de Cobb-Douglas) 1. Avec les notations 1 log L1 log K1 log V1 . . . . . . . X= . Y = . . . . 1 log Ln log Kn log Vn
1 1 + x 51 + t46 (0.975) 51 (X X ) x51 ; y 1 1 + x 51 (X X ) x51 ,
= Y
50 y 2 458 200 = 258.
le modle scrit sous la forme matricielle Y = Xb + . Lestimateur des MCO b scrit alors comme dhabitude b = (X X )1 XY . Sa matrice de variance-covariance est Var( b) = = X 2 (X X )1 . En notant Y b, un estimateur sans biais de 2 est 2 = Y Y n3
2
b=
1 . = . . n
et un estimateur sans biais de Var( b) est 2 (X X )1 . 2. Lestimateur 2 se dduit de la somme des carrs rsiduelle : SCR 148.27 2 = = 0.09 n3 1655 Une estimation de Var( b) est donc 0.0288 0.0012 0.0034 = 0.09 0.0012 0.0016 0.0010 . 0.0034 0.0010 0.0009 Arnaud Guyader - Rennes 2
( V b) = 0.09 (X X )1
Rgression
78 3. Puisquon sait que :
Tn3 = T1655 , = 1 (X X ) 2,2
on en dduit quun intervalle de conance 95% pour est : t1655 (0.975) I ( ) = cest--dire : I ( ) 0.738 1.96 0.09 0.0016; 0.738 + 1.96 0.09 0.0016 [0.71; 0.76]. De mme, un intervalle de conance 95% pour est I ( ) 0.282 1.96 0.09 0.0009; 0.282 + 1.96 0.09 0.0009 [0.26; 0.30]. 4. Sous H0 : = 0, on sait que =
1 (X X ) 3,3 1 (X X ) 2,2 ; + t1655 (0.975) 1 (X X ) 2,2 ,
Tn3 = T1655 .
On obtient une statistique de test gale T ( ) = 0.282 31.3 > 1.645 = t1655 (0.95), 0.09 0.0009
quantile dordre 0.95 dune loi de Student 1655 degrs de libert. Nous rejetons donc lhypothse H0 . 5. Puisque V = F (L, K ) = L K , il vient directement F (L, K ) = + L K = + F (L, K ). Donc dire que le rendement dchelle est constant, cest encore dire que + = 1. A contrario, les rendements sont croissants si F (L, K ) > F (L, K ), cest--dire que + > 1. Nous allons donc tester au niveau 5% H0 : + = 1, contre H1 : + > 1. Sous lhypothse H0 , nous savons que + 1 Tn3 = T1655 , + dont le quantile dordre 0.95 est 1.645. Il nous sut donc de calculer + . Or de faon gnrale, on a la dcomposition : + ) + Var( Var( ) = Var( ) + 2Cov(, ), donc lestimateur cherch est + = + Var( ), o :
+ ) + Var( ) + 2Cov( , Var( ) = Var( ), ( quantits qui se dduisent de la matrice V b) calcule prcdemment. Ceci donne + Var( ) 0.09(0.0016 + 0.0009 2 0.001) = 4.5 105 . Arnaud Guyader - Rennes 2 Rgression
3.7. Corrigs On en dduit que la statistique de test vaut T ( ) = 0.738 + 0.282 1 2.98 > 1.645 4.5 105
79
En conclusion, lhypothse selon laquelle les rendements seraient constants est refuse. Au niveau 5%, on accepte lhypothse selon laquelle ils sont croissants. Exercice 3.6 (Modle deux variables explicatives) Cet exercice est corrig en annexe (sujet de dcembre 2009). Exercice 3.7 (Modle htroscdastique) Cet exercice est corrig en annexe (sujet de dcembre 2009). Exercice 3.8 (La hauteur des eucalyptus) Cet exercice est corrig en annexe (sujet de dcembre 2010). Exercice 3.9 (Consommation de gaz) Cet exercice est corrig en annexe (sujet de dcembre 2010). Exercice 3.10 (Tests) Cet exercice est corrig en annexe (sujet de dcembre 2011). Exercice 3.11 (Moindres carrs ordinaires) Cet exercice est corrig en annexe (sujet de dcembre 2011). Exercice 3.12 (Moindres carrs pondrs) Cet exercice est corrig en annexe (sujet de dcembre 2011). Exercice 3.13 (Octopuss Garden) Cet exercice est corrig en annexe (sujet de dcembre 2012). Exercice 3.14 (Comparaison de modles) Cet exercice est corrig en annexe (sujet de dcembre 2012).
Rgression
Chapitre 4
Validation du modle
Introduction
En prsence dun chantillon de n observations (xi , yi )1in valeurs dans tapes de la rgression linaire sont les suivantes : 1. Modlisation. Nous considrons un modle de la forme : i {1, , n} yi = 1 xi1 + 2 xi2 + + p xip + i = x i + i ,
p , les grandes
qui se rcrit sous forme matricielle : Yn1 = Xnp p1 + n1 , sous les hypothses : (H) (H1 ) : rg(X ) = p (H2 ) : N (0, 2 In )
2. Estimation. Nous estimons alors les paramtres et 2 par la mthode des moindres carrs, laquelle est grosso modo quivalente la mthode du maximum de vraisemblance, et et ce qui donne les estimateurs 2 . Des lois de 2 , nous avons dduit des intervalles et/ou rgions de conance pour et 2 , et avons pu construire des tests dhypothses. 3. Validation. Les deux premiers points tant acquis, il sagit dans ce chapitre de valider nos hypothses. Autant la vrication de (H1 ) ne pose pas problme, autant celle de (H2 ) savre dlicate. Nous nous contenterons donc de donner quelques pistes.
4.1
Analyse des rsidus
Lexamen des rsidus constitue une tape primordiale de la rgression linaire. Cette tape tant essentiellement fonde sur des mthodes graphiques, il est dicile davoir des rgles strictes de dcision. Lobjectif de cette partie est de prsenter ces mthodes graphiques. Commenons par rappeler les dnitions des dirents rsidus.
4.1.1
Rsidus et valeurs aberrantes
Les erreurs i sont estimes par i = yi y i . En notant H = PX = X (X X )1 X la matrice de projection et hij son terme gnrique, nous avons :
82 Erreurs [i ] = 0 Var() = 2 I Rsidus [ i ] = 0
Chapitre 4. Validation du modle
Var( ) = 2 (I H )
Il sensuit que la variance de i est Var( i ) = 2 (1 hii ), qui dpend donc de i. An dliminer cette non-homognit des variances des rsidus, nous prfrerions utiliser les rsidus normaliss : i . ri = 1 hii Mais est inconnu, il convient donc de le remplacer par , ce qui donne des rsidus dits standardiss : i ti = . 1 hii Puisquon a simplement remplac par son estime , on pourrait croire que ces rsidus suivent une loi de Student : patatras, il nen est rien ! Cest pourquoi nous utiliserons plutt les rsidus studentiss, souvent appels studentized residuals dans les logiciels et dnis par : t i = i , (i) 1 hii
o (i) est lestimateur de dans le modle linaire priv de lobservation i. Ces rsidus t i suivent bien une loi de Student (cf. Thorme 4.1 ci-aprs). Ils sont construits selon la logique de validation croise (en abrg VC, ou plus prcisment mthode du leave-one-out), cest--dire comme suit : 1. Dans un premier temps, nous estimons les paramtres et 2 laide de tous les individus 2 ; (i) et sauf le ime , nous obtenons ainsi les estimateurs ( i) 2. Dans un second temps, nous considrons que la ime observation x i = [xi1 , . . . , xip ] est une p p = x i nouvelle observation et nous prvoyons yi par y i de faon classique : y i (i) . Le chapitre prcdent permet alors de prciser la loi suivante :
p yi y i
(i)
1 1 + x i (X(i) X(i) ) xi
T n p 1 ,
2 sont construits partir de (n 1) (i) et loi de Student (n p 1) ddl puisque les estimateurs ( i) observations. Nous allons maintenant montrer que les rsidus studentiss par validation croise t i correspondent exactement ces erreurs de prvision normalises.
Thorme 4.1 Si la matrice X est de plein rang et si la suppression de la ligne i ne modie pas le rang de la matrice, alors les rsidus studentiss par validation croise vrient : t i = yi y i i = = (i) 1 hii (i) 1 hii (i)
p yi y i
1 1 + x i (X(i) X(i) ) xi
T n p 1 .
Rgression
4.1. Analyse des rsidus Preuve. Nous considrons la matrice X du plan dexprience, de taille n p, X(i) la matrice X me coordonne, prive de la ime ligne x i , donc de taille (n 1) p, et Y(i) le vecteur Y priv de sa i donc de taille (n 1) 1. Nous aurons alors besoin des ingrdients matriciels suivants, dont la vrication est laisse au lecteur : 1. Lemme dinversion matricielle : Soit M une matrice symtrique inversible de taille p p et u et v deux vecteurs de taille p, alors : M + uv
X 2. X X = X( i) (i) + xi xi . Y 3. X Y = X( i) (i) + xi yi . 1 4. hii = x i (X X ) xi . 1
83
= M 1
M 1 uv M 1 . 1 + u M 1 v
Dans notre situation, le lemme dinversion matricielle scrit :

1 1 (X( = (X X xi x = (X X )1 + i) i) X(i) ) 1 (X X )1 xi x i (X X ) , 1 1 x i (X X ) xi
et la relation sur hii ci-dessus donne :

1 (X( = (X X )1 + i) X(i) )
1 1 (X X )1 xi x i (X X ) . 1 hii
p (i) est lestimateur de obtenu sans la ime observation : , o Calculons alors la prvision y i p 1 y i = x i (i) = xi (X(i) X(i) ) X(i) Y(i) 1 (X X )1 xi x i (X X ) 1 hii 2 hii yi hii yi + hii x = x i 1 hii i 1 hii 1 hii = y i yi . 1 hii 1 hii 1 = x + i (X X )
X Y xi y i
p ), do il vient : On dduit de cette dernire relation que i = yi y i = (1 hii )(yi y i
t i =
i = (i) 1 hii
p (1 hii )(yi y i ) . (i)
X )1 Pour terminer, remarquons quen multipliant la relation obtenue ci-dessus pour (X( i) (i) gauche par xi et droite par xi , on obtient : 1 x i (X(i) X(i) ) xi = hii + 1 1 + x i (X(i) X(i) ) xi
ce qui permet dtablir lgalit : t i =
h2 ii . 1 hii 1 hii = , = 1+ 1 hii 1 hii

p yi y i
yi y i i = = (i) 1 hii (i) 1 hii (i)
1 1 + x i (X(i) X(i) ) xi
Le rsultat sur la loi de lerreur de prvision vu au chapitre prcdent sapplique alors directement et ceci achve la preuve. Rgression Arnaud Guyader - Rennes 2
84
En conclusion, bien que les rsidus utiliss soient souvent les i , ceux-ci nont pas la mme variance selon lobservation i et sont donc dconseiller. An de remdier cette htroscdasticit, nous prfrerons utiliser les rsidus studentiss t i pour dtecter des valeurs aberrantes. Remarque. Dun point de vue algorithmique, et contrairement aux ti , les t i semblent coteux puisque chacun ncessite le calcul de (i) . On peut en fait montrer la relation : t i = ti np1 , n p t2 i
qui assure quon ne paie rien de plus en temps de calcul remplacer les ti par les t i (voir par exemple larticle dAtkinson [2]). Notons aussi sur cette formule que les ti sont une fonction croissante des ti . En dautres termes, les plus grandes valeurs des rsidus studentiss correspondent aux plus grandes valeurs des rsidus standardiss. Une valeur aberrante est une observation qui est mal explique par le modle et qui conduit un rsidu lev en ce point. Nous pouvons donc la dnir grce aux rsidus studentiss t i. Dnition 4.1 Une donne aberrante est un point (xi , yi ) pour lequel le rsidu studentis par validation croise t i est lev compar au seuil donn par la loi de Student : |t | t (1 / 2) . n p 1 i Remarque. En pratique, si = 5% et (n p 1) 30, alors tnp1 (1 /2) 2. Gnralement, les donnes aberrantes sont dtectes en traant les t i squentiellement ou en fonction dautres variables (yi , xi , y i , etc.). La dtection des donnes aberrantes ne dpend que de la valeur des rsidus. Ces reprsentations graphiques permettent de sassurer aussi de la validit du modle.
2 3 3 2 1 0 1 2 1 0 2 1
10
15
20
10
(a)
(b)
Figure 4.1 Rsidus studentiss corrects (gure a) et rsidus studentiss avec un individu aberrant vrier, signal par une che, et un second moins important (gure b).
La gure 4.1(a) montre un ajustement satisfaisant o aucune structure ne se dgage des rsidus et o aucun rsidu nest plus grand que la valeur test 2. Remarquons quen thorie % des individus possdent des valeurs aberrantes. Nous cherchons donc plutt les rsidus dont les valeurs absolues sont nettement au-dessus de tnp1 (1 /2) 2. Ainsi, en gure 4.1(b), nous nous intresserons seulement lindividu dsign par une che. Arnaud Guyader - Rennes 2 Rgression
4.1. Analyse des rsidus
85
4.1.2
Analyse de la normalit
Lhypothse de normalit est dicile vrier. Notons dj que si les erreurs i sont indpendantes de loi normale N (0, 2 ), les rsidus studentiss t i suivent eux une loi de Student et ne sont pas indpendants. Nanmoins, si n p, cette loi de Student est quasiment une loi normale. Laspect quasi gaussien des t i peut alors tre examin de plusieurs faons. Un histogramme est la mthode la plus grossire. Citons aussi le graphique comparant les quantiles des rsidus estims lesprance des mmes quantiles sous lhypothse de normalit. Ce type de graphique est appel Q-Q plot (ou diagramme quantile-quantile).
4.1.3
Analyse de lhomoscdasticit
Il nexiste pas de procdure prcise pour vrier lhypothse dhomoscdasticit. Nous proposons plusieurs graphiques possibles pour dtecter une htroscdasticit. Il est recommand de tracer les rsidus studentiss t i , cest--dire tracer les couples de points i en fonction des valeurs ajustes y ( yi , ti ). Si une structure apparat (tendance, cne, vagues), lhypothse dhomoscdasticit risque fort de ne pas tre vrie. Voyons cela sur un graphique.
3 3.0 1 2 3 4 0.0 0.5 1.0
|t i|
t i
1.5
2.0
2.5
y i
y i
Figure 4.2 Htroscdasticit des rsidus. Sur la gure 4.2, lajustement nest pas satisfaisant car la variabilit des rsidus augmente avec la valeur de y i , on parle de cne de variance croissante. Le second graphique reprsente la valeur absolue du rsidu avec une estimation de la tendance des rsidus. Cette estimation de la tendance est obtenue par un lisseur, ici lowess. Ce lisseur, qui est aussi nomm loess, est le plus utilis pour obtenir ce type de courbe. Il consiste en une rgression par polynmes locaux itre. Nous voyons que la tendance est croissante, donc que la variance des rsidus augmente le long de laxe des abscisses. Ce deuxime graphique permet de reprer plus facilement que le premier les changements de variance ventuels dans les rsidus. Le choix de laxe des abscisses est trs important et permet (ou non) de dtecter une htroscdasticit. Dautres choix que y i en abscisse peuvent savrer plus pertinents selon le problme : ce peuvent tre le temps, lindice...
4.1.4
Analyse de la structure des rsidus
Par lhypothse (H2 ), les erreurs i sont supposes tre indpendantes, mais ceci est bien sr impossible vrier puisque ces erreurs sont inconnues : nous navons accs quaux rsidus i , or 2 ceux-ci ne sont pas indpendants, ils ne sont mme pas dcorrls puisque Var( ) = (I H ). Dun point de vue graphique, une reprsentation des rsidus judicieuse pourra nanmoins permettre de suspecter quelques cas de non-indpendance et de complter lanalyse obtenue par des Rgression Arnaud Guyader - Rennes 2
86
Chapitre 4. Validation du modle tests. Si lon souponne une structuration temporelle (autocorrlation des rsidus), un graphique temps en abscisse, rsidus en ordonne sera tout indiqu. Si lon souponne une structuration spatiale, un graphique possible consiste en une carte sur laquelle en chacun des points de mesure, on reprsente un cercle ou un carr (selon le signe du rsidu estim) de taille variable (selon la valeur absolue du rsidu estim). Ce type de graphique (voir gure 4.3) permettra peut-tre de dtecter une structuration spatiale (agrgats de ronds ou de carrs, ou au contraire alternance des ronds/carrs). Si une structuration est observe, un travail sur les rsidus et en particulier sur leur covariance est alors ncessaire. Exemple. Le but ici est dexpliquer une variable Y , le nombre de plantes endmiques observes, par trois variables : la surface de lunit de mesure, laltitude et la latitude. Les rsidus studentiss sont reprsents sur la carte gographique des emplacements de mesure (gure 4.3). On observe des agrgats de rsidus positifs ou ngatifs qui semblent indiquer quune structuration spatiale reste prsente dans les rsidus. Sur cet exemple, une simple reprsentation des rsidus en fonction de y i ou de lindice i de lobservation napporte que peu dinformation. Il importe donc dinsister ici sur le choix adquat de la reprsentation graphique des rsidus.
21 26 13 25 14 20 24 8 4 7 3 16 10 6 22
2.5
1.5 0.5 0.5
1.5
2.5 38
Nevada Californie
23 5 17 18 11 2 15 9 12 30 19 34
Mexique
Figure 4.3 Exemple de rsidus studentiss structurs spatialement.
Lutilisation dun lisseur peut permettre de dgager une ventuelle structuration dans les rsidus (voir gure 4.4) et ce de manire aise et rapide, ce qui est primordial. Il est cependant dicile, voire impossible, de discerner entre une structuration due un oubli dans la modlisation de la moyenne et une structuration due une mauvaise modlisation de la variance (voir gure 4.4). Un autre type de structuration des rsidus peut tre d une mauvaise modlisation. Supposons que nous ayons oubli une variable intervenant dans lexplication de la variable Y . Cet oubli se retrouvera forcment dans les rsidus, qui sont par dnition les observations moins les estimations par le modle. Lhypothse dabsence de structuration (Cov(i , j ) = 0 i = j ) risque de ne pas tre vrie. En eet, la composante oublie dans le modle va sadditionner au vrai bruit et devrait apparatre dans le dessin des rsidus. Une forme quelconque de structuration dans le graphe des rsidus sera annonciatrice dun mauvais Arnaud Guyader - Rennes 2 Rgression
4.1. Analyse des rsidus

2
87
0.0
0.5
1.0
1.5
2.0
2.5
1 0.0
0.5
1.0
1.5
2.0
2.5
(a)
(b)
Figure 4.4 Tendance sinusodale due des bruits autorgressifs dordre 1, i = i1 + i (variance mal modlise, graphique a) ou une composante explicative non prise en compte : x2 = 0.2 sin(3x) (moyenne mal modlise, graphique b).
ajustement du modle. Une fois dtecte une structuration, il sut, si lon peut dire, dajouter au modle une variable explicative possdant la mme structuration. Voyons cela sur un exemple graphique. La gure (4.5) montre les graphiques dun modle linaire y = + 1 x1 + alors que le vrai modle est deux variables y = + 1 x1 + 2 x2 + . Lajustement nest pas satisfaisant puisquune tendance linaire dcroissante se dgage des rsidus de la troisime reprsentation. Notons limportance du choix de laxe des abscisses : les deux premiers graphiques, reprsentant les mmes rsidus, ne laissent pas souponner cette tendance dcroissante. Le modle linaire propos nest donc pas judicieux, il serait bon dajouter la variable oublie x2 .
3 3 3 0.0 0.5 1.0 1.5 2.0 2 2 1 0 1 2
10
20
Indice
30
40
50
y i
x2
Figure 4.5 Rsidus studentiss avec une tendance dcroissante due loubli dune variable x2 dans le modle. Les rsidus studentiss sont reprsents comme fonctions du numro de lobservation (indice), de lestimation du modle y i et comme fonction de x2 .
Malgr tout, ce type de diagnostic peut tre insusant. Une autre mthode plus prcise, mais fastidieuse, consiste regarder, variable explicative par variable explicative, si la variable considre agit bien de manire linaire sur la variable expliquer. Ce type danalyse sera men avec des rsidus appels rsidus partiels (ou rsidus partiels augments) ou encore via des rgressions partielles. Ces graphiques permettent de constater si une variable candidate est bien utile au modle et, le cas chant, de trouver dventuelles fonctions non linaires de variables explicatives dj prsentes. Rappelons quune fonction non linaire f xe dune variable explicative xj est considre comme une variable explicative part entire xp+1 = f (xj ).
Rgression
88
Chapitre 4. Validation du modle En conclusion, il est impratif de tracer un graphique avec en ordonne les rsidus et en abscisse : soit y i , soit le numro i de lobservation, soit le temps ou tout autre facteur potentiel de non-indpendance. Idalement, ce type de graphique permettra : de vrier lajustement global, de reprer les points aberrants, de vrier les hypothses concernant la structure de variance du vecteur . Dautres graphiques, tels ceux prsentant la valeur absolue des rsidus en ordonne, permettront de regarder la structuration de la variance. Lanalyse des rsidus permet de dtecter des dirences signicatives entre les valeurs observes et les valeurs prdites. Cela permet donc de connatre les points mal prdits et les faiblesses du modle en termes de moyenne ou de variance. Cependant, ceci ne nous renseigne nullement sur la robustesse des estimateurs par rapport lajout ou la suppression dune observation. La section suivante propose quelques critres en ce sens.
4.2
Analyse de la matrice de projection
Nous souhaiterions maintenant avoir une mesure synthtique du poids dune observation sur sa propre prvision par le modle. Cette prvision utilise la matrice de projection orthogonale sur lespace engendr par les colonnes de X , savoir PX = H = X (X X )1 X . En eet, nous avons = PX Y = HY . Commenons par donner quelques proprits trs gnrales sur les vu que Y matrices de projection orthogonale. Proprits 4.1 (Proprits dune matrice de projection orthogonale) Soit H = PX la matrice n n de projection orthogonale sur le sous-espace M de dimension p engendr par les colonnes de X . Alors : 1. Tr(H ) = 2.
i j n i=1 hii
= p.
h2 ij = p.
4. Si hii = 0 ou 1, alors hij = 0 pour tout j dirent de i. 5. pour tout j dirent de i, 0.5 hij 0.5. Preuve. 1. La trace dun projecteur vaut la dimension de lespace sur lequel seectue la projection, donc Tr(H ) = p. 2. Ce second point dcoule de la proprit H 2 = H , do Tr(H 2 ) = p, de la symtrie de H et du fait que pour toute matrice A, Tr(AA ) = Tr(A A) = i j a2 ij . 3. Puisque les matrices H et H 2 sont gales, nous avons en particulier hii = (H 2 )ii . Cela scrit, en utilisant la symtrie de H :
n
3. Pour tout i {1, . . . , n}, 0 hii 1.
hii =
j =1
hij hji = h2 ii +
j =i
h2 ij hii (1 hii ) =
h2 ij .
j =i
La quantit de droite de la dernire galit est positive, donc le troisime point est dmontr. 4. Cette proprit se dduit directement de lquation prcdente.
2 5. Nous pouvons crire : hii (1 hii ) = h2 ij + k =i,j hik . La quantit de gauche est maximum lorsque hii = 0.5 et vaut alors 0.25. Le dernier point est ainsi prouv.
Rgression
4.2. Analyse de la matrice de projection Il sut maintenant de remarquer que :

n
89
y i =
j =1
hij yj = hii yi +
j =i
hij yj ,
pour sapercevoir que hii reprsente en quelque sorte le poids de lobservation yi sur sa propre prdiction y i . Ainsi : si hii = 1, hij = 0 pour tout j = i, et y i est entirement dtermin par yi , puisque y i = yi ; si hii = 0, hij = 0 pour tout j = i donc y i = 0, et yi na aucune inuence sur y i ; plus gnralement, si hii est grand, yi inue fortement sur y i , comme en tmoigne la formule prcdemment tablie : p yi y i = (1 hii )(yi y i ), qui montre la variation dans la prdiction de yi selon que lon prend en compte ou non la ime observation. Puisque Tr(PX ) = hii = p, la moyenne des hii est gale p/n. Ceci permet de quantier quelque peu la notion de grand. Dnition 4.2 (Point levier) Un point (xi , yi ) est appel point levier si : hii > 2p/n selon Hoaglin & Welsch (1978) ; hii > 3p/n pour p > 6 et n p > 12 selon Velleman & Welsch (1981) ; hii > 0.5 selon Huber (1981). Remarque. Si la constante fait partie du modle (i.e. la plupart du temps), on peut aner la Proprit 4.1, puisque les termes diagonaux hii sont en fait tous suprieurs 1/n. Il est galement possible de prouver que hii correspond dune certaine faon la distance du point xi au centre de gravit x du nuage de points (xi )1in de lchantillon. Pour plus de dtails sur ces points, on pourra consulter le livre de Antoniadis, Berruyer et Carmona, Rgression non linaire et applications, Economica (1992), pages 36-40.
0.05 0.10 0.15 0.20 0.25 0.30 0.35
xi
hii
yi
10
20
Indice
30
40
50
Figure 4.6 Exemple dun point levier, gur par la che, pour un modle de rgression simple. Quantication par hii de la notion de levier. La ligne en pointills longs reprsente le seuil de 2p/n, celle en pointills courts le seuil de 3p/n.
Pour un modle de rgression simple dont le nuage de points est reprsent sur la gure 4.6, le point dsign par une che est un point levier. Sa localisation sur laxe x dire des autres points et son poids hii est prpondrant et suprieur aux valeurs seuils de 2p/n et 3p/n.
Rgression
90
Chapitre 4. Validation du modle Remarque. Le point de la gure 4.6 est levier mais pas aberrant puisquil se situe dans le prolongement de la droite de rgression et sera donc proche de sa prvision par le modle (rsidu faible). En conclusion, lanalyse des rsidus permet de trouver des valeurs atypiques en fonction de la valeur de la variable expliquer, tandis que lanalyse de la matrice de projection permet de trouver des individus atypiques en fonction des valeurs des variables explicatives (observations loignes de x ). Dautres critres vont combiner ces deux analyses, cest ce que nous allons voir maintenant.
4.3
Autres mesures diagnostiques
La distance de Cook mesure linuence de lobservation i sur lestimation du paramtre . Pour et le coecient btir une telle mesure, il sut de considrer la distance entre le coecient estim (i) que lon estime en enlevant lobservation i (cf. Section 4.1.1, mthode du leave-one-out). Si la distance est grande, alors lobservation i inuence beaucoup lestimation de , puisque la laisser et ou lenlever conduit des estimations trs direntes lune de lautre. De manire gnrale, p (i) tant dans , une distance btie sur un produit scalaire scrit : (i) , ) = d( (i) ) Q( (i) ), (
o Q est une matrice symtrique dnie positive. De nombreux choix sont possibles. Si nous revenons la rgion de conance simultane de donne au Chapitre 3, nous obtenons en prenant R = Ip et = 5% : RC ( ) = p : 1 ) f p (0.95) . ( ) (X X )( n p p 2
et permet de dire que, en Cette quation donne une rgion de conance pour autour de (selon la matrice Q = (X X )/p moyenne, dans 95% des cas, la distance entre et 2 ) est infp rieure fnp (0.95). Par analogie, nous pouvons utiliser cette distance, appele distance de Cook, pour mesurer linuence de lobservation i sur le modle. Dnition 4.3 (Distance de Cook) La distance de Cook pour la ime observation est dnie par : Ci = 1 ) (X X )( (i) ). ( p 2 (i)
Il est possible de lexprimer de manire plus concise comme suit : Ci =

p 2 hii (yi y i ) hii 1 hii 2 2 i = = t . p 2 p(1 hii )2 2 p 1 hii i
Remarque. Il y a dans cette terminologie un lger abus de langage, puisque la distance de Cook est en fait le carr dune distance. Preuve. Nous allons utiliser les rsultats tablis dans la preuve du thorme 4.1. Par dnition, nous avons : (i) = (X X(i) )1 X Y(i) , (i) (i)
X )1 et le fait que X Y or en utilisant le lemme dinversion matricielle pour (X( i) (i) (i) (i) = X Y xi yi , on obtient : 1 1 (i) = (X X )1 + (X X ) xi xi (X X ) X Y xi y i , 1 hii
Rgression
4.3. Autres mesures diagnostiques ce qui donne en dveloppant : (i) = (X X )1 xi yi + cest--dire tout simplement : (i) = i (X X )1 xi , 1 hii hii 1 (X X )1 xi x (X X )1 xi yi , i 1 hii 1 hii
91
p i = (1 hii )(yi y i ), on en dduit que : et puisquon a vu dans la preuve du thorme 4.1 que p (i) = (yi y )(X X )1 xi . i 1 Il sut dappliquer cette expression et le fait que hii = x i (X X ) xi pour obtenir la deuxime expression de la distance de Cook :
Ci =
p 2 hii (yi y i ) . 2 p
La troisime expression de la distance de Cook dcoule alors de la relation dj mentionne i = p (1 hii )(yi y i ). Pour la dernire expression, il sut dappliquer la dnition de ti . Une observation inuente est donc une observation qui, enleve, conduit une grande variation dans lestimation des coecients, cest--dire une distance de Cook leve. Pour juger si la disp p tance Ci est leve, Cook (1977) propose le seuil fn p (0.1) comme souhaitable et le seuil fnp (0.5) comme proccupant. Certains auteurs citent comme seuil la valeur 1, qui est une approximation p raisonnable de fn p (0.5) lorsque p et n p sont tous deux grands. Remarquons sur lexpression Ci = 1 hii 2 t . p 1 hii i
que la distance de Cook peut tre vue comme la contribution de deux termes. Le premier, hii /(1 hii ), est dautant plus grand que le point est levier tandis que le second, t2 i , est dautant plus grand que le point est aberrant. Exemple. Pour le modle de rgression simple de la gure 4.6, nous avons trac sur la gure 4.7 : la droite des moindres carrs, les rsidus studentiss par validation croise, les distances de Cook. Nous voyons que des points ayant de forts rsidus (loigns de la droite) possdent des distances de Cook leves (cas des points 4, 6, 12, 29, 44 et 45). Le point 51, bien quayant un rsidu faible puisquil se situe dans le prolongement de laxe du nuage, apparat comme ayant une distance de Cook relativement forte (la 8me plus grande). Ceci illustre bien que la distance de Cook opre un compromis entre points aberrants et points leviers. Notons enn que, dans notre cas prcis, les 2 (0.5) 0.7 et f 2 (0.1) 0.11, ce dernier gurant en pointill seuils de la distance de Cook sont f49 49 sur la gure 4.7. Sur ce graphique, les distances de Cook semblent assez bien rparties au niveau hauteur et aucun point ne se dtache nettement. Exemple (suite). En utilisant les mmes 50 points, on remplae simplement le point levier 51 par un point franchement aberrant(cf. gure 4.8 au centre, son rsidu t 51 tant trs lev). Malgr la position de ce point 51 lintrieur du nuage des xi , la distance de Cook est leve et ceci uniquement cause de son caractre aberrant. Bien entendu un point peut tre la fois levier et p 2 aberrant. Le seuil de fn p (0.5), ici gal f49 (0.5) 0.7, semble assez conservateur : en pratique, Rgression Arnaud Guyader - Rennes 2
92
51 + 5 2 6 4 4 49 + 44 + + + ++ + +++ + + ++ + + + + + ++ 6++ + + ++ + 45 + 4 +++ + + + + ++ + 29 + + ++ + + + + 12 + + + 0 1 2 3 xi 4 5 1 49 44

0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14
6 45 49 4 12 29 44 51
yi
51
12 2 29 0 1 2 45
xi
distance de Cook
t i
1
10
20
Indice
30
40
50
Figure 4.7 Exemple du point levier (numro 51). Les points associs aux 8 plus grandes valeurs de la distance de Cook sont numrots ainsi que leurs distances de Cook et leurs rsidus studentiss. La droite en trait plein est la droite ajuste par MCO.
on pourrait en eet se poser la question de la suppression de ce point 51.

0.00 0.05 0.10 0.15 0.20 0.25 0.30
49 + 3 44 + ++ + + + + + + + ++ + + + + + + + 45 + + + ++ 6 + + + + ++ 4 + + + + + ++ 29 + + + ++ + + 51 + + 12 + + + + 0.0 0.5 1.0 1.5 2.0 2.5
6 4
44
49
51
12 29
distance de Cook
45
49 6 4 45 44 12 29
51 0.0 0.5 1.0 1.5 2.0 2.5
10
20
30
40
50
Index
Figure 4.8 Exemple de point fortement aberrant (numro 51). Les points associs aux 8 plus grandes valeurs de la distance de Cook sont numrots ainsi que leurs distances de Cook et leurs rsidus studentiss (par VC). La droite en trait plein est la droite ajuste par MCO.
Une autre mesure dinuence est donne par la distance de Welsh-Kuh. La dnition de la distance de Cook pour lobservation i fait intervenir la variance estime de lerreur 2 . Il faut donc utiliser 2 2 un estimateur de . Si lon utilise lestimateur classique , alors une observation inuente risque 2 2 , obtenu pas validation croise. de perturber lestimation . Il est donc prfrable dutiliser ( i) Lcart de Welsh-Kuh, souvent appel DFFITS (pour DiFference in FITs, Standardized) par les logiciels, est donc dni par W ki = |t i| hii , 1 hii
et permet dvaluer lcart standardis entre lestimation btie sur toute les observations et lestimation btie sur toutes les observations sauf la ime . Cet cart de Welsh-Kuh mesure ainsi linuence simultane dune observation sur lestimation des paramtres et 2 . Si lcart de Welsh-Kuh est suprieure 2 p + 1/ n en valeur absolue, alors il est conseill danalyser les observations correspondantes.
Rgression
Annexe A
Annales
Universit de Rennes 2 Master de Statistiques Dure : 2 heures Vendredi 18 Dcembre 2009 Calculatrice autorise Aucun document
Contrle de Rgression Linaire
I. La hauteur des eucalyptus

28
26
24
22
20
18
16
14
12
hauteur
Circonfrence
10 20 30 40 50 60 70 80
Figure A.1 Nuage de points pour les eucalyptus.
94
Chapitre A. Annales On souhaite expliquer la hauteur y (en mtres) dun arbre en fonction de sa circonfrence x (en centimtres) 1m30 du sol. On a relev n = 1429 couples (xi , yi ), le nuage de points tant reprsent gure A.1. On a obtenu ( x, y ) = (47, 3; 21, 2) et :
n i=1 n n
(xi x ) = 102924
i=1
(yi y ) = 8857
i=1
(xi x )(yi y ) = 26466
1. Calculer la droite des moindres carrs pour le modle y = 1 + 2 x + et la reprsenter sur la gure A.1. 2. Calculer le coecient de dtermination R2 . Commenter la qualit de lajustement des donnes au modle. 3. Avec ces estimateurs, la somme des carrs des rsidus vaut alors n i )2 = 2052. Si i=1 (yi y on suppose les perturbations i gaussiennes, centres, indpendantes et de mme variance 2 , en dduire un estimateur non biais 2 de 2 . 1 . 4. Donner un estimateur 2 de la variance de
1
5. Tester lhypothse H0 : 1 = 0 contre H1 : 1 = 0. 6. Etant donn la forme du nuage de points, on veut expliquer la hauteur non seulement par la circonfrence, mais aussi par la racine carre de celle-ci : yi = 1 + 2 xi + 3 xi + i . Pour 3 , on a obtenu 3 = 10 et 3 = 0, 78. Tester lhypothse H0 : 3 = 0 contre H1 : 3 = 0. II. Modle deux variables explicatives On considre le modle de rgression suivant : yi = 1 + 2 xi,2 + 3 xi,3 + i , 1 i n.
on a observ :
Les xi,j , sont des variables exognes du modle, les i sont des variables alatoires indpendantes, de loi normale centre admettant la mme variance 2 . En posant : 1 x1,2 x1,3 y1 . . . . . . X= . . . . et Y = . . , 1 xn,2 xn,3 yn 30 20 0 X X = 20 20 0 , 0 0 10 15 X Y = 20 , 10
Y Y = 59.5.
1. Dterminer la valeur de n, la moyenne des xi,3 , le coecient de corrlation des xi,2 et des xi,3 . 2. Estimer 1 , 2 , 3 , 2 par la mthode des moindres carrs ordinaires. 3. Calculer pour 2 un intervalle de conance 95% et tester lhypothse 3 = 0.8 au niveau 10%. 4. Tester 2 + 3 = 3 contre 2 + 3 = 3, au niveau 5%. 5. Que vaut y , moyenne empirique des yi ? En dduire le coecient de dtermination ajust 2. Ra Arnaud Guyader - Rennes 2 Rgression
95 6. Construire un intervalle de prvision 95% de yn+1 connaissant : xn+1,2 = 3 et xn+1,3 = 0, 5. III. Modle htroscdastique On considre n observations y1 , . . . , yn dune variable dnie sur une certaine population, et n kuplets xi (x i = [xi1 , . . . , xik ]) correspondant aux valeurs prises par k autres variables sur les mmes lments de cette population. On suppose que pour tout i, yi est la valeur prise par une variable alatoire Yi , et quil existe k pour lequel :
2 Y i N x i , i
1 i n,
o : reprsente un vecteur de k : = [1 , . . . , k ] , Les Yi sont supposes indpendantes entre elles. 2 des variances dpendent de lappartenance p sous-populations des lments Enn, les valeurs i sur lesquels les variables sont observes. En regroupant les indices des Yi selon ces sous-populations, on posera : I1 = {1, . . . , n1 }, indices des n1 lments de la premire sous-population ; I2 = {n1 + 1, . . . , n1 + n2 }, indices des n2 lments de la deuxime sous-population ; ... ; I = {n1 + . . . + n1 + 1, . . . , n1 + . . . + n1 + n }, indices des n lments de la -me souspopulation ; ... ; Ip = {n1 + . . . + np1 + 1, . . . , n}, indices des np lments de la dernire sous-population.
2 = 2 . Autrement dit, pour les n variables On admettra lhypothse suivante : si i I , i 1 correspondant aux lments de la premire sous-population la valeur est 2 , pour les n2 variables correspondant aux lments de la deuxime sous-population la valeur est 2 2 , etc. , jusqu p 2 pour la variance des variables correspondant aux lments de la dernire sous-population. On veut , estimer et 2 par la mthode du maximum de vraisemblance. On notera 2 ces estimateurs. 2 1. Que vaut fYi (yi ), fYi reprsentant la densit de la loi normale N x i , i
et 2. Montrer que 2 sont solutions du systme dquations :

p 1 =1 iI (yi p 1 =1
j = 1, . . . , k
2 2 x i ) = n iI (yi xi ) xij = 0.
(A.1)
3. Montrer que le systme (A.3) quivaut : A (Y X ) 2 = n 2 X A2 (Y X ) = 0. (A.2)
o . 2 reprsente la norme euclidienne usuelle dans n , X la matrice (n k) du plan dexprience, Y le vecteur (n 1) des observations yi , A la matrice (n n) diagonale dont 1 si i Il . llment (i, i) vaut l et 4. En supposant que X A2 X est inversible, exprimer 2. 5. Montrer que n 2 = V 6. En dduire que V
2 2
, o V suit une loi gaussienne centre. est la trace de la matrice de variance-covariance de V .
7. Montrer que n 2 /(n k) est un estimateur sans biais de 2 . Rgression Arnaud Guyader - Rennes 2
96
Chapitre A. Annales 8. On note X la matrice (n k) forme par les lignes dindices I de X , suppose de rang = plein, Y le vecteur colonne (n 1) des composantes dindices I de Y . En posant 1 est un estimateur sans biais de . (X X ) X Y , montrer que et de ? 9. (Bonus) Que peut-on dire de la dirence des matrices de variance-covariance de
Rgression
97 Universit de Rennes 2 Master de Statistiques Dure : 2 heures
Vendredi 18 Dcembre 2009 Calculatrice autorise Aucun document
Corrig du Contrle
I. La hauteur des eucalyptus

Hauteur
+ + + + 25 + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
+ + 15 + + + + + +
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
+ + + + + + + + + + + + + + + + + + +
+ + + + + + + + + + +
20
Circonfrence
30 40 50 60 70
Figure A.2 Nuage de points, droite de rgression et courbe de rgression.
1. La mthode des moindres carrs ordinaires donne pour estimateur de 2 : 2 = Et pour estimateur de 1 :
n )(yi i=1 (xi x n )2 i=1 (xi x
y )
0, 257.
La droite des moindres carrs est reprsente gure A.2.
1 = y 2 x 9, 04.
2. Le coecient de dtermination R2 est gal au carr du coecient de corrlation entre les variables x et y , ce qui donne : R2 = ( x )(yi y ))2 0, 768. n )2 ) ( n )2 ) i=1 (xi x i=1 (yi y (
n i=1 (xi
On en conclut que 77% de la variance des hauteurs yi des eucalyptus est explique par la circonfrence 1m30 du sol. Ce modle de rgression linaire simple semble donc ecace. Rgression Arnaud Guyader - Rennes 2
98 3. Un estimateur non biais 2 de 2 est tout simplement : =

2 n i=1 (yi
Chapitre A. Annales
y i )2 = n2
n i=1 (yi
y i )2 1, 438. 1427
2 de la variance de 1 est alors donn par : 4. Un estimateur 1 2 1 =
2 n
n i=1 (xi
n 2 i=1 xi
x )2
= 2
nx 2 + n )2 i=1 (xi x 0, 032. n n )2 i=1 (xi x
5. On sait que lestimateur centr et normalis de 1 suit une loi de Student (n 2) = 1427 degrs de libert : 1 1 T1427 , 1
1 donc sous lhypothse H0 : 1 = 0, ceci se simplie en 1 T1427 , et cette statistique de test donne ici : 9, 04 50, 5 2. t = T ( ) 0, 032
Une loi de Student 1427 degrs de liberts se comportant comme une loi normale centre rduite, il est clair que la probabilit critique associe au quantile 50, 5 est innitsimale, donc on rejette lhypothse H0 selon laquelle lordonne lorigine serait nulle. 6. De mme, on sait que sous H0 : 3 Tn3 = T1426 , 3 ce qui donne ici : t = T ( ) = 10 12, 8. 0, 78
Ici encore, on rejette H0 sans hsiter. A titre indicatif, la courbe des moindres carrs est reprsente gure A.2. II. Modle deux variables explicatives On considre le modle de rgression suivant : yi = 1 + 2 xi,2 + 3 xi,3 + i , 1 i n.
on a observ :
Les xi,j , sont des variables exognes du modle, les i sont des variables alatoires indpendantes, de loi normale centre admettant la mme variance 2 . En posant : y1 1 x1,2 x1,3 . . . . . . X= . . , . et Y = . . . yn 1 xn,2 xn,3 30 20 0 X X = 20 20 0 , 0 0 10 15 X Y = 20 , 10
Y Y = 59.5.
Rgression
99 1. La valeur de n se lit en haut gauche de la matrice X X , cest--dire n = (X X )1,1 = 30. De mme, la moyenne des xi,3 correspond : 1 30
30
xi,3 =
i=1
(X X )1,3 = 0. 30
Puisque les xi,3 sont centrs, le coecient de corrlation entre les deux variables x2 et x3 est alors : r2,3 =
30 i=1 xi,2 xi,3 30 i=1 (xi,2
x i,2
)2
30 2 i=1 xi,3
(X X )2,3
30 i=1 (xi,2
x i,2
)2
30 2 i=1 xi,3
= 0.
2. La mthode des moindres carrs ordinaires donne pour = [1 , 2 , 3 ] lestimateur suivant : 0.1 0.1 0 15 0.5 = (X X )1 X Y = 0.1 0.15 0 20 = 1.5 . 0 0 0.1 10 1 Y X n3
2
Un estimateur non biais 2 de 2 scrit : 2 = ce qui scrit encore : 2 = 3. Puisquon sait que :
X 27
Y Y Y X (X X )1 X Y = 1. 27
2 2 2 2 Tn3 = T27 , = 1 2 (X X ) 2,2 on en dduit quun intervalle de conance 95% pour 2 est : 2 t27 (0.975) I (2 ) = cest--dire :
1 (X X ) 2,2 ; 2 + t27 (0.975) 1 (X X ) 2,2 ,
I (2 ) 1.5 2.05 0.15; 1.5 + 2.05 0.15 [0.71; 2.29].
Pour tester lhypothse H0 : 3 = 0.8 contre H1 : 3 = 0.8 au niveau 10%, on calcule de mme un intervalle de conance 90% de 3 : 3 t27 (0.95) I (3 ) = ce qui donne :
1 (X X ) 3,3 ; 3 + t27 (0.95) 1 (X X ) 3,3 ,
I (3 ) 1 1.70 0.1; 1 + 1.70 0.1 [0.46; 1.54],
donc on accepte au niveau 10% lhypothse selon laquelle 3 = 0.8. 4. On sait que 2 + 3 ) (2 + 3 ) ( T27 , 2 + 3 Rgression Arnaud Guyader - Rennes 2
100 avec : 2 + 3 =
2 + 2Cov( 2 = 2 , 3 ) + 2 3
Chapitre A. Annales
1 1 1 (X X ) 2,2 + 2(X X )2,3 + (X X )3,3 ,
cest--dire 3 = 0.5. Donc un intervalle de conance 95% pour 2 + 3 est : 2 + I (2 + 3 ) = [2.5 0.5t27 (0.975); 2.5 + 0.5t27 (0.975)] [1.47; 3.53]. Par consquent, au niveau 5%, on accepte H0 : 2 + 3 = 3 contre H1 : 2 + 3 = 3. 5. La moyenne empirique des yi se dduit de la premire composante du vecteur X Y , donc 2 vaut : y = 15/30 = 0.5. Par dnition, le coecient de dtermination ajust Ra
2 Ra =1
n1 Y Y np Y y
2 Ra =1
2 2
= 1 (n 1)
2 Y y
donc : Y
Y
6. En notant x n+1 = [1, 3, 0.5], la valeur prdite pour yn+1 est : y n+1 = x n+1 = et un intervalle de prvision 95% pour yn+1 est : IC (yn+1 ) = y n+1 t27 (0.975)
1 1 + x n+1 (X X ) xn+1 ,
29 0.44. 30 y2 9 , 2
ce qui donne numriquement IC (yn+1 ) [1.69; 7.31]. III. Modle htroscdastique

2 1. Par dnition de la loi normale N x i , i , on a tout simplement :
fYi (yi ) =
1
2 2i
exp
2 (yi x i) 2 2i
2. Les variables Yi tant indpendantes, la densit jointe fY (y ) du n-uplet Y = (Y1 , . . . , Yn ) est le produit des densits fYi (yi ), ce qui donne pour la vraisemblance : p )2 1 ( y x i i , L(y, , 2 ) = fY (y ) = n exp n1 2 2 (2 )n/2 1 . . . p p
=1 iI
qui scrit encore :
do pour la log-vraisemblance :
1 1 exp 2 L(y, , 2 ) = n 2 n/ 2 n 2 (2 ) 1 1 . . . p p 1 n log 2 2 2 2

p =1
p =1
iI
2 (yi x , i)
log L(y, , 2 ) = c Arnaud Guyader - Rennes 2
iI
2 (yi x i) ,
Rgression
101 o c est une constante. Les estimateurs du maximum de vraisemblance sont obtenus en annulant les drives partielles de cette log-vraisemblance par rapport 1 , . . . , k et 2 . Pour tout j {1, . . . , k}, le calcul donne : 1 log L (y, , 2 ) = 2 j
p =1
iI
(yi x i )xij .
La drive partielle par rapport 2 scrit elle : n 1 log L (y, , 2 ) = 2 + 4 2 2 2

p =1
iI
2 (yi x i) .
et On en dduit bien que 2 sont les solutions du systme dquations : j = 1, . . . , k

p 1 =1 iI (yi p 1 =1 2 2 x i ) = n iI (yi xi ) xij = 0. 1 l
(A.3) si i Il , et en
3. En notant A la matrice (n n) diagonale dont llment (i, i) vaut remarquant que A est symtrique, il vient : A (Y X ) cest--dire :
2
= (Y X ) A A(Y X ) = (Y X ) A2 (Y X ),
p
A (Y X )
2 = [y1 x 1 , . . . , yn xn ]A [y1 x1 , . . . , yn xn ] =
=1
iI
y i x i
On en dduit :
p =1
iI
y i x i
= n 2
A (Y X )
= n 2 .
De la mme faon, on peut remarquer que : p 1 2 X A (Y X ) = y i x i x i1 , . . . ,

=1 iI
p =1
iI
Au nal, le systme (A.3) quivaut bien :
. y i x i xik (A.4)
A (Y X ) 2 = n 2 X A2 (Y X ) = 0. 4. La seconde quation du systme (A.4) scrit encore : X A2 X = X A2 Y. vaut : Puisque X A2 X est suppose inversible, lestimateur = X A2 X
1
X A2 Y.
Lestimateur 2 sen dduit immdiatement via la premire quation du systme (A.4) : 2 = Rgression 1 A Y X n
2
. Arnaud Guyader - Rennes 2
102 5. Daprs la question prcdente, on a : n 2 = A Y X

2
Chapitre A. Annales
= V
= AY AX . Il sut alors dcrire : en notant V = A Y X = AX X A2 X (AX )

1
X A2 Y = (AX )((AX ) (AX ))1 (AX ) (AY ),
nest rien dautre que la projection orthogonale du pour comprendre que le vecteur (AX ) n vecteur AY sur le sous-espace M de engendr par les colonnes de la matrice AX . Notons au passage que ce sous-espace est de dimension k puisque, par hypothse, la matrice X A2 X est inversible. Le vecteur AY tant de loi N (AX, 2 In ), nous sommes exactement dans le cadre dapplication du thorme de Cochran. En notant respectivement P et P les matrices de projection sur M et M , celui-ci assure que : V = P AY N (P AX, 2 P ) = N (0, 2 P ). Ainsi V suit bien une loi gaussienne centre. 6. Puisque V
2
est un scalaire, il est gal sa trace, ce qui donne : V

2
Tr
Tr V V
et puisque pour toute matrice A, Tr(A A) = Tr(AA ), il en dcoule : V

2
Tr V V
Il reste noter dune part que les oprateurs de trace et desprance commutent, et dautre part que V est centr pour obtenir : V
2
= Tr
VV
= Tr (Var(V )) .
7. On dduit des deux questions prcdentes que : 2 = 1 n V

2
1 Tr (Var(V )) , n
or V N (0, 2 P ), o P est la matrice de projection orthogonale sur un sous-espace de dimension (n k), donc Tr(P ) = n k, et : 2 = nk 2 , n
8. Avec les notations du texte, on a Y = X + , o N (0, 2 I ). Il vient donc : = X X

1 X X [Y ] = X 1 X = . X
ce qui revient dire que n 2 /(n k) est un estimateur sans biais de 2 .
est un estimateur sans biais de . Ainsi, pour tout {1, . . . , p}, Arnaud Guyader - Rennes 2 Rgression
103 est la projection orthogonale du vecteur AY N (AX, 2 In ) sur le sous9. Puisque AX espace M, nous savons que : ) = 2 ((AX ) (AX ))1 = 2 X A2 X Var(
1
est la projection orthogonale du vecteur Y N (X , 2 In ) De la mme faon, puisque X sur le sous-espace M engendr par les colonnes de X , la matrice de covariance de lestima vaut : teur 1 X X ) = 2 X X 1 = 2 . Var( La matrice X / correspondant aux n lignes dindices I de la matrice AX , notons Z la matrice (n n ) k des autres lignes de AX . On a donc : X X Z . (AX ) (AX ) = + Z En particulier, pour tout vecteur u de
k , on a :
2
u Z Z u = Z u
0,
donc :
X X u u u (AX ) (AX )u, ce qui scrit en terme de relation dordre pour les matrices symtriques : X X (AX ) (AX ),
les matrices des deux membres tant toutes deux symtriques dnies positives. Il reste maintenant remarquer que, de faon gnrale, si B et C sont deux matrices symtriques dnies positives, avec B C , alors C 1 B 1 . En eet, dire que B C revient dire que les valeurs propres de (C B ) sont toutes suprieures ou gales 0, donc il en va de mme pour la matrice B 1/2 (C B )B 1/2 = B 1/2 CB 1/2 I . Ceci signie que les valeurs propres de la matrice B 1/2 CB 1/2 sont toutes suprieures ou gales 1, ce qui implique que celles de sa matrice inverse sont toutes infrieures ou gales 1, ce qui scrit encore B 1/2 C 1 B 1/2 I . Or cette dernire relation a pour consquence C 1 B 1 . Appliqu dans notre contexte, ce rsultat donne : ((AX ) (AX ))
1
X X
) Var( ). En dautres do lon dduit lingalit entre matrices de covariance : Var( termes, est un estimateur plus prcis que , ce qui na rien dtonnant vu que sa construc . Happy end ! tion utilise (n n ) observations de plus que celle de
Rgression
Chapitre A. Annales Mercredi 14 Dcembre 2010 Calculatrice autorise Aucun document
I. La hauteur des eucalyptus On souhaite expliquer la hauteur y (en mtres) dun arbre en fonction de sa circonfrence x (en centimtres) 1m30 du sol et de la racine carre de celle-ci. On a relev n = 1429 couples (xi , yi ), le nuage de points tant reprsent gure A.3. On considre donc le modle de rgression suivant :
28
26
24
22
20
18
16
14
12
hauteur
Circonfrence
10 20 30 40 50 60 70 80
Figure A.3 Nuage de points pour les eucalyptus. yi = 1 + 2 xi + 3 xi + i ,
1 i n.
Les i sont des variables alatoires indpendantes, de loi normale centre admettant la mme variance 2 . En posant : x1 y1 1 x1 . . . . . X= . . . . . et Y = . . , 1 xn xn yn on a observ : ? ? 9792 X X = ? 3306000 ? , ? 471200 67660 30310 X Y = 1462000 , 209700 Y Y = 651900.
Rgression
105 1. Dterminer les ? dans la matrice X X . 2. Que vaut la circonfrence moyenne empirique x ? 3. Le calcul donne (en arrondissant !) 4.646 0.101 1.379 1 X X = 0.101 0.002 0.030 1.379 0.030 0.411 16.8 (X X )1 X Y = 0.30 . 7.62
et
1 , 2 , 3 par la mthode des moindres carrs ? Grce au calcul Que valent les estimateurs de quelques points, reprsenter la courbe obtenue sur la gure A.3.
4. Calculer lestimateur de 2 pour les moindres carrs. 5. Calculer pour 3 un intervalle de conance 95%. 6. Tester lhypothse 2 = 0 au niveau de risque 10%. 7. Que vaut la hauteur moyenne empirique y ? En dduire le coecient de dtermination ajust 2 Ra . 8. Construire un intervalle de prvision 95% de yn+1 connaissant xn+1 = 49. 9. Construire un intervalle de prvision 95% de yn+1 connaissant xn+1 = 25. 10. Des deux intervalles prcdents, lequel est le plus grand ? Pouvait-on sy attendre ? II. Consommation de gaz Mr Derek Whiteside de la UK Building Research Station a collect la consommation hebdomadaire de gaz et la temprature moyenne externe de sa maison au sud-est de lAngleterre pendant une saison. Une rgression pour expliquer la consommation de gaz en fonction de la temprature est ralise avec le logiciel R. Les rsultats numriques sont les suivants. Residuals: Min 1Q -0.97802 -0.11082
Median 0.02672
3Q 0.25294
Max 0.63803
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.72385 0.12974 ? < 2e-16 *** Temp -0.27793 ? -11.04 1.05e-11 *** --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 0.3548 on 28 degrees of freedom Multiple R-Squared: 0.8131, Adjusted R-squared: 0.8064 F-statistic: 121.8 on 1 and 28 DF, p-value: 1.046e-11 1. Donner le modle et les hypothses de la rgression. 2. Complter le tableau. 3. Soit Z une variable alatoire de loi de Student de degr de libert 28. Quelle est la probabilit que |Z | soit suprieure 11.04 ?
4. Prciser les lments du test correspondant la ligne Temp du tableau (H0 , H1 , la statistique de test, sa loi sous H0 , la rgle de dcision). 5. Interprter le nombre Multiple R-Squared: 0.8131 du tableau. Rgression Arnaud Guyader - Rennes 2
106
Chapitre A. Annales 6. Donner une estimation de la variance du terme derreur dans le modle de rgression simple. 7. Expliquer et interprter la dernire ligne du tableau : F-statistic: 121.8 on 1 and 28 DF, p-value: 1.046e-11. Voyez-vous une autre faon dobtenir cette p-value ? 8. Pensez-vous que la temprature extrieure a un eet sur la consommation de gaz ? Justiez votre rponse. III. Rgression simple On dispose de n points (xi , yi )1in et on sait quil existe une relation de la forme : yi = axi + b + i , o les erreurs i sont des variables centres, dcorrles et de mme variance 2 . 1. Rappeler les formules des estimateurs des moindres carrs a et b, ainsi que leurs variances respectives. 2. Dans cette question, on suppose connatre b, mais pas a. (a) En revenant la dnition des moindres carrs, calculer lestimateur a des moindres carrs de a. (b) Calculer la variance de a . Montrer quelle est infrieure celle de a . 3. Dans cette question, on suppose connatre a, mais pas b. (a) En revenant la dnition des moindres carrs, calculer lestimateur b des moindres carrs de b. (b) Calculer la variance de b. Montrer quelle est infrieure celle de b. IV. Forces de frottement et vitesse Au 17me sicle, Huygens sest intress aux forces de rsistance dun objet en mouvement dans un uide (eau, air, etc.). Il a dabord mis lhypothse selon laquelle les forces de frottement taient proportionnelles la vitesse de lobjet, puis, aprs exprimentation, selon laquelle elles taient proportionnelles au carr de la vitesse. On ralise une exprience dans laquelle on fait varier la vitesse x dun objet et on mesure les forces de frottement y . Ensuite, on teste la relation existant entre ces forces de frottement et la vitesse. 1. Quel(s) modle(s) testeriez-vous ? 2. Comment feriez-vous pour dterminer le modle adapt ?
Rgression
Mercredi 14 Dcembre 2010 Calculatrice autorise Aucun document
Corrig du Contrle
I. La hauteur des eucalyptus On souhaite expliquer la hauteur y (en mtres) dun arbre en fonction de sa circonfrence x (en centimtres) 1m30 du sol et de la racine carre x de cette circonfrence. On a relev 1429 couples (xi , yi ). On considre donc le modle de rgression suivant :
Figure A.4 Nuage de points et courbe de rgression pour les eucalyptus.
yi = 1 + 2 xi + 3 xi + i ,
1 i n.
Les i sont des variables alatoires indpendantes, de loi normale centre admettant la mme variance 2 . En posant : y1 1 x1 x1 . . . . . X= . . , . . . . et Y = . xn yn 1 xn Rgression
108 on a observ :
Chapitre A. Annales
1. La matrice X X se complte comme suit : 1429 67660 9792 X X = 67660 3306000 471200 9792 471200 67660 2. La circonfrence moyenne empirique vaut donc : x = 67660 47.3 cm. 1429
? ? 9792 X X = ? 3306000 ? , ? 471200 67660
30310 X Y = 1462000 , 209700
Y Y = 651900.
3. La mthode des moindres carrs ordinaires donne pour = [1 , 2 , 3 ] lestimateur suivant : 16.8 = (X X )1 X Y = 0.30 . 7.62 La courbe obtenue est reprsente gure A.4. 4. Un estimateur non biais 2 de 2 scrit : 2 Y X Y 2 = = n3 Puisque X
2
X 1426
X X = X Y , ceci scrit encore : = 2 = X Y Y Y 1, 26. 1426
5. Puisquon sait que :
3 3 3 3 Tn3 = T1426 , = 1 3 (X X ) 3,3
on en dduit quun intervalle de conance 95% pour 3 est : 3 t1426 (0.975) I (3 ) =

1 (X X ) 33 ; 3 + t1426 (0.975) 1 (X X ) 3,3 ,
cest--dire en considrant que t1426 (0.975) = 1.96 comme pour une loi normale centre rduite : I (3 ) 7.62 1.96 0.72; 7.62 + 1.96 0.72 [6.21; 9.03]. 6. On veut tester lhypothse H0 : 2 = 0 contre H1 : 2 = 0 au niveau de risque 10%. Sous H0 , on sait que 2 2 Tn3 = T1426 N (0, 1). = 2 1 (X X ) 22 Il nous sut donc de comparer la valeur absolue de la statistique de test obtenue ici au quantile dordre 0.95 dune loi normale centre rduite, cest--dire 1.645. Or |T ( )| = | 0.30| 5.98 > 1.645. 1.26 0.002 Rgression
Par consquent on rejette lhypothse selon laquelle 2 = 0. Arnaud Guyader - Rennes 2
109 7. La moyenne empirique des yi se dduit de la premire composante du vecteur X Y : y = 30310/1429 21.2 m.
2 vaut : Par dnition, le coecient de dtermination ajust Ra 2 Ra =1
n1 Y Y np Y y
2 2
= 1 (n 1)
2 Y y
donc :
2 Ra = 1 1428
1.26 0.81. 1429 y2
8. En notant x n+1 = [1, 49, 7], la valeur prdite pour yn+1 est : y n+1 = x n+1 21.8, et un intervalle de prvision 95% pour yn+1 est : IC (yn+1 ) = y n+1 t1426 (0.975)
1 1 + x n+1 + . . . , n+1 (X X ) xn+1 ; y
9. De mme, en posant x n+1 = [1, 25, 5], la valeur prdite pour yn+1 est : y n+1 = x n+1 13.8, 10. On constate que cest le second intervalle de prvision qui est le plus grand : ceci est d au fait que le second point est plus loign du centre de gravit du nuage. On prvoit donc moins bien sa valeur. II. Consommation de gaz Mr Derek Whiteside, de la UK Building Research Station, a collect la consommation hebdomadaire de gaz et la temprature moyenne externe de sa maison au sud-est de lAngleterre pendant une saisons. Une rgression pour expliquer la consommation de gaz en fonction de la temprature est ralise avec le logiciel R. Les rsultats numriques sont les suivants. Residuals: Min 1Q -0.97802 -0.11082 et un intervalle de prvision 95% pour yn+1 est IC (yn+1 ) [11.7; 15.9].
ce qui donne numriquement IC (yn+1 ) [20.1; 23.5].
Median 0.02672
3Q 0.25294
Max 0.63803
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.72385 0.12974 36.41 < 2e-16 *** Temp -0.27793 0.0252 -11.04 1.05e-11 *** --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 0.3548 on 28 degrees of freedom Multiple R-Squared: 0.8131, Adjusted R-squared: 0.8064 F-statistic: 121.8 on 1 and 28 DF, p-value: 1.046e-11 Rgression Arnaud Guyader - Rennes 2
110 1. Le modle considr ici est : pour tout i {1, . . . , 30} Ci = 1 + 2 Ti + i ,
Chapitre A. Annales
avec les erreurs i gaussiennes centres, indpendantes et de mme variance 2 . 2. cf. ci-dessus. 3. Soit Z une variable alatoire de loi de Student de degr de libert 28. Daprs le tableau, la probabilit que |Z | soit suprieure 11.04 est de lordre de 1.05 1011 .
2
4. Pour la ligne Temp du tableau, lhypothse H0 correspond 2 = 0 contre H1 : 2 = 0. Sous 2 / H0 , suit une loi de Student 28 degrs de libert. On dcide de rejeter H0 si la statis2 / tique de test |T ( )| = | 2 | correspond une p-value trs faible (typiquement infrieure 5%). En loccurence, la rgle de dcision ci-dessus est calcule partir des valeurs obtenues 2 = 0.27793, | = 11.04 et la p-value correspondante pour 2 = 0.0252, |T ( )| = |2 / 2 une loi de Student 28 degrs de libert est : (|T | > 11.04) = 1.05 1011 .
5. Le nombre Multiple R-Squared: 0.8131 correspond au coecient de dtermination R2 du modle. Il signie quenviron 81% de la variation des donnes de consommation est explique par ce modle de rgression linaire simple. 6. Un estimateur de la variance 2 du terme derreur est donn par le carr du terme Residual standard error du tableau, savoir 2 = 0.35482 0.126.
7. La dernire ligne du tableau correspond au test de Fisher de validit globale du modle. Avec les notations du cours, on sait que sous lhypothse H0 : 2 = 0, nous avons F = Y 0 Y n p SCR0 SCR = 2 q SCR
2 1 F28 ,
loi de Fisher 1 et 28 degrs de libert. La statistique de test donne ici F ( ) = 121.8, ce qui correspond une p-value de 1.046 1011 . Nous rejetons donc lhypothse selon laquelle 2 serait nul. Remarquons que ce test correspond au test de Student eectu dans la ligne Temp du tableau. 8. Au vu des rsultats du test de Student (ou de lquivalent Test de Fisher de la dernire ligne), il est clair que la temprature a un impact sur la consommation de gaz. Ceci est tout fait naturel, puisque plus il fait froid, plus on chaue. III. Rgression simple On dispose de n points (xi , yi )1in et on sait quil existe une relation de la forme : yi = axi + b + i , o les erreurs i sont des variables centres, dcorrles et de mme variance 2 . 1. Les formules des estimateurs des moindres carrs a et b sont a = et (xi x )(yi y ) = 2 (xi x ) b=y a x . 2 (xi x )2 2 x2 i . n (xi x )2 (xi x )yi . (xi x )2
Leurs variances respectives sont donnes par Var( a) = & Var( b) =
2. Dans cette question, on suppose connatre b, mais pas a. Arnaud Guyader - Rennes 2 Rgression
111 (a) Lestimateur a des moindres carrs correspond largmin de la quantit : S (a) = (yi (axi + b))2 , xi (yi b) . x2 i
ce qui sobtient en annulant la drive de S : S ( a ) = 2
xi (yi ( axi + b)) = 0 a =
(b) Pour calculer la variance de a , on commence par lexprimer diremment. Grce la relation yi = axi + b + i , on dduit : a =a+ xi i . x2 i 2 . x2 i
Puisque les erreurs i sont dcorrles et de mme variance 2 , il vient : Var( a) =
Puisque (xi x )2 = x2 2 x2 a) Var( a). i nx i , il est alors clair que Var( 3. Dans cette question, on suppose connatre a, mais pas b. (a) Lestimateur b des moindres carrs correspond cette fois largmin de la quantit : S (b) = S ( b) = 2 (yi (axi + b))2 ,
ce qui sobtient en annulant la drive de S :
(yi ( axi + b)) = 0 b=y ax .
(b) Pour calculer la variance de b, on commence nouveau par lexprimer diremment via la relation yi = axi + b + i : 1 i . b=b+ n Puisque les erreurs i sont dcorrles et de mme variance 2 , il vient : 2 Var( b) = . n Puisque (xi x )2 = x2 2 i nx x2 i , il est alors clair que Var(b) Var(b).
IV. Forces de frottement et vitesse 1. Le premier modle, supposant que les forces de frottement sont proportionnelles la vitesse de lobjet, scrit : pour tout i {1, . . . , n} fi = vi + i , o n est le nombre dobservations et les i reprsentent les erreurs du modle, typiquement supposes centres, dcorrles et de mme variance 2 . Le second modle, supposant que les forces de frottement sont proportionnelles au carr de la vitesse de lobjet, scrit : pour tout i {1, . . . , n}
2 fi = vi + i ,
o n est le nombre dobservations et les i reprsentent les erreurs du modle, typiquement supposes centres, dcorrles et de mme variance s2 . 2. Pour dterminer le modle adapt, une mthode lmentaire consiste comparer les pourcentages de variation des donnes (fi )1in expliqus par chacun des modles. Ceci se fait 2 et R2 pour chaque modle. On en calculant les coecients de dtermination respectifs R1 2 optera pour celui qui a le R2 le plus grand. Rgression Arnaud Guyader - Rennes 2
112 Universit Rennes 2 Master de Statistiques Dure : 2 heures
Chapitre A. Annales
Mardi 6 Dcembre 2011 Calculatrice autorise Aucun document
I. Prix dun appartement en fonction de sa supercie En juin 2005, on a relev dans les petites annonces les supercies (en m2 ) et les prix (en euros) de 108 appartements de type T3 louer sur lagglomration de Rennes (cf. gure A.5).
prix
400 50
600
800
1000
60
70
80
90
100
110
120
superficie
Figure A.5 Prix de location des appartements en fonction de leur supercie. 1. Daprs le listing du tableau A.1, donner une estimation du coecient de corrlation entre le prix et la supercie dun appartement T3. 2. Proposer un modle permettant dtudier la relation entre le prix des appartements et leur supercie. Prciser les hypothses de ce modle. 3. Daprs le tableau A.1, est-ce que la supercie joue un rle sur le prix des appartements de type 3 ? Considrez-vous ce rle comme important ? 4. Quelle est lestimation du coecient (coecient de la supercie dans le modle) ? Comment interprtez-vous ce coecient ? Arnaud Guyader - Rennes 2 Rgression
113
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 134.3450 45.4737 2.954 0.00386 Superficie 6.6570 0.6525 10.203 < 2e-16 Residual standard error: 77.93 on 106 degrees of freedom Multiple R-Squared: 0.4955, Adjusted R-squared: 0.4907 F-statistic: 104.1 on 1 and 106 DF, p-value: < 2.2e-16
Table A.1 Prix en fonction de la supercie : rsultats de la rgression linaire simple (sortie R). 5. La supercie moyenne des 108 appartements est de 68.74 m2 et le prix moyen des appartements est de 591.95 euros. Quel est le prix moyen dun mtre carr ? Pourquoi ce prix moyen est dirent de lestimation de ? 6. Dans lchantillon dont on dispose, comment savoir quels sont les appartements bon march du seul point de vue de la surface ? II. Tests Nous nous intressons au modle Y = X + sous les hypothses classiques. Nous avons obtenu sur 21 donnes : y = 6.683(2.67) + 0.44(2.32) x1 + 0.425(2.47) x2 + 0.171(2.09) x3 + 0.009(2.24) x4 , R2 = 0.54 o, pour chaque coecient, le nombre entre parenthses reprsente la valeur absolue de la statistique de test. 1. Quelles sont les hypothses utilises ? 2. Tester la nullit de 1 au seuil de 5%. 3. Pouvez-vous tester H0 : 3 = 1 contre H1 : 3 = 1 ? 4. Tester la nullit simultane des paramtres associs aux variables x1 , . . . , x4 au seuil de 5%. III. Moindres carrs ordinaires 1. Nous considrons le modle de rgression linaire Y = X + , o Y n , X est une matrice de taille n p de rang p, p et N (0, 2 In ). de ? Rappeler sa formule. (a) Quappelle-t-on estimateur des moindres carrs (faites un dessin) ? = X (b) Quelle est linterprtation gomtrique de Y , Y et . (c) Rappeler esprances et matrices de covariance de 2. Nous considrons dornavant un modle avec 4 variables explicatives (la premire variable tant la constante). Nous avons observ : 100 20 0 0 60 20 20 0 0 , X Y = 20 , Y Y = 159. X X = 0 0 10 0 10 1 0 0 0 1 (a) Estimer et 2 . Rgression Arnaud Guyader - Rennes 2
114 . (b) Donner un estimateur de la variance de (c) Donner un intervalle de conance pour 2 , au niveau 95%.
Chapitre A. Annales
(d) Calculer un intervalle de prvision de yn+1 au niveau 95% connaissant : xn+1,2 = 3, xn+1,3 = 0.5 et xn+1,4 = 2. IV. Moindres carrs pondrs On suppose le modle suivant Y = X + , o X est la matrice (n p) du plan dexprience, = [1 , . . . , p ] un vecteur de p , Y le vecteur (n 1) des observations yi , le vecteur (n 1) des erreurs i supposes centres et de matrice de covariance Var() = 2 2 , o est une matrice (n n) diagonale dont llment (i, i) vaut i > 0. Dans ce modle, les valeurs i sont supposes connues, mais les paramtres et 2 sont inconnus. 1. On considre le modle transform Y = X + , o : , . . . , y ] , avec y = y / ; Y = [y1 i i n i X est la matrice (n p) de terme gnrique x ij = xij /i ; = [1 , . . . , n ] , avec i = i /i ; (a) Donner les relations entre X (respectivement Y , ), X (respectivement Y , ) et . (b) Dterminer la moyenne et la matrice de covariance du vecteur alatoire . de (c) En supposant X 2 X inversible, dterminer lestimateur des moindres carrs . Prciser son biais et sa matrice de covariance.
2 de 2 . (d) Proposer un estimateur sans biais
2. En revenant au modle initial Y = X + , on suppose maintenant les erreurs i gaussiennes, plus prcisment N (0, 2 2 ).
2 sont solutions mv et (b) En dduire que les estimateurs au maximum de vraisemblance mv de : 2 1 (Y X ) = n 2 X 2 (Y X ) = 0. 2 dautre part. 2 et mv et dune part, entre (c) En dduire les relations entre mv 2? . Que dire de celle de (d) Prciser alors la loi de
(a) Donner la vraisemblance L(Y, , 2 ) du modle.
3. Supposons maintenant le modle classique de rgression linaire Y = X + , avec les erreurs centres et de matrice de covariance Var() = 2 In . Nanmoins, on nobserve pas comme dhabitude les x i et yi , mais des moyennes par classe. Spciquement, les n donnes sont rparties en L classes C1 , . . . , CL deectifs respectifs connus n1 , . . . , nL et on a seulement accs aux moyennes par classe, savoir pour tout {1, . . . , L} : y = (a) En notant = . X +
1 n
1 n
yi
iC
&
x j =
1 n
xij
iC
iC i ,
= vrier que le modle peut se mettre sous la forme Y
. (b) Donner la moyenne et la matrice de covariance de (c) Dduire des questions prcdentes des estimateurs de et 2 . Arnaud Guyader - Rennes 2 Rgression
Corrig du Contrle
I. Prix dun appartement en fonction de sa supercie 1. Le coecient de corrlation entre le prix et la supercie dun appartement T3 correspond la racine carr du coecient de dtermination multiple (Multiple R-squared dans le listing) r = 0.496 = 0.704. 2. Le modle scrit : avec yi le prix de lappartement i en euros, xi sa supercie en m2 et i lerreur. Les hypothses usuelles sont de supposer les erreurs gaussiennes, centres, indpendantes et de mme variance : N (0, 2 I108 ). i yi = + xi + i
3. Pour tester si la supercie joue un rle sur le prix des appartements, on teste lhypothse H0 : = 0 contre H1 : = 0. La statistique de ce test est T = / et, sous lhypothse H0 , cette statistique de test suit une loi de Student n 2 = 106 degrs de libert. La probabilit critique associe ce test est infrieure 2 1016 . Cette probabilit critique tant infrieure 5 %, on rejette lhypothse H0 : on considre que la supercie dun appartement de type T3 inue sur son prix. La surface a donc une inuence signicative sur le prix. Mais cette inuence est-elle importante ? Le coecient de dtermination R2 , qui sinterprte comme le pourcentage de variabilit explique par le modle, vaut 0.495 : linuence est donc importante mais dautres facteurs, diciles quantier, agissent (emplacement, qualit des prestations, avidit du propritaire, etc.). = 6.657. Ce coecient est signi4. Lestimation de la pente de la droite de rgression est : cativement dirent de 0 (voir question prcdente) et sinterprte de la faon suivante : un appartement cotera en moyenne 6.657 euros supplmentaires pour une augmentation de la supercie de 1 m2 . 5. Le prix moyen dun mtre carr se calcule comme le rapport entre 591.95 et 68.74 soit 8.61 euros le mtre carr. Ce prix est dirent de lestimation de car le prix des appartements est infrieur au prix moyen dun nest pas strictement proportionnel leur surface. Comme mtre carr, proportionnellement la surface, les petits appartements sont plus chers que les grands. Le modle de rgression stipule quil faut dabord une mise de fond pour louer un T3, et quensuite le prix d1 m2 est euros (en moyenne). Remarquons que ce coecient est signicatif, il nest donc pas souhaitable de le retirer du modle. 6. Pour dterminer les appartements bon march, on peut se fonder sur lestimation des rsidus du modle : plus le rsidu est faible (ngatif et avec une forte valeur absolue), plus lappartement a un prix faible par rapport celui attendu pour sa supercie.
Rgression
116 II. Tests 1. Les hypothses utilises sont : Y = X + , avec N (0, 2 I21 ). 2. Nous savons que T = 1 1 T16 1 1 T16 1
Chapitre A. Annales
loi de Student 16 degrs de libert. Sous lhypothse 1 = 0, nous avons donc T =
Or, daprs lnonc, la valeur absolue de la statistique de test vaut ici |T ( )| = 2.32 > 2.12 = t16 (0.975) Donc, au seuil de 5%, on rejette lhypothse selon laquelle 1 serait nul. 3. Par le mme raisonnement T = 3 3 T16 3
Or, sous lhypothse 3 = 0, la valeur absolue de la statistique de test vaut daprs lnonc |T ( )| = 3 = 2.09 3
3 = 0.171, on en dduit donc que Puisque 3 0.082. Ainsi, sous lhypothse 3 = 1, nous avons 3 1 T16 T = 3 Or la statistique de test donne ici |T ( )| = 0.171 1 10.1 2.12 = t16 (0.975) 0.082
donc on rejette lhypothse H0 selon laquelle 3 serait gal 1. 4. Nous eectuons un test de Fisher global : H0 : 1 = = 4 = 0, contre H1 : j {1, . . . , 4}, j = 0. Avec les notations du cours, nous savons que sous lhypothse H0 , nous avons 21 5 SCR0 SCR 4 F = F16 4 SCR loi de Fisher (4, 16) degrs de libert. Cette statistique de test sexprime aussi en fonction du coecient de dtermination comme suit : F = La statistique de test donne donc ici R2 21 5 4 F16 4 1 R2
4 (0.95) F ( ) 4.7 > 3.01 = f16
ce qui nous amne rejeter lhypothse H0 au seuil de 5%. III. Moindres carrs ordinaires Arnaud Guyader - Rennes 2 Rgression
117 1. Nous considrons le modle de rgression linaire Y = X + , o Y n , X est une matrice de taille n p de rang p, p et N (0, 2 In ). de est dni par (a) Lestimateur des moindres carrs = arg min Y X p
2
o . est la norme euclidienne usuelle sur p . Un calcul classique permet de montrer = (X X )1 X Y . que est tout simplement la projection orthogonale de Y sur le = X (b) Dans ce cadre, Y sous-espace de n engendr par les p colonnes de X . ] = et Var( ) = 2 (X X )1 . , il est facile de montrer que [ (c) Pour ce qui concerne 2 ] = X et Var(Y ) = PX , o PX = X (X X )1 X De la mme faon, nous avons [Y est la matrice de projection orthogonale sur le sous-espace de n engendr par les p colonnes de X . Enn, [ ] = 0 et Var( ) = 2 PX , o PX = In PX est la matrice de projection orthogonale sur lorthogonal du sous-espace de n engendr par les p colonnes de X . 2. Nous considrons dornavant un modle avec 4 variables explicatives (la premire variable tant la constante). (a) Nous avons 1 1 1 1 5 = 0 80 0 0 0 0 0 0 0 8 0 0 80
(X X )1
Ce qui donne :
Par Pythagore nous obtenons
1 = (X X )1 X Y = 2 1 1
2
= Y
2
or Y do
2 2
= X
= 111 = = Y X
= 48 et 2 = 2 48 1 = = np 96 2 0 0 0 0 8 0 0 80 Arnaud Guyader - Rennes 2
est (b) Un estimateur de la variance de 1 1 1 1 5 = 0 160 0 0 0
) = Var( 2 (X X )1
Rgression
118 (c) Nous savons que 2 2 T96 , 2
Chapitre A. Annales
loi de Student 96 degrs de liberts, laquelle peut tre assimile la loi normale centre rduite. Puisque 1 )2,2 = Var( 2 = 4 2 un intervalle de conance 95% pour 2 est 2 1.96 I = [ 2 ; 2 + 1.96 2 ] [1.65; 2.35] (d) Un intervalle de prvision de niveau 95% pour yn+1 est donn par I= y n+1 t96 (0.975)
1 1 + x n+1 + t96 (0.975) n+1 (X X ) xn+1 ; y 1 1 + x n+1 (X X ) xn+1
avec tnp (0.975) 1.96, x n+1 = [1, 3, 0.5, 2],
1 1 + x n+1 (X X ) xn+1 2.35 et
y n+1 = x n+1 = 7.5 Finalement I [4.24; 10.76]. IV. Moindres carrs pondrs 1. On considre le modle transform Y = X + , o : , . . . , y ] , avec y = y / ; Y = [y1 i i n i X est la matrice (n p) de terme gnrique x ij = xij /i ; = [1 , . . . , n ] , avec i = i /i ; (a) Il est clair que X = 1 X , Y = 1 Y et = 1 . (b) Puisque [] = 0 et Var() = 2 2 , on a [ ] = [1 ] = 1 [] = 0 et Var( ) = Var(1 ) = 1 Var()(1 ) = 1 ( 2 2 )1 = 2 In (c) Daprs la question prcdente, le modle transform obit aux hypothses usuelles du modle linaire (centrage, homoscdasticit et dcorrlation des erreurs). Lestimateur de est donc des moindres carrs = ((X ) (X ))1 (X ) Y = X 2 X
1
X 2 Y
Par les proprits classiques de lestimateur des moindres carrs, on sait quil est non biais et que sa matrice de covariance est ) = 2 ((X ) (X ))1 = 2 X 2 X Var(
1
(d) Toujours par la thorie de lestimation aux moindres carrs, on sait quun estimateur non biais de 2 est
2 =
Y X np
) 1 (Y X np
2. En revenant au modle initial Y = X + , on suppose maintenant les erreurs i gaussiennes, plus prcisment N (0, 2 2 ). Arnaud Guyader - Rennes 2 Rgression
119 (a) Comme dhabitude, nous notons x i = [xi1 , . . . , xip ] la ligne i de la matrice X du plan dexprience. De par lindpendance des yi , la vraisemblance du modle scrit
n n
L(Y, , ) =
fi (yi ) =
i=1 i=1
1
2 2 2 i
2 (y i x i) 2 2 2 i
1 1 n e (2 ) det ( 2 ) 2
n 2
1 (Y X ) 2 2 2
(b) La log-vraisemblance est donc log L(Y, , 2 ) = C

n
n 1 (Y X ) log( 2 ) 2 2 2
o C = log((2 ) 2 det) est une constante indpendante des paramtres et 2 . Pour toute valeur de 2 , le maximum en est atteint en minimisant 1 (Y X ) = Y X , or ceci a t fait prcdemment, do il vient mv = = X 2 X
1
X 2 Y
ce qui scrit de faon quivalente, en prmultipliant les deux membres par X 2 X et en passant tout droite mv ) = 0 X 2 (Y X mv dtermin, il sut de maximiser en 2 la fonction dune seule variable Une fois
1 mv , 2 ) = C n log( 2 ) (Y X mv ) log L(Y, 2 2 2 2
ce qui se fait en annulant sa drive mv , 2 ) mv ) log L(Y, 1 n 1 (Y X = + 2 2 4 2 2 On obtient bien

2 mv = 2
mv ) 1 (Y X n
. dautre part.
2 = mv = dune part, et (c) Nous avons donc mv
2 (np) n
(d) Par les proprits classiques de lestimateur du maximum de vraisemblance dans le cas du modle linaire gaussien, nous avons donc N (, 2 ((X ) (X ))1 ) N (, 2 X 2 X De mme, le thorme de Cochran permet de montrer que (n p)
2 2 n p 2 1
).
3. Supposons maintenant le modle classique de rgression linaire Y = X + , avec les erreurs centres et de matrice de covariance Var() = 2 In . Nanmoins, on nobserve pas comme dhabitude les x i et yi , mais des moyennes par classe. Spciquement, les n donnes sont rparties en L classes C1 , . . . , CL deectifs respectifs connus n1 , . . . , nL et on a seulement accs aux moyennes par classe, savoir pour tout {1, . . . , L} : y = 1 n yi
iC
loi du chi-deux (n p) degrs de libert.
&
x j =
1 n
xij
iC
Rgression
120
Chapitre A. Annales = [ la matrice L p de terme (a) Dans ce contexte, il sut de noter Y y1 , . . . , y L ] , X = [ gnrique x j et 1 , . . . , L ] pour obtenir lcriture matricielle = X + Y est de moyenne nulle et de matrice de covariance diagonale, ses (b) Le vecteur alatoire 2 2 termes diagonaux tant gaux n1 , . . . , nL . (c) Tous les calculs prcdents sappliquent en remplaant n par L et i par donc pour estimateur de = X 2 X et pour estimateur de 2
2 = 1 1 . ni
On obtient
2 Y X
2
) X 1 (Y Lp
Rgression
I. Octopuss Garden On cherche mettre en uvre une stratgie de prdiction du poids utile du poulpe, cest--dire son poids viscr, partir de son poids non viscr. Cest en eet le poulpe viscr qui est commercialis. Pour cela, un chantillon de poulpes a t collect en 2003 lors des oprations de pche dans les eaux mauritaniennes. Vu limportante dirence de poids entre les poulpes mles et les poulpes femelles, on tudie ici uniquement les donnes concernant 240 poulpes femelles.
2000 Poids viscr 0 0 500 1000 1500
500
1000
1500
2000
2500
Poids non viscr
Figure A.6 Poids de poulpe viscr en fonction du poids non viscr (en grammes). 1. Lensemble de ces donnes est reprsent gure A.6. (a) Proposer un modle reliant le poids viscr et le poids non viscr dun poulpe. (b) Rappeler les formules des estimateurs des paramtres du modle. (c) A partir du tableau A.2, donner les estimations numriques des paramtres du modle. (d) Que reprsente la valeur 0.698 du tableau A.2 ? Comment la retrouver ( peu prs) partir de -0.388 et de la table de la loi normale donne en annexe (faire un dessin). (e) Au vu de cette valeur 0.698, proposer un autre modle reliant les poids viscr et non viscr. 2. De faon gnrale, considrons un chantillon de n couples de rels (xi , yi ) suivant le modle yi = xi + i , o les erreurs i sont supposes gaussiennes indpendantes centres et de mme variance 2 . Rgression Arnaud Guyader - Rennes 2
122
Estimate -2.312146 0.853169 Std. Error 5.959670 0.007649 t value -0.388 111.545 Pr(>|t|) 0.698 <2e-16
Chapitre A. Annales
(Intercept) Poids non viscr
Table A.2 Poids de poulpes viscrs et non viscrs : rsultats de la rgression linaire simple (sortie R). de minimisant la somme des carrs des carts au modle. (a) Dterminer lestimateur (b) Retrouver le rsultat prcdent partir de la formule gnrale de lestimateur de rgression linaire multiple en considrant la projection du vecteur Y = [y1 , . . . , yn ] sur la droite vectorielle engendre par le vecteur X = [x1 , . . . , xn ] . . Proposer un estimateur non biais (c) En dduire la variance de 2 de 2 .
Poids non viscr Estimate Std. Error t value Pr(>|t|) 0.85073 0.00436 195.1 <2e-16
Table A.3 Poids de poulpes viscrs et non viscrs : rsultats de la rgression linaire simple avec le modle simpli (sortie R). (d) Les rsultats de lanalyse de ce nouveau modle sont fournis dans le tableau A.3. Loca et liser 2 dans ce tableau. (e) On veut prdire le poids viscr dun poulpe de poids non viscr x0 . Quelle est la variance de lerreur de prvision ? Donner un intervalle de conance 90% autour de la prvision. II. Comparaison de modles On eectue une rgression de y sur deux variables explicatives x et z partir dun chantillon de n individus, cest--dire que X = [, x, z ], o est le vecteur de taille n compos de 1. On a obtenu le rsultat suivant : 5 3 0 X X = 3 3 1 . 0 1 1 1. Que vaut n ? 2. Que vaut le coecient de corrlation linaire empirique entre x et z ? 3. La rgression par moindres carrs ordinaires a donn le rsultat suivant y i = 1 + 3xi + 4zi + i et la somme des carrs rsiduelle vaut = 3. , et calculer X Y . En dduire y (a) Exprimer X Y en fonction de (X X ) et . 2 . En dduire Y 2 . (b) Calculer Y Rgression
2
123 (c) Calculer la somme des carrs totale Y y 2 , le coecient de dtermination R2 et le coecient de dtermination ajust. 4. On sintresse maintenant au modle priv du rgresseur z , cest--dire Y = X0 0 + 0 , o X0 = [, x]. 0 . (a) Dterminer X X0 et X Y . En dduire
0 0
0 2 . (b) Calculer Y 0 2 + 2+ 0 2 = Y 2 . En dduire 0 2 , le coecient de (c) Justier lgalit Y 2 dtermination R0 et le coecient de dtermination ajust. 5. On veut maintenant comparer les deux modles prcdents. (a) Eectuer un test de Fisher entre ces deux modles grce aux coecients de dtermination. Quen concluez-vous au niveau de risque 5% ? (b) Proposer un autre moyen darriver au mme rsultat. III. Minimisation de lerreur de prvision 1. Soit un chantillon de n couples de rels (xi , yi )1in pour le modle de rgression linaire simple yi = 0 + 1 xi + i , o les erreurs i sont supposes centres dcorrles et de mme variance 2 . On estime = (0 , 1 ) par la mthode des moindres carrs ordinaires, ce qui = ( 0 , 1 ). donne (a) Soit xn+1 une nouvelle valeur de la variable explicative pour laquelle on veut prdire la variable rponse yn+1 . Quappelle-t-on erreur de prvision ? Rappeler sa variance telle quelle est nonce dans le chapitre sur la rgression linaire simple. (b) Rappeler sa variance telle quelle est nonce dans le chapitre sur la rgression linaire multiple. (c) Retrouver le rsultat de la question 1a partir de celui de la question 1b. (d) A partir du rsultat de la question 1a, trouver pour quelle valeur de xn+1 la variance de lerreur de prvision est minimale. Que vaut alors cette variance ? 2. Le but de cette partie est de gnraliser le rsultat de la question 1d. Nous considrons dsormais un chantillon (x i , yi )1in , o xi = [1, zi ] avec zi = [xi1 , . . . , xip ]. En notant le vecteur de taille n uniquement compos de 1, nous adoptons lcriture matricielle : 1 x11 . . . . . X= . . . . 1 xn 1 x1p . . . = xnp 1 z1 . . = . . . . 1 zn
Z1 Zp = Z ,
o Z est donc une matrice de taille n p. Les moyennes de ses colonnes Z1 , . . . , Zp sont regroupes dans le vecteur ligne x = [ x1 , . . . , x p ]. Enn, on considre comme prcdemment le modle de rgression linaire yi = 0 + 1 xi1 + + p xip + i = x i + i , o les erreurs i sont supposes centres indpendantes et de mme variance 2 . Matriciellement, ceci scrit donc Y = X + , avec X donne ci-dessus et suppose telle que X X est inversible. (a) Ecrire la matrice X X sous forme de 4 blocs faisant intervenir Z , x et la taille n de lchantillon. Rgression Arnaud Guyader - Rennes 2
124
Chapitre A. Annales (b) On rappelle la formule dinversion matricielle par blocs : Soit M une matrice inversible telle que M = T V U W
avec T inversible, alors Q = W V T 1 U est inversible et linverse de M est : M 1 = T 1 + T 1 U Q 1 V T 1 T 1 U Q 1 Q 1 V T 1 Q1 .
(c) Soit x n+1 = [1, zn+1 ] une nouvelle donne. Montrer que la variance de lerreur de prvision est gale
Ecrire la matrice (X X )1 sous forme de 4 blocs dpendant de n, x et 1 , o = 1 x . nZ Z x
Var( n+1 ) = 2 1 +
1 1 + (zn+1 x ) 1 (zn+1 x ) . n n
1 Z Z x x est symtrique dnie positive (on rappelle (d) On admet pour linstant que = n que S est symtrique dnie positive si S = S et si pour tout vecteur x non nul, x Sx > 0). Pour quelle nouvelle donne x n+1 la variance de lerreur de prvision est-elle minimale ? Que vaut alors cette variance ?
(e) (Bonus) Justier le fait que si X X est inversible, alors est bien symtrique dnie positive.
Rgression
Corrig du Contrle
I. Octopuss Garden 1. (a) Vu la forme du nuage de points, il semble raisonnable de proposer un modle de rgression linaire simple : en notant x le poids non viscr et y le poids viscr, on suggre donc yi = 1 + 2 xi + i , avec comme dhabitude les erreurs i supposes gaussiennes indpendantes centres et de mme variance 2 . (b) Les formules des estimateurs des moindres carrs du modle sont : 1 = y 2 x , avec : 2 =
n )(yi i=1 (xi x n )2 i=1 (xi x
y )
o n = 240 sur notre exemple. Un estimateur non biais de 2 est quant lui 2 = 1 n2 1 + 2 xi ))2 (yi (
n )yi i=1 (xi x , n )2 i=1 (xi x
1 2.31, 2 0.85, et (c) Du tableau 1, on dduit que 52.7. 1 / (d) Sous lhypothse H0 : 1 = 0, nous savons que T = 1 T238 , loi de Student 238 degrs de liberts. La statistique de test est ici T ( ) = 0.368, et la probabilit que la valeur absolue dune loi Student 238 ddl dpasse 0.368 est environ 0.698. Pour retrouver ce rsultat partir de la table de la loi normale : si X T238 , alors par symtrie de la loi de Student et son approximation par une loi normale centre rduite on obtient successivement
(|X | > 0.388) = 2 (1 (X 0.388)) 2 (1 (N (0, 1) 0.388))

et daprs la table de la loi normale
(N (0, 1) 0.388) (X 0.39) 0.652

do (e) Ceci nous amne accepter H0 et proposer un modle sans la constante, savoir : yi = xi + i , o les erreurs i sont supposes gaussiennes indpendantes centres et de mme variance 2 . 2. De faon gnrale, considrons un chantillon de n couples de rels (xi , yi ) suivant le modle yi = xi + i , o les erreurs i sont supposes gaussiennes indpendantes centres et de mme variance 2 . Rgression Arnaud Guyader - Rennes 2
(|X | > 0.388) 0.696, qui nest pas bien loin du 0.698 du listing.
126 sobtient en minimisant : (a) Lestimateur

n n
Chapitre A. Annales
S ( ) =
i=1
(yi xi )2 S ( ) = 2
i=1
= xi (yi xi ) = 0
n i=1 xi yi n 2 i=1 xi
(b) Lestimateur prcdent revient considrer la projection du vecteur Y = [y1 , . . . , yn ] sur la droite vectorielle engendre par le vecteur X = [x1 , . . . , xn ] . Nous pouvons donc appliquer la formule gnrale : = (X X )1 X Y =
se dduit elle lui aussi de la formule gnrale : (c) La variance de ) = 2 (X X )1 = Var(

n 2. i=1 xi
Puisque le nombre de paramtres est gal p = 1, un estimateur non biais 2 est : 2 = Y X n1

2
1 n1
i )2 (yi x
0.85 et (d) Le tableau 2 indique que 52.6.
(e) On veut prdire le poids viscr y0 dun poulpe de poids non viscr x0 . La variance 0 est elle aussi donne par la formule gnrale : de lerreur de prvision 0 = y0 x Var( 0 ) = 2 (1 + x0 (X X )1 x0 ) = 2 1 + x2 0 n 2 i=1 xi .
Puisquon ne connat pas lcart-type , on le remplace par son estimation et on sait alors que 0 y0 x T239 x2 0 1 + n x2
i=1 i
do lon dduit un intervalle de prvision 90% 0 t239 (0.95) IP (y0 ) = x 1+ x2 0 n 2 , x0 i=1 xi + t239 (0.95) 1+ x2 0 n 2 i=1 xi ,
o t239 (0.95) reprsente le quantile dordre 0.95 dune Student 239 ddl, soit environ 1.653. II. Comparaison de modles Puisque X = [, x, z ], on a : 5 3 0 n X X = 3 3 1 = nx 0 1 1 nz nx x2 i xi zi nz xi zi . 2 zi Rgression
1. Il en dcoule que n = 5. Arnaud Guyader - Rennes 2
127 2. Le coecient de corrlation linaire empirique entre x et z scrit x,z = xi zi nx z = 5 0.91. 6
x2 2 i nx
2 nz zi 2
= (X X )1 X Y = [1, 3, 4] , on en dduit que 3. (a) Puisque 5 3 0 1 4 = 3 3 1 3 = 10 = X Y = (X X ) 0 1 1 4 7 En particulier, on a donc y = 4/5. (b) Un calcul direct donne On applique alors Pythagore : Y
2
ny xi y i . zi yi
X Y = 54. =
= Y
= 57.
(c) Puisque y est le projet orthogonal de Y sur la droite vectorielle carrs totale est alors immdiate, toujours par Pythagore : Y y
2
, la somme des
= Y
= Y
ny 2 =
269 = 53.8. 5
Par dnition, le coecient de dtermination scrit R2 = 1 2 Y y

2
254 0.94 269
et le coecient de dtermination ajust tient compte des dimensions, soit

2 Ra =1
2 n1 n3 Y y
239 0.89 269
4. On sintresse maintenant au modle priv du rgresseur z , cest--dire Y = X0 0 + 0 , o X0 = [, x].

X se dduit de X X : (a) La matrice X0 0 X0 X0 =
n nx
nx x2 i
5 3 3 3
Y partir de X Y : Idem pour le vecteur X0 X0 Y =
ny xi y i
4 10 3 19/3
Il vient donc 0 = (X X0 )1 X Y = 0 0 (b) Nous avons comme prcdemment 0 Y Rgression

2
X Y = 154 51.3 = 0 0 3 Arnaud Guyader - Rennes 2
128 (c) Un coup de Pythagore dans chaque modle donne Y do lon tire 0
2 2
Chapitre A. Annales
0 = Y
0 +
2
= Y
2
2, +
= Y
0 Y
17 5.7 3
Le coecient de dtermination vaut donc

2 R0 =1
et le coecient de dtermination ajust

2 Ra, 0 =1
0 2 Y y
722 = 0.89 807 2081 0.86 2421
5. On veut maintenant comparer les deux modles prcdents. (a) Sous H0 : z = 0, le test de Fisher entre les deux modles scrit F =
2 np R 2 R0 p p 0 1 Fn p = F2 p p0 1 R2
0 2 n1 n2 Y y
La statistique de test vaut ici
16 1 1.78 18.5 f2 (0.95) 9 et on accepte donc lhypothse selon laquelle z = 0. (b) Nous aurions pu tester cette hypothse grce un test de Student sur le modle initial, puisque sous H0 , on sait que F ( ) = T = or z = [(X X )1 ]3,3 , avec = et (X X )1 do
3,3
z T n p = T 2 , z
2 = np = 1 det(X X )
3 2 5 3 3 3 =6
4 4.303 t2 (0.975) 3 1 (0.95) = (t (0.975))2 . Ces deux tests reviennent au mme puisque F ( ) = T 2 ( ) et f2 2 |T ( )| =
III. Minimisation de lerreur de prvision 1. (a) Lerreur de prvision est par dnition 0 + 1 xn+1 ). n+1 = yn+1 y n+1 = yn+1 ( On montre que sa variance vaut Var( n+1 ) = 2 1 + (xn+1 x )2 1 + n )2 n i=1 (xi x .
Rgression
129 (b) En notant X la matrice n 2 dnie par nous avons de faon gnrale
1 x1 . . X= . . . . 1 xn
Var( n+1 ) = 2 1 + [1, xn+1 ](X X )1 [1, xn+1 ] .
(c) Puisque X X = soninversion donne (X X ) do [1, xn+1 ](X X )1 [1, xn+1 ] = et lon retrouve bien que 2 1 + [1, xn+1 ](X X )1 [1, xn+1 ] = 2 1 + i.e. le rsultat de la question 1a. (d) A partir de cette formule, il est clair que lerreur de prvision est minimale (en moyenne) lorsque xn+1 = x , la variance de lerreur valant alors 2 (1 + 1/n). 2. (a) La matrice X X scrit sous forme de 4 blocs comme suit X X = n nx nx ZZ =n 1 x
Z Z n 1
n xi
xi x2 i
n nx
nx x2 i
x2 i n
1 2 2 x2 i n x
x2 i nx nx n
1 (xi x )2
x 1
1 (xi x )2
x2 i 2 xxn+1 + x2 n+1 n
(xn+1 x )2 1 + n n )2 i=1 (xi x
(xn+1 x )2 1 + n )2 n i=1 (xi x
(b) Avec les notations de la formule dinversion matricielle par blocs applique X X , nous posons T = 1, U = x , V = x et W = ZnZ . Toujours avec les notations de lnonc, nous avons donc 1 x = Q = Z Z x n et 1 1+x 1 1 x x (X X )1 = 1 x 1 n
(c) Soit x n+1 = [1, zn+1 ] une nouvelle donne. La variance de lerreur de prvision est comme ci-dessus 1 Var( n+1 ) = 2 1 + x n+1 (X X ) xn+1 . En utilisant lcriture par blocs de (X X )1 et x n+1 = [1, zn+1 ], on arrive 1 x n+1 (X X ) xn+1 =
1 1 1 1+x 1 x zn x 1 zn+1 + zn +1 x +1 zn+1 n Arnaud Guyader - Rennes 2
Rgression
130
Chapitre A. Annales
1 = La matrice est symtrique et un rel est gal sa transpose ( !) donc zn +1 x 1 x zn+1 et ceci se rcrit 1 x n+1 (X X ) xn+1 =
1 1 1 + zn x 1 zn 1 x +1 zn+1 2 +1 + x n 1 1 + (zn+1 x ) 1 (zn+1 x ) n 1 1 + (zn+1 x ) 1 (zn+1 x ) , n n
ou encore
1 x n+1 (X X ) xn+1 =
si bien que Var( n+1 ) = 2 1 + qui est la formule escompte. (d) Dire que est symtrique dnie positive revient dire quelle est symtrique avec toutes ses valeurs propres strictement positives, donc il en va de mme pour 1 . De fait, le dernier terme de la formule prcdente est toujours positif ou nul. Il est nul si et seulement si zn+1 = x , cest--dire lorsque x ]. La variance de lerreur n+1 = [1, x de prvision vaut alors 2 (1 + 1/n). Ceci gnralise bien le rsultat vu en rgression linaire simple : il faut se placer au centre de gravit du nuage de points des variables explicatives pour prvoir au mieux. (e) Notons Zc la matrice n p dont les colonnes sont les versions centres des colonnes de p . On vrie sans trop se faire de Z , cest--dire respectivement X1 x 1 , . . . , Xp x 1 Zc Zc , si bien que pour tout vecteur u de p nuds que = n u u = 1 1 u Zc Zc u = Zc u n n
2
0,
avec nullit si et seulement si Zc u = 0. Or Zc u = 0 signie que p ) = 0 u1 X1 + + up Xp = u1 (X1 x 1 ) + + up (Xp x

p j =1
cest--dire que la premire colonne de X peut scrire comme une combinaison linaire non triviale des p dernires. En particulier X serait alors de rang infrieur ou gal p, ce qui serait en contradiction avec lhypothse dinversibilit de X X . Ainsi est bien symtrique dnie positive et la messe est dite.
uj x j ,
Rgression
Annexe B
Rappels dalgbre
Nous ne considrons ici que des matrices relles. Nous notons A une matrice et A sa transpose.
B.1
Quelques dnitions
Une matrice carre A est inversible sil existe une matrice B telle que AB = BA = I . On note B = A1 . La matrice carre A est dite : symtrique si A = A ; singulire si det(A) = 0 ; inversible si det(A) = 0 ; idempotente si A2 = A ; orthogonale si A = A1 . Le polynme caractristique de la matrice carre A est dni par PA () = det(I A). Les valeurs propres sont les solutions de det(I A) = 0. Le vecteur x est un vecteur propre associ la valeur propre sil est non nul et vrie Ax = x.
B.2
B.2.1
Quelques proprits
Les matrices n p
(A + B ) = A + B et (AB ) = B A . Le rang dune matrice Anp est la plus petite des dimensions des deux sous-espaces engendrs respectivement par les lignes et par les colonnes de A. 0 rang(A) min(n, p). rang(A) = rang(A ). rang(AB ) min(rang(A), rang(B )). rang(BAC ) = rang(A) si B et C sont inversibles. rang(AA ) = rang(A A) = rang(A). Pour p n, si A est de rang p, alors A A est inversible.
B.2.2
Les matrices carres n n
Soit A et B des matrices carres de taille n n de termes courants aij et bij . tr(A) = n i=1 aii . tr(A + B ) = tr(A) + tr(B ), tr(AB ) = tr(BA) et tr(A) = tr(A). n 2 tr(AA ) = tr(A A) = n i=1 j =1 aij . det(AB ) = det(A) det(B ). Si det(A) = 0, la matrice A est inversible, dinverse note A1 , vriant (A1 ) = (A )1 et det(A1 ) = 1/ det(A). De plus, si B est inversible, alors (AB )1 = B 1 A1 . La trace et le dterminant ne dpendent pas des bases choisies.
132
Chapitre B. Rappels dalgbre
B.2.3
Les matrices symtriques
Soit A une matrice carre symtrique de taille n n : les valeurs propres de A sont relles. les vecteurs propres de A associs des valeurs propres direntes sont orthogonaux. si une valeur propre est de multiplicit k, il existe k vecteurs propres orthogonaux qui lui sont associs. la concatnation de lensemble des vecteurs propres orthonorms forme une matrice orthogonale U . Comme U = U 1 , la diagonalisation de A scrit simplement A = U U , o = diag(1 , . . . , n ). Pour rsumer, on dit quune matrice symtrique relle est diagonalisable en base orthonorme. n tr(A) = n i=1 i et det(A) = i=1 i . rang(A) = nombre de valeurs propres i non nulles. les valeurs propres de A2 sont les carrs des valeurs propres de A et ces 2 matrices ont les mmes vecteurs propres. les valeurs propres de A1 (si cette matrice existe) sont les inverses des valeurs propres de A et ces 2 matrices ont les mmes vecteurs propres.
B.2.4
Les matrices semi-dnies positives
Soit A une matrice carre symtrique de taille n n : La matrice A est semi-dnie positive (SDP) si x n , x Ax 0. La matrice A est dnie positive (DP) si x n {0}, x Ax > 0. Les valeurs propres dune matrice SDP sont toutes positives ou nulles (et rciproquement). La matrice A est SDP et inversible si et seulement si A est DP. Toute matrice A de la forme A = B B est SDP. En eet x n , x Ax = x B Bx = (Bx) Bx = Bx 2 0, o correspond la norme euclidienne de n . Toute matrice de projecteur orthogonal est SDP. En eet, les valeurs propres dun projecteur valent 0 ou 1. Si B est SDP, alors A BA est SDP. Si A est DP et si B est SDP, alors A + B est inversible et A1 (A + B )1 est SDP.
B.3
Proprits des inverses
Soit M une matrice symtrique inversible de taille p p, soit u et v deux vecteurs de taille p. Si u M 1 v = 1, alors nous avons linverse suivante : M + uv
1
= M 1
M 1 uv M 1 . 1 + u M 1 v
(B.1)
Soit M une matrice inversible telle que : M = T V U W
avec T inversible, alors Q = W V T 1 U est inversible et linverse de M est : M 1 = Arnaud Guyader - Rennes 2 T 1 + T 1 U Q1 V T 1 T 1 U Q 1 Q1 V T 1 Q1 .
Rgression
B.4. Proprits des projections
133
B.4
B.4.1
Proprits des projections

Gnralits
Une matrice carre P idempotente (i.e. P 2 = P ) correspond une projection. Si de plus P est symtrique (i.e. P = P ) , alors cest une projection orthogonale sur le sous-espace M = Im(P ) paralllement M = Ker(P ). P est un projecteur orthogonal si le produit scalaire P y, y P y = 0 pour tout y . les valeurs propres dune matrice idempotente ne peuvent tre gales qu 0 ou 1. le rang dune matrice idempotente est gal sa trace, i.e. rang(P ) = dim(M) = tr(P ). la matrice (I P ) est la matrice de projection orthogonale sur M = Ker(P ).
y Py Py
B.4.2
Exemple de projection orthogonale
Soit X = [X1 , , Xp ] la matrice (n, p), de rang p, des p variables explicatives du modle linaire. Soit M(X ) le sous-espace engendr par ces p vecteurs linairement indpendants et PX la matrice de projection orthogonale sur M(X ). Le vecteur (y PX y ) doit tre orthogonal tout vecteur de M(X ), or tous les vecteurs de M(X ) sont de la forme Xu. En particulier il existe un vecteur b tel que PX y = Xb. Il faut donc que Xu, y PX y = 0 pour tout vecteur u. En dveloppant, nous obtenons X y = X PX y = X Xb. X X est inversible donc b = (X X )1 X y . Ainsi PX = X (X X )1 X est la matrice de projection orthogonale sur M(X ).
B.4.3
Trace et lments courants
Soit PX , de terme courant hij , la matrice p p de la projection orthogonale sur lespace engendr par les p colonnes de X , nous avons alors : 1. tr(PX ) = hii = p.
i j
2. tr(PX ) = tr(PX PX ), cest--dire 3. 0 hii 1 pour tout i.
h2 ij = p.
5. si hii = 1 alors hij = 0 pour tout j dirent de i. 6. si hii = 0, alors hij = 0 pour tout j dirent de i. Rgression Arnaud Guyader - Rennes 2
4. 0.5 hij 0.5 pour tout j dirent de i.
134
Chapitre B. Rappels dalgbre
B.5
Drivation matricielle
p dans direntiable. Le gradient de f au point x est par dnition :
f (x) = grad(f )(x) = f f (x), , (x) . x1 xp
Soit f une fonction de
Si f est de classe C 2 , le hessien de f au point x est la matrice carre de dimension p p, souvent 2f note 2 f (x) ou Hf (x), de terme gnrique [Hf (x)]ij = x (x). Le thorme de Schwarz assure i xj que cette matrice est symtrique. Exemples : Si f : p est une forme linaire, cest--dire sil existe un vecteur colonne a de taille p tel que f (x) = a x , alors son gradient est constant : f = a , et sa matrice hessienne est nulle en tout point : Hf = 0. Ceci nest rien dautre que la gnralisation multidimensionnelle des drives premire et seconde de la fonction f : dnie par f (x) = ax. Si f est quadratique, par exemple si f (x) = x Ax, alors son gradient est une forme linaire : f (x) = x (A + A ), et sa hessienne est constante Hf (x) = A + A . A nouveau, ceci nest rien dautre que la gnralisation multidimensionnelle des drives premire et seconde de la fonction f : dnie par f (x) = ax2 .
Rgression
Annexe C
Rappels de probabilit
C.1 Gnralits
Y = [Y1 , . . . , Yn ] est un vecteur alatoire de n si toutes ses composantes Y1 , . . . , Yn sont des variables alatoires relles. Lesprance du vecteur alatoire Y est [Y ] = [ [Y1 ], , [Yn ]] , vecteur de n . La matrice de variance-covariance de Y a pour terme gnral Cov(Yi , Yj ). Cest une matrice de taille n n, qui scrit encore : Var(Y ) = Y = (Y [Y ]) (Y [Y ]) = [Y Y ] [Y ]( [Y ]) .
Considrons une matrice (dterministe) A de taille m n et un vecteur (dterministe) b de Soit Y un vecteur alatoire de n , nous avons les galits suivantes : [AY + b] = A [Y ] + b Var(AY + b) = Var(AY ) = AVar(Y )A Si Y est un vecteur alatoire de euclidienne : [ Y (Y ) ] =
i=1 2
m .
n de matrice de variance-covariance Y , alors pour la norme

n n
(Yi
[Yi ])
=
i=1
Var(Yi ) = tr(Y ).
Nous avons les galits utiles suivantes : tr( [Y Y ]) = [tr(Y Y )] = [tr(Y Y )] = tr(Y ) + [Y ] [Y ].
C.2
Vecteurs alatoires gaussiens
Un vecteur alatoire Y est dit gaussien si toute combinaison linaire de ses composantes est une variable alatoire gaussienne. Ce vecteur admet alors une esprance et une matrice de variancecovariance Y , et on note Y N (, Y ). Un vecteur gaussien Y de n desprance et de matrice de variance-covariance Y inversible admet pour densit la fonction f (y ) = 1 (2 )n/2 1 1 1 exp (y ) Y (y ) , 2 det(Y ) o y = [y1 , . . . , yn ] .
Les composantes dun vecteur gaussien Y = [Y1 , , Yn ] sont indpendantes si et seulement si Y est diagonale. Dautre part, soit Y N (, Y ), avec Y inversible, alors
1 2 (Y ) Y (Y ) n
136
Chapitre C. Rappels de probabilit Enn, le Thorme de Cochran explicite les lois obtenues aprs projection orthogonale dun vecteur gaussien. Thorme C.1 (Cochran) Soit Y N (, 2 In ), M un sous-espace de n de dimension p et P la matrice de projection orthogonale de n sur M. Nous avons les proprits suivantes : (i) P Y N (P , 2 P ) ; (ii) les vecteurs P Y et Y P Y sont indpendants ; (iii) P (Y ) 2 / 2 2 p.
Rgression
C.3. Tables des lois usuelles
137
C.3
Tables des lois usuelles
C.3.1
Loi Normale X N (0, 1)
Valeurs de Pr(X u) en fonction de u.

u 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 0 .5000 .5398 .5793 .6179 .6554 .6915 .7257 .7580 .7881 .8159 .8413 .8643 .8849 .9032 .9192 .9332 .9452 .9554 .9641 .9713 .9772 .9821 .9861 .9893 .9918 .9938 .9953 .9965 .9974 .9981 .9987 .9990 .9993 0.01 .5040 .5438 .5832 .6217 .6591 .6950 .7291 .7611 .7910 .8186 .8438 .8665 .8869 .9049 .9207 .9345 .9463 .9564 .9649 .9719 .9778 .9826 .9864 .9896 .9920 .9940 .9955 .9966 .9975 .9982 .9987 .9991 .9993 0.02 .5080 .5478 .5871 .6255 .6628 .6985 .7324 .7642 .7939 .8212 .8461 .8686 .8888 .9066 .9222 .9357 .9474 .9573 .9656 .9726 .9783 .9830 .9868 .9898 .9922 .9941 .9956 .9967 .9976 .9982 .9987 .9991 .9994 0.03 .5120 .5517 .5910 .6293 .6664 .7019 .7357 .7673 .7967 .8238 .8485 .8708 .8907 .9082 .9236 .9370 .9484 .9582 .9664 .9732 .9788 .9834 .9871 .9901 .9925 .9943 .9957 .9968 .9977 .9983 .9988 .9991 .9994 0.04 .5160 .5557 .5948 .6331 .6700 .7054 .7389 .7704 .7995 .8264 .8508 .8729 .8925 .9099 .9251 .9382 .9495 .9591 .9671 .9738 .9793 .9838 .9875 .9904 .9927 .9945 .9959 .9969 .9977 .9984 .9988 .9992 .9994 0.05 .5199 .5596 .5987 .6368 .6736 .7088 .7422 .7734 .8023 .8289 .8531 .8749 .8944 .9115 .9265 .9394 .9505 .9599 .9678 .9744 .9798 .9842 .9878 .9906 .9929 .9946 .9960 .9970 .9978 .9984 .9989 .9992 .9994 0.06 .5239 .5636 .6026 .6406 .6772 .7123 .7454 .7764 .8051 .8315 .8554 .8770 .8962 .9131 .9279 .9406 .9515 .9608 .9686 .9750 .9803 .9846 .9881 .9909 .9931 .9948 .9961 .9971 .9979 .9985 .9989 .9992 .9994 0.07 .5279 .5675 .6064 .6443 .6808 .7157 .7486 .7794 .8078 .8340 .8577 .8790 .8980 .9147 .9292 .9418 .9525 .9616 .9693 .9756 .9808 .9850 .9884 .9911 .9932 .9949 .9962 .9972 .9979 .9985 .9989 .9992 .9995 0.08 .5319 .5714 .6103 .6480 .6844 .7190 .7517 .7823 .8106 .8365 .8599 .8810 .8997 .9162 .9306 .9429 .9535 .9625 .9699 .9761 .9812 .9854 .9887 .9913 .9934 .9951 .9963 .9973 .9980 .9986 .9990 .9993 .9995 0.09 .5359 .5753 .6141 .6517 .6879 .7224 .7549 .7852 .8133 .8389 .8621 .8830 .9015 .9177 .9319 .9441 .9545 .9633 .9706 .9767 .9817 .9857 .9890 .9916 .9936 .9952 .9964 .9974 .9981 .9986 .9990 .9993 .9995
Rgression
138
Chapitre C. Rappels de probabilit
C.3.2
Loi de Student X T
@ p 0.5 @ @
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 80 100 200
Table des fractiles t (p) pour une loi de T : p = Pr {X t (p)}

0.6 0.325 0.289 0.277 0.271 0.267 0.265 0.263 0.262 0.261 0.260 0.260 0.259 0.259 0.258 0.258 0.258 0.257 0.257 0.257 0.257 0.257 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.255 0.254 0.254 0.254 0.254 0.253 0.7 0.727 0.617 0.584 0.569 0.559 0.553 0.549 0.546 0.543 0.542 0.540 0.539 0.538 0.537 0.536 0.535 0.534 0.534 0.533 0.533 0.532 0.532 0.532 0.531 0.531 0.531 0.531 0.530 0.530 0.530 0.529 0.527 0.526 0.526 0.525 0.524 0.8 1.376 1.061 0.978 0.941 0.920 0.906 0.896 0.889 0.883 0.879 0.876 0.873 0.870 0.868 0.866 0.865 0.863 0.862 0.861 0.860 0.859 0.858 0.858 0.857 0.856 0.856 0.855 0.855 0.854 0.854 0.851 0.848 0.846 0.845 0.843 0.842 0.9 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.303 1.296 1.292 1.290 1.286 1.282 0.95 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 1.684 1.671 1.664 1.660 1.653 1.645 0.975 12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 2.021 2.000 1.990 1.984 1.972 1.960 0.99 31.821 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552 2.539 2.528 2.518 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.457 2.423 2.390 2.374 2.364 2.345 2.326 0.995 0.999 0.9995 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 63.656 318.289 636.578 9.925 22.328 31.600 5.841 10.214 12.924 4.604 7.173 8.610 4.032 5.894 6.869 3.707 5.208 5.959 3.499 4.785 5.408 3.355 4.501 5.041 3.250 4.297 4.781 3.169 4.144 4.587 3.106 4.025 4.437 3.055 3.930 4.318 3.012 3.852 4.221 2.977 3.787 4.140 2.947 3.733 4.073 2.921 3.686 4.015 2.898 3.646 3.965 2.878 3.610 3.922 2.861 3.579 3.883 2.845 3.552 3.850 2.831 3.527 3.819 2.819 3.505 3.792 2.807 3.485 3.768 2.797 3.467 3.745 2.787 3.450 3.725 2.779 3.435 3.707 2.771 3.421 3.689 2.763 3.408 3.674 2.756 3.396 3.660 2.750 3.385 3.646 2.704 3.307 3.551 2.660 3.232 3.460 2.639 3.195 3.416 2.626 3.174 3.390 2.601 3.131 3.340 2.576 3.090 3.290
Rgression
C.3. Tables des lois usuelles
139
C.3.3
Loi du Khi-deux ddl X 2
@ p 0.001 0.005 @ @
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 0.000 0.002 0.024 0.091 0.210 0.381 0.599 0.857 1.152 1.479 1.834 2.214 2.617 3.041 3.483 3.942 4.416 4.905 5.407 5.921 6.447 6.983 7.529 8.085 8.649 9.222 9.803 10.391 10.986 11.588 17.917 24.674 31.738 39.036 46.520 54.156 61.918
Table des fractiles c (p) pour une loi du 2 : p = Pr {X c (p)}

0.01 0.000 0.020 0.115 0.297 0.554 0.872 1.239 1.647 2.088 2.558 3.053 3.571 4.107 4.660 5.229 5.812 6.408 7.015 7.633 8.260 8.897 9.542 10.196 10.856 11.524 12.198 12.878 13.565 14.256 14.953 22.164 29.707 37.485 45.442 53.540 61.754 70.065 0.025 0.001 0.051 0.216 0.484 0.831 1.237 1.690 2.180 2.700 3.247 3.816 4.404 5.009 5.629 6.262 6.908 7.564 8.231 8.907 9.591 10.283 10.982 11.689 12.401 13.120 13.844 14.573 15.308 16.047 16.791 24.433 32.357 40.482 48.758 57.153 65.647 74.222 0.05 0.004 0.103 0.352 0.711 1.145 1.635 2.167 2.733 3.325 3.940 4.575 5.226 5.892 6.571 7.261 7.962 8.672 9.390 10.117 10.851 11.591 12.338 13.091 13.848 14.611 15.379 16.151 16.928 17.708 18.493 26.509 34.764 43.188 51.739 60.391 69.126 77.929 0.1 0.016 0.211 0.584 1.064 1.610 2.204 2.833 3.490 4.168 4.865 5.578 6.304 7.041 7.790 8.547 9.312 10.085 10.865 11.651 12.443 13.240 14.041 14.848 15.659 16.473 17.292 18.114 18.939 19.768 20.599 29.051 37.689 46.459 55.329 64.278 73.291 82.358 0.9 2.706 4.605 6.251 7.779 9.236 10.645 12.017 13.362 14.684 15.987 17.275 18.549 19.812 21.064 22.307 23.542 24.769 25.989 27.204 28.412 29.615 30.813 32.007 33.196 34.382 35.563 36.741 37.916 39.087 40.256 51.805 63.167 74.397 85.527 96.578 107.56 118.498 0.95 3.841 5.991 7.815 9.488 11.070 12.592 14.067 15.507 16.919 18.307 19.675 21.026 22.362 23.685 24.996 26.296 27.587 28.869 30.144 31.410 32.671 33.924 35.172 36.415 37.652 38.885 40.113 41.337 42.557 43.773 55.758 67.505 79.082 90.531 101.88 113.14 124.342 0.975 5.024 7.378 9.348 11.143 12.832 14.449 16.013 17.535 19.023 20.483 21.920 23.337 24.736 26.119 27.488 28.845 30.191 31.526 32.852 34.170 35.479 36.781 38.076 39.364 40.646 41.923 43.195 44.461 45.722 46.979 59.342 71.420 83.298 95.023 106.63 118.14 129.561 0.99 6.635 9.210 11.345 13.277 15.086 16.812 18.475 20.090 21.666 23.209 24.725 26.217 27.688 29.141 30.578 32.000 33.409 34.805 36.191 37.566 38.932 40.289 41.638 42.980 44.314 45.642 46.963 48.278 49.588 50.892 63.691 76.154 88.379 100.42 112.33 124.12 135.807 0.995 7.879 10.597 12.838 14.860 16.750 18.548 20.278 21.955 23.589 25.188 26.757 28.300 29.819 31.319 32.801 34.267 35.718 37.156 38.582 39.997 41.401 42.796 44.181 45.558 46.928 48.290 49.645 50.994 52.335 53.672 66.766 79.490 91.952 104.21 116.32 128.30 140.169 0.999 10.827 13.815 16.266 18.466 20.515 22.457 24.321 26.124 27.877 29.588 31.264 32.909 34.527 36.124 37.698 39.252 40.791 42.312 43.819 45.314 46.796 48.268 49.728 51.179 52.619 54.051 55.475 56.892 58.301 59.702 73.403 86.660 99.608 112.32 124.84 137.21 149.449 0.000 0.010 0.072 0.207 0.412 0.676 0.989 1.344 1.735 2.156 2.603 3.074 3.565 4.075 4.601 5.142 5.697 6.265 6.844 7.434 8.034 8.643 9.260 9.886 10.520 11.160 11.808 12.461 13.121 13.787 20.707 27.991 35.534 43.275 51.172 59.196 67.328
Rgression
140
Chapitre C. Rappels de probabilit
C.3.4
1 Loi de Fisher 1 , 2 ddl X F 2
HH
2
Table des fractiles f(1 ,2 ) ) pour une loi F(1 ,2 ) : 0.95 = Pr X f(1 ,2) (p)
H H
1 1 161 18.5 10.1 7.71 6.61 5.99 5.59 5.32 5.12 4.96 4.84 4.75 4.67 4.6 4.54 4.49 4.45 4.41 4.38 4.35 4.32 4.3 4.28 4.26 4.24 4.23 4.21 4.2 4.18 4.17 4.15 4.13 4.11 4.1 4.08 4.07 4.06 4.05 4.04 4.03 4 3.98 3.96 3.95 3.94 3.86 3.84 2 199 19 9.55 6.94 5.79 5.14 4.74 4.46 4.26 4.1 3.98 3.89 3.81 3.74 3.68 3.63 3.59 3.55 3.52 3.49 3.47 3.44 3.42 3.4 3.39 3.37 3.35 3.34 3.33 3.32 3.29 3.28 3.26 3.24 3.23 3.22 3.21 3.2 3.19 3.18 3.15 3.13 3.11 3.1 3.09 3.01 3 3 216 19.2 9.28 6.59 5.41 4.76 4.35 4.07 3.86 3.71 3.59 3.49 3.41 3.34 3.29 3.24 3.2 3.16 3.13 3.1 3.07 3.05 3.03 3.01 2.99 2.98 2.96 2.95 2.93 2.92 2.9 2.88 2.87 2.85 2.84 2.83 2.82 2.81 2.8 2.79 2.76 2.74 2.72 2.71 2.7 2.62 2.6 4 225 19.2 9.12 6.39 5.19 4.53 4.12 3.84 3.63 3.48 3.36 3.26 3.18 3.11 3.06 3.01 2.96 2.93 2.9 2.87 2.84 2.82 2.8 2.78 2.76 2.74 2.73 2.71 2.7 2.69 2.67 2.65 2.63 2.62 2.61 2.59 2.58 2.57 2.57 2.56 2.53 2.5 2.49 2.47 2.46 2.39 2.37 5 230 19.3 9.01 6.26 5.05 4.39 3.97 3.69 3.48 3.33 3.2 3.11 3.03 2.96 2.9 2.85 2.81 2.77 2.74 2.71 2.68 2.66 2.64 2.62 2.6 2.59 2.57 2.56 2.55 2.53 2.51 2.49 2.48 2.46 2.45 2.44 2.43 2.42 2.41 2.4 2.37 2.35 2.33 2.32 2.31 2.23 2.21 6 234 19.3 8.94 6.16 4.95 4.28 3.87 3.58 3.37 3.22 3.09 3 2.92 2.85 2.79 2.74 2.7 2.66 2.63 2.6 2.57 2.55 2.53 2.51 2.49 2.47 2.46 2.45 2.43 2.42 2.4 2.38 2.36 2.35 2.34 2.32 2.31 2.3 2.29 2.29 2.25 2.23 2.21 2.2 2.19 2.12 2.1 7 237 19.4 8.89 6.09 4.88 4.21 3.79 3.5 3.29 3.14 3.01 2.91 2.83 2.76 2.71 2.66 2.61 2.58 2.54 2.51 2.49 2.46 2.44 2.42 2.4 2.39 2.37 2.36 2.35 2.33 2.31 2.29 2.28 2.26 2.25 2.24 2.23 2.22 2.21 2.2 2.17 2.14 2.13 2.11 2.1 2.03 2.01 8 239 19.4 8.85 6.04 4.82 4.15 3.73 3.44 3.23 3.07 2.95 2.85 2.77 2.7 2.64 2.59 2.55 2.51 2.48 2.45 2.42 2.4 2.37 2.36 2.34 2.32 2.31 2.29 2.28 2.27 2.24 2.23 2.21 2.19 2.18 2.17 2.16 2.15 2.14 2.13 2.1 2.07 2.06 2.04 2.03 1.96 1.94 9 241 19.4 8.81 6 4.77 4.1 3.68 3.39 3.18 3.02 2.9 2.8 2.71 2.65 2.59 2.54 2.49 2.46 2.42 2.39 2.37 2.34 2.32 2.3 2.28 2.27 2.25 2.24 2.22 2.21 2.19 2.17 2.15 2.14 2.12 2.11 2.1 2.09 2.08 2.07 2.04 2.02 2 1.99 1.97 1.9 1.88 10 242 19.4 8.79 5.96 4.74 4.06 3.64 3.35 3.14 2.98 2.85 2.75 2.67 2.6 2.54 2.49 2.45 2.41 2.38 2.35 2.32 2.3 2.27 2.25 2.24 2.22 2.2 2.19 2.18 2.16 2.14 2.12 2.11 2.09 2.08 2.06 2.05 2.04 2.03 2.03 1.99 1.97 1.95 1.94 1.93 1.85 1.83 15 246 19.4 8.7 5.86 4.62 3.94 3.51 3.22 3.01 2.85 2.72 2.62 2.53 2.46 2.4 2.35 2.31 2.27 2.23 2.2 2.18 2.15 2.13 2.11 2.09 2.07 2.06 2.04 2.03 2.01 1.99 1.97 1.95 1.94 1.92 1.91 1.9 1.89 1.88 1.87 1.84 1.81 1.79 1.78 1.77 1.69 1.67 20 248 19.4 8.66 5.8 4.56 3.87 3.44 3.15 2.94 2.77 2.65 2.54 2.46 2.39 2.33 2.28 2.23 2.19 2.16 2.12 2.1 2.07 2.05 2.03 2.01 1.99 1.97 1.96 1.94 1.93 1.91 1.89 1.87 1.85 1.84 1.83 1.81 1.8 1.79 1.78 1.75 1.72 1.7 1.69 1.68 1.59 1.57 30 250 19.5 8.62 5.75 4.5 3.81 3.38 3.08 2.86 2.7 2.57 2.47 2.38 2.31 2.25 2.19 2.15 2.11 2.07 2.04 2.01 1.98 1.96 1.94 1.92 1.9 1.88 1.87 1.85 1.84 1.82 1.8 1.78 1.76 1.74 1.73 1.72 1.71 1.7 1.69 1.65 1.62 1.6 1.59 1.57 1.48 1.46 40 251 19.5 8.59 5.72 4.46 3.77 3.34 3.04 2.83 2.66 2.53 2.43 2.34 2.27 2.2 2.15 2.1 2.06 2.03 1.99 1.96 1.94 1.91 1.89 1.87 1.85 1.84 1.82 1.81 1.79 1.77 1.75 1.73 1.71 1.69 1.68 1.67 1.65 1.64 1.63 1.59 1.57 1.54 1.53 1.52 1.42 1.39 50 252 19.5 8.58 5.7 4.44 3.75 3.32 3.02 2.8 2.64 2.51 2.4 2.31 2.24 2.18 2.12 2.08 2.04 2 1.97 1.94 1.91 1.88 1.86 1.84 1.82 1.81 1.79 1.77 1.76 1.74 1.71 1.69 1.68 1.66 1.65 1.63 1.62 1.61 1.6 1.56 1.53 1.51 1.49 1.48 1.38 1.35 60 252 19.5 8.57 5.69 4.43 3.74 3.3 3.01 2.79 2.62 2.49 2.38 2.3 2.22 2.16 2.11 2.06 2.02 1.98 1.95 1.92 1.89 1.86 1.84 1.82 1.8 1.79 1.77 1.75 1.74 1.71 1.69 1.67 1.65 1.64 1.62 1.61 1.6 1.59 1.58 1.53 1.5 1.48 1.46 1.45 1.35 1.32 80 253 19.5 8.56 5.67 4.41 3.72 3.29 2.99 2.77 2.6 2.47 2.36 2.27 2.2 2.14 2.08 2.03 1.99 1.96 1.92 1.89 1.86 1.84 1.82 1.8 1.78 1.76 1.74 1.73 1.71 1.69 1.66 1.64 1.62 1.61 1.59 1.58 1.57 1.56 1.54 1.5 1.47 1.45 1.43 1.41 1.3 1.27 100 253 19.5 8.55 5.66 4.41 3.71 3.27 2.97 2.76 2.59 2.46 2.35 2.26 2.19 2.12 2.07 2.02 1.98 1.94 1.91 1.88 1.85 1.82 1.8 1.78 1.76 1.74 1.73 1.71 1.7 1.67 1.65 1.62 1.61 1.59 1.57 1.56 1.55 1.54 1.52 1.48 1.45 1.43 1.41 1.39 1.28 1.24 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 32 34 36 38 40 42 44 46 48 50 60 70 80 90 100 500
Rgression
Annexe D
Quelques donnes
Date "19960422" "19960429" "19960506" "19960514" "19960521" "19960528" "19960605" "19960612" "19960619" "19960627" "19960704" "19960711" "19960719" "19960726" "19960802" "19960810" "19960817" "19960824" "19960901" "19960908" "19960915" "19960923" "19960930" "19970414" "19970422" "19970429" "maxO3" "T12" "T15" "Ne12" "N12" "S12" "E12" "W12" 63.6 13.4 15 7 0 0 3 0 89.6 15 15.7 4 3 0 0 0 79 7.9 10.1 8 0 0 7 0 81.2 13.1 11.7 7 7 0 0 0 88 14.1 16 6 0 0 0 6 68.4 16.7 18.1 7 0 3 0 0 139 26.8 28.2 1 0 0 3 0 78.2 18.4 20.7 7 4 0 0 0 113.8 27.2 27.7 6 0 4 0 0 41.8 20.6 19.7 8 0 0 0 1 65 21 21.1 6 0 0 0 7 73 17.4 22.8 8 0 0 0 2 126.2 26.9 29.5 2 0 0 4 0 127.8 25.5 27.8 3 0 0 5 0 61.6 19.4 21.5 7 6 0 0 0 63.6 20.8 21.4 7 0 0 0 5 134.2 29.5 30.6 2 0 3 0 0 67.2 21.7 20.3 7 0 0 0 7 87.8 19.7 21.7 5 0 0 3 0 96.8 19 21 6 0 0 8 0 89.6 20.7 22.9 1 0 0 4 0 66.4 18 18.5 7 0 0 0 2 60 17.4 16.4 8 0 6 0 0 90.8 16.3 18.1 0 0 0 5 0 104.2 13.6 14.4 1 0 0 1 0 70 15.8 16.7 7 7 0 0 0 Table D.1 Quelques donnes journalires sur Rennes. "Vx" "maxO3v" 9.35 95.6 5.4 100.2 19.3 105.6 12.6 95.2 -20.3 82.8 -3.69 71.4 8.27 90 4.93 60 -4.93 125.8 -3.38 62.6 -23.68 38 -6.24 70.8 14.18 119.8 13.79 103.6 -7.39 69.2 -13.79 48 1.88 118.6 -24.82 60 9.35 74.4 28.36 103.8 12.47 78.8 -5.52 72.2 -10.8 53.4 18 89 3.55 97.8 -12.6 61.4
142 Date "19970708" "19970715" "19970722" "19970730" "19970806" "19970813" "19970821" "19970828" "19970904" "19970912" "19970919" "19970926" "19980504" "19980511" "19980518" "19980526" "19980602" "19980609" "19980617" "19980624" "19980701" "19980709" "19980716" "19980724"
Chapitre D. Quelques donnes "maxO3" "T12" "T15" "Ne12" "N12" "S12" "E12" "W12" 96.2 26 27.3 2 0 0 5 0 65.6 23.5 23.7 7 0 0 0 3 109.2 26.3 27.3 4 0 0 5 0 86.2 21.8 23.6 6 4 0 0 0 87.4 24.8 26.6 3 0 0 0 2 84 25.2 27.5 3 0 0 0 3 83 24.6 27.9 3 0 0 0 2 59.6 16.8 19 7 0 0 0 8 52 17.1 18.3 8 5 0 0 0 73.8 18 18.3 7 0 5 0 0 129 28.9 30 1 0 0 3 0 122.4 23.4 25.4 0 0 0 2 0 106.6 13 14.3 3 7 0 0 0 121.8 26 28 2 0 4 0 0 116.2 24.9 25.8 2 0 0 5 0 81.4 18.4 16.8 7 0 0 0 4 88.6 18.7 19.6 5 0 0 0 5 63 20.4 16.6 7 0 0 0 8 104 19.6 21.2 6 0 0 0 3 88.4 23.2 23.9 4 0 4 0 0 83.8 19.8 20.3 8 0 0 5 0 56.4 18.9 19.3 8 0 0 0 4 50.4 19.7 19.3 7 0 0 0 5 79.2 21.1 21.9 3 4 0 0 0 Table D.2 Quelques donnes journalires sur Rennes. "Vx" "maxO3v" 16.91 87.4 -9.35 67.8 16.91 98.6 2.5 112 -7.09 49.8 -10.15 131.8 -5.52 113.8 -27.06 55.8 -3.13 65.8 -11.57 90.4 8.27 111.4 5.52 118.6 12.6 84 2.5 109.8 18 142.8 -14.4 80.8 -15.59 60.4 -22.06 79.8 -10.8 84.6 -7.2 92.6 17.73 40.2 -14.4 73.6 -17.73 59 9.26 55.2
Rgression
Bibliographie
[1] A. Antoniadis, J. Berruyer, and R. Carmona. Rgression non linaire et applications. Economica, 1992. [2] A.C. Atkinson. Two graphical displays for outlying and inuential observations in regression. Biometrika, 68 :1320, 1981. [3] B. Bercu and D. Chafa. Modlisation stochastique et simulation. Dunod, Paris, 2007. [4] R. D. Cook. Detection of inuential observation in linear regression. Technometrics, 19 :1518, 1977. [5] P.-A. Cornillon and E. Matzner-Lber. Rgression avec R. Springer, Paris, 2010. [6] Y. Dodge and V. Rousson. Analyse de rgression applique. Dunod, 2004. [7] G. H. Golub and C. F. Van Loan. Matrix computations. John Hopkins university press, 3rd edition, 1996. [8] T. Hastie, R. Tibshirani, and J. Friedman. The elements of statistical learning - data mining, inference and prediction. Springer, New-York, 2001. [9] D. C. Hoaglin and R. E. Welsch. The hat matrix in regression and anova. The American Statistician, 32 :1722, 1978. [10] P. Huber. Robust Statistics. J. Wiley & Sons, New-York, 1981. [11] F. Husson and J. Pags. Statistiques gnrales pour utilisateurs (2. Exercices et corrigs). Presses Universitaires de Rennes, 2005. [12] E. L. Lehmann and G. Casella. Theory of point estimation. Springer, New-York, 1998. [13] M. Lejeune. Statistique. La thorie et ses applications. Springer, Paris, 2004. [14] D. C. Montgomery, E. A. Peck, and G. Georey Vining. Introduction to linear regression analysis. John Wiley, New-York, 3 edition, 2001. [15] A. Sen and M. Srivastava. Regression Analysis : Theory, Methods, and Applications. Springer, 1990.

Poly 2

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Poly 2

Încărcat de

Drepturi de autor:

Formate disponibile

Universit Rennes 2 Master de Statistique Anne 2012/2013 Premier Semestre

Table des matires

3.4 3.5 3.6 3.7

Arnaud Guyader - Rennes 2

La rgression linaire simple

Figure 1.1 10 donnes journalires de temprature et dozone.

L(yi f (xi )),

Moindres Carrs Ordinaires

Calcul des estimateurs de 1 et 2

n )yi i=1 (xi x . n )2 i=1 (xi x

do lon dduit immdiatement : 1 = y 2 x , (1.1)

xi y i Arnaud Guyader - Rennes 2

n )(yi i=1 (xi x n )2 i=1 (xi x

x )(yi y ))2 n )2 n )2 i=1 (xi x i=1 (yi y

1 et 2 Quelques proprits des estimateurs

Arnaud Guyader - Rennes 2

tandis que leur covariance vaut : 1 , 2 ) = Cov( 2x . (xi x )2

Enn, pour la covariance des deux estimateurs :

2 x2 x 2 2 i = . (xi x )2 n (xi x )2 2x . (xi x )2 Arnaud Guyader - Rennes 2

1 , 2 ) = Cov( 2 x 2 ) = Cov( 2 ) x 2 ) = Cov( y , y, Var( Rgression

Chapitre 1. La rgression linaire simple

Une variance est toujours positive, donc :

1.2. Moindres Carrs Ordinaires

Calcul des rsidus et de la variance rsiduelle

En dveloppant et en nous servant de lcriture vue plus haut :

Chapitre 1. La rgression linaire simple

1.3. Interprtations gomtriques

Figure 1.3 Reprsentation de la projection dans lespace des variables.

Chapitre 1. La rgression linaire simple

1.4. Cas derreurs gaussiennes

Cas derreurs gaussiennes

Estimateurs du maximum de vraisemblance

La vraisemblance vaut L(1 , 2 , 2 ) = = exp

1 2 2 Ce qui donne pour la log-vraisemblance :

Chapitre 1. La rgression linaire simple

Rappels sur les lois usuelles

appele loi de Student n degrs de libert et on note T Tn .

2 (trait gras) et densit dun Figure 1.6 Densit dune F10

Lois des estimateurs et rgions de conance

Chapitre 1. La rgression linaire simple

(n 2) 2 2 2 n2 , loi du (n 2) degrs de libert. 2 et (iii) 2 sont indpendants.

Figure 1.7 Comparaison entre ellipse de conance et rectangle de conance.

Arnaud Guyader - Rennes 2

(tn2 (1 /2) )2 (xi x )2

x )(yi y ) n n 2 ) )2 i=1 (xi x i=1 (yi y

(xi x )(yi y ) = 3.77

0 + 1 x la droite de rgression. Calculer 0 et 1 . 1. On note y = Rgression Arnaud Guyader - Rennes 2

(xi x )(yi y ) = 26466

Figure 1.8 Nuage de points pour les eucalyptus.

(xi x )(yi y ) = 195, 4

o nous supposons que les perturbations i sont telles que

3. Reprsenter sur un mme graphique les rsultats obtenus.

soit minimale (rappel : A

1. Que reprsente la norme matricielle [x, y ] [ x, y ]

dun point de vue gomtrique ?

)(yi y )]2 [ n i=1 (xi x n n )2 i=1 (yi y )2 i=1 (xi x

o R2 est le coecient de dtermination, carr du coecient de corrlation linaire.

Arnaud Guyader - Rennes 2

(xi x )(yi y ) = 3.77

x )(yi y ) n n 2 ) )2 i=1 (xi x i=1 (yi y

Figure 1.11 Droites de rgression et points aberrants.

Arnaud Guyader - Rennes 2

2 de la variance de 2 est alors donn par : 4. Un estimateur 2 2 2 =

o nous supposons que les perturbations i sont telles que