Sunteți pe pagina 1din 150

Modles

de
rgression
et de
sries chronologiques
Exercices et solutions
Modles
de
rgression
et de
sries chronologiques
Exercices et solutions
Vincent Goulet
cole dactuariat, Universit Laval
Seconde dition
2009 Vincent Goulet
Cette cration est mise disposition selon le contrat Paternit-Partage liden-
tique 2.5 Canada disponible en ligne http://creativecommons.org/licenses/by-sa/
2.5/ca/ ou par courrier postal Creative Commons, 171 Second Street, Suite 300, San
Francisco, California 94105, USA.
Historique de publication
Septembre 2009 : Seconde dition
Septembre 2006 : Premire dition
Code source
Le code source L
A
T
E
X de ce document est disponible ladresse
http://vgoulet.act.ulaval.ca/methodes_statistiques/
ou en communiquant directement avec lauteur.
ISBN 978-2-9811416-0-6
Dpt lgal Bibliothque et Archives nationales du Qubec, 2009
Dpt lgal Bibliothque et Archives Canada, 2009
Introduction
Ce document est une collection des exercices distribus par lauteur dans
ses cours de Mthodes statistiques en actuariat entre 2003 et 2005, cours don-
ns lcole dactuariat de lUniversit Laval. Certains exercices sont le fruit
de limagination de lauteur, alors que plusieurs autres sont des adaptations
dexercices tirs des ouvrages cits dans la bibliographie.
Cest dailleurs an de ne pas usurper de droits dauteur que ce document
est publi selon les termes du contrat Paternit-ShareAlike 2.5 Canada de
Creative Commons. Il sagit donc dun document libre que quiconque peut
rutiliser et modier sa guise, condition que le nouveau document soit
publi avec le mme contrat.
Cette seconde dition intgre les solutions des exercices qui faisaient lob-
jet dun recueil spar lors de la premire dition. Les errata de la premire
dition sont corriges et le document ne fait plus rfrence S-Plus puisque
le produit est aujourdhui toute n pratique disparu au prot de R.
Le document est separ en deux parties correspondant aux deux sujets
faisant lobjet dexercices : dabord la rgression linaire (simple et multiple),
puis les sries chronologiques (lissage, modles ARMA, ARIMA et SARIMA).
Nous invitons le lecteur consulter, entre autres, Abraham et Ledolter (1983),
Draper et Smith (1998) et Brockwell et Davis (1996) pour dexcellents exposs
sur la thorie des modles de rgression et des modles de sries chronolo-
giques.
Lestimation des paramtres, le calcul de prvisions et lanalyse des r-
sultats aussi bien en rgression quen analyse de sries chronologiques
sont toutes des procdures forte composante numrique. Il serait tout fait
articiel de se restreindre, dans les exercices, de petits ensembles de don-
nes se prtant au calcul manuel. Dans cette optique, plusieurs des exercices
de ce recueil requirent lutilisation du systme statistique R. Dailleurs, les
annexes A et B prsentent les principales fonctions de R pour la rgression et
lanalyse de sries chronologiques, dans lordre.
Le format de ces deux annexes est inspir de Goulet (2007) : la prsen-
tation des fonctions compte peu dexemples. Par contre, le lecteur est invit
lire et excuter le code informatique des sections dexemples A.7 et B.8. Le
texte des sections dexemples est disponible en format lectronique dans le
site Internet
http://vgoulet.act.ulaval.ca/methodes_statistiques/
v
vi Introduction
Lannexe C contient quelques rsultats dalgbre matricielle utiles pour
rsoudre certains exercices.
Les rponses des exercices se trouvent la n de chacun des chapitres,
alors que les solutions compltes sont regroupes lannexe D.
Tous les jeux de donnes mentionns dans ce document sont disponibles
en format lectronique ladresse
http://vgoulet.act.ulaval.ca/donnees/
Ces jeux de donnes sont imports dans R avec lune ou lautre des com-
mandes scan ou read.table. Certains jeux de donnes sont galement four-
nis avec R; la commande
> data()
en fournit une liste complte.
Nous remercions davance les lecteurs qui voudront bien nous faire part
de toute erreur ou omission dans les exercices ou leurs rponses.
Enn, nous tenons remercier M. Michal Garneau pour sa prcieuse
collaboration lors de la prparation de ce document, ainsi que tous les auxi-
liaires denseignement ayant, au cours des annes, contribu la rdaction
dexercices et de solutions.
Vincent Goulet <vincent.goulet@act.ulaval.ca>
Qubec, septembre 2009
Table des matires
Introduction v
I Rgression linaire 1
2 Rgression linaire simple 3
3 Rgression linaire multiple 11
II Sries chronologiques 19
4 Lissage de sries chronologiques 21
5 Stationnarit et modles stochastiques de sries chronologiques 27
6 Estimation 33
7 Prvision de sries chronologiques 37
A R et la rgression linaire 39
A.1 Importation de donnes . . . . . . . . . . . . . . . . . . . . . . . 39
A.2 Formules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
A.3 Modlisation des donnes . . . . . . . . . . . . . . . . . . . . . . 41
A.4 Analyse des rsultats . . . . . . . . . . . . . . . . . . . . . . . . . 43
A.5 Diagnostics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
A.6 Mise jour des rsultats et prvisions . . . . . . . . . . . . . . . 44
A.7 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
A.8 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
B R et les sries chronologiques 49
B.1 Importation des donnes . . . . . . . . . . . . . . . . . . . . . . . 49
B.2 Cration et manipulation de sries . . . . . . . . . . . . . . . . . 49
B.3 Identication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
B.4 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
B.5 Diagnostics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
vii
viii Table des matires
B.6 Calcul de prvisions . . . . . . . . . . . . . . . . . . . . . . . . . 52
B.7 Simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
B.8 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
B.9 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
C lments dalgbre matricielle 59
C.1 Trace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
C.2 Formes quadratiques et drives . . . . . . . . . . . . . . . . . . 60
C.3 Vecteurs et matrices alatoires . . . . . . . . . . . . . . . . . . . . 61
D Solutions 63
Chapitre 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Chapitre 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
Chapitre 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
Chapitre 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
Chapitre 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
Chapitre 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
Bibliographie 137
Index 139
Premire partie
Rgression linaire
1
2 Rgression linaire simple
2.1 Considrer les donnes suivantes et le modle de rgression linaire Y
t
=

0
+
1
X
t
+
t
:
t 1 2 3 4 5 6 7 8 9 10
X
t
65 43 44 59 60 50 52 38 42 40
Y
t
12 32 36 18 17 20 21 40 30 24
a) Placer ces points ci-dessus sur un graphique.
b) Calculer les quations normales.
c) Calculer les estimateurs

0
et

1
en rsolvant le systme dquations
obtenu en b).
d) Calculer les prvisions

Y
t
correspondant X
t
pour t =1, . . . , n. Ajouter
la droite de rgression au graphique fait en a).
e) Vrier empiriquement que
10
t=1
e
t
= 0.
2.2 On vous donne les observations ci-dessous.
t X
t
Y
t
1 2 6
2 3 4
3 5 6
4 7 3
5 4 6
6 4 4
7 1 7
8 6 4
8

t=1
X
t
= 32
8

t=1
X
2
t
= 156
8

t=1
Y
t
= 40
8

t=1
Y
2
t
= 214
8

t=1
X
t
Y
t
= 146
a) Calculer les coefcients de la rgression Y
t
=
0
+
1
X
t
+
t
, Var[
t
] =

2
.
b) Construire le tableau danalyse de variance de la rgression en a) et
calculer le coefcient de dtermination R
2
. Interprter les rsultats.
3
4 Rgression linaire simple
2.3 Le jeu de donnes women.dat, disponible lURL mentionne dans lin-
troduction et inclus dans R, contient les tailles et les poids moyens de
femmes amricaines ges de 30 39 ans. Importer les donnes dans
dans R ou rendre le jeu de donnes disponible avec data(women), puis
rpondre aux questions suivantes.
a) tablir graphiquement une relation entre la taille (height) et le poids
(weight) des femmes.
b) la lumire du graphique en a), proposer un modle de rgression
appropri et en estimer les paramtres.
c) Ajouter la droite de rgression calcule en b) au graphique. Juger vi-
suellement de lajustement du modle.
d) Obtenir, laide de la fonction summary la valeur du coefcient de
dtermination R
2
. La valeur est-elle conforme la conclusion faite en
c) ?
e) Calculer les statistiques SST, SSR et SSE, puis vrier que SST =SSR+
SSE. Calculer ensuite la valeur de R
2
et la comparer celle obtenue en
d).
2.4 Dans le contexte de la rgression linaire simple, dmontrer que
n

t=1
(

Y
t


Y)e
t
= 0.
2.5 Considrer le modle de rgression linaire par rapport au temps Y
t
=

0
+
1
t +
t
, t = 1, . . . , n. crire les quations normales et obtenir les es-
timateurs des moindres carrs des paramtres
0
et
1
. Note :
n
i=1
i
2
=
n(n +1)(2n +1)/6.
2.6 a) Trouver lestimateur des moindres carrs du paramtre dans le mo-
dle de rgression linaire passant par lorigine Y
t
= X
t
+
t
, t =
1, . . . , n, E[
t
] = 0, Cov(
t
,
s
) =
ts

2
.
b) Dmontrer que lestimateur en a) est sans biais.
c) Calculer la variance de lestimateur en a).
2.7 Dmontrer que lestimateur des moindres carrs

trouv lexercice
2.6 est lestimateur sans biais variance (uniformment) minimale du
paramtre . En termes mathmatiques : soit

=
n

t=1
c
t
Y
t
un estimateur linaire du paramtre . Dmontrer quen dterminant les
coefcients c
1
, . . . , c
n
de faon minimiser
Var[

] = Var
_
n

t=1
c
t
Y
t
_
Rgression linaire simple 5
sous la contrainte que
E[

] = E
_
n

t=1
c
t
Y
t
_
= ,
on obtient

=

.
2.8 Dans le contexte de la rgression linaire simple, dmontrer que
a) E[MSE] =
2
b) E[MSR] =
2
+
2
1

n
t=1
(X
t


X)
2
2.9 Supposons que les observations (X
1
, Y
1
), . . . , (X
n
, Y
n
) sont soumises une
transformation linaire, cest--dire que Y
t
devient Y

t
= a + bY
t
et que X
t
devient X

t
= c + dX
t
, t = 1, . . . , n.
a) Trouver quel sera limpact sur les estimateurs des moindres carrs
des paramtres
0
et
1
dans le modle de rgression linaire Y
t
=

0
+
1
X
t
+
t
.
b) Dmontrer que le coefcient de dtermination R
2
nest pas affect par
la transformation linaire.
2.10 On sait depuis lexercice 2.6 que pour le modle de rgression linaire
simple passant par lorigine Y
t
= X
t
+
t
, lestimateur des moindres
carrs de est

=

n
t=1
X
t
Y
t

n
t=1
X
2
t
.
Dmontrer que lon peut obtenir ce rsultat en utilisant la formule pour

1
dans la rgression linaire simple usuelle (Y
t
=
0
+
1
X
t
+
t
) en
ayant dabord soin dajouter aux donnes un (n + 1)
e
point (m

X, m

Y),
o
m =
n

n +1 1
=
n
a
.
2.11 Soit le modle de rgression linaire simple
Y
t
=
0
+
1
X
t
+
t
,
t
N(0,
2
).
Construire un intervalle de conance de niveau 1 pour le paramtre

1
si la variance
2
est connue.
2.12 Vous analysez la relation entre la consommation de gaz naturel per capita
et le prix du gaz naturel. Vous avez collig les donnes de 20 grandes
villes et propos le modle
Y =
0
+
1
X + ,
o Y reprsente la consommation de gaz per capita, X le prix et est
le terme derreur alatoire distribu selon une loi normale. Vous avez
6 Rgression linaire simple
obtenu les rsultats suivants :

0
= 138,581
20

t=1
(X
t


X)
2
= 10668

1
= 1,104
20

t=1
(Y
t


Y)
2
= 20838
20

t=1
X
2
t
= 90048
20

t=1
e
2
t
= 7832.
20

t=1
Y
2
t
= 116058
Trouver le plus petit intervalle de conance 95 % pour le paramtre

1
.
2.13 Le tableau ci-dessous prsente les rsultats de leffet de la temprature
sur le rendement dun procd chimique.
X Y
5 1
4 5
3 4
2 7
1 10
0 8
1 9
2 13
3 14
4 13
5 18
a) On suppose une relation linaire simple entre la temprature et le
rendement. Calculer les estimateurs des moindres carrs de lordon-
ne lorigine et de la pente de cette relation.
b) tablir le tableau danalyse de variance et tester si la pente est signi-
cativement diffrente de zro avec un niveau de conance de 0,95.
c) Quelles sont les limites de lintervalle de conance 95 % pour la
pente ?
d) Y a-t-il quelque indication quun meilleur modle devrait tre em-
ploy ?
2.14 Y a-t-il une relation entre lesprance de vie et la longueur de la ligne
de vie dans la main? Dans un article de 1974 publi dans le Journal of
the American Medical Association, Mather et Wilson dvoilent les 50 ob-
servations contenues dans le chier lifeline.dat. la lumire de ces
Rgression linaire simple 7
donnes, y a-t-il, selon vous, une relation entre la ligne de vie et les-
prance de vie ? Vous pouvez utiliser linformation partielle suivante :
50

t=1
X
t
= 3333
50

t=1
X
2
t
= 231933
50

t=1
X
t
Y
t
= 30549,75
50

t=1
Y
t
= 459,9
50

t=1
Y
2
t
= 4308,57.
2.15 Considrer le modle de rgression linaire passant par lorigine pr-
sent lexercice 2.6. Soit X
0
une valeur de la variable indpendante, Y
0
la vraie valeur de la variable indpendante correspondant X
0
et

Y
0
la
prvision (ou estimation) de Y
0
. En supposant que
i)
t
N(0,
2
) ;
ii) Cov(
0
,
t
) = 0 pour tout t = 1, . . . , n ;
iii) Var[
t
] =
2
est estim par s
2
,
construire un intervalle de conance de niveau 1 pour Y
0
. Faire tous
les calculs intermdiaires.
2.16 La masse montaire et le produit national brut (en millions de snouks) de
la Fictinie (Asie postrieure) sont reproduits dans le tableau ci-dessous.
Anne Masse montaire PNB
1987 2,0 5,0
1988 2,5 5,5
1989 3,2 6,0
1990 3,6 7,0
1991 3,3 7,2
1992 4,0 7,7
1993 4,2 8,4
1994 4,6 9,0
1995 4,8 9,7
1996 5,0 10,0
a) tablir une relation linaire dans laquelle la masse montaire ex-
plique le produit national brut (PNB).
b) Construire des intervalles de conance pour lordonne lorigine et
la pente estimes en a). Peut-on rejeter lhypothse que la pente est
nulle ? gale 1 ?
c) Si, en tant que ministre des Finances de la Fictinie, vous souhaitez
que le PNB soit de 12,0 en 1997, combien xeriez-vous la masse
montaire ?
d) Pour une masse montaire telle que xe en c), dterminer les bornes
infrieure et suprieure lintrieur desquelles devrait, avec une pro-
babilit de 95 %, se trouver le PNB moyen. Rpter pour la valeur du
PNB de lanne 1997.
8 Rgression linaire simple
2.17 Le chier house.dat contient diverses donnes relatives la valeur des
maisons dans la rgion mtropolitaine de Boston. La signication des
diffrentes variables se trouve dans le chier. Comme lensemble de
donnes est plutt grand (506 observations pour chacune des 13 va-
riables), rpondre aux questions suivantes laide de R.
a) Dterminer laide de graphiques laquelle des variables suivantes
le prix mdian des maisons (medv) est le plus susceptible dtre li
par une relation linaire : le nombre moyen de pices par immeuble
(rm), la proportion dimmeubles construits avant 1940 (age), le taux
de taxe foncire par 10 000 $ dvaluation (tax) ou le pourcentage de
population sous le seuil de la pauvret (lstat).
Astuce : en supposant que les donnes se trouvent dans le data frame
house, essayer les commandes suivantes :
> plot(house)
> attach(house)
> plot(data.frame(rm, age, lstat, tax, medv))
> detach(house)
> plot(medv ~ rm + age + lstat + tax, data = house)
b) Faire lanalyse complte de la rgression entre le prix mdian des
maisons et la variable choisie en a), cest--dire : calcul de la droite
de rgression, tests dhypothses sur les paramtres an de savoir si
la rgression est signicative, mesure de la qualit de lajustement et
calcul de lintervalle de conance de la rgression.
c) Rpter lexercice en b) en utilisant une variable ayant t rejete en
a). Observer les diffrences dans les rsultats.
2.18 On veut prvoir la consommation de carburant dune automobile par-
tir de ses diffrentes caractristiques physiques, notamment le type du
moteur. Le chier carburant.dat contient des donnes tires de Consu-
mer Reports pour 38 automobiles des annes modle 1978 et 1979. Les
caractristiques fournies sont
mpg : consommation de carburant en milles au gallon;
nbcyl : nombre de cylindres (remarquer la forte reprsentation des 8
cylindres !) ;
cylindree : cylindre du moteur, en pouces cubes ;
cv : puissance en chevaux vapeurs ;
poids : poids de la voiture en milliers de livres.
Utiliser R pour faire lanalyse ci-dessous.
a) Convertir les donnes du chier en units mtriques, le cas chant.
Par exemple, la consommation de carburant sexprime en /100 km.
Or, un gallon amricain correspond 3,785 litres et 1 mille 1,6093
kilomtre. La consommation en litres aux 100 km sobtient donc en
divisant 235,1954 par la consommation en milles au gallon. De plus,
1 livre correspond 0,45455 kilogramme.
Rgression linaire simple 9
b) tablir une relation entre la consommation de carburant dune voi-
ture et son poids. Vrier la qualit de lajustement du modle et si
le modle est signicatif.
c) Trouver un intervalle de conance 95 % pour la consommation en
carburant dune voiture de 1 350 kg.
Rponses
2.1 c)

0
=66.44882 et

1
=0.8407468 d)

Y
1
=11,80,

Y
2
=30,30,

Y
3
=29,46,

Y
4
=
16,84,

Y
5
= 16,00,

Y
6
= 24,41,

Y
7
= 22,73,

Y
8
= 34,50,

Y
9
= 31,14,

Y
10
= 32,82
2.2 a)

0
= 7 et

1
=0,5 b) SST = 14, SSR = 7, SSE = 7, MSR = 7, MSE = 7/6,
F = 6, R
2
= 0,5
2.3 b)

0
= 87,5167 et

1
= 3,45 d) R
2
= 0,991 e) SSR = 3332,7 SSE = 30,23
et SST = 3362,93
2.5

0
=

Y

1
(n +1)/2,

1
= (12
n
t=0
tY
t
6n(n +1)

Y)/(n(n
2
1)
2.6 a)

=
n
t=1
X
t
Y
t
/
n
t=1
X
2
t
c) Var[

] =
2
/
n
t=1
X
2
t
2.9 a)

1
= (b/d)

1
2.11
1

1
z
/2

n
t=1
(X
t


X)
2
_
1/2
2.12 (1,5, 0,7)
2.13 a)

0
= 9,273,

1
= 1,436 b) t = 9,809 c) (1,105, 1,768)
2.14 F = 0,73, valeur p : 0,397
2.15

Y
0
t
/2
(n 1) s
_
1 + X
2
0
/
n
t=1
X
2
t
2.16 a) PNB = 1,168 + 1,716 MM b)
0
(0,060, 2,276),
1
(1,427, 2,005)
c) 6,31 d) (11,20, 12,80) et (10,83, 13,17)
2.18 b) R
2
= 0,858 et F = 217,5 c) 10,57 2,13
3 Rgression linaire multiple
3.1 Considrer le modle de rgression linaire y = X + , o X est une
matrice n (p +1). Dmontrer, en drivant
S() =
n

t=1
(Y
t
x

t
)
2
= (y X)

(y X)
par rapport , que les quations normales rsoudre pour obtenir
lestimateur des moindres carrs de sont, sous forme matricielle,
(X

X)

= X

y,
Dduire lestimateur des moindres carrs de ces quations. Astuce : utili-
ser le thorme C.5 de lannexe C.
3.2 Pour chacun des modles de rgression ci-dessous, spcier la matrice
de schma X dans la reprsentation y = X+ du modle, puis obtenir,
si possible, les formules explicites des estimateurs des moindres carrs
des paramtres.
a) Y
t
=
0
+
t
b) Y
t
=
1
X
t
+
t
c) Y
t
=
0
+
1
X
t1
+
2
X
t2
+
t
3.3 Vrier, pour le modle de rgression linaire simple, que les valeurs
trouves dans la matrice de variance-covariance Var[

] =
2
(X

X)
1
cor-
respondent celles calcules au chapitre 2.
3.4 Dmontrer les relations ci-dessous dans le contexte de la rgression li-
naire multiple et trouver leur quivalent en rgression linaire simple.
Utiliser e = y y.
a) X

e = 0
b) y

e = 0
c) y

y =

y
11
12 Rgression linaire multiple
3.5 Considrer le modle de rgression linaire multiple prsent lexercice
3.1. Soit

Y
0
la prvision de la variable dpendante correspondant aux
valeurs du vecteur ligne x
0
= (1, X
01
, . . . , X
0p
) des p variables indpen-
dantes. On a donc

Y
0
= x
0

.
a) Dmontrer que E[

Y
0
] = E[Y
0
].
b) Dmontrer que lerreur dans la prvision de la valeur moyenne de Y
0
est
E[(

Y
0
E[Y
0
])
2
] =
2
x
0
(X

X)
1
x

0
.
Construire un intervalle de conance de niveau 1 pour E[Y
0
].
c) Dmontrer que lerreur dans la prvision de Y
0
est
E[(Y
0


Y
0
)
2
] =
2
(1 +x
0
(X

X)
1
x

0
).
Construire un intervalle de conance de niveau 1 pour Y
0
.
3.6 En ajustant le modle
Y
t
=
0
+
1
X
t1
+
2
X
t2
+
3
X
t3
+
t
un ensemble de donnes, on a obtenu les statistiques suivantes :
R
2
= 0,521
F = 5,438.
Dterminer la valeur p approximative du test global de validit du mo-
dle.
3.7 On vous donne les observations suivantes :
Y X
1
X
2
17 4 9
12 3 10
14 3 11
13 3 11
De plus, si X est la matrice de schma du modle
Y
t
=
0
+
1
X
t1
+
2
X
t2
+
t
, t = 1, 2, 3, 4,
o
t
N(0,
2
), alors
(X

X)
1
=
1
2
_
_
765 87 47
87 11 5
47 5 3
_
_
et
(X

X)
1
X

=
1
2
_
_
6 34 13 13
2 4 1 1
0 2 1 1
_
_
Rgression linaire multiple 13
a) Trouver, par la mthode des moindres carrs, les estimateurs des pa-
ramtres du modle mentionn ci-dessus.
b) Construire le tableau danalyse de variance du modle obtenu en a) et
calculer le coefcient de dtermination.
c) Vrier si les variables X
1
et X
2
sont signicatives dans le modle.
d) Trouver un intervalle de conance 95 % pour la valeur de Y lorsque
X
1
= 3,5 et X
2
= 9.
3.8 Rpter lexercice 2.18 en ajoutant la cylindre du vhicule en litres dans
le modle. La cylindre est exprime en pouces cubes dans les donnes.
Or, 1 pouce correspond 2,54 cm et un litre est dnit comme tant
1 dm
3
, soit 1 000 cm
3
. Trouver un intervalle de conance pour la consom-
mation en carburant dune voiture de 1 350 kg ayant un moteur de 1,8
litre.
3.9 Dans un exemple du chapitre 2 des notes de cours, nous avons tch dex-
pliquer les sinistres annuels moyens par vhicule pour diffrents types de
vhicules uniquement par la puissance du moteur (en chevaux-vapeur).
Notre conclusion tait leffet que la rgression tait signicative rejet
de H
0
dans les tests t et F mais lajustement mauvais R
2
petit.
Examiner les autres variables fournies dans le chier auto-price.dat et
choisir deux autres caractristiques susceptibles dexpliquer les niveaux
de sinistres. Par exemple, peut-on distinguer une voiture sport dune mi-
nifourgonnette ?
Une fois les variables additionnelles choisies, calculer les diffrentes sta-
tistiques propres une rgression en ajoutant dabord une, puis deux
variables au modle de base. Quelles sont vos conclusions ?
3.10 En bon tudiant(e), vous vous intressez la relation liant la demande
pour la bire, Y, aux variables indpendantes X
1
(le prix de celle-ci),
X
2
(le revenu disponible) et X
3
(la demande de lanne prcdente). Un
total de 20 observations sont disponibles. Vous postulez le modle
Y
t
=
0
+
1
X
t1
+
2
X
t2
+
3
X
t3
+
t
,
o E[
t
] = 0 et Cov(
t
,
s
) =
ts

2
. Les rsultats de cette rgression, tels
que calculs dans R, sont fournis ci-dessous.
> fit <- lm(Y ~ X1 + X2 + X3, data = biere)
> summary(fit)
Call: lm(formula = Y ~ X1 + X2 + X3, data = biere)
Residuals:
Min. 1st Qu. Median 3rd Qu. Max.
-1.014e+04 -5.193e-03 -2.595e-03 4.367e-03 2.311e-02
Coefficients:
Value Std. Error t value Pr(>|t|)
14 Rgression linaire multiple
(Intercept) 1.5943 1.0138 1.5726 0.1354
X1 -0.0480 0.1479 -0.3243 0.7499
X2 0.0549 0.0306 1.7950 0.0916
X3 0.8130 0.1160 7.0121 2.933e-06
Residual standard error: 0.0098 on 16 degrees of freedom
Multiple R-Squared: 0.9810 Adjusted R-squared: 0.9774
F-statistic: 275.49 on 3 and 16 degrees of freedom,
the p-value is 7.160e-14
a) Indiquer les dimensions des matrices et vecteurs dans la reprsenta-
tion matricielle y = X+ du modle.
b) La rgression est-elle signicative ? Expliquer.
c) On porte une attention plus particulire au paramtre
2
. Est-il si-
gnicativement diffrent de zro ? Quelle est linterprtation du test
H
0
:
2
= 0 versus H
1
:
2
0 ?
d) Quelle est la valeur et linterprtation de R
2
, le coefcient de d-
termination? De manire gnrale, est-il envisageable dobtenir un
R
2
lev et, simultanment, toutes les statistiques t pour les tests
H
0
:
1
= 0, H
0
:
2
= 0 et H
0
:
3
= 0 non signicatives ? Expliquer
brivement.
3.11 Au cours dune analyse de rgression, on a collig les valeurs de trois
variables explicatives X
1
, X
2
et X
3
ainsi que celles dune variable dpen-
dante Y. Les rsultats suivants ont par la suite t obtenus avec R.
> anova(lm(Y ~ X2 + X3, data = foo))
Analysis of Variance Table
Response: Y
Df Sum of Sq Mean Sq F Value Pr(>F)
X2 1 45.59085 45.59085 106.0095 0.0000000007 ***
X3 1 8.76355 8.76355 20.3773 0.0001718416 ***
Residuals 22 9.46140 0.43006
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
> anova(lm(Y ~ X1 + X2 + X3, data = foo))
Analysis of Variance Table
Response: Y
Df Sum of Sq Mean Sq F Value Pr(>F)
X1 1 45.59240 45.59240 101.6681 0.0000000 ***
X2 1 0.01842 0.01842 0.0411 0.8413279
X3 1 8.78766 8.78766 19.5959 0.0002342 ***
Residuals 21 9.41731 0.44844
Rgression linaire multiple 15
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
a) On considre le modle complet Y =
0
+
1
X
1
+
2
X
2
+
3
X
3
+ .
partir de linformation ci-dessus, calculer la statistique approprie
pour complter chacun des tests suivants. Indiquer galement le
nombre de degrs de libert de cette statistique. Dans tous les cas,
lhypothse alternative H
1
est la ngation de lhypothse H
0
.
i) H
0
:
1
=
2
=
3
= 0
ii) H
0
:
1
= 0
iii) H
0
:
2
=
3
= 0
b) la lumire des rsultats en a), quelle(s) variable(s) devrait-on in-
clure dans la rgression? Justier votre rponse.
3.12 Dans une rgression multiple avec quatre variables explicatives et 506
donnes, on a obtenu :
SSR(X
1
|X
4
) = 21348
SSR(X
4
) = 2668
R
2
= 0,6903
s
2
= 26,41.
Calculer la statistique approprie pour le test
H
0
:
2
=
3
= 0
H
1
:
2
0 ou
3
0.
3.13 En rgression linaire multiple, on a

N(,
2
(X

X)
1
) et SSE/
2

2
(n p 1).
a) Vrier que

i

i
s

c
ii
t(n p 1), i = 0, 1, . . . , p,
o c
ii
est le (i +1)
e
lment de la diagonale de la matrice (X

X)
1
et
s
2
= MSE.
b) Que vaut c
11
en rgression linaire simple ? Adapter le rsultat ci-
dessus ce modle.
3.14 Considrer le modle de rgression linaire y = X + , o X est une
matrice n (p + 1), Var[] =
2
W
1
et W = diag(w
1
, . . . , w
n
). Dmon-
trer, en drivant
S() =
n

t=1
w
t
(y
t
x

t
)
2
= (y X)

W(y X)
16 Rgression linaire multiple
par rapport , que les quations normales rsoudre pour obtenir
lestimateur des moindres carrs pondrs de sont, sous forme matri-
cielle,
(X

WX)

= X

Wy,
puis en dduire cet estimateur. Astuce : cette preuve est simple si lon
utilise le thorme C.5 de lannexe C avec A = W et f () = y X.
3.15 Considrer le modle de rgression linaire simple passant par lori-
gine Y
t
= X
t
+
t
. Trouver lestimateur linaire sans biais variance
minimale du paramtre , ainsi que sa variance, sous chacune des hy-
pothses suivantes.
a) Var[
t
] =
2
b) Var[
t
] =
2
/w
t
c) Var[
t
] =
2
X
t
d) Var[
t
] =
2
X
2
t
3.16 Proposer, partir des donnes ci-dessous, un modle de rgression com-
plet (incluant la distribution du terme derreur) pouvant expliquer le
comportement de la variable Y en fonction de celui de X.
Y X
32,83 25
9,70 3
29,25 24
15,35 11
13,25 10
24,19 20
8,59 6
25,79 21
24,78 19
10,23 9
8,34 4
22,10 18
10,00 7
18,64 16
18,82 15
Rgression linaire multiple 17
3.17 On vous donne les 23 donnes dans le tableau ci-dessous.
t Y
t
X
t
t Y
t
X
t
t Y
t
X
t
12 2,3 1,3 19 1,7 3,7 6 2,8 5,3
23 1,8 1,3 20 2,8 4,0 10 2,1 5,3
7 2,8 2,0 5 2,8 4,0 4 3,4 5,7
8 1,5 2,0 2 2,2 4,0 9 3,2 6,0
17 2,2 2,7 21 3,2 4,7 13 3,0 6,0
22 3,8 3,3 15 1,9 4,7 14 3,0 6,3
1 1,8 3,3 18 1,8 5,0 16 5,9 6,7
11 3,7 3,7 3 3,5 5,3
a) Calculer lestimateur des moindres carrs ordinaires

.
b) Supposons que la variance de Y
16
est 4
2
plutt que
2
. Recalculer la
rgression en a) en utilisant cette fois les moindres carrs pondrs.
c) Refaire la partie b) en supposant maintenant que la variance de lob-
servation Y
16
est 16
2
. Quelles diffrences note-t-on?
3.18 Une cooprative de taxi new-yorkaise sintresse la consommation de
carburant des douze vhicules de sa otte en fonction de leur ge. Hor-
mis leur ge, les vhicules sont identiques et utilisent tous le mme
type dessence. La seule chose autre diffrence notable dun vhicule
lautre est le sexe du conducteur : la cooprative emploie en effet des
hommes et des femmes. La cooprative a recueilli les donnes suivantes
an dtablir un modle de rgression pour la consommation de carbu-
rant :
Consommation (mpg) ge du vhicule Sexe du conducteur
12,3 3 M
12,0 4 F
13,7 3 F
14,2 2 M
15,5 1 F
11,1 5 M
10,6 4 M
14,0 1 M
16,0 1 F
13,1 2 M
14,8 2 F
10,2 5 M
a) En plaant les points sur un graphique de la consommation de car-
burant en fonction de lge du vhicule, identier sil existe ou non
une diffrence entre la consommation de carburant des femmes et
celle des hommes. Astuce : utiliser un symbole (pch) diffrent pour
chaque groupe.
18 Rgression linaire multiple
b) tablir un modle de rgression pour la consommation de carburant.
An de pouvoir intgrer la variable qualitative sexe du conducteur
dans le modle, utiliser une variable indicatrice du type
X
t2
=
_
1, si le conducteur est un homme
0, si le conducteur est une femme.
c) Quelle est, selon le modle tabli en b), la consommation moyenne
dune voiture taxi de quatre ans conduite par une femme ? Fournir
un intervalle de conance 90 % pour cette prvision.
Rponses
3.2 a)

0
=

Y b)

1
= (
n
t=1
X
t
Y
t
)/(
n
t=1
X
2
t
)
3.6 p 0,01
3.7 a)

= (22,5, 6,5, 1,5) b) F = 13,5, R
2
= 0,9643 c) t
1
= 3,920, t
2
= 1,732
d) 13,75 13,846
3.8 b) R
2
= 0,8927 et F = 145,6 c) 12,04 2,08
3.10 a) y
201
, X
204
,
41
et
201
3.11 a) i) 40,44, 3 et 21 degrs de libert ii) 0,098, 1 et 21 degrs de libert
iii) 9,82, 2 et 21 degrs de libert b) X
1
et X
3
, ou X
2
et X
3
3.12 103,67
3.15 a)

=
n
t=1
X
t
Y
t
/
n
t=1
X
2
t
, Var[

] =
2
/
n
t=1
X
2
t
b)

=
n
t=1
w
t
X
t
Y
t
/
n
t=1
w
t
X
2
t
, Var[

] =
2
/
n
t=1
w
t
X
2
t
c)

=

Y/

X, Var[

] =
2
/(n

X)
d)

=
n
t=1
Y
t
/X
t
, Var[

] =
2
/n
3.16 Y
t
= 18,12 +29,68X
t
+4,09X
2
t
+
t
,
t
N(0, 1,373)
3.17 a)

= (1,4256, 0,3158) b)

= (1,7213, 0,2243) c)

= (1,808, 0,1975)
3.18 b) mpg = 16,687 1,04 age 1,206 sexe c) 12,53 0,58 mpg
Deuxime partie
Sries chronologiques
19
4 Lissage de sries chronologiques
4.1 liminer la tendance des donnes du nombre de grves aux tats-Unis,
19511980 (strikes.dat) par une application approprie de loprateur
de diffrenciation .
4.2 Comparer leffet, tant sur lestimateur de la tendance que sur les rsidus,
du lissage exponentiel des donnes du chier sales.dat avec = 0,2,
= 0,5 et = 0,7.
4.3 a) Dcomposer les donnes du nombre mensuel de morts accidentelles,
19731978 (deaths.dat) en leurs composantes additives de tendance,
de saisonnalit et de rsidus en utilisant la fonction stl de R.
b) La fonction stl retourne une liste. Le premier lment, nomm time.series,
est une matrice qui regroupe les composantes de la srie. On extrait
donc les rsidus avec :
> stl(x)$time.series[, "remainder"]
Vrier laide du corrlogramme des rsidus calculs en a) que ceux-
ci forment une srie stationnaire.
4.4 a) La production de bire australienne 19561990 (beer.dat) est une s-
rie comportant une tendance ainsi que de la saisonnalit. De plus,
lamplitude de la saisonnalit augmente avec le niveau du processus.
Par consquent, un modle multiplicatif de la forme
Y
t
= m
t
s
t
X
t
serait possiblement plus appropri pour cette srie que le modle ad-
ditif usuel
Y
t
= m
t
+ s
t
+ X
t
.
Le modle multiplicatif pour la srie originale est toutefois quivalent
un modle additif pour le logarithme des donnes. Faire un gra-
phique de ces deux sries et vrier lequel des deux modles ci-dessus
(multiplicatif ou additif) est le plus appropri.
b) liminer la tendance et la saisonnalit de la srie choisie en a) laide
de diffrences.
21
22 Lissage de sries chronologiques
4.5 On dit du ltre moyenne mobile

j=
a
j
Y
tj
avec
a
j
=
_
_
_
1
2q +1
, |j| q
0, |j| > q
que cest un ltre linaire parce quune tendance linaire le traverse sans
distorsion. Dmontrer que, en effet, une tendance m
t
= c
0
+ c
1
t passe
travers le ltre ci-dessus sans tre affecte, cest--dire que

j=
a
j
m
tj
=
m
t
.
4.6 Dmontrer que le ltre
q
j=q
a
j
Y
tj
avec coefcients [a
2
, a
1
, a
0
, a
1
, a
2
] =
1
9
[1, 4, 3, 4, 1] laisse passer les polynmes du troisime degr (cest--
dire m
t
= c
0
+ c
1
t + c
2
t
2
+ c
3
t
3
) sans distorsion et limine la saisonnalit
de priodicit 3 (cest--dire s
t
= s
t+3
).
4.7 Soit le ltre a
j
=1/(2q +1), q j q. Si Y
t
, t =0, 1, 2, . . . , sont des va-
riables alatoires indpendantes de moyenne 0 et de variance
2
, montrer
que la moyenne mobile A
t
=
q
j=q
a
j
Y
tj
est petite pour de grandes
valeurs de q dans le sens o E[A
t
] = 0 et Var[A
t
] =
2
/(2q +1). Interpr-
ter ce rsultat.
4.8 Trouver un ltre de la forme 1 +B + B
2
+B
3
(cest--dire trouver ,
et ) qui laisse passer une tendance linaire sans distorsion, mais limine
la saisonnalit de priode 2. Note : B est loprateur de rtrodcalage.
4.9 On vous donne neuf observations dune srie chronologique {X
t
} :
Time Series:
Start = 1
End = 9
Frequency = 1
[1] 4 -5 93 12 76 143 163 164 158
On vous donne galement linformation suivante pour quelques sries
apparentes {X
t
}, o T est la variable alatoire du nombre de change-
ments de direction dans une srie chronologique.
{X
t
} {X
t
} {
3
X
t
} {
3
X
t
} {
2
X
t
}
E[T] 4,67 4 2,67 2 3,33
Var[T] 1,28 1,1 0,74 0,57 0,92

4
h=1
(h)
2
0,45 0,29 0,14 0,13 0,45
a) liminer la tendance et/ou la saisonnalit de cette srie laide de
diffrences.
b) Vrier si la srie obtenue en a) forme un bruit blanc laide des tests
portmanteau et des changements de direction.
Lissage de sries chronologiques 23
Time
X
1995 1996 1997 1998 1999 2000
6
0
8
0
1
0
0
1
2
0
1
4
0
1
6
0
1
8
0
Figure 4.1: Ventes bimestrielles de Guinness, janvier 1995 novembre 1999
4.10 On vous donne ci-dessous les valeurs des ventes bimestrielles ( tous
les deux mois) de la bire Guinness, de janvier 1995 novembre 1999.
Un graphique de cette srie vous est galement fourni la gure 4.1.
> X
Time Series:
Start = c(1995, 1)
End = c(1999, 6)
Frequency = 6
[1] 46 70 114 132 112 100 53 89 120 156 108 101
[13] 54 80 102 140 110 100 62 83 127 152 115 116
[25] 70 100 146 175 121 126
liminer la tendance et/ou la saisonnalit de cette srie. Si ncessaire,
estimer la tendance laide dune moyenne mobile centre trois points
et liminer la saisonnalit laide de diffrences.
4.11 Soit la srie de 30 observations suivante :
24 Lissage de sries chronologiques
x
1
, . . . , x
6
: 486 474 434 441 435 401
x
7
, . . . , x
12
: 414 414 386 405 411 389
x
13
, . . . , x
18
: 414 426 410 441 459 449
x
19
, . . . , x
24
: 486 510 506 549 579 581
x
25
, . . . , x
30
: 630 666 674 729 771 785
Cette srie est en fait la somme dune tendance quadratique et dune
composante de saisonnalit de priode 3. Appliquer cette srie le ltre
obtenu lexercice 4.8 et discuter des rsultats.
4.12 On vous donne les 10 observations dun processus {Y
t
} ainsi que les
fonctions dautocorrlations empiriques de {Y
t
}, {Y
t
} et {
2
Y
t
}.
> Y
Time Series:
Start = 1
End = 10
Frequency = 1
[1] 4.6 6.1 7.5 7.6 9.2 10.3 9.3 8.9 12.6
[10] 12.5
> acf(Y, plot = FALSE)
Autocorrelations of series Y, by lag
0 1 2 3 4 5 6
1.000 0.539 0.153 0.152 0.008 -0.185 -0.198
7 8 9
-0.263 -0.442 -0.264
> acf(diff(Y), plot = FALSE)
Autocorrelations of series diff(Y), by lag
0 1 2 3 4 5 6
1.000 -0.306 -0.375 0.224 0.124 -0.298 0.090
7 8
0.078 -0.038
> acf(diff(Y, differences = 2), plot = FALSE)
Autocorrelations of series diff(Y, differences = 2), by lag
0 1 2 3 4 5 6
1.000 -0.388 -0.351 0.225 0.183 -0.270 0.110
7
-0.009
a) liminer la tendance de cette srie laide de diffrences.
b) Tester si la srie obtenue en a) est un bruit blanc laide des tests
portmanteau et des changements de direction.
Lissage de sries chronologiques 25
Rponses
4.8 = = 1/4, = 1/2
4.9 b) Q

= 2,3267, T = 0,95
4.10
6
(X
t

1
3

1
j=1
X
tj
)
4.12 Q

= 3,685, T = 0,5898
5 Stationnarit et modles
stochastiques de sries
chronologiques
5.1 Soit {Z
t
} une suite de variables alatoires indpendantes distribues se-
lon une loi normale de moyenne 0 et de variance
2
, et soit a, b et c des
constantes. Dterminer lequel ou lesquels des processus ci-dessous sont
stationnaires. Pour chaque processus stationnaire, calculer la moyenne et
la fonction dautocovariance.
a) X
t
= a + bZ
t
+ cZ
t2
b) X
t
= Z
1
cos(ct) + Z
2
sin(ct)
c) X
t
= Z
t
cos(ct) + Z
t1
sin(ct)
d) X
t
= a + bZ
0
e) X
t
= Z
t
Z
t1
Astuce : cos(u + v) = cosucosv sinusinv et sin(u + v) = sinucosv +
cosusinv.
5.2 Soit {X
t
} une srie chronologique stationnaire de moyenne nulle et a, b,
des constantes.
a) Si Y
t
= a + bt + s
t
+ X
t
, o s
t
est une composante de saisonnalit de
priode 12, dmontrer que
12
Y
t
= (1 B)(1 B
12
)Y
t
est station-
naire.
b) Si Y
t
= (a + bt)s
t
+ X
t
, o s
t
est toujours une composante de saison-
nalit de priode 12, dmontrer que
2
12
Y
t
= (1 B
12
)
2
Y
t
est station-
naire.
5.3 Soit {X
t
} et {Y
t
} deux sries stationnaires et non corrles, cest--dire
que Cov(X
r
, Y
s
) = 0 pour tous r et s. Dmontrer que {X
t
+ Y
t
} est sta-
tionnaire avec fonction dautocovariance gale la somme des fonctions
dautocovariance de {X
t
} et {Y
t
}.
5.4 Les donnes lake.dat donnent le niveau du Lac Huron moins 570 pieds
entre les annes 1875 et 1972. Lensemble contient donc 98 donnes. Faire
une modlisation prliminaire ( tre complte plus tard) de cette srie
en suivant les tapes suivantes.
27
28 Stationnarit et modles stochastiques
i) Tracer le graphique de la srie et identier visuellement une ten-
dance et/ou de la saisonnalit.
ii) Si ncessaire, estimer la tendance par rgression et liminer la sai-
sonnalit laide de diffrences.
iii) Proposer un modle pour les rsidus obtenus en ii). Justier votre
rponse laide du corrlogramme des rsidus et des rsultats des
tests de dtection du bruit blanc.
5.5 Considrer le processus moyenne mobile {X
t
} suivant :
X
t
= Z
t
+ Z
t2
,
o {Z
t
} WN(0, 1).
a) Calculer les fonctions dautocovariance et dautocorrlation de ce pro-
cessus.
b) laide de la fonction arima.sim de R, simuler 300 observations du
processus ci-dessus avec = 0,8. Calculer et tracer le corrlogramme
du processus ainsi obtenu.
c) Rpter la partie b) avec = 0,8.
d) Les corrlogrammes obtenus en b) et c) correspondent-ils la fonction
dautocorrlation thorique calcule en a) ?
e) On remarquera que la srie en b) uctue moins rapidement que celle
en c). Expliquer cet tat de fait laide de la fonction dautocorrlation.
5.6 Soit {X
t
} un processus AR(1).
a) Calculer la variance de (X
1
+X
2
+X
3
+X
4
)/4 quand =0,9 et
2
=1.
b) Rpter la partie a) avec = 0,9 et comparer le rsultat avec celui
obtenu en a). Interprter.
5.7 Soit {Z
t
} un bruit IID avec Z
t
N(0, 1). On dnit
X
t
=
_

_
Z
t
, si t est pair,
Z
2
t1
1

2
, si t est impair.
Dmontrer que {X
t
} est WN(0, 1) mais non IID(0, 1).
5.8 On vous donne les cinq valeurs suivantes dun bruit blanc de moyenne 0
et de variance 1 :
0,18 1,61 3,00 1,33 0,37.
Calculer quatre valeurs des processus ci-dessous.
a) AR(1) avec = 0,6.
b) MA(1) avec = 0,4.
c) ARMA(1, 1) avec = 0,6 et = 0,4.
Stationnarit et modles stochastiques 29
5.9 a) Vrier que le processus stationnaire (causal)
X
t
=

j=0

j
Z
tj
= Z
t
+ Z
t1
+
2
Z
t2
+ . . . ,
o || < 1, est bien une solution de lquation X
t
X
t1
= Z
t
d-
nissant le processus AR(1).
b) Vrier que le processus
X
t
=

j=1

j
Z
t+j
=
1
Z
t+1

2
Z
t+2

3
Z
t+3
. . . ,
o || > 1 est aussi une solution de lquation ci-dessus, mais que
cette solution nest pas causale.
5.10 Pour chaque processus ARMA ci-dessous, dterminer si le processus
est stationnaire et sil est rversible. (Dans chaque cas {Z
t
} est un bruit
blanc.)
a) X
t
+0,2X
t1
0,48X
t2
= Z
t
.
b) X
t
+1,9X
t1
0,88X
t2
= Z
t
+0,2Z
t1
+0,7Z
t2
.
c) X
t
+0,6X
t1
= Z
t
+1,2Z
t1
.
d) X
t
+1,8X
t1
0,81X
t2
= Z
t
.
e) X
t
+1,6X
t1
= Z
t
0,4Z
t1
+0,04Z
t2
.
5.11 Soit {Y
t
} la somme dun processus AR(1) et dun bruit blanc, cest--dire
Y
t
= X
t
+W
t
,
o {W
t
} WN(0,
2
W
) et {X
t
} est le processus AR(1) avec || <1
X
t
X
t1
= Z
t
, {Z
t
} WN(0,
2
Z
).
On suppose de plus que E[W
s
Z
t
] = 0 pour tous s et t.
a) Dmontrer que {Y
t
} est stationnaire et calculer sa fonction dautoco-
variance.
b) Dmontrer que la srie chronologique U
t
Y
t
Y
t1
est 1corrle
(cest--dire que
U
(h) = 0 pour tout |h| >1) et que, par consquent,
elle peut scrire comme un processus MA(1).
c) Conclure de b) que {Y
t
} est un processus ARMA(1, 1) et exprimer
les trois paramtres de ce modle en fonction de ,
2
W
et
2
Z
.
5.12 a) Les quations de YuleWalker gnralises sont obtenues en multi-
pliant
X
t

1
X
t1

p
X
tp
= Z
t
+
1
Z
t1
+ +
q
Z
tq
30 Stationnarit et modles stochastiques
de part et dautre par X
th
et en prenant par la suite lesprance.
Dmontrer que les quations ainsi obtenues sont les suivantes : pour
0 h q

X
(h)
1

X
(h 1)
p

X
(h p) =
2

j=0

h+j
,
et, pour h > q,

X
(h)
1

X
(h 1)
p

X
(h p) = 0.
b) Utiliser les quations de YuleWalker gnralises ci-dessus pour cal-
culer la fonction dautocovariance dun modle ARMA(1, 1).
5.13 Pour chaque modle ci-dessous :
i) classer le modle parmi la famille des processus ARIMA(p, d, q) ;
ii) calculer les quatre premiers coefcients
0
,
1
,
2
et
3
de la repr-
sentation MA() de {X
t
} ;
iii) calculer les quatre premiers coefcients
0
,
1
,
2
et
3
de la repr-
sentation AR() de {Z
t
}.
Dans tous les cas, {Z
t
} est un bruit blanc.
a) X
t
0,5X
t1
= Z
t
b) X
t
= Z
t
1,3Z
t1
+0,4Z
t2
c) X
t
0,5X
t1
= Z
t
1,3Z
t1
+0,4Z
t2
d) X
t
1,2X
t1
+0,2X
t2
= Z
t
0,5Z
t1
5.14 Dmontrer que la valeur h =2 de la fonction dautocorrlation partielle
dun modle MA(1)
X
t
= Z
1
+ Z
t1
, {Z
t
} WN(0,
2
),
est

22
=

2
1 +
2
+
4
.
5.15 On souhaite ajuster le modle de rgression suivant un ensemble de n
donnes :
Y
t
=
0
+
1
X
t1
+
2
X
t2
+
t
,
o {
t
} AR(1). Suite de longues incantations profres dans une
langue gutturale proche de celle du Mordor, on a appris que les para-
mtres du processus AR(1) sont = 0,8 et
2
= 9.
a) Expliquer brivement pourquoi lemploi des moindres carrs gn-
raliss savre appropri pour lestimation des paramtres de la r-
gression
0
,
1
et
2
.
Stationnarit et modles stochastiques 31
b) Prciser la forme de la matrice V = V[] utiliser dans les moindres
carrs gnraliss.
5.16 Le processus SARIMA(p, d, q) (P, D, Q)
s
est dni comme la solution
stationnaire {X
t
} des quations
(B)(B
s
)W
t
= (B)(B
s
)Z
t
, W
t
=
d

D
s
X
t
,
o {Z
t
} WN(0,
2
) et (z), (z), (z) et (z) sont des polynmes
de degr p, P, q et Q, respectivement. Ainsi, si le processus {X
t
} une
tendance et de la saisonnalit de priode s, alors {W
t
} est le proces-
sus stationnaire obtenu en liminant la tendance puis la saisonnalit
laide de d diffrences (dordre 1) et D (normalement D = 1) diffrences
dordre s. De plus,
(B
s
) = 1
1
B
s

2
B
2s

P
B
Ps
est une composante AR saisonnire (entre les annes) et
(B
s
) = 1
1
B
s

2
B
2s

Q
B
Qs
est une composante MA saisonnire. Remarquer que lon peut obtenir
un modle saisonnier mme si D = 0, en autant que P >0 ou Q >0.
Trouver lordre des modles SARIMA ci-dessous.
a) (1 B)(1 B
12
)X
t
= (1 +0,5B)(1 0,6B
12
)Z
t
b) (1 0,7B)(1 B
12
)X
t
= (1 +0,45B
12
)Z
t
c) (1 0,7B)(1 +0,3B
4
)(1 B)X
t
= (1 +0,37B
4
)Z
t
Rponses
5.1 Sont stationnaires : a), b), d), e).
5.4 m
t
= 55,555 0,024t, Q = 109,24, T = 40.
5.5
X
(0) = 1 +
2
,
X
(2) = ,
X
(h) = 0 ailleurs.
5.6 Var[
1
4
(X
1
+ X
2
+ X
3
+ X
4
)] =
2
(
1
4
+
3
8
+
1
4

2
+
1
8

3
)/(1
2
).
5.8 a) {0,180, 1,502, 2,099, 2,589}
b) {0,180, 1,682, 3,644, 0,130, 0,162}
c) {0,180, 1,574, 2,700, 1,750}
5.10 a) Stationnaire et rversible b) Rversible seulement c) Stationnaire seule-
ment d) Rversible seulement e) Rversible seulement
5.13 a) AR(1) b) MA(2) c) ARMA(1, 2) d) ARIMA(1, 1, 1)
5.16 a) SARIMA(0, 1, 1) (0, 1, 1)
12
b) SARIMA(1, 0, 0) (0, 1, 1)
12
c) SARIMA(1, 1, 0) (1, 0, 1)
4
6 Estimation
6.1 On vous donne les valeurs suivantes provenant dun processus autor-
gressif dordre 1 :
1,1 2,6 4,3 1,1 9,7 4,1 0,6 2,2.
a) Estimer la valeur de
11
partir des donnes ci-dessus.
b) Si on vous dit que =0,85, que vaut
22
(la valeur thorique) ? Justier
votre rponse.
6.2 Trouver les estimateurs de YuleWalker des paramtres et
2
du modle
MA(1) en supposant que |(1)| <
1
2
.
6.3 a) Calculer la fonction dautocovariance () de la srie stationnaire
X
t
= + Z
t
+
1
Z
t1
+
12
Z
t12
, {Z
t
} WN(0,
2
).
b) Calculer la moyenne et les autocovariances empiriques (h), 0 h
20 de {
12
X
t
}, o {X
t
, t =1, . . . , 72} est la srie du nombre de morts
accidentelles deaths.dat.
c) En galant les valeurs de (1), (11) et (12) trouves en b) (1),
(11) et (12), respectivement, de la partie a), trouver un modle de
la forme en a) pour la srie {
12
X
t
}.
6.4 Soit le processus AR(2) dni comme la solution stationnaire de
X
t
X
t1

2
X
t2
= Z
t
, {Z
t
} WN(0,
2
).
a) Pour quelles valeurs de une solution stationnaire existe-t-elle ?
b) Les estimateurs des moments suivants ont t obtenus aprs lobser-
vation de X
1
, . . . , X
200
:
(0) = 6,06, (1) = 0,687, (2) = 0,610.
Trouver des estimateurs de et
2
laide des quations de Yule
Walker. (Si vous trouvez plus dune solution, retenir celle qui est sta-
tionnaire.)
33
34 Estimation
6.5 On vous donne ci-dessous les valeurs (arrondies) des fonctions dautoco-
variance et dautocorrlation partielle empiriques dun processus station-
naire.
> acvf <- acf(X, type = "covariance", lag.max = 9)
> cbind(h = acvf$lag, `gamma(h)` = round(acvf$acf,
+ 2))
h gamma(h)
[1,] 0 6.50
[2,] 1 -5.94
[3,] 2 5.74
[4,] 3 -5.50
[5,] 4 5.19
[6,] 5 -4.96
[7,] 6 4.65
[8,] 7 -4.45
[9,] 8 4.24
[10,] 9 -3.99 0 5 10 15 20

0
.
5
0
.
0
0
.
5
1
.
0
Lag
A
C
F
> pacf <- acf(X, type = "partial", lag.max = 10)
> cbind(h = pacf$lag, phi_hh = round(pacf$acf,
+ 2))
h phi_hh
[1,] 1 -0.91
[2,] 2 0.29
[3,] 3 -0.05
[4,] 4 -0.08
[5,] 5 -0.02
[6,] 6 -0.07
[7,] 7 -0.05
[8,] 8 0.03
[9,] 9 0.04
[10,] 10 0.04 5 10 15 20

0
.
8

0
.
6

0
.
4

0
.
2
0
.
0
0
.
2
Lag
P
a
r
t
i
a
l

A
C
F
a) Trouver un modle adquat pour ce processus tant donn les infor-
mations ci-dessus. Justier votre rponse.
b) Trouver des estimateurs des moments pour tous les paramtres du
modle propos en a).
Estimation 35
6.6 Trouver lautocorrlation partielle de pas 3,
33
, laide des informations
suivantes :
t 1 2 3 4 5
X
t
2,2 1,2 2,4 4,1 3,0
> ar(X, aic = FALSE, order.max = 1)
Call:
ar(x = X, aic = FALSE, order.max = 1)
Coefficients:
1
0.249
Order selected 1 sigma^2 estimated as 1.428
> ar(X, aic = FALSE, order.max = 2)
Call:
ar(x = X, aic = FALSE, order.max = 2)
Coefficients:
1 2
0.3878 -0.5574
Order selected 2 sigma^2 estimated as 1.477
> ar(X, aic = FALSE, order.max = 3)
Call:
ar(x = X, aic = FALSE, order.max = 3)
Coefficients:
1 2 3
0.4432 -0.5959 0.0993
Order selected 3 sigma^2 estimated as 2.925
6.7 Les estimateurs de YuleWalker sont sans biais. Vrier si cette afrma-
tion est vraie pour un modle AR(2) par la petite exprience suivante.
i) Choisir des valeurs pour les paramtres du modle
X
t

1
X
t1

2
X
t2
= Z
t
, {Z
t
} WN(0,
2
).
ii) Simuler 200 observations dun processus AR(2) avec les paramtres
choisis en i).
iii) Calculer et sauvegarder les estimateurs de YuleWalker des param-
tres (utiliser la fonction ar avec order.max = 2).
iv) Rpter les tapes ii) et iii) un grand nombre de fois (au moins 1000).
36 Estimation
v) Calculer la moyenne des estimateurs de chaque paramtre.
Comparer les valeurs obtenues en v) aux vraies valeurs choisies en i).
Quelle est votre conclusion?
Rponses
6.1 a) 0,2695 b) 0
6.2

= (1
_
1 4 (1)
2
)/(2 (1))
6.3 c)
12
X
t
=28,83 +Z
t
0,5859Z
t1
0,5486Z
t12
, {Z
t
} WN(0, 92730)
6.4 a) (1

5)/2 < < (1 +

5)/2 b)

= 0,509,
2
= 2,983
6.5 a) AR(2) b)

1
= 0,6479,

2
= 0,2911,
2
= 0,9888
6.6 0,0993
6.7 Biais ngatif
7 Prvision de sries chronologiques
7.1 Soit

X
t
(1) la prvision pour la priode t + 1 faite depuis le temps t
laide du lissage exponentiel. Calculer

X
5
(1) partir des informations
ci-dessous.
t 1 2 3 4 5
X
t
56 55 42 48 39

X
t1
(1) 48,99 49,83 50,45 49,44 49,27
7.2 Soit {X
t
} un processus ARIMA(2, 1, 0) solution de
(1
1
B
2
B
2
)X
t
= Z
t
, {Z
t
} WN(0,
2
).
Trouver une expression pour

X
n
(h), h < n.
7.3 On vous donne les valeurs suivantes dune srie {X
t
} :
Time Series:
Start = 1
End = 10
Frequency = 1
[1] 0 0 3 4 5 7 6 3 8 9
Aprs analyse, le modle suivant est jug adquat pour cette srie :
(1 +0,6B)(X
t
2X
t1
+ X
t2
) = Z
t
{Z
t
} WN(0, 9),
o B est loprateur de rtro-dcalage, comme dhabitude.
a) Identier le modle ci-dessus.
b) Soit W
t
=
2
X
t
. Identier le processus {W
t
} et montrer quil est sta-
tionnaire.
c) Calculer la meilleure prvision de X
12
et lerreur quadratique moyenne
de

X
10
(2).
37
38 Prvision de sries chronologiques
7.4 Soit les vingt dernires valeurs dune srie chronologique :
t X
t
n 19 2890
n 18 2955
n 17 3023
n 16 3098
n 15 3163
n 14 3234
n 13 3304
n 12 3375
n 11 3451
n 10 3521
t X
t
n 9 3602
n 8 3678
n 7 3750
n 6 3828
n 5 3912
n 4 3999
n 3 4080
n 2 4166
n 1 4249
n 4339
On a ajust aux n donnes un modle dont lquation caractristique est
(1 +0,6B)(1 B)
2
(1 B
12
)X
t
= Z
t
, {Z
t
} WN(0, 5).
a) Expliquer si la srie {X
t
} contient de la tendance et/ou de la sai-
sonnalit. Le cas chant, dcrire brivement ces composantes (type,
priodicit).
b) Calculer un intervalle de conance 95 % pour la prvision de la
priode n +2.
Rponses
7.2

X
n
(1) = (
1
+ 1)X
n
+ (
2

1
)X
n1

2
X
n2
,

X
n
(2) = (
1
+ 1)

X
n+1
+
(
2

1
)X
n

2
X
n1
,

X
n
(3) = (
1
+ 1)

X
n+2
+ (
2

1
)

X
n+1

2
X
n
,

X
n
(h) = (
1
+1)

X
n
(h 1) + (
2

1
)

X
n
(h 2)
2

X
n
(h 3), h >3
7.3 a) ARIMA(1, 2, 0) b) AR(1) c) 14,36 et 26,64
7.4 b) 4517,96 1,96

14,8
A R et la rgression linaire
Comme tous les grands logiciels statistiques et mme plusieurs calcu-
latrices scientiques R comporte des fonctions permettant de calculer les
coefcients dune rgression simple ou multiple. Les outils disponibles vont
toutefois bien au-del de ce calcul relativement simple. Ainsi, par lentremise
de quelques fonctions gnriques simples utiliser, il est possible de gnrer
diffrents graphiques relatifs la rgression, den calculer le tableau ANOVA
et den extraire les informations principales, de calculer des prvisions ainsi
que des intervalles de conance. Bref, lanalyse complte dun ensemble de
donnes tient en quelques lignes de code ; il suft de connatre les fonctions
utiliser.
Cette annexe prsente les principales fonctions dont la liste se trouve
au tableau A.1 utiles lors de lanalyse de donnes et la modlisation par r-
gression. Il na cependant aucune prtention dexhaustivit. Consulter laide
en ligne de R, ainsi que Venables et Ripley (2002) pour de plus amples dtails.
A.1 Importation de donnes
La modlisation statistique en R par exemple, lanalyse de rgression
repose souvent sur lutilisation de data frames pour le stockage des donnes.
On se reportera la section 2.7 de Goulet (2007) pour une prsentation de
ce type dobjet.
La principale fonction utilise pour importer des donnes dans R en vue
dune analyse de rgression est read.table. Celle-ci retourne un data frame.
Les arguments de read.table les plus souvent utiliss sont :
file le nom ou lURL du chier de donnes importer ;
header TRUE si la premire ligne du chier tre lue contient les ti-
quettes des colonnes ;
comment.char le caractre (# par dfaut) reprsentant le dbut dun com-
mentaire dans le chier ;
skip le nombre de lignes sauter au dbut du chier.
39
40 R et la rgression linaire
Phase de lanalyse Fonctions
Cration et manipulation de data frames data.frame
as.data.frame
read.table
cbind
rbind
names, colnames
row.names, rownames
attach
detach
Modlisation lm
add1, addterm
1
drop1, dropterm
1
step, stepAIC
1
Analyse des rsultats et diagnostics summary
anova
coef, coefficients
confint
residuals
fitted
deviance
df.residual
Mise jour et prvisions update
predict
Graphiques plot
abline
matplot
matlines
1
Dans le package MASS.
Table A.1: Principales fonctions R pour la rgression linaire
A.2 Formules
Lorsque lon fait une rgression, il faut informer R des variables que lon
entend inclure dans celle-ci et leurs relations entre elles. La convention utili-
se dans le langage S est celle dite des formules. Le tableau A.2 prsente
quelques exemples de formulation de modles linaires simples en S.
Pour une utilisation de base des fonctions de rgression, la connaissance
des rgles suivantes suft.
1. Les oprateurs + et - prennent une nouvelle signication dans les for-
mules : + signie inclusion et -, exclusion.
A.3. Modlisation des donnes 41
Modle mathmatique Formule S
y
t
= + x
t
+
t
y ~ x
y ~ 1 + x
y
t
= x
t
+
t
y ~ -1 + x
y ~ x - 1
y
t
=
0
+
1
x
t1
+
2
x
t2
+
t
y ~ x1 + x2
y ~ x o x <- cbind(x1, x2)
Table A.2: Modles linaires simples et leur formulation en S
2. Le terme constant dune rgression est inclus implicitement. Pour lexclure
explicitement (pour la rgression passant par lorigine), il faut donc ajouter
un terme -1 du ct droit de la formule.
3. Dans une rgression multiple, on peut soit lister toutes les variables
inclure du ct droit de la formule, soit ne spcier quune matrice conte-
nant ces variables (dans les colonnes).
Consulter les sections 6.2 de Venables et Ripley (2002) et 11.1 de Venables
et collab. (2005) pour plus de dtails.
A.3 Modlisation des donnes
Supposons que lon souhaite tudier la relation entre la variable ind-
pendante x1 et la variable dpendante (ou rponse) y1 du jeu de donnes
anscombe. La premire tape de la modlisation des donnes en rgression li-
naire simple consiste habituellement reprsenter celles-ci graphiquement.
La fonction plot est une fonction gnrique comportant des mthodes
pour un grand nombre de classes dobjets diffrentes. Puisquil existe une
mthode pour les objets de classe formula, on peut tracer un graphique de
y1 en fonction de x1 avec
> plot(y1 ~ x1, data = anscombe)
ou, si les colonnes du data frame anscombe sont visibles, simplement avec
> plot(y1 ~ x1)
Le rsultat de ces commandes se trouve la gure A.1.
Le graphique nous montre quil est raisonnable de postuler une relation
linaire entre les lments de y1 et x1. On pose donc le modle
y
t
=
0
+
1
x
t
+
t
,
o y
t
et x
t
, t =1, . . . , 11 sont les lments des vecteurs y1 et x1, respectivement,
et
t
est le terme derreur.
42 R et la rgression linaire
4 6 8 10 12 14
4
5
6
7
8
9
1
0
1
1
x1
y
1
Figure A.1: Relation entre y1 et x1 des donnes anscombe
Cest avec la fonction lm (pour linear model) que lon calcule les estimateurs
des coefcients de la rgression
0
et
1
. De faon simplie, cette fonction
prend en arguments une formule et un data frame comprenant les donnes
relatives aux termes de la formule. La fonction lm retourne un objet de classe
lm, classe pour laquelle il existe de nombreuses mthodes.
> (fit <- lm(y1 ~ x1, data = anscombe))
Call:
lm(formula = y1 ~ x1, data = anscombe)
Coefficients:
(Intercept) x1
3.0001 0.5001
> class(fit)
[1] "lm"
Lorsque plusieurs variables explicatives sont disponibles, lanalyste doit
souvent choisir les variables les plus signicatives pour la rgression. Les
A.4. Analyse des rsultats 43
techniques dlimination successive, de slection successive et de slection
pas pas, qui reposent toutes sur les tests F partiels, sont alors populaires
pour parvenir au modle le plus utile. Ces techniques sont mises en uvre,
respectivement, dans les fonctions dropterm, addterm et stepAIC du package
MASS (Venables et Ripley, 2002).
A.4 Analyse des rsultats
Le rsultat de la fonction lm est une liste dont on peut extraire manuelle-
ment les diffrents lments (consulter la rubrique daide). Grce quelques
fonctions gnriques disposant dune mthode pour les objets de classe lm, il
est toutefois facile et intuitif dextraire les principaux rsultats dune rgres-
sion :
1. coef ou coefficients extraient les coefcients

0
et

1
de la rgression;
2. fitted extrait les valeurs ajustes y
t
=

0
+

1
x
t
;
3. residuals extrait les rsidus y
t
y
t
;
4. deviance retourne la somme des carrs des rsidus SSR =
n
t=1
(y
t
y
t
)
2
;
5. df.residual extrait le nombre de degrs de libert de la somme des carrs
des rsidus.
La fonction gnrique summary prsente les informations ci-dessus de
manire facile consulter. Plus prcisment, le sommaire de la rgression
contient, outre le modle utilis et les estimateurs des coefcients de la r-
gression : les rsultats des tests t, la valeur du coefcient de dtermination
R
2
= 1

n
i=1
(y
i
y
i
)
2

n
i=1
(y
i
y)
2
et celle du coefcient de dtermination ajust
R
2
a
= 1 (1 R
2
)
n 1
n p 1
,
ainsi que le rsultat du test F global.
La fonction confint calcule les intervalles de conance des paramtres de
la rgression.
Dautre part, le tableau danalyse de variance (squentiel, en rgression
multiple) est calcul avec la fonction gnrique anova.
Pour ajouter la droite de rgression au graphique cr au dbut de lana-
lyse, utiliser la fonction abline, qui dispose elle aussi dune mthode pour
les objets de classe lm.
A.5 Diagnostics
Les statistiques servant mesurer la qualit dun modle de rgression
(R
2
, R
2
ajust, statistiques t et F) sont calcules par les fonctions summary et
anova.
44 R et la rgression linaire
La mthode de la fonction plot pour les objets de classe lm produit une
srie de six graphiques (quatre dans R avant la version 2.2.0) permettant
de juger de la qualit dune rgression. Consulter la rubrique daide de la
fonction plot.lm pour plus de dtails.
A.6 Mise jour des rsultats et prvisions
Il peut arriver que, une fois la modlisation dun ensemble de donnes
effectue, lon doive ajouter ou modier une ou plusieurs donnes ou va-
riables. Plutt que de reprendre toute la modlisation avec la fonction lm, il
peut alors savrer plus simple et lgant dutiliser la fonction update :
> update(fit, ~. + x4)
Call:
lm(formula = y1 ~ x1 + x4, data = anscombe)
Coefficients:
(Intercept) x1 x4
4.33291 0.45073 -0.09873
Le calcul de prvisions et dintervalles de conance pour la rgression et
pour les prvisions se fait avec la fonction gnrique predict et sa mthode
pour les objets de classe lm. Par dfaut, predict calculera les prvisions pour
les valeurs x
t
, t =1, . . . , n. Par consquent, le rsultat de predict sera le mme
que celui de fitted :
> all.equal(predict(fit), fitted(fit))
[1] TRUE
Comme on souhaite gnralement prvoir la rponse pour dautres valeurs
de la variable indpendante, on spciera celles-ci par le biais dun data frame
pass predict avec loption newdata.
La fonction predict peut galement servir au calcul des bornes dinter-
valles de conance et de prvision. Pour calculer les bornes dun intervalle de
conance, on ajoutera largument interval = "confidence", alors que pour
les bornes dun intervalle de prvision on utilise interval = "prediction".
Le niveau de conance est dtermin avec largument level (0,95 par d-
faut). Le rsultat est une matrice de trois colonnes dont la premire contient
les prvisions et les deux autres les bornes infrieures (lwr) et suprieures
(upr) des intervalles de conance.
On ajoute les limites des intervalles de conance au graphique des don-
nes avec les fonctions matlines ou matplot. Consulter les rubriques daide
et les exemples pour de plus amples dtails.
A.7. Exemples 45
A.7 Exemples
###
### IMPORTATION DE DONNES
###
## On importe les donnes du fichier anscombe.dat. On peut
## lire le fichier directement depuis Internet. De plus, les
## lignes dbutant par # sont automatiquement reconnues comme
## des lignes de commentaires.
anscombe <- read.table(
"http://vgoulet.act.ulaval.ca/pub/donnees/anscombe.dat")
## Ce jeu de donnes se trouve en fait dj dans R et il est
## charg en mmoire avec 'data'.
data(anscombe)
## Le rsultat est un data frame, soit
mode(anscombe) # ... une liste...
class(anscombe) # ... de classe "data.frame"
## Extraction des tiquettes des colonnes et des lignes.
names(anscombe) # tiquettes des colonnes
row.names(anscombe) # tiquettes des lignes
###
### MODLISATION DES DONNES
###
## Relation graphique entre les variables y1 et x1 des donnes
## anscombe.
plot(y1 ~ x1, data = anscombe)
## On peut aussi rendre les colonnes du data frame visibles
## dans l'espace de travail et rfrer ensuite celles-ci
## directement.
attach(anscombe)
plot(y1 ~ x1)
## Estimation des coefficients de la rgression. Il est
## recommand de sauvegarder les rsultats dans un objet (de
## classe "lm") puisqu'il existe de multiples mthodes pour de
## tels objets.
( fit <- lm(y1 ~ x1, data = anscombe) )
class(fit)
###
### ANALYSE DES RSULTATS
###
46 R et la rgression linaire
## Le sommaire de la rgression contient, outre le modle
## utilis, les rsultats des tests t, la valeur des
## coefficients de dtermination et de dtermination ajust,
## ainsi que le rsultat du test F global.
summary(fit)
## Calcul du coefficient de dtermination la main.
attach(anscombe)
1 - sum(residuals(fit)^2)/sum((y1 - mean(y1))^2)
1 - deviance(fit)/sum((y1 - mean(y1))^2)
detach(anscombe)
## Intervalles de confiance pour les paramtres de la
## rgression.
confint(fit)
## Le tableau d'analyse de variance (squentiel, en rgression
## multiple) est calcul avec la fonction gnrique 'anova'.
anova(fit)
## Pour ajouter la droite de rgression au graphique cr
## prcdemment, utiliser la fonction gnrique
## 'abline'. L'ordonne l'origine et la pente sont extraites
## de l'objet 'fit'.
abline(fit)
###
### MISE JOUR DES RSULTATS ET PRVISION
###
## La fonction 'update' est utilis pour modifier une ou
## plusieurs donnes dans le modle ou pour enlever ou ajouter
## une ou plusieurs variables dans le modle.
anscombe$x1[11] <- 6 # modification d'une donne
update(fit) # modle mis jour
update(fit , . ~ . + x4) # ajout de la variable "x4"
## Retour au modle d'origine
fit <- lm(y1 ~ x1, data = anscombe)
## Prvisions du modle pour des valeurs de la variables "x1"
## de 3 et 15:
predict(fit , newdata = data.frame(x1 = c(3, 15)))
## Calcul des intervalles de confiance et de prvision pour
## les prvisions ci-dessus avec un niveau de confiance de
## 90%.
predict(fit , newdata = data.frame(x1 = c(3, 15)),
interval = "confidence", level = 0.90)
A.8. Exercices 47
predict(fit , newdata = data.frame(x1 = c(3, 15)),
interval = "prediction", level = 0.90)
## Ajout des limites suprieures et infrieures des
## intervalles de confiance au graphique des donnes. On
## utilise la fonction 'matplot' qui prend en argument deux
## matrices 'x' et 'y' et produit un graphique des coordonnes
## de la premire colonne de 'x' avec la premire colonne de
## 'y', la seconde de 'x' avec la seconde de 'y', etc.
##
## Afin d'obtenir un beau graphique, il faut s'assurer de
## mettre les valeurs de 'x' en ordre croissant et de classer
## celles de 'y' en consquence.
##
## En fait, on utilise la fonction 'matlines' qui ajoute un
## graphique existant. La fonction 'matplot' crerait un
## nouveau graphique. (Note: il est possible de combiner les
## deux commandes matlines() ci-dessous en une seule.)
##
## Rendre les colonnes visibles.
attach(anscombe)
## Calcul des prvisions et des intervalles pour toutes les
## valeurs de "x1".
pred.ci <- predict(fit , interval = "confidence")
pred.pi <- predict(fit , interval = "prediction")
matlines(sort(x1), pred.ci[order(x1), -1],
lty = 2, col = "red")
matlines(sort(x1), pred.pi[order(x1), -1],
lty = 2, col = "green")
## Pour viter que des lignes ne dpassent extrieur du
## graphique, il faut trouver, avant de faire le graphique,
## les limites infrieure et suprieure des ordonnes. La
## fonction 'matplot' peut combiner des lignes et des points,
## ce qui permet de faire tout le graphique avec une seule
## commande.
y <- cbind(y1, pred.ci , pred.pi[, -1])
matplot(sort(x1), y[order(x1),],
pch = 19, type = c("p", rep("l", 5)),
lty = c(0, 1, rep(2, 4)),
col = c("black", "blue", "red", "red", "green", "green"))
A.8 Exercices
1.1 Importer dans S-Plus ou R le jeu de donnes steam.dat laide de la
fonction read.table. Les trois premire lignes du chier sont des lignes
de commentaires dbutant par le caractre #. La quatrime ligne contient
les tiquettes des colonnes.
48 R et la rgression linaire
1.2 Rendre les colonnes individuelles de lensemble de donnes steam vi-
sibles dans lespace de travail.
1.3 Faire (mme laveuglette) lanalyse de rgression de la variable Y en
fonction de la variable X1 des donnes steam.
a) valuer visuellement le type de relation pouvant exister entre Y et X1.
b) valuer les coefcients dune rgression linaire entre Y et X1 et ajouter
la droite de rgression ainsi obtenue au graphique cr en a).
c) Rpter la partie b) en forant la droite de rgression passer par
lorigine (0, 0). Quel modle semble le plus appropri ?
d) Le coefcient de dtermination R
2
mesure la qualit de lajustement
dune droite de rgression aux donnes. Calculer le R
2
pour les mo-
dles en b) et c). Obtient-on les mmes rsultats que ceux donns par
summary ? Semble-t-il y avoir une anomalie ?
e) Calculer les bornes dintervalles de conance pour la droite de rgres-
sion des deux modles.
f) Calculer les prvisions de chaque modle pour toutes les valeurs de
X1 ainsi que les bornes dintervalles de conance pour ces prvisions.
g) Ajouter au graphique cr prcdemment les bornes infrieures et su-
prieures des intervalles de conance calcules en e) et f). Utiliser des
types de lignes (option lty) et des couleurs (option col) diffrents
pour chaque ensemble de limites.
1.4 Rpter lexercice prcdent en ajoutant la variable X5 lanalyse, trans-
formant ainsi le modle de rgression linaire simple en un modle de
rgression multiple.
B R et les sries chronologiques
R offre toutes les fonctions ncessaires pour faire lanalyse complte de
sries chronologiques : cration et manipulation dobjets de classe srie
chronologique, identication et dnition dun modle, estimation des pa-
ramtres, calcul de prvisions et simulation de sries. La liste des principales
fonctions utilises pour lanalyse de sries chronologiques se trouve au ta-
bleau B.1. Quelques autres fonctions sont disponibles, notamment pour le
traitement des sries multivaries ; voir Venables et Ripley (2002, chapitre
14).
B.1 Importation des donnes
Les sries chronologiques sont typiquement cres partir de vecteurs
simples. Or, la fonction scan lit justement lintgralit des donnes du chier
dont le nom est donn en premier argument, puis retourne un vecteur. Elle
constitue donc le meilleur choix pour importer des sries chronologiques
dans R.
Contrairement read.table, la fonction scan ne reconnat pas les com-
mentaires par dfaut. Toutefois, il suft de spcier le caractre reprsentant
le dbut dun commentaire avec largument comment.char.
B.2 Cration et manipulation de sries
La faon la plus simple de crer des sries chronologiques est dutiliser
la fonction ts. Les fonctions rts (sries rgulires), cts (sries avec dates) et
its (sries irrgulires) sont plus rcentes et parfois ncessaires.
La fonction window permet dextraire un sous-ensemble dune srie chro-
nologique en spciant des dates de dbut et de n plutt que des positions
dans le vecteur des observations.
B.3 Identication
La premire chose faire dans lanalyse dune srie chronologique consiste
tracer le graphique de la srie et son corrlogramme. Le premier graphique
49
50 R et les sries chronologiques
Phase de lanalyse Fonctions
Cration et manipulation de sries ts, rts, cts, its
time
start
end
frequency
cycle
window
diff
filter
stl
Identication plot, ts.plot
acf
pacf
Estimation ar
arima
ARMAacf
ARMAtoMA
Diagnostics tsdiag
Calcul de prvisions predict
Simulation arima.sim
Table B.1: Principales fonctions R pour lanalyse de sries chronologiques
est obtenu avec la fonction spcialise ts.plot ou, plus simplement, avec
plot.
La fonction acf peut calculer et tracer les fonctions (chantillonnales)
dautocovariance
X
(h), dautocorrlation
X
(h) ou dautocorrlation par-
tielle

hh
selon la valeur de son argument type (spcier covariance, correlation
et partial, respectivement). Par dfaut, acf trace le corrlogramme de la s-
rie. Si lon souhaite obtenir les valeurs de la fonction dautocorrlation sans
graphique, ajouter loption plot = FALSE dans lappel de la fonction.
La fonction dautocorrlation partielle sobtient aussi plus directement
avec la fonction pacf.
B.4 Estimation
Un processus ARMA dordre (p, q) est dni comme la solution {X
t
} des
quations
(B)X
t
= (B)Z
t
, t = 0, 1, 2, . . .
B.4. Estimation 51
o
(z) = 1
1
z
p
z
p
(z) = 1 +
1
z + +
q
z
q
,
BX
t
= X
t1
et {Z
t
} WN(0,
2
). Cest l prcisment la paramtrisation re-
tenue dans R.
Un processus ARIMA est un processus non stationnaire qui, une fois la
d
e
diffrence applique sur la srie, est un processus ARMA. Autrement dit,
{X
t
} ARIMA(p, d, q) si {
d
X
t
} ARMA(p, q) et donc {X
t
} est la solution
stationnaire de
(B)(1 B)
d
X
t
= (B)Z
t
.
Ltape de la modlisation consiste donc ajuster un modle ARIMA aux
observations dune srie chronologique en estimant les paramtres
1
, . . . ,
p
,

1
, . . . ,
q
et
2
. Cest le rle des fonctions ar et arima.
La fonction ar est trs pratique pour une premire estimation : elle ajuste
un modle AR(p) aux donnes pour plusieurs valeurs de p laide des qua-
tions de YuleWalker (par dfaut) et retourne le modle avec la plus faible
statistique AIC. Cette statistique est gale moins deux fois la fonction de
log-vraisemblance pnalise par le nombre de paramtres dans le modle.
Dautre part, la fonction arima estime les paramtres dun modle ARIMA
dordre (p, d, q) par la technique du maximum de vraisemblance (par dfaut).
Contrairement ar, la fonction arima ne fait pas un choix parmi plusieurs
modles il y en aurait beaucoup trop. Il faut donc spcier les valeurs de
p, d et q laide de largument order (un vecteur de trois lments). noter
que la fonction arima inclut une moyenne dans le modle lorsque d = 0.
Finalement, les sries comportant de la saisonnalit sont modlises
laide des trs gnraux processus SARIMA. Le processus SARIMA dordre
(p, d, q) (P, D, Q)
s
est dni comme la solution stationnaire {X
t
} des qua-
tions
(B)(B
s
)W
t
= (B)(B
s
)Z
t
, W
t
=
d

D
s
X
t
,
o
(z) = 1
1
z
p
z
p
(z) = 1
1
z
P
z
P
(z) = 1 +
1
z + + z
q
(z) = 1 +
1
z + +
Q
z
Q
et {Z
t
} WN(0,
2
).
Les paramtres dun modle SARIMA sont toujours estims laide de
la fonction arima en spciant les valeurs de P, D, Q et s par largument
seasonal.
La fonction ARMAacf permet de calculer la fonction dautocorrlation ou
dautocorrlation partielle thorique dun processus ARMA quelconque. La
52 R et les sries chronologiques
fonction ARMAtoMA, comme son nom lindique, permet quant elle dinverser
un processus ARMA quelconque. Toutes deux peuvent savrer utiles pour
vrier ses calculs.
B.5 Diagnostics
La fonction tsdiag permet de juger rapidement de la qualit dajustement
dun modle. La fonction cre trois graphiques : la srie des rsidus {Z
t
}, le
corrlogramme de cette mme srie et un graphique de la valeur p de la
statistique de LjungBox pour des valeurs de H = 1, 2, . . . La statistique de
LjungBox est simplement une version amliore de la statistique du test
portmanteau :
Q
LB
= n(n +2)
H

h=1

2
(h)
n h
.
Si lajustement du modle est bon, les rsidus forment un bruit blanc. Le
corrlogramme gnr par tsdiag devrait donc ressembler celui dun bruit
blanc et les valeurs p devraient tre grandes (on ne rejette pas lhypothse de
bruit blanc).
B.6 Calcul de prvisions
La prvision de modles ARIMA repose sur une mthode de la fonc-
tion gnrique predict pour les objets de classe Arima (crs par la fonction
arima). Les prvisions sont donc calcules exactement comme en rgression,
outre que largument principal de predict devient le nombre de priodes
pour lesquelles lon veut une prvision, et non les valeurs dune ou plusieurs
variables indpendantes. Lcart type de chaque prvision est galement cal-
cul par predict, ce qui permet de calculer des bornes dintervalles de pr-
vision.
B.7 Simulation
La simulation de sries chronologiques ARIMA est trs simple avec la
fonction arima.sim. Il suft de savoir comment spcier le modle simuler.
Largument model de la fonction arima.sim est une liste comportant un ou
plusieurs des lments ar, ma et order. Le premier de ces lments est le vec-
teur des paramtres
1
, . . . ,
p
; le second, le vecteur des paramtres
1
, . . . ,
q
;
le troisime, le vecteur (p, d, q) utilis seulement si d >0.
Par dfaut, le bruit blanc est gnr avec une loi normale centre rduite.
On peut changer la distribution utiliser avec largument rand.gen ou passer
des arguments diffrents la fonction de simulation du bruit blanc directe-
ment dans lappel de arima.sim. Voir les exemples la section B.8.
B.8. Exemples 53
B.8 Exemples
###
### IMPORTATION DE DONNES
###
## On utilise la fonction 'scan' pour importer des donnes
## sous forme de vecteur. Les fichiers 'deaths.dat' et
## 'strikes.dat' comptent chacun trois lignes de commentaires
## en dbut de fichier. On spcifie le caractre dlimitant
## les commentaires avec l'argument 'comment.char'. De plus,
## on peut lire les fichiers directement depuis Internet.
deaths <- scan(
"http://vgoulet.act.ulaval.ca/pub/donnees/deaths.dat",
comment.char = "#")
strikes <- scan(
"http://vgoulet.act.ulaval.ca/pub/donnees/strikes.dat",
comment.char = "#")
###
### CRATION ET MANIPULATION DE SRIES
###
## Le fichier deaths.dat contient le nombre mensuel de morts
## accidentelles, 1973-1978. On transforme l'objet 'deaths'
## en une srie chronologique aux proprits correspondantes
## avec la fonction 'ts'.
( deaths <- ts(deaths , start = 1973, frequency = 12) )
## Le rsultat est une srie chronologique.
mode(deaths) # un vecteur...
class(deaths) # ... de classe "ts"
## Mme chose avec l'objet 'strikes', qui contient le nombre
## de grves aux tats-Unis entre 1951-1980. L'argument
## 'frequency' n'est pas ncessaire: les sries sont
## annuelles par dfaut.
( strikes <- ts(strikes , start = 1951) )
## La fonction 'window' est la faon lgante d'extraire des
## observations d'une srie. Ici, on extrait les donnes
## 'deaths' du mois de fvrier 1974 au mois d'octobre 1974,
## inclusivement.
window(deaths , start = c(1974, 2), end = c(1974, 10))
###
### IDENTIFICATION
###
54 R et les sries chronologiques
## Graphiques des sries 'deaths' et 'strikes'.
plot(deaths)
plot(strikes)
## Corrlogramme de la srie 'deaths'. Par dfaut, 'acf'
## trace le corrlogramme.
acf(deaths)
## Pour obtenir les valeurs numriques de la fonction
## d'autocorrlation empirique, utiliser l'argument
## 'plot = FALSE'.
acf(deaths , plot = FALSE)
###
### MODLISATION
###
## On ajuste d'abord un modle autorgressif pur aux donnes
## 'strikes' avec la fonction 'ar'.
( modele <- ar(strikes) ) # modle AR(2) choisi
## On peut comparer les statistiques AIC des divers modles.
## La statistique AIC du modle AR(2) ne vaut pas vraiment 0;
## les statistiques sont simplement mise l'chelle avec
## cette valeur comme rfrence.
modele$aic
## Ajustement d'un modle ARIMA(1, 2, 1) aux donnes
## 'strikes'.
( fit.strikes <- arima(strikes , order = c(1, 2, 1)) )
## Ajustement d'un modle SARIMA(0, 1, 1) x (0, 1, 1)_{12}
## aux donnes 'deaths'. Par dfaut, la frquence de la srie
## (s = 12) est suppose identique celle spcifie dans
## l'objet. Il n'est donc pas ncessaire de prciser la
## valeur de s dans l'appel de 'arima', ici, puisque la srie
## a t correctement dfinie ds le dpart.
( fit.deaths <- arima(deaths , order = c(0, 1, 1),
seasonal = c(0, 1, 1)) )
## Cinq premires valeurs de la fonction d'autocorrlation
## thorique d'un processus ARMA(1, 1) avec phi = 0,6 et
## theta = -0,4.
ARMAacf(ar = 0.6, ma = -0.4, lag.max = 5)
## Cinq premiers coefficients de la reprsentation MA(infini)
## d'un processus AR(1) avec phi = 0,8.
ARMAtoMA(ar = 0.8, lag.max = 3)
###
B.9. Exercices 55
### DIAGNOSTICS
###
## Vrification graphique de la qualit de l'ajustement du
## modle ARIMA(1, 2, 1) aux donnes 'strikes' l'aide de la
## fonction 'tsdiag'.
tsdiag(fit.strikes)
## Idem pour le modle des donnes 'deaths'.
tsdiag(fit.deaths)
###
### PRVISIONS
###
## Prvision des six prochaines valeurs de la srie 'deaths'
## partir du modle SARIMA.
( pred <- predict(fit.deaths , n.ahead = 6) )
## Graphique prsentant la srie originale, les prvisions
## des six prochaines annes et les intervalles de prvision.
ts.plot(deaths ,
pred$pred ,
pred$pred + 1.96 * pred$se,
pred$pred - 1.96 * pred$se,
col = c(1, 2, 4, 4), lty = c(1, 3, 2, 2))
###
### SIMULATION
###
## Simulation de 10 observations d'un modle ARMA(1, 1) avec
## phi = 0,8, theta = 0,5 et sigma^2 = 1.
arima.sim(10, model = list(ar = 0.8, ma = -0.5))
## Simulation de 10 observations d'un modle ARIMA(2, 1, 1)
## avec phi_1 = 0,6, phi_2 = 0,3, theta = -0,2 et
## sigma^2 = 25.
arima.sim(10, model = list(ar = c(0.6, 0.3), ma = 0.2,
order = c(2, 1, 1), sd = 5))
B.9 Exercices
Avant de faire les exercices ci-dessous, importer dans R les ensembles de
donnes deaths, strikes, uspop et wine. Utiliser pour ce faire les commandes
suivantes :
> deaths <- ts(scan("deaths.dat", comment.char = "#"),
+ start = 1973, frequency = 12)
> strikes <- ts(scan("strikes.dat", comment.char = "#"),
56 R et les sries chronologiques
+ start = 1951)
> uspop <- ts(scan("uspop.dat", comment.char = "#"),
+ start = 1790, deltat = 10)
> wine <- ts(scan("wine.dat", comment.char = "#"),
+ start = 1980, frequency = 12)
Il est possible dafcher plus dun graphique la fois sur un priphrique
graphique en le subdivisant laide des options mfrow (remplissage par ligne)
et mfcol (remplissage par colonne) de la fonction par. Par exemple,
> par(mfrow = c(2, 1))
divisera la page en deux lignes et une colonne. Les deux prochains gra-
phiques se retrouveront donc lun au-dessus de lautre.
2.1 Excuter les commandes par ci-dessous. Aprs chacune, excuter les com-
mandes suivantes pour constater leffet de par sur le priphrique gra-
phique :
> plot(deaths)
> plot(strikes)
> plot(uspop)
> acf(wine)
a) par(mfrow = c(2, 1))
b) par(mfrow = c(1, 2))
c) par(mfrow = c(2, 2))
d) par(mfcol = c(2, 2))
2.2 Simuler 100 observations des processus suivants. Pour chacun, tracer sur
un seul priphrique graphique le graphique de la srie simule ainsi
que son corrlogramme (lun au-dessus de lautre). Comparer le corrlo-
gramme la fonction dautocorrlation thorique.
a) {Z
t
} WN(0, 2) o chaque Z
t
est une variable alatoire normale de
moyenne 0 et variance 2.
b) {X
t
} MA(1) avec = 0,8 et
2
= 1.
c) {X
t
} MA(1) avec = 0,6 et
2
= 100.
d) {X
t
} MA(2) avec
1
= 0,5,
2
= 0,4 et
2
= 1.
e) {X
t
} AR(1) avec = 0,8 et
2
= 1.
f) {X
t
} AR(1) avec = 0,9 et
2
= 100.
g) {X
t
} AR(2) avec = 0,7,
2
= 0,1 et
2
= 1.
2.3 Ajuster un modle autorgressif pur aux donnes lh du package MASS
laide de la fonction ar.
2.4 Lexercice suivant, bien quun peu articiel, illustre la procdure dana-
lyse dune srie chronologique.
B.9. Exercices 57
a) Simuler 100 valeurs dun processus ARMA(1, 1) avec = 0,7, = 0,5
et
2
= 1.
b) Tracer les graphiques suivants sur un mme priphrique : la srie, le
corrlogramme et la fonction dautocorrlation partielle empirique.
c) Ajuster un modle ARMA(1, 1) aux donnes simules au point a) en
estimant les paramtres laide de la fonction arima. Les estimateurs
devraient tre prs des valeurs utilises lors de la simulation.
d) Vrier la qualit de lajustement du modle obtenu en c) laide de
la fonction tsdiag.
e) Prvoir les 12 prochaines valeurs du processus. Tracer un graphique
de la srie originale et des prvisions en fournissant les deux sries en
argument la fonction ts.plot.
C lments dalgbre matricielle
Cette annexe prsente quelques rsultats dalgbre matricielle utiles en
rgression linaire.
C.1 Trace
La trace dune matrice est la somme des lments de la diagonale.
Thorme C.1. Soient A = [a
ij
] et B = [b
ij
] des matrices carres k k. Alors
a) tr(A) =
k
i=1
a
ii
b) tr(A+B) = tr(A) +tr(B).
Thorme C.2. Soient les matrices A
pq
et B
qp
. Alors tr(AB) = tr(BA).
Dmonstration. Posons C = AB et D = BA. Par dnition du produit matri-
ciel, llment c
ij
de la matrice C est gal au produit scalaire entre la ligne i
de A et de la colonne j de B, soit
c
ij
=
q

k=1
a
ik
b
kj
.
Les lments de la diagonale de C sont donc c
ii
=
q
j=1
a
ij
b
ji
et, par symtrie,
ceux de la diagonale de D sont d
jj
=
p
i=1
b
ji
a
ij
. Or,
tr(C) =
p

i=1
c
ii
=
p

i=1
q

j=1
a
ij
b
ji
=
q

j=1
p

i=1
b
ji
a
ij
=
p

j=1
d
jj
= tr(D).
59
60 lments dalgbre matricielle
C.2 Formes quadratiques et drives
Soit A = [a
ij
] une matrice k k symtrique et x = (x
1
, . . . , x
k
)

un vecteur.
Alors
x

Ax =
k

i=1
k

j=1
a
ij
x
i
x
j
est une forme quadratique.
Par exemple, si
x =
_
x
1
x
2
_
et A =
_
a
11
a
12
a
12
a
22
_
,
alors
x

Ax =
2

i=1
2

j=1
a
ij
x
i
x
j
= a
11
x
2
1
+2a
12
x
1
x
2
+ a
22
x
2
2
.
Remarque. Si A est diagonale, x

Ax =
k
i=1
a
ii
x
2
i
.
Thorme C.3. Soient x = (x
1
, . . . , x
k
)

et a = (a
1
, . . . , a
k
)

, do x

a = a
1
x
1
+
+ a
k
x
k
=
k
i=1
a
i
x
i
. Alors
d
dx
x

a =
d
dx
k

i=1
a
i
x
i
=
_

_
d
dx
1

k
i=1
a
i
x
i
.
.
.
d
dx
k

k
i=1
a
i
x
i
_

_
=
_

_
a
1
.
.
.
a
k
_

_
= a.
Thorme C.4. Soit A
kk
une matrice symtrique. Alors
d
dx
x

Ax = 2Ax.
Dmonstration. On a
x

Ax =
k

i=1
k

j=1
a
ij
x
i
x
j
=
k

i=1
a
ii
x
2
i
+
k

i=1
k

j=1
ji
a
ij
x
i
x
j
.
C.3. Vecteurs et matrices alatoires 61
Par consquent, pour t = 1, . . . , k et puisque a
ij
= a
ji
,

x
t
x

Ax = 2a
tt
x
t
+
k

i=1
it
a
it
x
i
+
k

j=1
jt
a
tj
x
j
= 2
k

i=1
a
it
x
t
,
do
d
dx
x

Ax = 2Ax.
Thorme C.5. Si f (x) est une fonction quelconque du vecteur x, alors
d
dx
f (x)

Af (x) = 2
_
d
dx
f (x)
_

Af (x).
Vrier en exercice les rsultats ci-dessus pour une matrice A 3 3.
C.3 Vecteurs et matrices alatoires
Soit X
1
, . . . , X
n
des variables alatoires. Alors
x =
_

_
X
1
.
.
.
X
n
_

_
est un vecteur alatoire. On dnit le vecteur esprance
E[x] =
_

_
E[X
1
]
.
.
.
E[X
n
]
_

_
et la matrice de variance-covariance
V[x] = E[(x E[x])(x E[x])

]
=
_

_
Var[X
1
] . . . Cov(X
1
, X
n
)
.
.
.
.
.
.
.
.
.
Cov(X
n
, X
1
) . . . Var[X
n
]
_

_
Thorme C.6. Soit x un vecteur alatoire et A une matrice de constantes. Alors
a) E[Ax] = AE[x]
62 lments dalgbre matricielle
b) V[Ax] = AV[x]A

.
Dmonstration de b).
V[Ax] = E[(Ax E[Ax])(Ax E[Ax])

]
= E[A(x E[x])(x E[x])

]
= AV[x]A

.
Exemple C.1. Soit A = [1 1], x

= [X
1
X
2
] et Y = Ax, donc Y = X
1
+ X
2
. Alors
E[Y] = AE[x]
= [1 1]
_
E[X
1
]
E[X
2
]
_
= E[X
1
] + E[X
2
]
et
V[Y] = AV[x]A

= [1 1]
_
Var[X
1
] Cov(X
1
, X
2
)
Cov(X
2
, X
1
) Var[X
2
]
__
1
1
_
= Var[X
1
] +Var[X
2
] +2Cov(X
1
, X
2
).
D Solutions
Chapitre 2
2.1 a) Voir la gure D.1. Remarquer que lon peut, dans la fonction plot,
utiliser une formule pour exprimer la relation entre les variables.
b) Les quations normales sont les quations rsoudre pour trouver les
estimateurs de
0
et
1
minimisant la somme des carrs
S(
0
,
1
) =
n

t=1

2
t
=
n

t=1
(Y
t

0

1
X
t
)
2
.
Or,
S

0
= 2
n

t=1
(Y
t

0

1
X
t
)
S

1
= 2
n

t=1
(Y
t

0

1
X
t
)X
t
,
do les quations normales sont
n

t=1
(Y
t

1
X
t
) = 0
n

t=1
(Y
t

1
X
t
)X
t
= 0.
c) Par la premire des deux quations normales, on trouve
n

t=1
Y
t
n

1
n

t=1
X
t
= 0,
soit, en isolant

0
,

0
=

n
t=1
Y
t

n
t=1
X
t
n
=

Y

1

X.
63
64 Solutions
> x <- c(65, 43, 44, 59, 60, 50, 52, 38, 42,
+ 40)
> y <- c(12, 32, 36, 18, 17, 20, 21, 40, 30,
+ 24)
> plot(y ~ x, pch = 16)
G
G
G
G
G
G
G
G
G
G
40 45 50 55 60 65
1
5
2
0
2
5
3
0
3
5
4
0
x
y
Figure D.1: Relation entre les donnes de lexercice 2.1
De la seconde quation normale, on obtient
n

t=1
X
t
Y
t

0
n

t=1
X
t

1
n

t=1
X
2
t
= 0
puis, en remplaant

0
par la valeur obtenue ci-dessus,

1
_
n

t=1
X
2
t
n

X
2
_
=
n

t=1
X
t
Y
t
n

X

Y.
Solutions 65
Par consquent,

1
=

n
t=1
X
t
Y
t
n

X

Y

n
t=1
X
2
t
n

X
2
=
11654 (10)(49,3)(25)
25103 (10)(49,3)
2
= 0,8407
et

0
=

Y

1

X
= 25 (0,8407)(49,3)
= 66,4488.
d) On peut calculer les prvisions correspondant X
1
, . . . , X
10
ou
valeurs ajustes partir de la relation

Y
t
= 66,4488 0,8407X
t
,
t = 1, 2, . . . , 10. Avec R, on cre un objet de type modle de rgression
avec lm et on en extrait les valeurs ajustes avec fitted :
> fit <- lm(y ~ x)
> fitted(fit)
1 2 3 4 5
11.80028 30.29670 29.45596 16.84476 16.00401
6 7 8 9 10
24.41148 22.72998 34.50044 31.13745 32.81894
Pour ajouter la droite de rgression au graphique de la gure D.1, il
suft dutiliser la fonction abline avec en argument lobjet cr avec
lm. Lordonne lorigine et la pente de la droite seront extraites au-
tomatiquement. Voir la gure D.2.
e) Les rsidus de la rgression sont e
t
= Y
t


Y
t
, t = 1, . . . , 10. Dans R, la
fonction residuals extrait les rsidus du modle :
> residuals(fit)
1 2 3 4
0.1997243 1.7032953 6.5440421 1.1552437
5 6 7 8
0.9959905 -4.4114773 -1.7299837 5.4995615
9 10
-1.1374514 -8.8189450
On vrie ensuite que la somme des rsidus est (essentiellement)
nulle :
> sum(residuals(fit))
[1] -4.440892e-16
66 Solutions
> abline(fit)
G
G
G
G
G
G
G
G
G
G
40 45 50 55 60 65
1
5
2
0
2
5
3
0
3
5
4
0
x
y
Figure D.2: Relation entre les donnes de lexercice 2.1 et la droite de rgres-
sion
2.2 a) Nous avons le modle de rgression usuel. Les coefcients de la r-
gression sont

1
=

8
t=1
X
t
Y
t
n

X

Y

8
t=1
X
2
t
n

X
2
=
146 (8)(32/8)(40/8)
156 (8)(32/8)
2
= 0,5
et

0
=

Y

1

X
= (40/8) (0,5)(32/8)
= 7.
Solutions 67
b) Les sommes de carrs sont
SST =
8

t=1
(Y
t


Y)
2
=
8

t=1
Y
2
t
n

Y
2
= 214 (8)(40/8)
2
= 14,
SSR =
8

t=1
(

Y
t


Y)
2
=
8

t=1

2
1
(X
t


X)
2
=

2
1
(
8

t=1
X
2
t
n

X
2
)
= (1/2)
2
(156 (8)(32/8)
2
)
= 7.
et SSE = SST SSR = 14 7 = 7. Par consquent, R
2
= SSR/SST =
7/14 =0,5, donc la rgression explique 50 % de la variation des Y
t
par
rapport leur moyenne

Y. Le tableau ANOVA est le suivant :
Source SS d.l. MS Ratio F
Rgression 7 1 7 6
Erreur 7 6 7/6
Total 14 7
2.3 a) Voir la gure D.3.
b) Le graphique montre quun modle linaire serait excellent. On estime
les paramtres de ce modle avec lm :
> (fit <- lm(weight ~ height, data = women))
Call:
lm(formula = weight ~ height, data = women)
Coefficients:
(Intercept) height
-87.52 3.45
c) Voir la gure D.4. On constate que lajustement est excellent.
d) Le rsultat de la fonction summary applique au modle fit est le
suivant :
> summary(fit)
68 Solutions
> data(women)
> plot(weight ~ height, data = women, pch = 16)
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
58 60 62 64 66 68 70 72
1
2
0
1
3
0
1
4
0
1
5
0
1
6
0
height
w
e
i
g
h
t
Figure D.3: Relation entre la taille et le poids moyen de femmes amricaines
ges de 30 39 ans (donnes women)
Call:
lm(formula = weight ~ height, data = women)
Residuals:
Min 1Q Median 3Q Max
-1.7333 -1.1333 -0.3833 0.7417 3.1167
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -87.51667 5.93694 -14.74 1.71e-09
height 3.45000 0.09114 37.85 1.09e-14
(Intercept) ***
height ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Solutions 69
> abline(fit)
G
G
G
G
G
G
G
G
G
G
G
G
G
G
G
58 60 62 64 66 68 70 72
1
2
0
1
3
0
1
4
0
1
5
0
1
6
0
height
w
e
i
g
h
t
Figure D.4: Relation entre les donnes women et droite de rgression linaire
simple
Residual standard error: 1.525 on 13 degrees of freedom
Multiple R-squared: 0.991, Adjusted R-squared: 0.9903
F-statistic: 1433 on 1 and 13 DF, p-value: 1.091e-14
Le coefcient de dtermination est donc R
2
= 0,991, ce qui est prs de
1 et conrme donc lexcellent ajustement du modle voqu en c).
e) On a
> attach(women)
> SST <- sum((weight - mean(weight))^2)
> SSR <- sum((fitted(fit) - mean(weight))^2)
> SSE <- sum((weight - fitted(fit))^2)
> all.equal(SST, SSR + SSE)
[1] TRUE
> all.equal(summary(fit)$r.squared, SSR/SST)
[1] TRUE
70 Solutions
2.4 Puisque

Y
t
= (

Y

1

X) +

1
X
t
=

Y +

1
(X
t


X) et que e
t
= Y
t


Y
t
=
(Y
t


Y)

1
(X
t


X), alors
n

t=1
(

Y
t


Y)e
t
=

1
_
n

t=1
(X
t


X)(Y
t


Y)

1
n

t=1
(X
t


X)
2
_
=

1
_
S
XY

S
XY
S
XX
S
XX
_
= 0.
2.5 On a un modle de rgression linaire simple usuel avec X
t
= t. Les
estimateurs des moindres carrs des paramtres
0
et
1
sont donc

0
=

Y

n
t=1
t
n
et

1
=

n
t=1
tY
t


Y
n
t=1
t

n
t=1
t
2
n
1
(
n
t=1
t)
2
.
Or, puisque
n
t=1
t = n(n + 1)/2 et
n
t=1
t
2
= n(n + 1)(2n + 1)/6, les ex-
pressions ci-dessus se simplient en

0
=

Y

1
n +1
2
et

1
=

n
t=1
tY
t
n(n +1)

Y/2
n(n +1)(2n +1)/6 n(n +1)
2
/4
=
12
n
t=1
tY
t
6n(n +1)

Y
n(n
2
1)
.
2.6 a) Lestimateur des moindres carrs du paramtre est la valeur

mi-
nimisant la somme de carrs
S() =
n

t=1

2
t
=
n

t=1
(Y
t
X
t
)
2
.
Or,
d
d
S() = 2
n

t=1
(Y
t


X
t
)X
t
,
Solutions 71
do lunique quation normale de ce modle est
n

t=1
X
t
Y
t

t=1
X
2
t
= 0.
Lestimateur des moindres carrs de est donc

=

n
t=1
X
t
Y
t

n
t=1
X
2
t
.
b) On doit dmontrer que E[

] = . On a
E[

] = E
_

n
t=1
X
t
Y
t

n
t=1
X
2
t
_
=
1

n
t=1
X
2
t
n

t=1
X
t
E[Y
t
]
=
1

n
t=1
X
2
t
n

t=1
X
t
X
t
=

n
t=1
X
2
t

n
t=1
X
2
t
= .
c) Des hypothses du modle, on a
Var[

] = Var
_

n
t=1
X
t
Y
t

n
t=1
X
2
t
_
=
1
(
n
t=1
X
2
t
)
2
n

t=1
X
2
t
Var[Y
t
]
=

2
(
n
t=1
X
2
t
)
2
n

t=1
X
2
t
=

2

n
t=1
X
2
t
.
2.7 On veut trouver les coefcients c
1
, . . . , c
n
tels que E[

] = et Var[

] est
minimale. On cherche donc minimiser la fonction
f (c
1
, . . . , c
n
) = Var[

]
=
n

t=1
c
2
t
Var[Y
t
]
=
2
n

t=1
c
2
t
72 Solutions
sous la contrainte E[

] =
n
t=1
c
t
E[Y
t
] =
n
t=1
c
t
X
t
=
n
t=1
c
t
X
t
= , soit

n
t=1
c
t
X
t
= 1 ou g(c
1
, . . . , c
n
) = 0 avec
g(c
1
, . . . , c
n
) =
n

t=1
c
t
X
t
1.
Pour utiliser la mthode des multiplicateurs de Lagrange, on pose
L(c
1
, . . . , c
n
,) = f (c
1
, . . . , c
n
) g(c
1
, . . . , c
n
),
=
2
n

t=1
c
2
t

_
n

t=1
c
t
X
t
1
_
,
puis on drive la fonction L par rapport chacune des variables c
1
, . . . , c
n
et . On trouve alors
L
c
u
= 2
2
c
u
X
u
, u = 1, . . . , n
L

=
n

t=1
c
t
X
t
+1.
En posant les n premires drives gales zro, on obtient
c
t
=
X
t
2
2
.
Or, de la contrainte,
n

t=1
c
t
X
t
=

2
2
n

t=1
X
2
t
= 1,
do

2
2
=
1

n
t=1
X
2
t
et, donc,
c
t
=
X
t

n
t=1
X
2
t
.
Finalement,

=
n

t=1
c
t
Y
t
=

n
t=1
X
t
Y
t

n
t=1
X
2
t
=

.
Solutions 73
2.8 a) Tout dabord, puisque MSE = SSE/(n 2) =
n
t=1
(Y
t


Y
t
)
2
/(n 2)
et que E[Y
t
] = E[

Y
t
], alors
E[MSE] =
1
n 2
E
_
n

t=1
(Y
t


Y
t
)
2
_
=
1
n 2
n

t=1
E[(Y
t


Y
t
)
2
]
=
1
n 2
n

t=1
E[((Y
t
E[Y
t
]) (

Y
t
E[

Y
t
]))
2
]
=
1
n 2
n

t=1
_
Var[Y
t
] +Var[

Y
t
] 2Cov(Y
t
,

Y
t
)
_
.
Or, on a par hypothse du modle que Cov(Y
t
, Y
s
) = Cov(
t
,
s
) =

ts

2
, do Var[Y
t
] =
2
et Var[

Y] =
2
/n. Dautre part,
Var[

Y
t
] = Var[

Y +

1
(X
t


X)]
= Var[

Y] + (X
t


X)
2
Var[

1
] +2(X
t


X)Cov(

Y,

1
)
et lon sait que
Var[

1
] =

2

n
t=1
(X
t


X)
2
et que
Cov(

Y,

1
) = Cov
_

n
t=1
Y
t
n
,

n
s=1
(X
s


X)Y
s

n
t=1
(X
t


X)
2
_
=
1
n
n
t=1
(X
t


X)
2
n

t=1
n

s=1
Cov(Y
t
, (X
s


X)Y
s
)
=
1
n
n
t=1
(X
t


X)
2
n

t=1
(X
s


X)Var[Y
t
]
=

2
n
n
t=1
(X
t


X)
2
n

t=1
(X
t


X)
= 0,
puisque
n
i=1
(X
i


X) = 0. Ainsi,
Var[

Y
t
] =

2
n
+
(X
t


X)
2

n
t=1
(X
t


X)
2
.
74 Solutions
De manire similaire, on dtermine que
Cov(Y
t
,

Y
t
) = Cov(Y
t
,

Y +

1
(X
t


X))
= Cov(Y
t
,

Y) + (X
t


X)Cov(Y
t
,

1
)
=

2
n
+
(X
t


X)
2

n
t=1
(X
t


X)
2
.
Par consquent,
E[(Y
t


Y
t
)
2
] =
n 1
n

2

(X
t


X)
2

n
t=1
(X
t


X)
2
et
n

t=1
E[(Y
t


Y
t
)
2
] = (n 2)
2
,
do E[MSE] =
2
.
b) On a
E[MSR] = E[SSR]
= E
_
n

t=1
(

Y
t


Y)
2
_
=
n

t=1
E[

2
1
(X
t


X)
2
]
=
n

t=1
(X
t


X)
2
E[

2
1
]
=
n

t=1
(X
t


X)
2
(Var[

1
] + E[

1
]
2
)
=
n

t=1
(X
t


X)
2
_

2

n
t=1
(X
t


X)
2
+
2
1
_
=
2
+
2
1
n

t=1
(X
t


X)
2
.
2.9 a) Il faut exprimer

0
et

1
en fonction de

0
et

1
. Pour ce faire, on
trouve dabord une expression pour chacun des lments qui entrent
dans la dnition de

1
. Tout dabord,

=
1
n
n

t=1
X

t
=
1
n
n

t=1
(c + dX
t
)
= c + d

X,
Solutions 75
et, de manire similaire,

Y

= a + b

Y. Ensuite,
S

XX
=
n

t=1
(X

)
2
=
n

t=1
(c + dX
t
c + d

X)
2
= d
2
S
XX
et S

YY
= b
2
S
YY
, S

XY
= bdS
XY
. Par consquent,

1
=
S

XY
S

XX
=
bdS
XY
d
2
S
XX
=
b
d

1
et

0
=

Y

1

X

= a + b

Y
b
d

1
(c + d

X)
= a
bc
d

1
+ b(

Y

1

X)
= a
bc
d

1
+ b

0
.
b) Tout dabord, on tablit que
R
2
=
SSR
SST
=

n
t=1
(

Y
t


Y)
2

n
t=1
(Y
t


Y)
2
=

2
1

n
t=1
(X
t


X)
2

n
t=1
(Y
t


Y)
2
=

2
1
S
XX
S
YY
.
Maintenant, avec les rsultats obtenus en a), on dmontre directement
76 Solutions
que
(R
2
)

= (

1
)
2
S

XX
S

YY
=
_
b
d
_
2

2
1
d
2
S
XX
b
2
S
YY
=

2
1
S
XX
S
YY
= R
2
.
2.10 Considrons un modle de rgression usuel avec lensemble de donnes
(X
1
, Y
1
), . . . , (X
n
, Y
n
), (m

X, m

Y), o

X =n
1

n
t=1
X
t
,

Y =n
1

n
t=1
Y
t
, m=
n/a et a =

n +1 1. On dnit

=
1
n +1
n+1

t=1
X
t
=
1
n +1
n

t=1
X
t
+
m
n +1

X
= k

X
et, de manire similaire,

= k

Y,
o
k =
n + m
n +1
=
n(a +1)
a(n +1)
.
Lexpression pour lestimateur des moindres carrs de la pente de la
droite de rgression pour cet ensemble de donnes est

1
=

n+1
t=1
X
t
Y
t
(n +1)

X

n+1
t=1
X
2
t
(n +1)(

X

)
2
=

n
t=1
X
t
Y
t
+ m
2

X

Y (n +1)k
2

X

Y

n
t=1
X
2
t
+ m
2
X
2
(n +1)k
2
X
2
.
Or,
m
2
k
2
(n +1) =
n
2
a
2

n
2
(a +1)
2
a
2
(n +1)
=
n
2
(n +1) n
2
(n +1)
a
2
(n +1)
= 0.
Solutions 77
0 10 20 30 40
0
2
0
4
0
6
0
8
0
x
y
G
0 10 20 30 40
0
2
0
4
0
6
0
8
0
xp
y
p
Figure D.5: Illustration de leffet de lajout dun point spcial un ensemble
de donnes. gauche, la droite de rgression usuelle. droite, le mme
ensemble de points avec le point spcial ajout (cercle plein), la droite de
rgression avec ce nouveau point (ligne pleine) et la droite de rgression
passant par lorigine (ligne pointille). Les deux droites sont parallles.
Par consquent,

1
=

n
t=1
X
t
Y
t

n
t=1
X
2
t
=

.
Interprtation : en ajoutant un point bien spcique nimporte quel
ensemble de donnes, on peut sassurer que la pente de la droite de
rgression sera la mme que celle dun modle passant par lorigine.
Voir la gure D.5 pour une illustration du phnomne.
2.11 Puisque, selon le modle,
t
N(0,
2
) et que Y
t
=
0
+
1
X
t
+
t
, alors
Y
t
N(
0
+
1
X
t
,
2
). De plus, on sait que

1
=

n
t=1
(X
t


X)(Y
t


Y)

n
t=1
(X
t


X)
2
=

n
t=1
(X
t


X)Y
t

n
t=1
(X
t


X)
2
,
donc lestimateur

1
est une combinaison linaire des variables ala-
toires Y
1
, . . . , Y
n
. Par consquent,

1
N(E[

1
], Var[

1
]), o E[

1
] =
1
et Var[

1
] =
2
/S
XX
et, donc,
Pr
_
z
/2
<

1

1
/

S
XX
< z
/2
_
= 1 .
78 Solutions
Un intervalle de conance de niveau 1 pour le paramtre
1
lorsque
la variance
2
est connue est donc

1
z
/2

n
t=1
(X
t


X)
2
.
2.12 Lintervalle de conance pour
1
est

1
t
/2
(n 2)


2
S
XX

1
t
0,025
(20 2)

MSE
S
XX
.
On nous donne SST = S
YY
= 20838 et S
XX
= 10668. Par consquent,
SSR =

2
1
20

t=1
(X
t


X)
2
= (1,104)
2
(10668)
= 13002,33
SSE = SST SSR
= 7835,67
et
MSE =
SSE
18
= 435,315.
De plus, on trouve dans une table de quantiles de la loi de Student (ou
laide de la fonction qt dans R) que t
0,025
(18) = 2,101. Lintervalle de
conance recherch est donc

1
1,104 2,101
_
435,315
10668
(1,528, 0,680).
2.13 a) On trouve aisment les estimateurs de la pente et de lordonne
lorigine de la droite de rgression :

1
=

n
t=1
X
t
Y
t
n

X

Y

n
t=1
X
2
t
n

X
2
= 1,436

0
=

Y

1

X
= 9,273.
Solutions 79
b) Les sommes de carrs sont
SST =
n

t=1
Y
2
t
n

Y
2
= 1194 11(9,273)
2
= 248,18
SSR =

2
1
_
n

t=1
X
2
t
n

X
2
_
= (1,436)
2
(110 11(0))
= 226,95
et SSE =SSTSSR=21,23. Le tableau danalyse de variance est donc
le suivant :
Source SS d.l. MS Ratio F
Rgression 226,95 1 226,95 96,21
Erreur 21,23 9 2,36
Total 248,18 10
Or, puisque t =

F = 9,809 >t
/2
(n 2) = t
0,025
(9) = 2,26, on rejette
lhypothse H
0
:
1
= 0 soit, autrement dit, la pente est signicative-
ment diffrente de zro.
c) Puisque la variance
2
est inconnue, on lestime par s
2
=MSE =2,36.
On a alors

1
t
/2
(n 2)
_

Var[

1
]
1,436 2,26
_
2,36
110
(1,105, 1,768).
d) Le coefcient de dtermination de la rgression est R
2
= SSR/SST =
226,95/248,18 = 0,914, ce qui indique que lajustement du modle
aux donnes est trs bon. En outre, suite au test effectu la partie
b), on conclut que la rgression est globalement signicative. Toutes
ces informations portent conclure quil ny a pas lieu dutiliser un
autre modle.
2.14 On doit dterminer si la rgression est signicative, ce qui peut se faire
laide de la statistique F. Or, partir de linformation donne dans
80 Solutions
lnonc, on peut calculer

1
=

50
t=1
X
t
Y
t
50

X

Y

50
t=1
X
2
t
50

X)
2
= 0,0110
SST =
50

t=1
Y
2
t
50

Y
2
= 78,4098
SSR =

2
1
50

t=1
(X
t


X)
2
= 1,1804
SSE = SST SSR
= 77,2294
do
MSR = 1,1804
MSE =
SSE
50 2
= 1,6089
et, enn,
F =
MSR
MSE
= 0,7337.
Soit F une variable alatoire ayant une distribution de Fisher avec 1 et
48 degrs de libert, soit la mme distribution que la statistique F sous
lhypothse H
0
:
1
=0. On a que Pr[F >0,7337] =0,3959, donc la valeur
p du test H
0
:
1
= 0 est 0,3959. Une telle valeur p est gnralement
considre trop leve pour rejeter lhypothse H
0
. On ne peut donc
considrer la relation entre la ligne de vie et lesprance de vie comme
signicative. (Ou on ne la considre signicative quavec un niveau de
conance de 1 p = 60,41 %.)
2.15 Premirement, selon le modle de rgression passant par lorigine, Y
0
=
X
0
+
0
et

Y
0
=

X
0
. Considrons, pour la suite, la variable alatoire
Y
0


Y
0
. On voit facilement que E[

] = , do E[Y
0


Y
0
] = E[X
0
+


X
0
] = X
0
X
0
= 0 et
Var[Y
0


Y
0
] = Var[Y
0
] +Var[

Y
0
] 2Cov(Y
0
,

Y
0
).
Solutions 81
Or, Cov(Y
0
,

Y
0
) =0 par lhypothse ii) de lnonc, Var[Y
0
] =
2
et Var[

Y
0
] =
X
2
0
Var[

]. De plus,
Var[

] =
1
(
n
t=1
X
2
t
)
2
n

t=1
X
2
t
Var[Y
t
]
=

2

n
t=1
X
2
t
do, nalement,
Var[Y
0


Y
0
] =
2
_
1 +
X
2
0

n
t=1
X
2
t
_
.
Par lhypothse de normalit et puisque

est une combinaison linaire
de variables alatoires normales,
Y
0


Y
0
N
_
0,
2
_
1 +
X
2
0

n
t=1
X
2
t
__
ou, de manire quivalente,
Y
0


Y
0

_
1 + X
2
0
/
n
t=1
X
2
t
N(0, 1).
Lorsque la variance
2
est estime par s
2
, alors
Y
0


Y
0
s
_
1 + X
2
0
/
n
t=1
X
2
t
t(n 1).
La loi de Student a n 1 degrs de libert puisque le modle passant
par lorigine ne compte quun seul paramtre. Les bornes de lintervalle
de conance pour la vraie valeur de Y
0
sont donc

Y
0
t
/2
(n 1) s

1 +
X
2
0

n
t=1
X
2
t
.
2.16 a) Soit X
1
, . . . , X
10
les valeurs de la masse montaire et Y
1
, . . . , Y
10
celles
du PNB. On a

X = 3,72,

Y = 7,55,
10
t=1
X
2
t
= 147,18,
10
t=1
Y
2
t
= 597,03
et
10
t=1
X
t
Y
t
= 295,95. Par consquent,

1
=

10
t=1
X
t
Y
t
10

X

Y

10
t=1
X
2
t
10

X
2
= 1,716
82 Solutions
et

0
=

Y

1

X
= 1,168.
On a donc la relation linaire PNB = 1,168 +1,716 MM.
b) Tout dabord, on doit calculer lestimateur s
2
de la variance car cette
quantit entre dans le calcul des intervalles de conance demands.
Pour les calculs la main, on peut viter de calculer les valeurs de

Y
1
, . . . ,

Y
10
en procdant ainsi :
SST =
10

t=1
Y
2
t
10

Y
2
= 27,005
SSR =

2
1
_
10

t=1
X
2
t
10

X
2
_
= 25,901,
puis SSE = SST SSR = 1,104 et s
2
= MSE = SSE/(10 2) = 0,1380.
On peut maintenant construire les intervalles de conance :

0
t
/2
(n 2) s

1
n
+

X
2
S
XX
1,168 (2,306)(0,3715)

1
10
+
3,72
2
8,796
(0,060, 2,276)

1
t
/2
(n 2) s

1
S
XX
1,716 (2,306)(0,3715)

1
8,796
(1,427, 2,005).
Puisque lintervalle de conance pour la pente
1
ne contient ni la
valeur 0, ni la valeur 1, on peut rejeter, avec un niveau de conance
de 95 %, les hypothses H
0
:
1
= 0 et H
0
:
1
= 1.
c) Par lquation obtenue en a) liant le PNB la masse montaire (MM),
un PNB de 12,0 correspond une masse montaire de
MM =
12,0 1,168
1,716
= 6,31.
Solutions 83
d) On cherche un intervalle de conance pour la droite de rgression en
MM
1997
= 6,31 ainsi quun intervalle de conance pour la prvision
PNB =12,0 associe cette mme valeur de la masse montaire. Avec
une probabilit de =95 %, le PNB moyen se trouve dans lintervalle
12,0 t
/2
(n 2) s

1
n
+
(6,31

X)
2
S
XX
= (11,20, 12,80),
alors que la vraie valeur du PNB se trouve dans lintervalle
12,0 t
/2
(n 2) s

1 +
1
n
+
(6,31

X)
2
S
XX
= (10,83, 13,17).
2.17 a) Les donnes du chier house.dat sont importes dans R avec la com-
mande
> house <- read.table("house.dat", header = TRUE)
La gure D.6 contient les graphiques de medv en fonction de chacune
des variables rm, age, lstat et tax. Le meilleur choix de variable
explicative pour le prix mdian semble tre le nombre moyen de
pices par immeuble, rm.
b) Les rsultats ci-dessous ont t obtenus avec R.
> fit1 <- lm(medv ~ rm, data = house)
> summary(fit1)
Call:
lm(formula = medv ~ rm, data = house)
Residuals:
Min 1Q Median 3Q Max
-23.34590 -2.54748 0.08976 2.98553 39.43314
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -34.671 2.650 -13.08 <2e-16
rm 9.102 0.419 21.72 <2e-16
(Intercept) ***
rm ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 6.616 on 504 degrees of freedom
Multiple R-squared: 0.4835, Adjusted R-squared: 0.4825
F-statistic: 471.8 on 1 and 504 DF, p-value: < 2.2e-16
On peut voir que tant lordonne lorigine que la pente sont trs si-
gnicativement diffrentes de zro. La rgression est donc elle-mme
84 Solutions
> par(mfrow = c(2, 2))
> plot(medv ~ rm + age + lstat + tax, data = house,
+ ask = FALSE)
4 5 6 7 8
1
0
2
0
3
0
4
0
5
0
rm
m
e
d
v
0 20 40 60 80 100
1
0
2
0
3
0
4
0
5
0
age
m
e
d
v
10 20 30
1
0
2
0
3
0
4
0
5
0
lstat
m
e
d
v
200 300 400 500 600 700
1
0
2
0
3
0
4
0
5
0
tax
m
e
d
v
Figure D.6: Relation entre la variable medv et les variables rm, age, lstat et
tax des donnes house.dat
signicative. Cependant, le coefcient de dtermination nest que de
R
2
= 0,4835, ce qui indique que dautres facteurs pourraient expli-
quer la variation dans medv.
On calcule les bornes de lintervalle de conance de la rgression
avec la fonction predict :
> pred.ci <- predict(fit1, interval = "confidence",
+ level = 0.95)
La droite de rgression et ses bornes dintervalle de conance inf-
rieure et suprieure sont illustre la gure D.7.
c) On reprend la mme dmarche, mais cette fois avec la variable age :
> fit2 <- lm(medv ~ age, data = house)
> summary(fit2)
Call:
lm(formula = medv ~ age, data = house)
Solutions 85
> ord <- order(house$rm)
> plot(medv ~ rm, data = house, ylim = range(pred.ci))
> matplot(house$rm[ord], pred.ci[ord, ], type = "l",
+ lty = c(1, 2, 2), lwd = 2, col = "black",
+ add = TRUE)
4 5 6 7 8
0
1
0
2
0
3
0
4
0
rm
m
e
d
v
Figure D.7: Rsultat de la rgression de la variable rm sur la variable medv
des donnes house.dat
Residuals:
Min 1Q Median 3Q Max
-15.097 -5.138 -1.957 2.398 31.338
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 30.97868 0.99911 31.006 <2e-16
age -0.12316 0.01348 -9.137 <2e-16
(Intercept) ***
age ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 8.527 on 504 degrees of freedom
86 Solutions
> ord <- order(house$age)
> plot(medv ~ age, data = house, ylim = range(pred.ci))
> matplot(house$age[ord], pred.ci[ord, ],
+ type = "l", lty = c(1, 2, 2), lwd = 2,
+ col = "black", add = TRUE)
0 20 40 60 80 100
2
0
2
5
3
0
age
m
e
d
v
Figure D.8: Rsultat de la rgression de la variable age sur la variable medv
des donnes house.dat
Multiple R-squared: 0.1421, Adjusted R-squared: 0.1404
F-statistic: 83.48 on 1 and 504 DF, p-value: < 2.2e-16
> pred.ci <- predict(fit2, interval = "confidence",
+ level = 0.95)
La rgression est encore une fois trs signicative. Cependant, le R
2
est encore plus faible quavec la variable rm. Les variables rm et age
contribuent donc chacune expliquer les variations de la variable
medv (et rm mieux que age), mais aucune ne sait le faire seule de ma-
nire satisfaisante. La droite de rgression et lintervalle de conance
de celle-ci sont reproduits la gure D.8. On constate que lintervalle
de conance est plus large quen b).
2.18 a) On importe les donnes dans R, puis on effectue les conversions de-
mandes. La variable consommation contient la consommation des
Solutions 87
voitures en /100 km et la variable poids le poids en kilogrammes.
> carburant <- read.table("carburant.dat",
+ header = TRUE)
> consommation <- 235.1954/carburant$mpg
> poids <- carburant$poids * 0.45455 * 1000
b) La fonction summary fournit linformation essentielle pour juger de la
validit et de la qualit du modle :
> fit <- lm(consommation ~ poids)
> summary(fit)
Call:
lm(formula = consommation ~ poids)
Residuals:
Min 1Q Median 3Q Max
-2.07123 -0.68380 0.01488 0.44802 2.66234
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.0146530 0.7118445 -0.021 0.984
poids 0.0078382 0.0005315 14.748 <2e-16
(Intercept)
poids ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 1.039 on 36 degrees of freedom
Multiple R-squared: 0.858, Adjusted R-squared: 0.854
F-statistic: 217.5 on 1 and 36 DF, p-value: < 2.2e-16
Le modle est donc le suivant : Y
t
=0,01465 +0,007838X
t
+
t
,
t

N(0, 1,039
2
), o Y
t
est la consommation en litres aux 100 kilomtres
et X
t
le poids en kilogrammes. La faible valeur p du test F indique
une rgression trs signicative. De plus, le R
2
de 0,858 conrme que
lajustement du modle est assez bon.
c) On veut calculer un intervalle de conance pour la consommation
en carburant prvue dune voiture de 1 350 kg. On obtient, avec la
fonction predict :
> predict(fit, newdata = data.frame(poids = 1350),
+ interval = "prediction")
fit lwr upr
1 10.56690 8.432089 12.70170
88 Solutions
Chapitre 3
3.1 Tout dabord, selon le thorme C.5 de lannexe C,
d
dx
f (x)

Af (x) = 2
_
d
dx
f (x)
_

Af (x).
Il suft, pour faire la dmonstration, dappliquer directement ce rsultat
la forme quadratique
S() = (y X)

(y X)
avec f () = y X et A = I, la matrice identit. On a alors
d
d
S() = 2
_
d
d
(y X)
_

y X
= 2(X)

(y X)
= 2X

(y X).
En posant ces drives exprimes sous forme matricielle simultanment
gales zro, on obtient les quations normales rsoudre pour calculer
lestimateur des moindres carrs du vecteur , soit
X

= X

y.
En isolant

dans lquation ci-dessus, on obtient, nalement, lestima-
teur des moindres carrs :

= (X

X)
1
X

y.
3.2 a) On a un modle sans variable explicative. Intuitivement, la meilleure
prvision de Y
t
sera alors

Y. En effet, pour ce modle,
X =
_

_
1
.
.
.
1
_

_
n1
et

=
_
X

X
_
1
X

y
=
_
_
_
_
1 1

_
1
.
.
.
1
_

_
_
_
_
1
_
1 1

_
Y
1
.
.
.
Y
n
_

_
= n
1
n

t=1
Y
t
=

Y.
Solutions 89
b) Il sagit du modle de rgression linaire simple passant par lorigine,
pour lequel la matrice de schma est
X =
_

_
X
1
.
.
.
X
n
_

_
n1
.
Par consquent,

=
_
_
_
_
X
1
X
n

_
X
1
.
.
.
X
n
_

_
_
_
_
1
_
X
1
X
n

_
Y
1
.
.
.
Y
n
_

_
=
_
n

t=1
X
2
t
_
1
n

t=1
X
t
Y
t
=

n
t=1
X
t
Y
t

n
t=1
X
2
t
,
tel quobtenu lexercice 2.6.
c) On est ici en prsence dun modle de rgression multiple ne passant
pas par lorigine et ayant deux variables explicatives. La matrice de
schma est alors
X =
_

_
1 X
11
X
12
.
.
.
.
.
.
.
.
.
1 X
n1
X
n2
_

_
n3
.
Par consquent,

=
_
_
_
_
_
1 1
X
11
X
n1
X
12
X
n2
_
_
_

_
1 X
11
X
12
.
.
.
.
.
.
.
.
.
1 X
n1
X
n2
_

_
_
_
_
1 _
_
1 1
X
11
X
n1
X
12
X
n2
_
_
_

_
Y
1
.
.
.
Y
n
_

_
=
_
_
n n

X
1
n

X
2
n

X
1

n
t=1
X
2
t1

n
t=1
X
t1
X
t2
n

X
2
n
t=1
X
t1
X
t2
n
t=1
X
2
t2
_
_
1
_
_

n
t=1
Y
t

n
t=1
X
t1
Y
t

n
t=1
X
t2
Y
t
_
_
.
Linversion de la premire matrice et le produit par la seconde sont
laisss aux bons soins du lecteur plus patient que les rdacteurs de
ces solutions.
3.3 Dans le modle de rgression linaire simple, la matrice schma est
X =
_

_
1 X
1
.
.
.
.
.
.
1 X
n
_

_.
90 Solutions
Par consquent,
Var[

] =
2
(X

X)
1
=
2
_
_
_
_
1 1
X
1
X
n
_
_

_
1 X
1
.
.
.
.
.
.
1 X
n
_

_
_
_
_
1
=
2
_
n n

X
n

X
n
t=1
X
2
t
_
1
=

2
n
n
t=1
X
2
t
n
2
X
2
_

n
t=1
X
2
t
n

X
n

X n
_
=

2

n
t=1
(X
t


X
2
)
_
n
1

n
t=1
X
2
t

X 1
_
,
do
Var[

0
] =
2

n
t=1
X
2
t
n
n
t=1
(X
t


X
2
)
=
2

n
t=1
(X
t


X
2
) + n

X
2
n
n
t=1
(X
t


X
2
)
et
Var[

1
] =

2

n
t=1
(X
t


X
2
)
.
Ceci correspond aux rsultats antrieurs.
3.4 Dans les dmonstrations qui suivent, trois relations de base seront utili-
ses : e = y y, y = X

et

= (X

X)
1
X

y.
a) On a
X

e = X

(y y)
= X

(y X

)
= X

y (X

X)

= X

y (X

X)(X

X)
1
X

y
= X

y X

y
= 0.
Solutions 91
En rgression linaire simple, cela donne
X

e =
_
1 1
X
1
X
n
_
_

_
e
1
.
.
.
e
n
_

_
=
_

n
t=1
e
t

n
t=1
X
t
e
t
_
.
Par consquent, X

e =0 se simplie en
n
t=1
e
t
=0 et
n
t=1
X
t
e
t
=0 soit,
respectivement, la condition pour que lestimateur des moindres car-
rs soit sans biais et la seconde quation normale obtenue la partie
b) de lexercice 2.1.
b) On a
y

e = (X

(y y)
=

(y X

)
=

(X

X)

(X

X)(X

X)
1
X

y
=

y
= 0.
Pour tout modle de rgression cette quation peut aussi scrire sous
la forme plus conventionnelle
n
t=1

Y
t
e
t
= 0. Cela signie que le pro-
duit scalaire entre le vecteur des prvisions et celui des erreurs doit
tre nul ou, autrement dit, que les vecteurs doivent tre orthogo-
naux. Cest l une condition essentielle pour que lerreur quadra-
tique moyenne entre les vecteurs y et y soit minimale. (Pour de plus
amples dtails sur linterprtation gomtrique du modle de rgres-
sion, consulter Draper et Smith (1998, chapitres 20 et 21).) Dailleurs,
on constate que y

e =

e et donc, en supposant sans perte de g-


nralit que

0, que y

e = 0 et X

e = 0 sont des conditions en tous


points quivalentes.
c) On a
y

y = (X

(X

X)

(X

X)(X

X)
1
X

y
=

y.
92 Solutions
Cette quation est lquivalent matriciel de lidentit
SSR =

2
1
n

t=1
(X
t


X)
2
=
S
2
XY
S
XX
utilise plusieurs reprises dans les solutions du chapitre 2. En effet,
en rgression linaire simple, y

y =
n
t=1

Y
2
t
=
n
t=1
(

Y

Y)
2
+ n

Y
2
=
SSR + n

Y
2
et

y =

0
n

Y +

1
n

t=1
X
t
Y
t
= (

Y

1

X)n

Y +

1
n

t=1
X
t
Y
t
=

1
n

t=1
(X
t


X)(Y
t


Y) + n

Y
2
=
S
2
XY
S
XX
+ n

Y
2
,
do SSR = S
2
XY
/S
XX
.
3.5 a) Premirement, Y
0
= x
0
+
0
avec E[
0
] = 0. Par consquent, E[Y
0
] =
E[x
0
+
0
] =x
0
. Deuximement, E[

Y
0
] = E[x
0

] =x
0
E[

] = x
0
puisque
lestimateur des moindres carrs de est sans biais. Ceci complte la
preuve.
b) Tout dabord, E[(

Y
0
E[Y
0
])
2
] = V[

Y
0
] = Var[

Y
0
] puisque la matrice
de variance-covariance du vecteur alatoire

Y
0
ne contient, ici, quune
seule valeur. Or, par le thorme C.6,
Var[

Y
0
] = V[x
0

]
= x
0
V[

]x

0
=
2
x
0
(X

X)
1
x

0
.
An de construire un intervalle de conance pour E[Y
0
], on ajoute
au modle lhypothse N(0,
2
I). Par linarit de lestimateur des
moindres carrs, on a alors

Y
0
N(E[Y
0
], Var[

Y
0
]). Par consquent,
Pr
_
_
z
/2

Y E[

Y
0
]
_
Var[

Y
0
]
z
/2
_
_
= 1
do un intervalle de conance de niveau 1 pour E[Y
0
] est
E[Y
0
]

Y
0
z
/2

_
x
0
(X

X)
1
x

0
.
Solutions 93
Si la variance
2
est inconnue et estime par s
2
, alors la distribution
normale est remplace par une distribution de Student avec n p 1
degrs de libert. Lintervalle de conance devient alors
E[Y
0
]

Y
0
t
/2
(n p 1) s
_
x
0
(X

X)
1
x

0
.
c) Par le rsultat obtenu en a) et en supposant que Cov(
0
,
t
) = 0 pour
tout t = 1, . . . , n, on a
E[(Y
0


Y
0
)
2
] = Var[Y
0


Y
0
]
= Var[Y
0
] +Var[

Y
0
]
=
2
(1 +x
0
(X

X)
1
x

0
).
Ainsi, avec lhypothse sur le terme derreur nonce en b), Y
0


Y
0

N(0, Var[Y
0


Y
0
]). En suivant le mme cheminement quen b), on d-
termine quun intervalle de conance de niveau 1 pour Y
0
est
Y
0


Y
0
z
/2

_
1 +x
0
(X

X)
1
x

0
.
ou, si la variance
2
est inconnue et estime par s
2
,
Y
0


Y
0
t
/2
(n p 1) s
_
1 +x
0
(X

X)
1
x

0
.
3.6 On a la relation suivante liant la statistique F et le coefcient de dtermi-
nation R
2
:
F =
R
2
1 R
2
n p 1
p
La principale inconnue dans le problme est n, le nombre de donnes.
Or,
n = pF
_
1 R
2
R
2
_
+ p +1
= 3(5,438)
_
1 0,521
0,521
_
+3 +1
= 19.
Soit F une variable alatoire dont la distribution est une loi de Fisher avec
3 et 19 3 1 = 15 degrs de libert, soit la mme distribution que la
statistique F du modle. On obtient la valeur p du test global de validit
du modle dans un tableau de quantiles de la distribution F ou avec la
fonction pf dans R :
Pr[F >5,438] = 0,0099
94 Solutions
3.7 a) On a

= (X

X)
1
X

y
=
1
2
_
_
6 34 13 13
2 4 1 1
0 2 1 1
_
_
_

_
17
12
14
13
_

_
=
1
2
_
_
45
13
3
_
_
=
_
_
22,5
6,5
1,5
_
_
b) Avec les rsultats de la partie a), on a
y = X

=
_

_
17
12
13,5
13,5
_

_
,
e = y y =
_

_
0
0
0,5
0,5
_

_
et

Y = 14. Par consquent,
SST = y

y n

Y
2
= 14
SSE = e

e = 0,5
SSR = SST SSR = 13,5,
do le tableau danalyse de variance est le suivant :
Source SS d.l. MS F
Rgression 13,5 2 6,75 13,5
Erreur 0,5 1 0,5
Total 14
Le coefcient de dtermination est
R
2
= 1
SSE
SST
= 0,9643.
c) On sait que Var[

i
] =
2
c
ii
, o c
ii
est llment en position (i +1, i +1)
de la matrice (X

X)
1
. Or,
2
= s
2
= MSE = 0,5, tel que calcul en b).
Par consquent, la statistique t du test H
0
:
1
= 0 est
t =

1
s

c
11
=
6,5
_
0,5(
11
2
)
= 3,920,
Solutions 95
alors que celle du test H
0
:
2
= 0 est
t =

2
s

c
22
=
1,5
_
0,5(
3
2
)
= 1,732.
un niveau de signication de 5 %, la valeur critique de ces tests est
t
0,025
(1) = 12,706. Dans les deux cas, on ne rejette donc pas H
0
, les
variables X
1
et X
2
ne sont pas signicatives dans le modle.
d) Soit x
0
=
_
1 3,5 9

et Y
0
la valeur de la variable dpendante corres-
pondant x
0
. La prvision de Y
0
donne par le modle trouv en a)
est

Y
0
= x
0

= 22,5 +6,5(3,5) +1,5(9)


= 13,75.
Dautre part,

Var[Y
0


Y
0
] = s
2
(1 +x
0
(X

X)
1
x

0
)
= 1,1875.
Par consquent, un intervalle de conance 95 % pour Y
0
est
E[Y
0
]

Y
0
t
0,025
(1)s
_
1 +x
0
(X

X)
1
x

0
13,75 12,706

1,1875
(0,096, 27,596).
3.8 a) On importe les donnes dans R, puis on effectue les conversions n-
cessaires. Comme prcdemment, la variable consommation contient
la consommation des voitures en /100 km et la variable poids le
poids en kilogrammes. On ajoute la variable cylindree, qui contient
la cylindre des voitures en litres.
> carburant <- read.table("carburant.dat",
+ header = TRUE)
> consommation <- 235.1954/carburant$mpg
> poids <- carburant$poids * 0.45455 * 1000
> cylindree <- carburant$cylindree * 2.54^3/1000
b) La fonction summary fournit linformation essentielle pour juger de la
validit et de la qualit du modle :
> fit <- lm(consommation ~ poids + cylindree)
> summary(fit)
Call:
lm(formula = consommation ~ poids + cylindree)
96 Solutions
Residuals:
Min 1Q Median 3Q Max
-1.8799 -0.5595 0.1577 0.6051 1.7900
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -3.049304 1.098281 -2.776 0.00877
poids 0.012677 0.001512 8.386 6.85e-10
cylindree -1.122696 0.333479 -3.367 0.00186
(Intercept) **
poids ***
cylindree **
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 0.9156 on 35 degrees of freedom
Multiple R-squared: 0.8927, Adjusted R-squared: 0.8866
F-statistic: 145.6 on 2 and 35 DF, p-value: < 2.2e-16
Le modle est donc le suivant :
Y
t
= 3,049 +0,01268X
t1
+1,123X
t2
+
t
,
t
N(0, 0,9156
2
I)
o Y
t
est la consommation en litres aux 100 kilomtres, X
t1
le poids
en kilogrammes et X
t2
la cylindre en litres. La faible valeur p du test
F indique une rgression globalement trs signicative. Les tests t des
paramtres individuels indiquent galement que les deux variables
du modle sont signicatives. Enn, le R
2
de 0,8927 conrme que
lajustement du modle est toujours bon.
c) On veut calculer un intervalle de conance pour la consommation
prvue dune voiture de 1 350 kg ayant un moteur dune cylindre de
1,8 litres. On obtient, avec la fonction predict :
> predict(fit, newdata = data.frame(poids = 1350,
+ cylindree = 1.8), interval = "prediction")
fit lwr upr
1 12.04325 9.959855 14.12665
3.9 Il y a plusieurs rponses possibles pour cet exercice. Si lon cherche, tel
que suggr dans lnonc, distinguer les voitures sport des minifour-
gonnettes (en supposant que ces dernires ont moins daccidents que les
premires), alors on pourrait sintresser, en premier lieu, la variable
peak.rpm. Il sagit du rgime moteur maximal, qui est en gnral beau-
coup plus lev sur les voitures sport. Puisque lon souhaite expliquer le
montant total des sinistres de diffrents types de voitures, il devient assez
naturel de slectionner galement la variable price, soit le prix du vhi-
cule. Un vhicule plus luxueux cote en gnral plus cher faire rparer
dommages gaux. Voyons leffet de lajout, pas pas, de ces deux va-
riables au modle prcdent ne comportant que la variable horsepower :
Solutions 97
> autoprice <- read.table("auto-price.dat",
+ header = TRUE)
> fit1 <- lm(losses ~ horsepower + peak.rpm,
+ data = autoprice)
> summary(fit1)
Call:
lm(formula = losses ~ horsepower + peak.rpm, data = autoprice)
Residuals:
Min 1Q Median 3Q Max
-67.973 -24.074 -6.373 18.049 130.301
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.521414 29.967570 0.184 0.854060
horsepower 0.318477 0.086840 3.667 0.000336
peak.rpm 0.016639 0.005727 2.905 0.004205
(Intercept)
horsepower ***
peak.rpm **
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 33.44 on 156 degrees of freedom
Multiple R-squared: 0.1314, Adjusted R-squared: 0.1203
F-statistic: 11.8 on 2 and 156 DF, p-value: 1.692e-05
> anova(fit1)
Analysis of Variance Table
Response: losses
Df Sum Sq Mean Sq F value Pr(>F)
horsepower 1 16949 16949 15.1573 0.0001463 ***
peak.rpm 1 9437 9437 8.4397 0.0042049 **
Residuals 156 174435 1118
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
La variable peak.rpm est signicative, mais le R
2
demeure faible. Ajou-
tons maintenant la variable price au modle :
> fit2 <- lm(losses ~ horsepower + peak.rpm +
+ price, data = autoprice)
> summary(fit2)
Call:
lm(formula = losses ~ horsepower + peak.rpm + price, data = autoprice)
Residuals:
98 Solutions
Min 1Q Median 3Q Max
-66.745 -25.214 -5.867 18.407 130.032
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.6972172 31.3221462 -0.022 0.98227
horsepower 0.2414922 0.1408272 1.715 0.08838
peak.rpm 0.0181386 0.0061292 2.959 0.00357
price 0.0005179 0.0007451 0.695 0.48803
(Intercept)
horsepower .
peak.rpm **
price
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 33.49 on 155 degrees of freedom
Multiple R-squared: 0.1341, Adjusted R-squared: 0.1173
F-statistic: 8.001 on 3 and 155 DF, p-value: 5.42e-05
> anova(fit2)
Analysis of Variance Table
Response: losses
Df Sum Sq Mean Sq F value Pr(>F)
horsepower 1 16949 16949 15.1071 0.0001502 ***
peak.rpm 1 9437 9437 8.4118 0.0042702 **
price 1 542 542 0.4832 0.4880298
Residuals 155 173893 1122
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Du moins avec les variables horsepower et peak.rpm, la variable price
nest pas signicative. Dailleurs, laugmentation du R
2
suite lajout
de cette variable est minime. ce stade de lanalyse, il vaudrait sans
doute mieux reprendre tout depuis le dbut avec dautres variables. Des
mthodes de slection des variables seront tudies plus avant dans le
chapitre.
3.10 a) On a p = 3 variables explicatives et, du nombre de degrs de libert
de la statistique F, on apprend que n p 1 = 16. Par consquent,
n = 16 +3 +1 = 20. Les dimensions des vecteurs et de la matrice de
schma dans la reprsentation y = X+ sont donc : n 1 = 20 1
pour les vecteurs y et , n (p + 1) = 20 4 pour la matrice X,
(p +1) 1 pour le vecteur .
b) La valeur p associe la statistique F est, toute n pratique, nulle.
Cela permet de rejeter facilement lhypothse nulle selon laquelle la
rgression nest pas signicative.
Solutions 99
c) On doit se er ici au rsultat du test t associ la variable X
2
. Dans
les rsultats obtenus avec R, on voit que la valeur p de la statistique
t du paramtre
2
est 0,0916. Cela signie que jusqu un seuil de si-
gnication de 9,16 % (ou un niveau de conance suprieur 90,84 %),
on ne peut rejeter lhypothse H
0
:
2
= 0 en faveur de H
1
:
2
0. Il
sagit nanmoins dun cas limite et il est alors du ressort de lanalyste
de dcider dinclure ou non le revenu disponible dans le modle.
d) Le coefcient de dtermination est de R
2
=0,981. Cela signie que le
prix de la bire, le revenu disponible et la demande de lanne prc-
dente expliquent plus de 98 % de la variation de la demande en bire.
Lajustement du modle aux donnes est donc particulirement bon.
Il est tout fait possible dobtenir un R
2
lev et, simultanment,
toutes les statistiques t non signicatives : comme chaque test t me-
sure limpact dune variable sur la rgression tant donn la prsence
des autres variables, il suft davoir une bonne variable dans un mo-
dle pour obtenir un R
2
lev et une ou plusieurs autres variables
redondantes avec la premire pour rendre les tests t non signicatifs.
3.11 a) Linformation demande doit videmment tre extraite des deux ta-
bleaux danalyse de variance fournis dans lnonc. Il importe, ici,
de savoir que le rsultat de la fonction anova de R est un tableau
danalyse de variance squentiel, o chaque ligne identie par le
nom dune variable correspond au test F partiel rsultant de lajout
de cette variable au modle. Ainsi, du premier tableau on obtient les
sommes de carrs
SSR(X
2
) = 45,59085
SSR(X
3
|X
2
) = 8,76355
alors que du second tableau on a
SSR(X
1
) = 45,59240
SSR(X
2
|X
1
) = 0,01842
SSR(X
3
|X
1
, X
2
) = 8,78766,
ainsi que
MSE =
SSE(X
1
, X
2
, X
3
)
n p 1
= 0,44844.
i) Le test dhypothse H
0
:
1
=
2
=
3
= 0 est le test global de
100 Solutions
validit du modle. La statistique F pour ce test est
F =
SSR(X
1
, X
2
, X
3
)/3
MSE
=
(SSR(X
1
) +SSR(X
2
|X
1
) +SSR(X
3
|X
1
,X
2
))/3
MSE
=
(45,5924 +0,01842 +8,78766)/3
0,44844
= 40,44.
Puisque la statistique MSE a 21 degrs de libert, la statistique F
en a 3 et 21.
ii) Pour tester cette hypothse, il faut utiliser un test F partiel. On
teste si la variable X
1
est signicative dans la rgression globale.
La statistique du test est alors
F

=
SSR(X
1
|X
2
,X
3
)/1
MSE
=
SSR(X
1
, X
2
, X
3
) SSR(X
2
, X
3
)
MSE
=
SSR(X
1
, X
2
, X
3
) SSR(X
2
) SSR(X
3
|X
2
)
MSE
=
54,39848 45,59085 8,76355
0,44844
= 0,098,
avec 1 et 21 degrs de libert.
iii) Cette fois, on teste si les variables X
2
et X
3
(les deux ensemble)
sont signicatives dans la rgression globale. On effectue donc
encore un test F partiel avec la statistique
F

=
SSR(X
2
, X
3
|X
1
)/2
MSE
=
(SSR(X
1
, X
2
, X
3
) SSR(X
1
))/2
MSE
=
(54,39848 45,5924)/2
0,44844
= 9,819,
avec 2 et 21 degrs de libert.
b) la lecture du premier tableau danalyse de variance que tant les
variables X
2
que X
3
sont signicatives dans le modle. Par contre,
comme on le voit dans le second tableau, la variable X
2
devient non
signicative ds lors que la variable X
1
est ajoute au modle. (Lim-
pact de la variable X
3
demeure, lui, inchang.) Cela signie que les
Solutions 101
variables X
1
et X
2
sont redondantes et quil faut choisir lune ou
lautre, mais pas les deux. Par consquent, les choix de modle pos-
sibles sont X
1
et X
3
, ou X
2
et X
3
.
3.12 La statistique utiliser pour faire ce test F partiel est
F

=
SSR(X
2
, X
3
|X
1
, X
4
)/2
MSE
=
SSR(X
1
, X
2
, X
3
, X
4
) SSR(X
1
, X
4
)
2MSE
=
SSR SSR(X
4
) SSR(X
1
|X
4
)
2s
2
o SSR = SSR(X
1
,X
2
,X
3
,X
4
). Or,
R
2
=
SSR
SST
=
SSR
SSR +SSE
,
do
SSR =
R
2
1 R
2
SSE
=
R
2
1 R
2
MSE(n p 1)
=
0,6903
1 0,6903
(26,41)(506 4 1)
= 29492.
Par consquent,
F

=
29492 2668 21348
(2)(26,41)
= 103,67.
3.13 a) Tout dabord, si Z N(0,1) et V
2
(r) alors, par dnition,
Z

V/r
t(r).
Tel que mentionn dans lnonc,

i
N(
i
,
2
c
ii
) ou, de manire
quivalente,

i

i

c
ii
N(0, 1).
Par consquent,

c
ii
_
SSE

2
(np1)
=

i

i
s

c
ii
t(n p 1).
102 Solutions
b) En rgression linaire simple, c
11
= 1/
n
t=1
(X
t


X)
2
= 1/S
XX
et

2
c
11
= Var[

1
]. Le rsultat gnral en a) se rduit donc, en rgres-
sion linaire simple, au rsultat bien connu du test t sur le paramtre

1

1
s

1/S
XX
t(n 1 1).
3.14 En suivant les indications donne dans lnonc, on obtient aisment
d
d
S() = 2
_
d
d
(y X)
_

W(y X)
= 2X

W(y X)
= 2(X

Wy X

WX).
Par consquent, les quations normales rsoudre pour trouver lesti-
mateur

minimisant la somme de carrs pondrs S() sont (X

WX)

=
X

Wy et lestimateur des moindres carrs pondrs est

= (X

WX)
1
X

Wy.
3.15 De manire tout fait gnrale, lestimateur linaire sans biais variance
minimale dans le modle de rgression linaire y = X + , Var[] =

2
W
1
est

= (X

WX)
1
X

Wy
et sa variance est, par le thorme C.6,
V[

] = (X

WX)
1
X

WV[y]W

X(X

WX)
1
=
2
(X

WX)
1
X

WW
1
WX(X

WX)
1
=
2
(X

WX)
1
puisque les matrices W et X

WX sont symtriques. Dans le cas de la


rgression linaire simple passant par lorigine et en supposant que W=
diag(w
1
, . . . , w
n
), ces formules se rduisent en

=

n
t=1
w
t
X
t
Y
t

n
t=1
w
t
X
2
t
et
Var[

] =

2

n
t=1
w
t
X
2
t
.
a) Cas dj trait lexercice 2.6 o W = I et, donc,

=

n
t=1
X
t
Y
t

n
t=1
X
2
t
Solutions 103
et
Var[

] =

2

n
t=1
w
t
X
2
t
.
b) Cas gnral trait ci-dessus.
c) Si Var[
t
] =
2
X
t
, alors w
t
= X
1
t
. Le cas gnral se simplie donc en

=

n
t=1
Y
t

n
t=1
X
t
=

Y

X
,
Var[

] =

2

n
t=1
X
t
=

2
n

X
.
d) Si Var[
t
] =
2
X
2
t
, alors w
t
= X
2
t
. On a donc

=
1
n
n

t=1
Y
t
X
t
Var[

] =

2
n
.
3.16 Le graphique des valeurs de Y en fonction de celles de X, la gure D.9,
montre clairement une relation quadratique. On postule donc le modle
Y
t
=
0
+
1
X
t
+
2
X
2
t
+
t
,
t
N(0,
2
).
Par la suite, on peut estimer les paramtres de ce modle avec la fonc-
tion lm de R :
> fit <- lm(Y ~ poly(X, 2), data = donnees)
> summary(fit)
Call:
lm(formula = Y ~ poly(X, 2), data = donnees)
Residuals:
Min 1Q Median 3Q Max
-1.9123 -0.6150 -0.1905 0.6367 1.6921
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 18.1240 0.3025 59.91 3.10e-16
poly(X, 2)1 29.6754 1.1717 25.33 8.72e-12
poly(X, 2)2 4.0899 1.1717 3.49 0.00446
104 Solutions
> plot(Y ~ X, data = donnees)
5 10 15 20 25
1
0
1
5
2
0
2
5
3
0
X
Y
Figure D.9: Graphique des donnes de lexercice 3.16
(Intercept) ***
poly(X, 2)1 ***
poly(X, 2)2 **
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 1.172 on 12 degrees of freedom
Multiple R-squared: 0.982, Adjusted R-squared: 0.979
F-statistic: 326.8 on 2 and 12 DF, p-value: 3.434e-11
> anova(fit)
Analysis of Variance Table
Response: Y
Df Sum Sq Mean Sq F value Pr(>F)
poly(X, 2) 2 897.36 448.68 326.79 3.434e-11 ***
Residuals 12 16.48 1.37
Solutions 105
> plot(Y ~ X, data = donnees)
> x <- seq(min(donnees$X), max(donnees$X),
+ length = 200)
> lines(x, predict(fit, data.frame(X = x),
+ lwd = 2))
5 10 15 20 25
1
0
1
5
2
0
2
5
3
0
X
Y
Figure D.10: Graphique des donnes de lexercice 3.16 et courbe obtenue par
rgression
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Tant le test F global que les tests t individuels sont concluants, le coef-
cient de dtermination est lev et lon peut constater la gure D.10
que lajustement du modle est bon. On conclut donc quun modle
adquat pour cet ensemble de donnes est
Y
t
= 18,12 +29,68X
t
+4,09X
2
t
+
t
,
t
N(0, 1,373).
3.17 Comme on peut le constater la gure D.11, le point (X
16
, Y
16
) est plus
loign des autres. En b) et c), on diminue son poids dans la rgression.
106 Solutions
> plot(Y ~ X, data = donnees)
> points(donnees$X[16], donnees$Y[16], pch = 16)
2 3 4 5 6
2
3
4
5
6
X
Y
G
Figure D.11: Graphique des donnes de lexercice 3.17. Le cercle plein repr-
sente la donne (X
16
, Y
16
).
a) On calcule dabord lestimateur des moindres carrs ordinaires :
> (fit1 <- lm(Y ~ X, data = donnees))
Call:
lm(formula = Y ~ X, data = donnees)
Coefficients:
(Intercept) X
1.4256 0.3158
b) Si lon suppose que la variance de la donnes (X
16
, Y
16
) est quatre
fois plus leve que la variance des autres donnes, alors il convient
daccorder un point quatre fois moins grand cette donne dans la
rgression. Cela requiert les moindres carrs pondrs. Pour calculer
les estimateurs avec lm dans R, on utilise largument weights :
> w <- rep(1, nrow(donnees))
> w[16] <- 0.25
> (fit2 <- update(fit1, weights = w))
Solutions 107
Call:
lm(formula = Y ~ X, data = donnees, weights = w)
Coefficients:
(Intercept) X
1.7213 0.2243
c) On rpte la procdure en b) avec un poids de encore plus petit pour
la donne (X
16
, Y
16
) :
> w[16] <- 0.0625
> (fit3 <- update(fit1, weights = w))
Call:
lm(formula = Y ~ X, data = donnees, weights = w)
Coefficients:
(Intercept) X
1.8080 0.1975
Plus le poids accord la donne (X
16
, Y
16
) est faible, moins la droite
de rgression est attire vers ce point (voir la gure D.12).
3.18 a) Voir la gure D.13 pour le graphique. Il y a effectivement une diff-
rence entre la consommation de carburant des hommes et des femmes :
ces dernires font plus de milles avec un gallon dessence.
b) Remarquer que la variable sexe est un facteur et peut tre utilise
telle quelle dans lm :
> (fit <- lm(mpg ~ age + sexe, data = donnees))
Call:
lm(formula = mpg ~ age + sexe, data = donnees)
Coefficients:
(Intercept) age sexeM
16.687 -1.040 -1.206
c) Calcul dune prvision pour la valeur moyenne de la variable mpg :
> predict(fit, newdata = data.frame(age = 4,
+ sexe = "F"), interval = "confidence",
+ level = 0.9)
fit lwr upr
1 12.52876 11.94584 13.11168
Chapitre 4
4.1 La srie strikes comporte une composante de tendance relativement
complique (voir la gure D.14(a)). Cette tendance nest certes pas li-
naire, ni mme quadratique, mais un polynme du troisime degr
constituerait une bonne approximation. Les gures D.14(b)D.14(d) montrent
108 Solutions
> plot(Y ~ X, data = donnees)
> points(donnees$X[16], donnees$Y[16], pch = 16)
> abline(fit1, lwd = 2, lty = 1)
> abline(fit2, lwd = 2, lty = 2)
> abline(fit3, lwd = 2, lty = 3)
> legend(1.2, 6, legend = c("Modle a)",
+ "Modle b)", "Modle c)"), lwd = 2,
+ lty = 1:3)
2 3 4 5 6
2
3
4
5
6
X
Y
G
Modle a)
Modle b)
Modle c)
Figure D.12: Graphique des donnes de lexercice 3.17 avec les droites de
rgression obtenues laide des moindres carrs pondrs.
leffet des diffrences de premier, second et troisime ordre, respective-
ment, sur la srie. On constate que seule la dernire srie ne semble conte-
nir aucune tendance. Il faut donc diffrencier trois fois :
> diff(strikes, differences = 3)
Time Series:
Start = 1954
End = 1980
Frequency = 1
[1] -1191 4072 -3822 1690 -170 -180 -382 798
[9] -196 -712 1044 -530 119 -386 512 -55
Solutions 109
> hommes <- subset(donnees, sexe == "M")
> femmes <- subset(donnees, sexe == "F")
> plot(mpg ~ age, data = hommes, xlim = range(donnees$age),
+ ylim = range(donnees$mpg))
> points(mpg ~ age, data = femmes, pch = 16)
> legend(4, 16, legend = c("Hommes", "Femmes"),
+ pch = c(1, 16))
1 2 3 4 5
1
0
1
1
1
2
1
3
1
4
1
5
1
6
age
m
p
g
G
G
G
G
G
G
Hommes
Femmes
Figure D.13: Graphique des donnes de lexercice 3.18
[17] -844 45 1044 21 -93 -2142 3424 -2419
[25] -375 3007 -3412
4.2 La srie sales ainsi que les estimations de sa tendance obtenues par lis-
sage exponentiel avec = 0,2, = 0,5 et = 0,7 sont prsentes graphi-
quement la gure D.15. On constate que plus la valeur de augmente,
plus lestimation de la tendance est proche de la srie originale. Cela
nest pas ncessairement souhaitable, puisque la soustraction de la ten-
dance de la srie originale rsultera en une srie de rsidus contenant
peu dinformations.
4.3 a) On peut considrer la srie deaths comme forme de composantes de
tendance, de saisonnalit et de bruit alatoire (ou rsidus). La fonction
stl dcompose la srie en ces trois composantes :
110 Solutions
Time
s
t
r
ik
e
s
1950 1955 1960 1965 1970 1975 1980
3
5
0
0
4
0
0
0
4
5
0
0
5
0
0
0
5
5
0
0
6
0
0
0
(a) Srie originale
Time
d
if
f
(
s
t
r
ik
e
s
)
1955 1960 1965 1970 1975 1980

1
5
0
0

1
0
0
0

5
0
0
0
5
0
0
(b) Srie diffrencie une fois
Time
d
if
f
(
s
t
r
ik
e
s
,

d
if
f

=

2
)
1955 1960 1965 1970 1975 1980

1
0
0
0
0
1
0
0
0
2
0
0
0
(c) Srie diffrencie deux fois
Time
d
if
f
(
s
t
r
ik
e
s
,

d
if
f

=

3
)
1955 1960 1965 1970 1975 1980

4
0
0
0

2
0
0
0
0
2
0
0
0
4
0
0
0
(d) Srie diffrencie trois fois
Figure D.14: Srie strikes
> deaths.stl <- stl(deaths, "periodic")
> summary(deaths.stl)
Call:
stl(x = deaths, s.window = "periodic")
Time.series components:
seasonal trend
Min. :-1.557915e+03 Min. :8353.534
1st Qu.:-5.941842e+02 1st Qu.:8520.346
Median :-4.378816e+01 Median :8712.571
Mean :-1.212946e-05 Mean :8796.119
3rd Qu.: 4.570118e+02 3rd Qu.:8894.177
Max. : 1.682646e+03 Max. :9934.492
remainder
Min. :-473.061194
1st Qu.:-162.853032
Median : -30.432160
Mean : -8.382972
3rd Qu.: 120.005132
Solutions 111
Time
s
a
le
s
0 50 100 150
2
0
0
2
1
0
2
2
0
2
3
0
2
4
0
2
5
0
2
6
0
(a) = 0,2
Time
s
a
le
s
0 50 100 150
2
0
0
2
1
0
2
2
0
2
3
0
2
4
0
2
5
0
2
6
0
(b) = 0,5
Time
s
a
le
s
0 50 100 150
2
0
0
2
1
0
2
2
0
2
3
0
2
4
0
2
5
0
2
6
0
(c) = 0,7
Figure D.15: Srie sales (ligne pleine) et lissage exponentiel pour diffrentes
valeurs de (ligne pointille)
Max. : 602.016731
IQR:
STL.seasonal STL.trend STL.remainder data
1051.2 373.8 282.9 1234.3
% 85.2 30.3 22.9 100.0
Weights: all == 1
Other components: List of 5
$ win : Named num [1:3] 721 19 13
$ deg : Named int [1:3] 0 1 1
$ jump : Named num [1:3] 73 2 2
$ inner: int 2
$ outer: int 0
Se reporter la gure D.16 pour la reprsentation graphique de cette
dcomposition.
b) Le corrlogramme des rsidus se trouve la gure D.17. Il sagit essen-
112 Solutions
> plot(deaths.stl)
7
0
0
0
9
0
0
0
1
1
0
0
0
d
a
t
a

1
5
0
0
0
1
0
0
0
s
e
a
s
o
n
a
l
8
5
0
0
9
0
0
0
9
5
0
0
t
r
e
n
d

4
0
0
0
4
0
0
1973 1974 1975 1976 1977 1978 1979
r
e
m
a
i
n
d
e
r
time
Figure D.16: Dcomposition de la srie deaths avec la fonction stl
tiellement du corrlogramme dun bruit blanc, un processus station-
naire. Ceci indique que la tendance et la saisonnalit ont correctement
t limines de la srie.
4.4 a) La srie originale se trouve la gure D.18(a), alors que le logarithme
de la srie est reprsent la gure D.18(b) (page 114). Dans cette
dernire srie, lamplitude de la composante saisonnire est davantage
constante dans le temps. On prfrera donc utiliser le modle Y
t
=
m
t
+ s
t
+ X
t
pour le logarithme des donnes de vente de bire.
b) La priode de la srie log(beer) est denviron 12 mois. On limine
donc la saisonnalit avec une diffrence de pas 12 :
> diff(log(beer), lag = 12)
La srie rsultante est prsente la gure D.18(c). La moyenne de
cette srie nest pas stationnaire. On limine donc une composante de
tendance laide de la premire diffrence :
> diff(diff(log(beer), lag = 12))
Voir la gure D.18(d) pour la srie rsultante. Celle-ci est maintenant
stationnaire.
Solutions 113
> acf(deaths.stl$time.series[, "remainder"])
0.0 0.5 1.0 1.5

0
.
2
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Lag
A
C
F
Series deaths.stl$time.series[, "remainder"]
Figure D.17: Corrlogramme des rsidus de la dcomposition de la srie
deaths avec la fonction stl
4.5 Soit m
t
= c
0
+ c
1
t. On a

j=
a
j
m
tj
=
1
2q +1
q

j=q
(c
0
+ c
1
(t j))
=
1
2q +1
_
(2q +1)(c
0
+ c
1
t)
q

j=q
j
_
= c
0
+ c
1
t
= m
t
.
4.6 On a [a
2
, a
1
, a
0
, a
1
, a
2
] =
1
9
[1, 4, 3, 4, 1], m
t
= c
0
+ c
1
t + c
2
t
2
+ c
3
t
3
,
s
t+3
= s
t
et s
t
+ s
t+1
+ s
t+2
= 0 pour tout t. Premirement, on dmontre
114 Solutions
Time
b
e
e
r
1955 1960 1965 1970 1975 1980 1985 1990
1
0
0
1
5
0
2
0
0
(a) Srie originale
Time
lo
g
(
b
e
e
r
)
1955 1960 1965 1970 1975 1980 1985 1990
4
.
2
4
.
4
4
.
6
4
.
8
5
.
0
5
.
2
5
.
4
(b) Logarithme de la srie
Time
d
if
f
(
lo
g
(
b
e
e
r
)
,

la
g

=

1
2
)
1960 1965 1970 1975 1980 1985 1990

0
.
2

0
.
1
0
.
0
0
.
1
0
.
2
(c) diff(log(beer), lag = 12)
Time
d
if
f
(
d
if
f
(
lo
g
(
b
e
e
r
)
,

la
g

=

1
2
)
)
1960 1965 1970 1975 1980 1985 1990

0
.
2
0
.
0
0
.
2
0
.
4
(d) diff(diff(log(beer), lag = 12))
Figure D.18: Graphiques de la srie beer (exercice 4.4)
que le ltre laisse passer la tendance sans distorsion :
2

j=2
a
j
m
tj
=
1
9
[m
t+2
+4m
t+1
+3m
t
+4m
t1
m
t2
]
=
1
9
[c
0
(1 +4 +3 +4 1)
+ c
1
((t +2) +4(t +1) +3t +4(t 1) (t 2))
+ c
1
((t +2)
2
+4(t +1)
2
+3t
2
+4(t 1)
2
(t 2)
2
)
+ c
1
((t +2)
3
+4(t +1)
3
+3t
3
+4(t 1)
3
(t 2)
3
)
_
=
1
9
_
9c
0
+9c
1
t +9c
2
t
2
+9c
3
t
3
_
= m
t
.
Deuximement, on dmontre que le ltre limine une composante de
Solutions 115
saisonnalit de priode 3 :
2

j=2
a
j
s
tj
=
1
9
[s
t+2
+4s
t+1
+3s
t
+4s
t1
s
t2
]
=
1
9
[3s
t+2
+3s
t+1
+3s
t
]
=
1
3
[s
t+2
+ s
t+1
+ s
t
] = 0.
4.7 Que E[A
t
] = 0 et Var[A
t
] =
2
/(2q +1) est vident. Or, lim
q
Var[A
t
] =
0, do lon dit que {A
t
} est petite pour de grandes valeurs de q.
4.8 On a B
k
X
t
= X
tk
, m
t
= c
0
+c
1
t, s
t
= s
t+2
()
, s
t
+s
t+1
=0
()
. On souhaite
trouver les valeurs , et tel que (1 + B + B
2
+ B
3
)m
t
= m
t

(B + B
2
+ B
3
)m
t
= 0 et (1 + B + B
2
+ B
3
)s
t
= 0. Or,
(B + B
2
+ B
3
)m
t
= m
t1
+ m
t2
+ m
t3
= ( + + )(c
0
+ c
1
t) ( +2 +3)c
1
= ( + + )m
t
( +2 +3)c
1
et, en supposant que m
t
0 et que c
1
0 (sans intrt sinon), cette ex-
pression est gale 0 si
+ + = 0
+2 +3 = 0.
De plus,
(1 + B + B
2
+ B
3
)s
t
= s
t
+ s
t1
+ s
t2
+ s
t3
()
= (1 + )s
t
+ ( + )s
t1
()
= (1 + )s
t
et, en supposant que s
t
0 (ce qui est raisonnable), cette expression est
gale 0 si
+ = 1.
La rsolution du systme de trois quations donne = = 1/4 et =
1/2.
4.9 a) Il ny a quune tendance approximativement linaire liminer.
> diff(x)
Time Series:
Start = 2
End = 9
Frequency = 1
[1] -9 98 -81 64 67 20 1 -6
116 Solutions
b) Test portmanteau :
> Box.test(diff(x), lag = 4)
Box-Pierce test
data: diff(x)
X-squared = 2.3267, df = 4, p-value = 0.6759
Pour le test des changements de direction, T = (3 4)/

1,1 = 0,95 <


1,96. On ne rejette donc pas lhypothse de bruit blanc.
4.10 En effectuant une inspection visuelle, on remarque que la srie des
ventes de la Guinness de janvier 1995 novembre 1999 (un exemple
ctif obtenu partir de la srie wines.dat, par ailleurs) montre une
composante de saisonnalit de priode d = 6 (cest--dire une anne) et
une tendance linaire croissante.
> (m.t <- filter(X, filter = rep(1/3, 3),
+ sides = 2))
Time Series:
Start = c(1995, 1)
End = c(1999, 6)
Frequency = 6
[1] NA 76.66667 105.33333 119.33333
[5] 114.66667 88.33333 80.66667 87.33333
[9] 121.66667 128.00000 121.66667 87.66667
[13] 78.33333 78.66667 107.33333 117.33333
[17] 116.66667 90.66667 81.66667 90.66667
[21] 120.66667 131.33333 127.66667 100.33333
[25] 95.33333 105.33333 140.33333 147.33333
[29] 140.66667 NA
> diff(X - m.t, lag = 6)
Time Series:
Start = c(1996, 1)
End = c(1999, 6)
Frequency = 6
[1] NA 8.3333333 -10.3333333 15.3333333
[5] -11.0000000 1.6666667 3.3333333 -0.3333333
[9] -3.6666667 -5.3333333 7.0000000 -4.0000000
[13] 4.6666667 -9.0000000 11.6666667 -2.0000000
[17] -6.0000000 6.3333333 -5.6666667 2.3333333
[21] -0.6666667 7.0000000 -7.0000000 NA
Lordre dapplication du ltre ou des diffrences na pas dimportance.
> diff(X, lag = 6) - filter(diff(X, lag = 6),
+ filter = rep(1/3, 3), sides = 2)
Time Series:
Start = c(1996, 1)
Solutions 117
End = c(1999, 6)
Frequency = 6
[1] NA 8.3333333 -10.3333333 15.3333333
[5] -11.0000000 1.6666667 3.3333333 -0.3333333
[9] -3.6666667 -5.3333333 7.0000000 -4.0000000
[13] 4.6666667 -9.0000000 11.6666667 -2.0000000
[17] -6.0000000 6.3333333 -5.6666667 2.3333333
[21] -0.6666667 7.0000000 -7.0000000 NA
4.11 Le ltre est essentiellement sans aucun effet puisquil a t conu pour
laisser passer une tendance linaire et pour liminer une saisonnalit de
priode 2.
4.12 a) La srie {Y
t
} montre une tendance linaire croissante. Cette tendance
peut tre limine en diffrenciant la srie une fois pour obtenir une
nouvelle srie X
t
= Y
t
:
> diff(Y)
Time Series:
Start = 2
End = 10
Frequency = 1
[1] 1.5 1.4 0.1 1.6 1.1 -1.0 -0.4 3.7 -0.1
b) On teste lhypothse selon laquelle la srie X
t
= Y
t
est un bruit
blanc. La statistique du test portmanteau pour les 9 observations de
{X
t
} et les 8 autocorrlations empiriques (h) fournies dans lnonc
est
Q

= 9
8

h=1
(h)
2
= 3,685 <15,51 =
2
0,05, 8
.
Selon le test portmanteau, on ne rejette pas lhypothse de bruit
blanc.
Il y a 4 changements de direction dans la srie {X
t
} (observations
x
3
, x
4
, x
6
et x
8
). La statistique du test du nombre de changements de
direction est
T =

4
2
3
(7)
_
1
90
(16(9) 29)

= 0,5898 <1,96.
On ne rejette pas plus lhypothse de bruit blanc avec ce test quavec
le test effectu prcdemment. On peut ds lors conclure quun mo-
dle appropri pour la srie originale {Y
t
} est
Y
t
= c
0
+ c
1
t + Z
t
,
o {Z
t
} WN(0,
2
).
118 Solutions
Chapitre 5
5.1 a) On a
E[X
t
] = a est indpendant de t

X
(t, t + h) = b
2

Z
(h) + bc
Z
(h 2)
+ bc
Z
(h +2) + c
2

Z
(h)
=
_

_
(b
2
+ c
2
)
2
, h = 0
bc
2
, h = 2
0, ailleurs
=
X
(h).
Le processus X
t
= a + bZ
t
+ cZ
t2
est donc stationnaire.
b) On a
E[X
t
] = 0

X
(t, t + h) = cos(ct) cos(ct + ch)
2
+sin(ct) sin(ct + ch)
2
=
2
[cos
2
(ct) cos(ch) cos(ct) sin(ct) sin(ch)
+sin
2
(ct) cos(ch) +cos(ct) sin(ch) sin(ct)]
= cos(ch)
2
=
X
(h).
Le processus X
t
= Z
1
cos(ct) + Z
2
sin(ct) est donc stationnaire.
c) On a
E[X
t
] = 0

X
(t, t + h) = cos(ct) cos(ct + ch)
Z
(h)
+cos(ct) sin(ct + ch)
Z
(h 1)
+sin(ct) cos(ct + ch)
Z
(h +1)
+sin(ct) sin(ct + ch)
Z
(h)
=
_

2
, h = 0
cos(ct) sin(ct + ch)
2
, h = 1
sin(ct) cos(ct + ch)
2
, h = 1
0, ailleurs.
Le processus X
t
= Z
t
cos(ct) + Z
t1
sin(ct) nest donc pas stationnaire.
d) On a
E[X
t
] = a

X
(t, t + h) = b
2
Var[Z
0
]
= b
2

2
=
X
(h).
Solutions 119
Le processus X
t
= a + bZ
0
est donc stationnaire.
e) On a
E[X
t
] =
Z
(1) = 0

X
(t, t + h) = E[X
t
X
t+h
] E[X
t
]E[X
t+h
]
= E[Z
t
Z
t1
Z
t+h
Z
t+h1
]
=
_

2
=
4
, h = 0
0, h = 1
0, h 0
=
X
(h).
Le processus X
t
= Z
t
Z
t1
est donc stationnaire.
5.2 On sait que
k
X
t
= X
t
X
tk
, k = 1, 2, . . . et
X
(h) = Cov(X
t
, X
t+h
).
a) On a s
t
= s
t12
. Ainsi, avec Y
t
= a + bt + s
t
+ X
t
,

12
Y
t
= Y
t
Y
t12
= 12b + X
t
X
t12
et

12
Y
t
= X
t
X
t1
X
t12
+ X
t13
= W
t
.
Maintenant, il est clair que lesprance du processus {W
t
} est ind-
pendante de t, car celle du processus {X
t
} lest. En outre,

W
(h) = Cov(X
t
X
t1
X
t12
+ X
t13
,
X
t+h
X
t+h1
X
t+h12
+ X
t+h13
)
= 4
X
(h) 2
X
(h 1) 2
X
(h 12)
+
X
(h 13) 2
X
(h +1) +
X
(h 11)
2
X
(h +12) +
X
(h +11) +
X
(h +13),
ce qui est clairement indpendant de t. Le processus {W
t
} est donc
stationnaire.
b) Avec Y
t
= (a + bt)s
t
+ X
t
et, encore une fois, s
t
= s
t12
,

12
Y
t
= 12bs
t
+ X
t
X
t12
et

2
12
Y
t
= X
t
2X
t12
+ X
t24
= W
t
.
Avec une dmarche semblable celle effectue en a), on dmontre
alors que le processus {W
t
} est stationnaire.
120 Solutions
5.3 Soit
X
la moyenne et
X
(h) la FACV du processus stationnaire {X
t
},
puis
Y
et
Y
(h) les fonctions correspondantes pour le processus {Y
t
}.
Les deux processus sont indpendants. Par consquent,
E[X
t
+Y
t
] =
X
+
Y
est indpendant de t,
et

X+Y
(t, t + h) = Cov(X
t
+Y
t
, X
t+h
+Y
t+h
)
= Cov(X
t
, X
t+h
) +Cov(Y
t
, Y
t+h
)
=
X
(h) +
Y
(h),
ce qui complte la preuve.
5.4 La srie lake.dat est reprsente la gure D.19(a). Il ny a pas de com-
Time
la
k
e
1880 1900 1920 1940 1960
6
7
8
9
1
0
1
1
1
2
(a) Srie originale avec la droite de rgression
0 20 40 60 80 100

1
0
1
2
Index
r
e
s
id
u
a
ls
(
f
it
)
(b) Rsidus de rgression
0 10 20 30 40

0
.
2
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Lag
A
C
F
Series residuals(fit)
(c) FAC des rsidus de rgression
Figure D.19: Graphiques relis la srie lake (exercice 5.4)
posante de saisonnalit apparente dans cette srie, mais il y a une ten-
dance linaire dcroissante. On peut alors postuler le modle suivant
Solutions 121
pour la srie lake {Y
t
} :
Y
t
= m
t
+ X
t
, t = 1875, . . . , 1972,
o m
t
=
0
+
1
t et le modle des rsidus {X
t
} est dterminer. La valeur
de
0
et
1
est estime par les moindres carrs en utilisant la fonction lm
dans R :
> (fit <- lm(lake ~ time(lake)))
Call:
lm(formula = lake ~ time(lake))
Coefficients:
(Intercept) time(lake)
55.5549 -0.0242
Cette droite de rgression est incorpore au graphique de la srie la
gure D.19(a). Le graphique de la srie des rsidus de la rgression

X
t
= Y
t

1
t
se trouve la gure D.19(b). La fonction dautocorrlation empirique
correspondante (h) se trouve, quant elle, la gure D.19(c) pour h =
0, . . . , 40.
Puisque plus de 0,95(40) = 2 valeurs excdent les bornes de lintervalle
de conance 95 %, il est clair que les rsidus {

X
t
} ne proviennent pas
dun bruit blanc. Cette assertion est conrme par les tests portmanteau
et des changements de direction, qui tous les deux rejettent lhypothse
dun bruit blanc :
> res <- residuals(fit)
> n <- length(res)
> Box.test(res, lag = 40)
Box-Pierce test
data: res
X-squared = 109.2377, df = 40, p-value =
2.418e-08
> TP <- sum(max.col(embed(res, 3)) == 2, na.rm = TRUE) +
+ sum(max.col(embed(-res, 3)) == 2, na.rm = TRUE)
> abs((TP - 2 * (n - 2)/3)/sqrt((16 * n -
+ 29)/90)) > 1.96
[1] TRUE
La forme gnrale de la FAC empirique suggre que des modles poten-
tiels pour les rsidus {

X
t
} seraient un AR(1) ou un AR(2).
122 Solutions
Time
w
in
d
o
w
(
x
,

s
t
a
r
t

=

2
0
0
)
200 220 240 260 280 300

1
0
1
2
3
0 5 10 15 20
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Lag
A
C
F
Series x
Figure D.20: Simulation (100 dernires valeurs) et FAC empirique de la srie
{X
t
} de lexercice 5.5 b)
5.5 a) La FACV est donne par

X
(h) = Cov(Z
t
+ Z
t2
, Z
t+h
+ Z
t+h2
)
=
Z
(h) +
Z
(h 2) +
Z
(h +2) +
2

Z
(h)
=
_

_
1 +
2
, h = 0
, h = 2
0, ailleurs
puisque {Z
t
} WN(0,
2
). La FAC est alors

X
(h) =
_

_
1, h = 0

1+
2
, h = 2
0, ailleurs.
b) Le modle de la srie {X
t
} est simplement un processus MA(2) avec

1
= 0, un modle simple simuler avec la fonction arima.sim :
> x <- arima.sim(list(ma = c(0, 0.8)), n = 300)
La srie simule ainsi que sa FAC empirique se trouvent la gure
D.20. An damliorer la lisibilit du graphique, seules les 100 der-
nires valeurs de la srie sont afches.
c) La fonction arima.sim est maintenant appele avec
2
= 0.8 :
> x <- arima.sim(list(ma = c(0, -0.8)), n = 300)
La srie simule ainsi que sa FAC empirique se retrouvent la gure
D.21.
d) Oui, les corrlogrammes obtenus en b) et c) correspondent la fonc-
tion dautocorrlation thorique calcule en a).
Solutions 123
Time
w
in
d
o
w
(
x
,

s
t
a
r
t

=

2
0
0
)
200 220 240 260 280 300

1
0
1
2
3
0 5 10 15 20

0
.
5
0
.
0
0
.
5
1
.
0
Lag
A
C
F
Series x
Figure D.21: Simulation (100 dernires valeurs) et FAC empirique de la srie
{X
t
} de lexercice 5.5 c)
e) La srie avec = 0.8 uctue moins rapidement puisque les observa-
tions distantes dun pas de 2 sont corrles positivement. Elles ont
donc tendance aller dans la mme direction.
5.6 On a X
t
= X
t1
+ Z
t
, {Z
t
} WN(0,
2
) et
X
(h) =
h

X
(0),
X
(0) =

2
/(1
2
).
a) Des hypothses ci-dessus,
Var
_
X
1
+ X
2
+ X
3
+ X
4
4
_
=
1
16
(4Var[X
1
] +6
X
(1)+
+4
X
(2) +2
X
(3))
=

2
1
2
_
1
4
+
3
8
+
1
4

2
+
1
8

3
_
.
Si = 0.9 et
2
= 1, alors la variance est gale 4,638.
b) Maintenant, si = 0.9, alors la variance est gale 0,126. Lexpli-
cation de cette plus faible variance lorsque < 0 est similaire celle
donne en 5.5 e).
5.7 Tout dabord, puisque Z
t
N(0, 1), alors Z
2
t

2
(1), do E[Z
2
t
] = 1 et
Var[Z
2
t
] = 2. On a donc
E[X
t
] =
_
_
_
E[Z
t
], t pair
E
_
Z
2
t1
1

2
_
, t impair
= 0
124 Solutions
et
Var[X
t
] =
_
_
_
Var[Z
t
], t pair
Var
_
Z
2
t1
1

2
_
, t impair
= 1.
De plus,

X
(1) = Cov
_
Z
t
,
Z
2
t
1

2
_
=
1

2
Cov(Z
t
, Z
2
t
)
=
1

2
(E[Z
3
t
] E[Z
t
]E[Z
2
t
])
= 0
car tous les moments impairs dune variable alatoire normale sont nuls.
Il est clair que
X
(h) = 0 pour |h| >1. Par consquent,

X
= 0 et
X
(h) =
_
1, h = 0
0, h 0.
Ainsi, {X
t
} est WN(0, 1). Cependant, X
t
= Z
t
et X
t+1
= (Z
2
t
1)/

2 ne
sont pas des variables alatoires indpendantes, do {X
t
} nest pas un
bruit IID.
5.8 Cet exercice vise simplement illustrer comment diverses combinaisons
de valeurs dun processus de bruit blanc peuvent gnrer des observa-
tions de processus ARMA.
a) On peut calculer les valeurs de {X
t
} partir de la dnition X
t
=
0,6X
t1
+ Z
t
avec X
1
= Z
1
. On a donc
X
1
= Z
1
= 0,180
X
2
= 0,6X
1
+ Z
2
= 1,502
X
3
= 0,6X
2
+ Z
3
= 2,099
X
4
= 0,6X
3
+ Z
4
= 2,589.
De manire quivalente, la solution de lquation caractristique dun
processus AR(1) est X
t
=

j=0

j
Z
tj
. On a donc
X
1
= Z
1
= 0,180
X
2
= Z
2
+0,6Z
1
= 1,502
X
3
= Z
3
+0,6Z
2
+0,36Z
1
= 2,099
X
4
= Z
4
+0,6Z
3
+0,36Z
2
+0,216Z
3
= 2,099.
Solutions 125
b) On a X
t
= Z
t
0,4Z
t1
, donc
X
1
= Z
1
= 0,180
X
2
= Z
2
0,4Z
1
= 1,682
X
3
= Z
3
0,4Z
2
= 3,644
X
4
= Z
4
0,4Z
3
= 0,130.
c) Ici, X
t
= 0,6X
t1
+ Z
t
0,4Z
t1
. Par consquent,
X
1
= Z
1
= 0,180
X
2
= 0,6X
1
+ Z
2
0,4Z
1
= 1,574
X
3
= 0,6X
2
+ Z
3
0,4Z
2
= 2,700
X
4
= 0,6X
3
+ Z
4
0,4Z
3
= 1,750.
On peut galement dmontrer que la rprsentation MA() dun pro-
cessus ARMA(1, 1) est X
t
= Z
t
+ ( +)

j=1

j1
Z
tj
. On a donc, de
manire quivalente,
X
1
= Z
1
= 0,180
X
2
= Z
2
+0,2Z
1
= 1,574
X
3
= Z
3
+0,2(Z
2
+0,6Z
1
) = 2,700
X
4
= Z
4
+0,2(Z
3
+0,6Z
2
+0,36Z
3
) = 1,750.
5.9 a) On a X
t
=

j=0

j
Z
tj
, do
X
t
X
t1
=

j=0

j
Z
tj

j=0

j
Z
t1j
=

j=0

j
Z
tj

j=0

j+1
Z
t1j
=

j=0

j
Z
tj

j=1

j
Z
tj
= Z
t
.
b) On a cette fois X
t
=

j=1

j
Z
t+j
, do
X
t
X
t1
=

j=1

j
Z
t+j
+

j=1

j
Z
t1+j
=

j=1

j
Z
tj
+

j=1

j+1
Z
t1+j
=

j=1

j
Z
tj
+

j=0

j
Z
tj
= Z
t
.
126 Solutions
La solution nest videmment pas causale puisque les valeurs du pro-
cessus {X
t
} sont dtermines par des valeurs futures du processus
{Z
t
}.
5.10 Dans ce qui suit, z
k
, k = 1, 2 reprsentent les racines du polynme en z.
a) Processus AR(2) : X
t
+ 0.2X
t1
0.48X
t2
= Z
t
(z) = 1 + 0.2z
0.48z
2
|z
1
| = |5/3| >1 et |z
2
| = | 1.25| >1. De plus, (z) 1. Le
processus {X
t
} est donc stationnaire et rversible.
b) Processus ARMA(2, 2) : X
t
+ 1.9X
t1
0.88X
t2
= Z
t
+ 0.2Z
t1
+
0.7Z
t2
(z) = 1 + 1.9z 0.88z
2
|z
1
| = |2.5967| > 1 et |z
2
| =
| 0.4376| < 1. De plus, (z) = 1 + 0.2z + 0.7z
2
z
1,2
= 0.1429
1.1867i |z
1,2
| =
_
(0.1429)
2
+ (1.1867)
2
> 1. Le processus {X
t
}
nest donc pas stationnaire, mais il est rversible.
c) Processus ARMA(1, 1) : X
t
+ 0.6X
t1
= Z
t
+ 1.2Z
t1
(z) = 1 +
0.6z || =| 0.6| <1. De plus, (z) = 1 +1.2z || =|1.2| >1. Le
processus {X
t
} est alors stationnaire, mais non rversible.
d) Processus AR(2) : X
t
+ 1.8X
t1
0.81X
t2
= Z
t
(z) = 1 + 1.8z
0.81z
2
|z
1
| =| 0.4602| <1 et |z
2
| =|2.6825| >1. De plus, (z) 1.
Le processus {X
t
} nest donc pas stationnaire, mais il est rversible.
e) Processus ARMA(1, 2) : X
t
+ 1.6X
t1
= Z
t
0.4Z
t1
+ 0.04Z
t2

(z) =1 +1.6z || =| 1.6| >1. De plus, (z) =1 0.4z +0.04z
2

|z
1
| = |z
2
| = |5| > 1. Le processus {X
t
} nest donc pas stationnaire,
mais il est rversible.
5.11 a) Pour dmontrer que la srie {Y
t
} est stationnaire, on doit connatre
la covariance entre X
t
et W
s
pour tout t et s. Comme {X
t
} est un
processus AR(1) stationnaire, on peut lcrire sous la forme X
t
=

j=0

j
Z
tj
. On constate donc que
Cov(X
t
, W
s
) =

j=0

j
Cov(Z
tj
, W
s
) = 0,
car Cov(Z
t
, W
s
) = E[Z
t
W
s
] = 0. Par consquent, E[X
t
] = E[Y
t
+W
t
] =
0 et

Y
(h) = Cov(X
t+h
+W
t+h
, X
t
+W
t
)
=
X
(h) +
W
(h)
=
_

2
Z
1
2
+
2
W
, h = 0

|h|
1
2

2
Z
, h 0,
car {X
t
} AR(1) et {W
t
} WN(0,
2
W
). Puisque les fonctions E[Y
t
]
et
Y
(h) ne dpendent pas du temps, on conclut que le processus
{Y
t
} est stationnaire.
Solutions 127
b) On a U
t
= Y
t
Y
t1
, do

U
(h) = Cov(Y
t
Y
t1
, Y
t+h
Y
t+h1
)
= (1 +
2
)
Y
(h)
Y
(h 1)
Y
(h +1)
=
_

_
(1 +
2
)
2
W
+
2
Z
, h = 0

2
W
, h = 1
0, |h| >1.
Ainsi, {U
t
} est 1corrle et, en raison de la correspondance biuni-
voque entre les modles ARMA et leur FACV, il sagit dun processus
MA(1) avec paramtres et
2
.
c) Si {Y
t
Y
t1
} MA(1), alors {Y
t
} ARMA(1, 1), car la srie {Y
t
}
peut tre exprime comme tant la solution de Y
t
Y
t1
= V
t
+
V
t1
, o {V
t
} WN(0,
2
). Les paramtres de ce modle ARMA(1, 1)
sont , et
2
, o et
2
sont les solutions du systme dquations
non linaires
(1 +
2
)
2
W
+
2
Z
, = (1 +
2
)
2

2
W
=
2
.
5.12 a) En multipliant lquation caractristique dun processus ARMA(p, q)
de part et dautre par X
th
, puis en prenant lesprance, on obtient
p

k=0

k
E[X
tk
X
th
] =
p

k=0

k
E[Z
tk
X
th
],
avec
0
=
0
=1. Or, E[X
tk
X
th
] =
X
(h k) et, en utilisant lidentit
X
th
=

j=0

j
Z
thj
,
E[Z
tk
X
th
] =

j=0

j
E[Z
tk
Z
thj
]
=

j=0

k,h+j

2
.
On a donc
p

k=0

X
(h k) =
q

k=0

j=0

k,h+j

2
=
2

j=0

h+j
pour h = 0, . . . , q. Lorsque h > q, le ct droit de lquation est gal
0.
128 Solutions
b) Pour le processus ARMA(1, 1), on a, pour h = 0 et h = 1,

X
(0)
X
(1) =
2
(1 +
1
)

X
(1)
X
(0) =
2
.
Or, on sait que, pour le processus ARMA(1, 1),
1
= + . La solu-
tion de ce systme dquations est, par consquent,

X
(0) =
2
_
1 +
1
+
1
2
_
=
2
_
1 +
( + )
2
1
2
_
et

X
(1) =
2
+
X
(0)
=
2
_
+ +
( + )
2

1
2
_
.
Pour h >1, on a

X
(2) =
X
(1)

X
(3) =
X
(2)
=
2

X
(1)
soit, de manire gnrale,

X
(h) =
h1

X
(1), h >1.
5.13 a) Il sagit dun processus ARMA(1, 0), ou plus simplement AR(1). Les
coefcients
1
,
2
et
3
satisfont lgalit
(1 +
1
z +
2
z
2
+
3
z
3
+ . . . )(1 0,5z) = 1,
soit

1
= 0,5

2
= 0,5
1
= 0,25

3
= 0,5
2
= 0,125.
On conrme cette rponse avec la fonction ARMAtoMA de R :
> ARMAtoMA(ar = 0.5, lag.max = 3)
[1] 0.500 0.250 0.125
Puisque le processus est dj invers, on sait que les coefcients de
la reprsentation AR() sont simplement
1
=0,5 et
j
= 0, j >1.
Solutions 129
b) On a un processus MA(2) avec
1
= 1,3,
2
= 0,4 et
j
= 0, j > 2.
Les trois premiers coefcients de la reprsentation AR() satisfont
lquation
(1 +
1
z +
2
z
2
+
3
z
3
+ . . . )(1 1,3z +0,4z
2
) = 1,
soit

1
= 1,3

2
= 0,4 +1,3
1
= 1,29

3
= 0,4
1
+1,3
2
= 1,157.
On peut calculer les coefcients
j
avec la fonction ARMAtoMA dans
R en inversant simplement le rle des coefcients
j
et
j
(ainsi que
leur signe). En dautres mots, trouver les coefcients
j
du processus
X
t
= Z
t
1,3Z
t1
+ 0,4Z
t2
est en tous points quivalent trouver
les coefcients
j
du processus X
t
1,3X
t1
+ 0,4X
t2
= Z
t
. On a
donc
> ARMAtoMA(ar = c(1.3, -0.4), lag.max = 3)
[1] 1.300 1.290 1.157
c) On a un processus ARMA(1, 2). Les trois premiers coefcients
j
sont obtenus en galant les coefcients des puissances de z dans
(1 +
1
z +
2
z
2
+
3
z
3
+ . . . )(1 0,5z) = 1 1,3z +0,4z
2
.
On obtient

1
= 0,5 1,3 = 0,8

2
= 0,5
1
+0,4 = 0

3
= 0,5
2
= 0.
Conrmation avec R :
> ARMAtoMA(ar = 0.5, ma = c(-1.3, 0.4), lag.max = 3)
[1] -0.8 0.0 0.0
Les trois premiers coefcients
j
sont obtenus partir de lquation
(1 +
1
z +
2
z
2
+
3
z
3
+ . . . )(1 1,3z +0,4z
2
) = 1 0,5z,
soit

1
= 1,3 0,5 = 0,8

2
= 0,4 +1,3
1
= 0,64

3
= 0,4
1
+1,3
2
= 0,512.
En effet,
130 Solutions
> ARMAtoMA(ar = c(1.3, -0.4), ma = -0.5, lag.max = 3)
[1] 0.800 0.640 0.512
d) On a en fait (1 0,2B)(1 B)X
t
= Z
t
0,5Z
t1
, soit un processus
ARIMA(1, 1, 1). Les trois premiers coefcients
j
sont obtenus par-
tir de lquation
(1 +
1
z +
2
z
2
+
3
z
3
+ . . . )(1 1,2z +0,2z
2
) = 1 0,5z,
do

1
= 1,2 0,5 = 0,7

2
= 1,2
1
0,2 = 0,640

3
= 1,2
2
0,2
1
= 0,628.
On obtient le mme rsultat avec ARMAtoMA :
> ARMAtoMA(ar = c(1.2, -0.2), ma = -0.5, lag.max = 3)
[1] 0.700 0.640 0.628
Pour les trois premiers coefcients
j
, on rsout
(1 +
1
z +
2
z
2
+
3
z
3
+ . . . )(1 0,5z) = 1 1,2z +0,2z
2
,
ce qui donne

1
= 0,5 1,2 = 0,7

2
= 0,5
1
+0,2 = 0,15

3
= 0,5
2
= 0,075.
En effet :
> ARMAtoMA(ar = 0.5, ma = c(-1.2, 0.2), lag.max = 3)
[1] -0.700 -0.150 -0.075
5.14 Lautocorrlation partielle de pas 2,
22
, est donne par

21
+
22
(1) = (1)

21
(1) +
22
= (2).
Or, pour un processus MA(1), (1) = /(1 +
2
) et (2) = 0. On a donc

22
=
(1)
2
1 (1)
2
=

2
1 +
2
+
4
.
5.15 a) Puisque V[]
2
I, lestimateur des moindres carrs gnraliss a
une plus faible variance que lestimateur des moindres carrs ordi-
naires.
Solutions 131
b) On sait que {
t
} AR(1) avec = 0,8 et
2
= 9. Par consquent,

(h) =

2
1
2

h
= 25(0,8)
h
, h = 0, 1, 2, . . .
do la matrice V = V[] utiliser dans les moindres carrs gnra-
liss est
V = 25
_

_
1 0,8 0,8
2
. . . 0,8
n1
0,8 1 0,8 . . . 0,8
n2
.
.
.
.
.
.
.
.
.
0,8
n1
0,8
n2
0,8
n3
. . . 1
_

_
.
Chapitre 6
6.1 a) La premire autocorrlation partielle est toujours gale la premire
autocorrlation. Par consquent,

11
= (1)
=

n1
t=1
(x
t
x)(x
t+1
x)

n
t=1
(x
t
x)
2
= 0,2695.
b) Pour un processus AR(1), on a toujours
22
= 0.
6.2 On sait des notes de cours que les estimateurs de YuleWalker des para-
mtres et
2
dun modle MA(1) sont obtenus avec

2
=
(1)

(1) =

1 +

2
.
En isolant

dans la seconde quation et en supposant que | (1)| < 1 et
|

| <1, on obtient

=
1
_
1 4 (1)
2
2 (1)
.
6.3 a) Par dnition de la fonction dautocovariance,

X
(h) = Cov(X
t
, X
t+h
)
=
_

_
(1 +
2
1
+
2
12
)
2
h = 0

2
h = 1

12

2
h = 11

12

2
h = 12.
132 Solutions
b) On a
> y <- diff(diff(deaths, lag = 12))
> mean(y)
[1] 28.83051
> acf(y, lag.max = 12, type = "covariance",
+ plot = FALSE)$acf
, , 1
[,1]
[1,] 152669.632
[2,] -54326.528
[3,] -15071.682
[4,] 14584.568
[5,] -17177.694
[6,] 6340.251
[7,] 17420.908
[8,] -31164.460
[9,] -1087.513
[10,] 15277.175
[11,] -12434.670
[12,] 29801.969
[13,] -50866.898
c) En suivant la procdure mentionne dans lnonc, on obtient les es-
timateurs des paramtres
1
,
12
et
2
suivants :

1
=
(11)
(12)
= 0,5859

12
=
(11)
(1)
= 0,5486

2
=
(1) (12)
(11)
= 92730.
Un modle pour la srie {
12
X
t
} est donc

12
X
t
= 28,83 + Z
t
0,5859Z
t1
0,5486Z
t12
,
o {Z
t
} WN(0, 92730).
6.4 a) On sait que le processus AR(2) est stationnaire si

2
+
1
<1

1
<1
1 <
2
<1.
Dans le prsent cas o
1
= et
2
=
2
, sera stationnaire si

2
+ <1

2
<1
1 <
2
<1.
Solutions 133
On vrie alors aisment que les trois ingalits sont satisfaites ds
lors que
1

5
2
< <
1 +

5
2
.
b) Il y a seulement deux paramtres estimer dans ce modle AR(2)
spcial. Les estimateurs de YuleWalker des paramtres et
2
sont
les solutions de ce systme dquations :
(1) =

+

2
(1)

2
= (0)(1

(1)

2
(2)).
Or, en utilisant les valeurs de (0), (1) et (2) fournies dans lnonc
et en choisissant la solution stationnaire, on obtient

= 0,509

2
= 2,983.
6.5 a) La FACP tombe (statistiquement) zro aprs un pas de 2, donc le
processus est un AR(2).
b) Par les quations de YuleWalker,
(1) =
1
(0) +
2
(1)
(2) =
1
(1) +
2
(0)
et

2
= (0)
1
(1)
2
(2).
En remplaant les valeurs de la FACV par (0) = 6,5, (1) = 5,94
et (2) = 5,74, puis en rsolvant le systme dquations linaires, on
obtient :

1
= 0,6479,

2
= 0,2911 et
2
= 0,9888.
6.6 Lautocorrlation partielle de pas 3 correspond la valeur de
3
lorsque
lon ajuste un modle AR(3) aux donnes. Cette valeur est donne dans
le troisime appel de la fonction ar. On a donc directement
33
= 0,0993.
6.7 On peut faire lexprience avec les quelques lignes de codes suivantes :
> f <- function(ar) {
+ ar(arima.sim(n = 200, model = list(ar = ar)),
+ aic = FALSE, order.max = 2)$ar
+ }
> rowMeans(replicate(1000, f(c(0.3, 0.6))))
[1] 0.2944099 0.5640856
Selon ces rsultats, les estimateurs de YuleWalker sont lgrement biai-
ss ngativement.
134 Solutions
Chapitre 7
7.1 La prvision pour la priode n +1 calcule avec le lissage exponentiel est

X
n
(1) = X
n
+ (1 )

X
(n1)
(1), pour x. Ici, on doit dabord trouver
la valeur de utilise pour calculer les prvisions aux temps t = 1, . . . , 5.
On a
49,27 = 48 +49,44(1 ),
do = 0,1181. Par consquent,

X
5
(1) = 0,1181(39) + (1 0,1181)(49,27)
= 48,0571.
7.2 On rcrit tout dabord lquation caractristique sous la forme
X
t
= (
1
+1)X
t1
+ (
2

1
)X
t2

2
X
t3
+ Z
t
.
Par les proprits de loprateur de prvision, on a alors

X
n
(1) = (
1
+1)X
n
+ (
2

1
)X
n1

2
X
n2

X
n
(2) = (
1
+1)

X
n
(1) + (
2

1
)X
n

2
X
n1

X
n
(3) = (
1
+1)

X
n
(2) + (
2

1
)

X
n
(1)
2
X
n
et

X
n
(h) = (
1
+1)

X
n
(h 1) + (
2

1
)

X
n
(h 2)
2

X
n
(h 3)
pour h >3.
7.3 a) On peut rcrire lquation caractristique comme
(1 +0,6B)(1 B)
2
X
t
= Z
t
,
et donc le modle est un ARIMA(1, 2, 0) avec = 0,6 et
2
= 9.
b) Le processus W
t
=
2
X
t
satisfait les quations
(1 +0,6B)W
t
= Z
t
,
do {W
t
} AR(1). En crivant ce processus sous la forme MA(),
on trouve
W
t
=

j=0
(0,6)
j
Z
tj
et

j=0
|(0,6)
j
| = 2,5 < . Par consquent, {W
t
} est un processus
linaire, qui est toujours stationnaire par la Proposition 5.1 des notes
de cours.
Solutions 135
c) En isolant X
t
dans lquation caractristique du processus {X
t
}, on
obtient
X
t
= 1,4X
t1
+0,2X
t2
0,6X
t3
+ Z
t
.
Par consquent,

X
n
(1) = 1,4X
n
+0,2X
n1
0,6X
n2
et

X
n
(2) = 1,4

X
n
(1) +0,2X
n
0,6X
n1
,
do

X
10
(1) = 12,4 et

X
10
(2) = 14,36. De plus, on a que Var[X
12

X
10
(2)] =
2
(1 +
2
1
). Or, en posant
(1 1,4z 0,2z
2
+0,6z
3
)(1 +
1
z +
2
z
2
+ . . . ) = 1,
on trouve
1
= 1,4, do Var[X
12


X
10
(2)] = 9(1 +1,4
2
) = 26,64.
7.4 a) Le terme (1 B)
2

2
indique une tendance quadratique, alors que
le terme (1 B
12
)
12
montre que la srie contient de la saisonnalit
de priode 12.
b) On a
(z) = (1 +0,6z)(1 z)
2
(1 z
12
)
= 1 1,4z 0,2z
2
+0,6z
3
z
12
+1,4z
13
+0,2z
14
0,6z
15
.
Par consquent,
X
t
= 1,4X
t1
+0,2X
t2
0,6X
t3
+ X
t12
1,4X
t13
0,2X
t14
+0,6X
t15
+ Z
t
,
do

X
n
(1) = 1,4X
n
+0,2X
n1
0,6X
n2
+ X
n11
1,4X
n12
0,2X
n13
+0,6X
n14
= 4430,4
et

X
n
(2) = 1,4

X
n
(1) +0,2X
n
0,6X
n1
+ X
n10
1,4X
n11
0,2X
n12
+0,6X
n13
= 4517,96.
Dautre part, on trouve partir de (z)(1 +
1
z +
2
z
2
+ . . . ) = 1
que le premier coefcient dans la reprsentation MA() de {X
t
} est

1
= 1,4, do Var[X
n+2


X
n
(2)] =
2
(1 +
2
1
) = 14,8. Un intervalle
de prvision 95 % pour la priode n +2 est donc
4517.96 1,96

14,8 (4510,42, 4525,5).


Bibliographie
Abraham, B. et J. Ledolter. 1983, Statistical Methods for Forecasting, Wiley, New
York, ISBN 0-4718676-4-0.
Brockwell, P. J. et R. A. Davis. 1996, Introduction to Time Series and Forecasting,
Springer, New York, ISBN 0-3879471-9-1.
Draper, N. R. et H. Smith. 1998, Applied Regression Analysis, 3
e
d., Wiley, New
York, ISBN 0-4711708-2-8.
Goulet, V. 2007, Introduction la programmation en S, 2
e
d., Document
libre publi sous contrat GNU FDL, ISBN 978-2-9809136-7-9. URL http:
//vgoulet.act.ulaval.ca/intro_S.
Miller, R. B. et D. W. Wichern. 1977, Intermediate Business Statistics, HRW,
Orlando, FL, ISBN 0-0308910-1-9.
Venables, W. N. et B. D. Ripley. 2002, Modern Applied Statistics with S, 4
e
d.,
Springer, New York, ISBN 0-3879545-7-0.
Venables, W. N., D. M. Smith et the R Development Core Team. 2005, An
Introduction to R: A Language and Environment for Statistical Computing, R
Foundation for Statistical Computing, Vienna, Austria. URL http://www.
r-project.org.
137
Index
Cet index contient des entres pour les annexes A et B seulement. Les nu-
mros de page en caractres gras indiquent les pages o les concepts sont
introduits, dnis ou expliqus.
+, 40
-, 40
abline, 40, 43, 46
acf, 50, 50, 54
add1, 40
addterm, 40, 43
anova, 40, 43, 46
ar, 50, 51, 5456
Arima (classe), 52
arima, 50, 51, 51, 52, 54, 57
arima.sim, 50, 52, 55
ARMAacf, 50, 51
ARMAtoMA, 50, 52
as.data.frame, 40
attach, 40, 4547
autocorrlation, 50, 51
partielle, 50, 51
autocovariance, 50
cbind, 40, 47
class, 45, 53
coef, 40, 43
coefficients, 40, 43
col, 47, 55
colnames, 40
confint, 40, 43
corrlogramme, 49, 52
cts, 49, 50
cycle, 50
data, 45, 46
data frame, 39
data.frame, 40
detach, 40, 46
deviance, 40, 43, 46
df.residual, 40, 43
diff, 50
drop1, 40
dropterm, 40, 43
end, 50, 53
filter, 50
fitted, 40, 43, 44
formula (classe), 41
formule, 40
frequency, 50, 53
interval, 44
its, 49, 50
level, 44
list, 55
LjungBox, 52
lm, 40, 42, 43, 45, 46
lm (classe), 4244
matlines, 40, 44, 47
matplot, 40, 44, 47
mean, 46
mfcol, 56
mfrow, 56
mode, 45, 53
139
140 Index
model, 52, 55
names, 40, 45
newdata, 44
order, 47, 51, 54, 55
pacf, 50, 50
package
MASS, 40, 43, 56
par, 56
plot, 40, 41, 44, 45, 50, 54
plot.lm, 44
portmanteau, 52
predict, 40, 44, 46, 47, 50, 52, 55
processus
ARIMA, 51
ARMA, 50
inversion, 52
SARIMA, 51
rbind, 40
read.table, 39, 40, 47, 49
rgression, 3944
diagnostics, 43
formules, 40
importation de donnes, 39
modlisation, 41
prvisions, 44
rep, 47
residuals, 40, 43, 46
row.names, 40, 45
rownames, 40
rts, 49, 50
scan, 49, 53
sd, 55
seasonal, 51, 54
sries chronologiques, voir aussi pro-
cessus, 4952
cration, 49
diagnostics, 52
estimation, 50
identication, 49
importation de donnes, 49
prvisions, 52
simulation, 52
sort, 47
start, 50, 53
step, 40
stepAIC, 40, 43
stl, 50
sum, 46
summary, 40, 43, 46, 48
time, 50
ts, 49, 50, 53
ts.plot, 50, 55, 57
tsdiag, 50, 52, 52, 57
update, 40, 44, 46
window, 49, 50, 53
9 782981 141606
ISBN 978-2-9811416-0-6

S-ar putea să vă placă și