Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Analyse des S eries Temporelles et Applications
Eric Moulines, Fran cois Roue T el ecom ParisTech 15 septembre 2010
Table des mati` eres

I Processus au second ordre, repr esentation spectrale et pr ediction
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
5 5 6 6 8 10 11 14 14 17 20 23 23 24 24 27 31 36 36 36 38 39 41 43 43 43 50 54
1 Processus al eatoires et stationnarit e 1.1 Quelques exemples . . . . . . . . . . . . . . . . . . . . . . . 1.2 D enition et construction de la loi dun processus al eatoire 1.2.1 Processus al eatoire . . . . . . . . . . . . . . . . . . . 1.2.2 R epartitions nies . . . . . . . . . . . . . . . . . . . 1.2.3 Stationnarit e stricte dun processus ` a temps discret . 1.2.4 Processus gaussiens . . . . . . . . . . . . . . . . . .
2 El ements dAnalyse Hilbertienne 2.1 D enitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Projection et principe dorthogonalit e . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Bases Hilbertiennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Processus stationnaires au second ordre 3.1 Processus du second ordre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Covariance dun processus stationnaire au second ordre . . . . . . . . . . . . 3.2.1 Propri et es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2 Interpr etation de la fonction dautocovariance . . . . . . . . . . . . . . 3.3 Mesure spectrale dun processus stationnaire au second ordre ` a temps discret
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
4 Filtrage des processus stationnaires au second ordre 4.1 Filtrages lin eaires de processus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.1 D enition et exemples de base . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.2 Filtrage des processus stationnaires au second ordre . . . . . . . . . . . . . . . 4.1.3 Filtres ` a r eponse impulsionnelle sommable . . . . . . . . . . . . . . . . . . . . . 4.1.4 Repr esentation spectrale des processus stationnaire du second ordre et ltrage lin eaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Processus ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Processus MA(q ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.2 Processus AR(p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.3 Processus ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Preuves des th eor` emes 4.1.6 et 4.1.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5 Pr ediction des processus stationnaires au second ordre 5.1 Pr ediction lin eaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.1 Estimation lin eaire en moyenne quadratique . . . . . . . . . . . 5.1.2 Pr ediction lin eaire dun processus stationnaire au second-ordre 5.2 Algorithme de Levinson-Durbin . . . . . . . . . . . . . . . . . . . . . . 5.3 Algorithme de Schur . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4 Algorithme des innovations . . . . . . . . . . . . . . . . . . . . . . . . 5.5 D ecomposition de Wold . . . . . . . . . . . . . . . . . . . . . . . . . . 5.6 Preuves des th eor` emes 5.1.3 et 5.5.3 . . . . . . . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
57 57 57 58 62 65 68 70 75
II
Estimation pour les processus lin eaires

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
78
79 79 81 83 86 87 88 91 94 95
6 Statistique Asymptotique 6.1 Notions de convergence . . . . . . . . . 6.2 Suites tendues . . . . . . . . . . . . . . . 6.3 Caract erisations de la convergence en loi 6.4 Th eor` eme de continuit e . . . . . . . . . 6.5 Loi des grands nombres . . . . . . . . . 6.6 Th eor` eme de la limite centrale . . . . . 6.7 Symboles o et O stochastiques . . . . . . 6.8 Deltam ethode . . . . . . . . . . . . . . 6.9 Convergence des moments . . . . . . . .
7 Estimation de la moyenne et de la fonction dautocovariance 97 7.1 Estimation de la moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 7.2 Estimation des coecients dautocovariance et dautocorr elation . . . . . . . . . . . . 99 7.3 Th eor` emes Limites pour les observations d ependantes . . . . . . . . . . . . . . . . . . 106 8 Estimation de la densit e spectrale 114 8.1 Le p eriodogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 8.2 Estimateur ` a noyau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 8.3 Preuves des th eor` emes 8.1.2, 8.1.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 9 Estimation des mod` eles ARMA (p, q ) : m ethodes el ementaires 9.1 Estimation AR : m ethode de Yule-Walker . . . . . . . . . . . . . . . . . . . . . . . . . 9.2 Estimation MA : m ethode de Durbin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3 Estimation ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 Estimation des mod` eles ARMA(p, q ) : m ethodes de maximum de vraisemblance 10.1 M ethode du Maximum de vraisemblance pour les mod` eles AR . . . . . . . . . . . . . . 10.1.1 mod` ele AR(1) : M ethode du maximum de vraisemblance exact . . . . . . . . . 10.1.2 mod` ele AR(1) : une autre m ethode de calcul de la vraisemblance . . . . . . . . 10.1.3 mod` ele AR(1) : m ethode du maximum de vraisemblance conditionnel . . . . . 10.1.4 mod` ele AR(p) : M ethode du maximum de vraisemblance exact . . . . . . . . . 2 129 129 131 134 137 137 137 139 140 141
10.1.5 Mod` ele AR(p) : Maximum de vraisemblance approch e . . . . . . . . . 10.2 M ethode du maximum de vraisemblance pour les mod` eles MA . . . . . . . . 10.2.1 mod` ele MA(1) : m ethode du maximum de vraisemblance exact . . . . 10.2.2 mod` ele MA(1) : m ethode du maximum de vraisemblance conditionnel 10.2.3 Mod` ele MA(q ) : M ethode du maximum de vraisemblance exact . . . . 10.3 M ethode du maximum de vraisemblance pour les mod` eles ARMA . . . . . . . 10.4 M ethodes num eriques doptimisation . . . . . . . . . . . . . . . . . . . . . . . 10.4.1 Algorithme de la plus forte pente . . . . . . . . . . . . . . . . . . . . . 10.4.2 Algorithme de Newton et de quasi Newton . . . . . . . . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
143 144 144 147 149 150 150 151 152
III
Mod` eles d etats

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
153
154 154 155 159 161 165 170 173 173 174 176 178 178 179 179 180 182 184 184
11 D enitions, exemples et inf erence des etats 11.1 D enition . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Filtrage dans le mod` ele lin eaire Gaussien . . . . . . 11.3 Lissage dans le mod` ele lin eaire Gaussien . . . . . . . 11.4 Le ltre de Kalman . . . . . . . . . . . . . . . . . . . 11.5 Equations de pr ediction et de ltrage . . . . . . . . . 11.6 Lissage . . . . . . . . . . . . . . . . . . . . . . . . . . 11.7 La m ethode ` a deux ltres . . . . . . . . . . . . . . . 11.7.1 Param etrisation par la matrice dinformation 11.7.2 Le mod` ele lin eaire gaussien (Encore !) . . . . 11.7.3 R ecursion r etrograde . . . . . . . . . . . . . .
12 Estimation des param` etres pour les mod` eles d etats 12.1 Maximum de vraisemblance : lapproche innovation . . . . . . . . . . . . 12.2 Maximum de vraisemblance dans des mod` eles ` a donn ees latentes . . . . 12.2.1 Formulation du probl` eme et notations . . . . . . . . . . . . . . . 12.2.2 Lalgorithme EM . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.2.3 M ethodes directes . . . . . . . . . . . . . . . . . . . . . . . . . . 12.2.4 Avantages et incov enients des algorithmes de gradient . . . . . . 12.2.5 Quantit e interm ediaire de lEM pour le mod` ele lin eaire Gaussien
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
IV
Annexes
187
188 191
A Rappels sur la transform ee de Fourier B Compl ements sur les matrices
Premi` ere partie
Processus au second ordre, repr esentation spectrale et pr ediction
Chapitre 1
Processus al eatoires et stationnarit e

1.1 Quelques exemples
Le paragraphe 1.2 d enit le formalisme probabiliste permettant de d ecrire les processus al eatoires. Les quelques exemples qui suivent illustrent la diversit e des situations dans lesquelles la mod elisation stochastique (ou al eatoire) des s eries temporelles joue un r ole important. 1.1 Exemple (Battements cardiaques): La gure 1.1 repr esente l evolution, sur une dur ee totale de 900 secondes, du rythme cardiaque dun sujet au repos. Ce rythme est mesur e en nombre de battements par minute toutes les 0.5 secondes.
110
100
90
80
70
200
400
600
800
Figure 1.1 Battements cardiaques : evolution du nombre de battements par

minute en fonction du temps mesur e en seconde.
1.2 Exemple (Trac internet): La gure 1.2 repr esente les temps dinter-arriv ees de paquets TCP, mesur es en secondes, sur la passerelle du laboratoire Lawrence Livermore. La trace repr esent ee a et e obtenue en enregistrant 2 heures de trac. Pendant cette dur ee, environ 1.3 millions de paquets TCP, UDP, etc. ont et e enregistr es, en utilisant la
proc edure tcpdump sur une station Sun. Dautres s eries de ce type peuvent etre obtenues sur The Internet Trac Archive, http ://ita.ee.lbl.gov/.
0.25
0.2
0.15
0.1
0.05
10
12 x 10
5
Figure 1.2 Trace de trac Internet : temps dinter-arriv ees de paquets TCP.
1.3 Exemple (Parole): La gure 1.3 repr esente un segment de signal vocal echantillonn e (la fr equence d echantillonnage est de 8000 Hz). Ce segment de signal correspond ` a la r ealisation du phon` eme ch (comme dans chat) qui est un son dit fricatif, cest-` a-dire produit par les turbulences du ot dair au voisinage dune constriction (ou resserrement) du conduit vocal. 1.4 Exemple (Indice nancier): La gure 1.4 repr esente les cours douverture journaliers de lindice Standard and Poor 500, du 2 Janvier 1990 au 25 Ao ut 2000. lindice S&P500 est calcul e` a partir de 500 actions choisies parmi les valeurs cot ees au New York Stock Exchange (NYSE) et au NASDAQ en fonction de leur capitalisation, leur liquidit e, leur repr esentativit e dans di erents secteurs dactivit e. Cet indice est obtenu en pond erant le prix des actions par le nombre total dactions, le poids de chaque valeur dans lindice composite etant proportionnel ` a la capitalisation.
1.2
1.2.1
D enition et construction de la loi dun processus al eatoire

Processus al eatoire
D enition 1.2.1 (Processus al eatoire) Soient (, F , P) un espace de probabilit e, T un ensemble dindices et (E, E ) un espace mesurable. On appelle processus al eatoire une famille {Xt , t T } de v.a. ` a valeurs dans (E, E ) index ees par t T . Le param` etre t repr esente ici le temps. Lorsque T Z, nous dirons que le processus est ` a temps discret et, lorsque T R, que le processus est ` a temps continu. Dans la suite de cet ouvrage, nous 6
Figure 1.3 Signal de parole echantillonn e` a 8000 Hz : son non vois e ch.
1600 1400 1200 1000 800 600 400 200 500 1000 1500 2000 2500
Figure 1.4 Cours quotidien douverture de lindice S&P500 : entre Janvier

1990 et Ao ut 2000.
nous int eresserons de fa con prioritaire aux processus ` a temps discret T Z. Quant ` a (E, E ), nous consid ererons le plus souvent (R, B (R)) (o` u B (R) est la tribu bor elienne de R) ou (Rd , B (Rd )). Dans le premier cas, on dira que le processus al eatoire est scalaire. Dans le second, nous dirons que le processus est vectoriel. Notons quen fait un processus est une application X : T E , (, t) Xt ( ) telle que : ` a chaque instant t T , lapplication Xt ( ) (E, E ) est une variable al eatoire, pour chaque epreuve , lapplication t Xt ( ) est une fonction de T E qui sappelle la trajectoire associ ee ` a l epreuve .
1.2.2
R epartitions nies
Etant donn es 2 espaces mesurables (E1 , E1 ) et (E2 , E2 ), on d enit lespace mesurable produit (E1 E2 , E1 E2 ) o` u d esigne le produit cart esien usuel des ensembles et lop eration correspondante sur les tribus : E1 E2 d esigne la tribu engendr ee par {A1 A2 , A1 E1 : A2 E2 }, ce que lon ecrira E1 E2 = {A1 A2 : A1 E1 , A2 E2 } . Comme la classe densembles {A1 A2 : A1 E1 , A2 E2 } est stable par intersection, une probabilit e sur E1 E2 est caract eris ee par sa restriction ` a cette classe (voir le cours de probabilit e). On d enit de m eme un espace mesurable produit (E1 En , E1 En ) ` a partir dun nombre ni n despaces mesurables (Et , Et ), t T . Si T nest pas de cardinal ni, cette d enition se g en eralise en consid erant la tribu engendr ee par les cylindres sur le produit cart esien tT Et qui contient lensemble des familles (xt )tT telles que xt Et pour tout t T . Examinons le cas qui nous servira par la suite o` u (Et , Et ) = (E, E ) pour tout t T . On note alors E T = tT E lensemble des trajectoires (xt )tT telles que xt E pour tout t, que lon munit de la tribu engendr ee par les cylindres E T =
tI
At E T \I : I I , t I, At F
o` u lon note I lensemble des parties nies de T . Soit X = {Xt , t T } un processus d eni sur (, F , P) ` a valeurs dans (E, E ) I I . On note PI la loi du vecteur al eatoire {Xt , t I }, cest-` a-dire la mesure image de P par ce vecteur : PI est la probabilit e sur (E I , E I ) d enie par PI
tI
At
= P (Xt At , t I ) ,
(1.1)
o` u At , t T sont des el ements quelconques de la tribu E . La probabilit e PI est une probabilit e nidimensionnelle ou r epartition nie du processus X . D enition 1.2.2 On appelle famille des r epartitions nies lensemble des r epartitions nies (PI , I I ). La sp ecication de la mesure PI permet de calculer la probabilit e d ev enements de la forme P(tI {Xt At }) o` u (At , t I ) sont des el ements de la tribu E , ou de mani` ere equivalente, de calculer f ( X ) o` u ( f , t I ) sont des fonctions bor e liennes positives. Il est important de lesp erance E t t t tI 8
noter que, la donn ee des r epartitions nies ne permet pas directement d evaluer la probabilit e dun ev enement faisant intervenir un nombre inni dindices de temps ; par exemple, pour un processus a temps discret index ` e par T = Z, les r epartitions nies ne permettent pas d evaluer directement la probabilit e dun ev enement de la forme {suptT Xt a}. Soit J I deux parties nies ordonn ees. Soit I,J la projection canonique de E I sur E J d enie par I,J [x] = (xt )tJ pour tout x = (xt )tI E I . (1.2)
La projection canonique pr eserve uniquement les coordonn ees du vecteur appartenant au sous ensemble dindices J . Par la d enition (1.1), on observe que PJ est la mesure image de I,J d enie sur lespace de probabilit e (E I , E I , PI ) : 1 P I (1.3) I,J = PJ . Cette relation formalise le r esultat intuitif que la distribution ni-dimensionnelle dun sous-ensemble J I se d eduit de la distribution ni-dimensionnelle PI en int egrant par rapport aux variables Xt sur lensemble des t appartenant au compl ementaire de J dans I . Cette propri et e montre que la famille des r epartitions nies dun processus est fortement structur ee. En particulier, les r epartitions nies doivent, au moins, v erier les conditions de compatibilit e (1.3). Nous allons voir dans la suite que cette condition est en fait aussi susante. Soit I la projection canonique de E T sur E I , I (x) = (xt )tI pour tout x = (xt )tT E T . (1.4)
Si I = {s} avec s T , on notera simplement s (x) = {s} (x) = xs pour tout x = (xt )tT E T . (1.5)
Th eor` eme 1.2.3 (Th eor` eme de Kolmogorov) On pose (E, E ) = (Rd , B (Rd )) pour d 1. Soit {I , I I} une famille de probabilit es index ees par lensemble des parties nies ordonn ees de T telle, que pour tout I I , I est une probabilit e sur I I (E , E ). Supposons de plus que la famille {I , I I} v erie les conditions de compatibilit e (1.3), 1 = . Il existe une probabilit e unique P sur lespace pour tout I, J I , tel que I J , I J I,J 1 T T mesurable (E , E ) telle que, pour tout I I , I = P I . monstration Comme la classe des cylindres est stable par intersection et engendre la tribu E T , il De 1 est clair que la relation I = P e de P. On admet lexistence (voir [Kallenberg, I implique lunicit 2002, Theorem 6.16] pour une preuve compl` ete) sous lhypoth` ese o` u (E, E ) un espace mesurable bor elien cest-` a-dire pour lequel il existe une bijection mesurable dinverse mesurable de E dans un bor elien inclus dans [0, 1] (en particulier (Rd , B (Rd )) convient pour tout d 1). D enition 1.2.4 (Processus canonique) Soit (E, E ) un espace mesurable et (E T , E T ) lespace mesurable des trajectoires correspondants. La famille canonique sur (E T , E T ) est la famille des fonctions mesurables {t , t T } d enies sur (E T , E T ) T ` a valeurs dans (E, E ) par t ( ) = t pour tout = (t )tt E .
Soit X = {Xt , t T } un processus d eni sur (, F , P) ` a valeurs dans (E, E ). La mesure image PX 1 est lunique probabilit e d enie sur (E, E ) par PX = P I pour tout I I , i.e. I PX
tI
At E T \ I
= P (Xt At , t I )
pour tout (At )tI E I . Quand on munit (E T , E T ) de la mesure image PX , on appelle la famille canonique {t , t T } d enies sur (E T , E T , PX ) le processus canonique associ e` a X. Lexistence et lunicit e de PX est donn ee par le th eor` eme 1.2.3. On lappellera aussi plus simplement la loi du processus X . Cette loi est donc enti` erement d etermin ee par la donn ee des r epartitions nies. 1.5 Exemple (Suite de v.a. ind ependantes): Soit (n , n N) une suite de probabilit es sur (E, E ). Pour I I , on pose I =
nI
n ,
(1.6)
o` u d esigne le produit tensoriel sur les probabilit es (loi du vecteur ` a composantes ind ependantes et de lois marginales donn ees par les n , I ). Il est clair que lon d enit ainsi une famille (I , I I ) compatible, cest-` a-dire, v eriant la condition donn ee par l equation (1.3). Donc, si = E N , Xn ( ) = n et F = (Xn , n N), il existe une unique probabilit e P sur (, F ) telle que (Xn , n N) soit une suite de v.a. ind ependantes de loi n .
1.2.3
Stationnarit e stricte dun processus ` a temps discret
La notion de stationnarit e joue un r ole central dans la th eorie des processus al eatoires. On distingue ci-dessous deux versions de cette propri et e, la stationnarit e stricte qui fait r ef erence aux r epartitions nies ` a linvariance des r epartitions nies par translation de lorigine des temps, et une notion plus faible, la stationnarit e au second ordre, qui porte sur linvariance par translation des moments dordre un et deux (lorsque ceux-ci existent). D enition 1.2.5 (Op erateurs de d ecalage et de retard) On pose T = Z ou T = N. On note S et lon appelle op erateur de d ecalage ( Shift) lapplication T T E E d enie par S (x) = (xt+1 )tT Pour tout T , on d enit S par S (x) = (xt+ )tT pour tout x = (xt )tT E T . pour tout x = (xt )tT E T .
D enition 1.2.6 (Stationnarit e stricte) On pose T = Z ou T = N. Un processus al eatoire {Xt , t T } est stationnaire au sens strict si X et S X ont m eme loi, i.e. PS X = PX .
10
Par d enition de la loi image on a PS X = PX si et seulement si

1 1 PS X I = P X I 1 1 et S = pour toute partie nie I I . Or PS X u I +1 = {t +1, t I }. I I +1 , o` I = PX (I S ) On en conclut que {Xt , t T } est stationnaire au sens strict si et seulement si, pour toute partie nie I I, PI = PI +1 .
On remarque aussi que la stationnaire au sens strict implique que X et S X ont m eme loi pour tout T et donc aussi PI = PI + , o` u I + = {t + , t I }. 1.6 Exemple (Processus i.i.d et transformations): Soit {Z (t)} une suite de variables al eatoires ind ependantes et identiquement distribu ees (i.i.d). {Z (t)} est un processus stationnaire au sens strict, car, pour toute partie nie ordonn ee I = {t1 , < t2 < < tn } nous avons :
n
P(Z (t1 ) A1 , , Z (tn ) An ) =

j =1
P(Z (0) Aj )
Soient k un entier et g une fonction bor elienne de Rk dans R. Il est facile de v erier que le processus al eatoire {Xt } d eni par Xt = g (Z (t), Z (t 1), , Z (t k + 1)) est encore un processus al eatoire stationnaire au sens strict. Par contre, ce processus obtenu par transformation nest plus i.i.d dans la mesure o` u, d` es que k 1, Xt , Xt+1 , . . . , Xt+k1 bien quils aient la m eme distribution marginale sont, en g en eral, d ependants car fonctions de variables al eatoires communes. Un tel processus est dit k -d ependant dans la mesure o` u, par contre, k implique que Xt et Xt+ sont ind ependants (ils d ependent de deux groupes ind ependants de k variables al eatoires).
1.2.4
Processus gaussiens
D enition 1.2.7 (Variable al eatoire gaussienne r eelle) On dit que X est une variable al eatoire r eelle gaussienne si sa loi de probabilit e a pour fonction caract eristique : X (u) = E eiuX = exp(iu 2 u2 /2) o` u R et R+ . On en d eduit que E {X } = et que var(X ) = 2 . Si = 0, la loi poss` ede une densit e de probabilit e qui a pour expression : 1 ( x ) 2 pX (x) = exp 2 2 2 D enition 1.2.8 (Vecteur gaussien r eel) Un vecteur al eatoire r eel de dimension n (X1 , . . . , Xn ) est un vecteur gaussien si toute combinaison lin eaire de X1 , . . . , Xn est une variable al eatoire gaussienne r eelle.
11
Notons le vecteur moyenne de (X1 , . . . , Xn ) et la matrice de covariance. Par d enition dun vecteur T X 1 est une variable u X = u al eatoire gaussien, pour tout u Rn , la variable al eatoire Y = n k=1 k k al eatoire r eelle gaussienne. Par cons equent, sa loi est compl` etement d etermin ee par sa moyenne et sa variance qui ont pour expressions respectives :
n n
E {Y } =
k=1
uk E {Xk } = uT
et
var(Y ) =
j,k=1
uj uk cov(Xj , Xk ) = uT u
On en d eduit lexpression, en fonction de et de , de la fonction caract eristique de la loi de probabilit e dun vecteur gaussien X (1), . . . , X (n) : 1 X (u) = E exp(iuT X ) = E {exp(iY )} = exp iuT uT u 2 (1.7)
De plus si est de rang plein n, alors la loi de probabilit e de X poss` ede une densit e dont lexpression est : 1 1 exp (x )T 1 (x ) pX (x) = 2 (2 )n/2 det() Dans le cas o` u est de rang r < n, cest ` a dire o` u poss` ede n r valeurs propres nulles, X se trouve, avec probabilit e 1, dans un sous espace de dimension r de Rn , dans la mesure o` u il existe r n T combinaisons lin eaires ind ependantes ai telles que cov(ai X ) = 0. D enition 1.2.9 (Processus gaussien r eel) On dit quun processus r eel X = {Xt , t T } est gaussien si, pour toute suite nie dinstants {t1 < t2 < < tn }, (Xt1 , Xt2 , , Xtn ) est un vecteur gaussien. Dapr` es (1.7), la famille des r epartitions nies est donc caract eris ee par la donn ee de la fonction moyenne : t T (t) R et de la fonction de covariance : (t, s) (T T ) (t, s) R. R eciproquement, donnons nous une fonction : t T m(t) R et une fonction de covariance : (t, s) (T T ) (t, s) R de type positif, cest-` a-dire telle que, pour tout n, toute suite (u1 , , un ) et toute suite (t1 , , tn ) on ait :
n n
uj uk (tj , tk ) 0
j =1 k=1
(1.8)
On peut alors d enir, pour I = {t1 < < tn }, une probabilit e gaussienne I sur Rn par : I = Nn (I , I )
def
(1.9)
o` u I = ((t1 ), , (tn )) et I est la matrice positive d el ements I (m, k ) = (tm , tk ), o` u 1 m, k n. La famille (I , I I ), ainsi d enie, v erie les conditions de compatibilit e et lon a ainsi etabli, dapr` es le th eor` eme 1.2.3, le r esultat suivant :
1. Dans cet ouvrage, les vecteurs sont par convention identi es sous forme matricielle a ` des vecteurs colonnes et lexposant T indique lop erateur de transposition des matrices.
12
Th eor` eme 1.2.10 Soit r (t) une fonction et (s, t) (s, t) une fonction de type positif (v eriant l equation (1.8)). Il existe un espace de probability (, F , P) et un processus al eatoire {Xt , t T } gaussien d eni sur cet espace v eriant (t) = E {Xt } et (s, t) = E {(Xs (s))(Xt (t))}
13
Chapitre 2
El ements dAnalyse Hilbertienne

2.1 D enitions
D enition 2.1.1 (Espace pr e-hilbertien) Soit H un espace vectoriel sur lensemble des nombres complexes C. Lespace H est appel e pr ehilbertien si H est muni dun produit scalaire : , : x, y H H x, y C qui v erie les propri et es suivantes : (i) pour tout (x, y ) H H, x, y = y, x (ii) pour tout (x, y ) H H et tout (, ) C C, x + y, z = x, z + y, z (iii) pour tout x H, x, x 0, et x, x = 0 si et seulement si x = 0. Lapplication : :xH x, x 0 d enit une norme pour tout vecteur x. 2.1 Exemple (Espace Rn ): Lensemble des vecteurs colonnes x = [x1 relation : xn ]T , o` u xk R, est un espace vectoriel dans lequel la
n
x, y =
k=1
xk yk
d enit par un produit scalaire. 2.2 Exemple (Espace l2 (Z)): Lensemble des suites num eriques complexes {xk }kZ v eriant sur C. On munit cet espace du produit int erieur :
x k yk k= 2 k= |xk |
< est un espace vectoriel
x, y =
(1/2)
k=
(|xk |2 + |yk |2 ) <
On v erie ais ement les propri et es (i-iii) de la d enition 2.1.1. Lespace ainsi d eni est donc un espace pr e-Hilbertien, que lon note l2 (Z). 14
2.3 Exemple (Fonctions de carr e int egrable): 2 Lensemble L (T ) des fonctions bor eliennes d enies sur un intervalle T de R, ` a valeurs complexes et de module de carr e int egrable par rapport ` a la mesure de Lebesgue ( T |f (t)|2 dt < ) est un espace vectoriel. Consid erons alors le produit int erieur : (f, g ) L2 (T ) L2 (T ) f, g =
T
f (t)g (t)dt
On montre ais ement que f, g < ainsi que les propri et es (i) et (ii) de la d enition 2.1.1. Par contre la propri et e (iii) nest pas v eri ee puisque : f, f = 0 t T f (t) = 0 En eet une fonction f qui est nulle sauf sur un ensemble de mesure nulle pour la mesure de Lebesgue, v erie f, f = 0. Lespace H muni du produit (f, g ) nest donc pas un espace pr e-Hilbertienne. Cest 2 2 pourquoi on d enit lensemble L (T ) des classes d equivalence de L (T ) pour la relation d equivalence d enie par l egalit e presque partout entre deux fonctions. Par construction, L2 (T ) est alors un espace pr e-Hilbertien. 2.4 Exemple (Variables al eatoires de variance nie): De fa con similaire ` a lexemple 2.3, pour tout espace de probabilit e (, F , P), on d enit H = L2 (, F , P) (not e L2 () sil ny a pas de confusion possible) comme lensemble des v.a. X d enies sur (, F , P) ` a valeurs complexes telles que E[|X |2 ] < . (On dit que X a une variance nie.) Sur cet ensemble, on d enit (X, Y ) L2 () L2 () X, Y = E[XY ] . Pour les m emes raisons que dans lexemple 2.3, on d enit lespace pr e-Hilbertien L2 (, F , P) (ou L2 ()) 2 comme lensemble des classes d equivalences de L () pour la relation d equivalence d enie par l egalit e presque s ure entre deux v.a. Cet exemple se g en eralise en fait ` a tout espace mesur e (, F , ) en posant (f, g ) L2 (, F , ) L2 (, F , ) f, g = On montre ais ement les propri et es suivantes : Th eor` eme 2.1.2 Pour tout x, y H H, nous avons : (i) In egalit e de Cauchy-Schwarz : | x, y | x (iii) Identit e du parall elogramme : x+y
2
f g d .
y ,
(ii) In egalit e triangulaire : | x y | x y x + y ,
+ xy
=2 x
+2 y
D enition 2.1.3 (Convergence dans H) Soit xn une suite de vecteurs et x un vecteur dun espace H muni dun produit scalaire. On dit que xn tend vers x si et seulement si xn x 0 quand n +. On note xn x. 15
Proposition 2.1.4 Si dans un espace de Hilbert la suite xn x, alors xn est born ee. monstration Dapr` De es lin egalit e triangulaire, on a : xn = (xn x) + x xn x + x Proposition 2.1.5 (Continuit e du produit scalaire) Soit xn x et yn y deux suites convergentes de vecteurs dun espace pr e-hilbertien H. Alors quand n + : xn , yn x, y . En particulier, si xn x, xn x . monstration Dapr` De es lin egalit e triangulaire puis lin egalit e de Cauchy-Schwarz, nous avons : x, y xn , yn = (x xn ) + xn , (y yn ) + yn xn , yn = x xn , y yn + x xn , yn + xn , y yn xn x yn y + xn x yn + yn x xn
Il sut ensuite d evoquer la convergence et la bornitude des suites xn et yn . D enition 2.1.6 (Suite de Cauchy) Soit xn une suite de vecteurs dun espace pr e-hilbertien H. On dit que xn est une suite de Cauchy si et seulement si : xn xm 0 quand n, m +. Notons quen vertu de lin egalit e triangulaire toute suite convergente est une suite de Cauchy. La r eciproque est fausse : une suite de Cauchy peut ne pas etre convergente. En voici un contre-exemple : 2.5 Exemple (Suite de Cauchy non convergente): Soit C ([, ]) lespace des fonctions continues sur [, ]. Lespace C ([, ]), muni du produit e-hilbertien. Consid erons la suite de fonctions : f (x)g (x)dx, est un espace pr
n
fn (x) =
k=1
1 cos(kx) k
Les fonctions fn (x), qui sont ind eniment contin ument di erentiables, appartiennent ` a C (, ). Montrons que cette suite est une suite de Cauchy. En eet, pour m > n, on a :
m
fn fm
=
k=n+1
1 0 k2
quand (n, m)
1 cos(kx) k=1 k
Dautre part on montre ais ement que la limite de cette suite f (x) = nest pas continue et nappartient donc pas ` a C ([, ]).
= log | sin(x/2)|
16
D enition 2.1.7 (Espace de Hilbert) On dit quun espace vectoriel est complet si toute suite de suite de Cauchy de H converge dans H. On dit H est un espace de Hilbert si H est pr e-hilbertien et complet. Proposition 2.1.8 (Espaces L2 ) Pour tout espace mesurable (, F , ), Lespace L2 (, F , )(voir lexemple 2.4) des fonctions de carr e int egrable pour la mesure est un espace de Hilbert. D enition 2.1.9 (Sous espace vectoriel) Un sous-espace E dun espace vectoriel H est un sous-ensemble de H tel que, pour tout x, y E et tout scalaire , , x + y E . Un sous-espace vectoriel est dit propre si E = H. D enition 2.1.10 (Sous-espace ferm e) Soit E un sous-espace dun espace de Hilbert H. On dit que E est ferm e, si toute suite {xn } de E , qui converge, converge dans E . 2.6 Exemple (Contre-exemple): Soit L2 ([, ]) lespace de Hilbert des fonctions de carr e int egrable pour la mesure de Lebesgue sur [, ]. Comme le montre lexemple 2.5, lensemble des fonctions continues sur [, ] est un sous-espace vectoriel de L2 ([, ]) mais nest pas ferm e. D enition 2.1.11 (Sous espace engendr e par un sous-ensemble) Soit X un sous-ensemble de H. Nous notons span (X ) le sous-espace vectoriel des combinaisons lin eaires nies d el ements de X et span (X ) la fermeture de span (X ) dans H. D enition 2.1.12 (Orthogonalit e) Deux vecteurs x, y H sont dit orthogonaux, si x, y = 0, ce que nous notons x y . Si S est un sous-ensemble de H, la notation x S , signie que x s pour tout s S . Nous notons S T si tout el ement de S est orthogonal ` a tout el ement de T . Supposons quil existe deux sous-espaces A et B tels que H = A + B , dans le sens o` u, pour tout vecteur h H, il existe a A et b B , tel que h = a + b. Si en plus A B nous dirons que H est la somme directe de A et B , ce que nous notons H = A B . D enition 2.1.13 (Compl ement orthogonal) Soit E un sous-ensemble dun espace de Hilbert H. On appelle ensemble orthogonal de E , lensemble d eni par : E = {x H : y E x, y = 0}
2.2
Projection et principe dorthogonalit e
Le th eor` eme suivant, appel e th eor` eme de projection, joue un r ole central en analyse Hilbertienne. Th eor` eme 2.2.1 Soit E est un sous-espace ferm e dun espace de Hilbert H et soit x un el ement quelconque de H, alors :
17
(i) il existe un unique el ement not e proj ( x| E ) E tel que : x proj ( x| E ) = inf x w
wE
(ii) proj ( x| E ) E et x proj ( x| E ) x proj ( x| E ) E .
= inf wE x w
si et seulement si proj ( x| E ) E et 0. Alors il existe une suite
monstration (i) Soit x H. On note h = inf wE x w De w1 , w2 , , de vecteurs de E tels que :

m+
lim
x wm a+b
2
= h2 0
2 +2
(2.1) b
2
Lidentit e du parall elogramme, a b montre que : wm wn

2
2+
=2 a
avec a = wm x et b = wn x, + 2 wn x
2 2
+ wm + wn 2x
= 2 wm x
Comme (wm + wn )/2 E , nous avons wm + wn 2x 2 = 4 (wm + wn )/2 x 2.1, pour tout > 0,il existe N tel que et m, n > N : wm wn
2
4h2 . Dapr` es
2(h2 + ) + 2(h2 + ) 4h2 = 4 .
qui montre que {wn , n N} est une suite de Cauchy et donc que la suite {wn , n N} tend vers une limite dans E , puisque lespace E est ferm e. On note y cette limite. On en d eduit, par continuit e de la norme, que y x = h. Montrons que cet el ement est unique. Supposons quil existe un autre el ement z E tel que x z 2 = x y 2 = h2 . Alors lidentit e du parall elogramme donne : 0 yz
2
= 4 (y + z )/2 x
+2 xy
+2 xz
2
4h2 + 2h2 + 2h2 = 0
o` u nous avons utilis e que (y + z )/2 E et que (y + z )/2 x est appel e la projection orthogonale de x sur E .
h2 . Il sen suit que y = z . x
(ii) Soit x la projection orthogonale de x sur E . Alors, si il existe u E tel que x u E , on peut ecrire : xx
2
= xu+ux , x u + u x = xu = xu
2
+ ux
+2 ux , x u
+ ux
+0 xu
et donc u = x . R eciproquement supposons que u E et x u E . Alors choisissons y E tel que y = 1 et tel que c = x u, y = 0 et notons x = u + cy E . On a : xx
2
= xu+ux , x u + u x = xu = xu
2
+ ux
2
+2 ux , x u
2
+ c 2c y, x u = x u
c < xu
Par cons equent x E est strictement plus proche de x que ne lest u.
18
Proposition 2.2.2 Soit H un espace de Hilbert et proj ( | E ) la projection orthogonale sur le sous-espace ferm e E . On a : 1. lapplication x H proj ( x| E ) E est lin eaire : (, ) C C, 2. x
2
proj ( x + y | E ) = proj ( x| E ) + proj ( y | E ) .

2
= proj ( x| E )
+ x proj ( x| E )
(Pythagore),
3. La fonction proj ( | E ) : H H est continue, 4. x E si et seulement si proj ( x| E ) = x, 5. x E si et seulement si proj ( x| E ) = 0, 6. Soient E1 et E2 deux sous espaces vectoriels ferm es de H, tels que E1 E2 . Alors : x H, proj ( proj ( x| E2 )| E1 ) = proj ( x| E1 ) .
7. Soient E1 et E2 deux sous-espaces vectoriels ferm es de H, tels que E1 E2 . Alors : x H, proj ( x| E1 E2 ) = proj ( x| E1 ) + proj ( x| E2 ) .
2.7 Exemple (Projection sur un vecteur): Soit H un espace de Hilbert, C = span (v ) le sous-espace engendr e par un vecteur v H et x un vecteur quelconque de H. On a alors proj ( x| C ) = v avec = x, v / v 2 . Si on note = x proj ( x| C ), on a : x, v 2 = x 2 1 2 o` u = avec || 1 x v Appliquons ce r esultat ` a H = Cn et au vecteur v (0 ) de composantes vt = n1/2 ei0 t o` u t { 1, . . . , n } et o` u la pulsation de Fourier 0 (, ). On v erie que v (0 ) = 1. Soit x = (x1 , . . . , xn )T un vecteur quelconque de Cn . La projection orthogonale de x sur span (v (0 )) s ecrit v (0 ) avec : = 1 xt vt = n t=1
n n
xt ei0 t
t=1
qui est la transform ee de Fourier ` a temps discret de la suite xt calcul ee pr ecis ement ` a la pulsation 0 . 2.8 Exemple (Droite de r egression): On est parfois conduit ` a chercher une relation lin eaire entre deux suites de valeurs {xt }1tn et {yt }1tn . Cela revient ` a trouver la suite y t = 1 + 2 xt qui sapproche quadratiquement au plus pr` es de la suite n yt . Dapr` es le th eor` eme de projection, il sut d exprimer que le vecteur y R de composantes y n est la projection orthogonale de y = (y1 , . . . , yn )T sur E = span (u, x) o` u u = (1, . . . , 1)T et x = (x1 , . . . , xn )T . Par cons equent 1 et 2 sont solutions du syst` eme de deux equations : y (1 + 2 x), 1 = 0 et qui s ecrit encore : n
t xt t xt 2 t xt
y (1 + 2 x), x = 0
t yt t xt yt
1 = 2
Si la matrice est inversible la solution est unique. 19
2.9 Exemple (Mod` ele lin eaire et m ethode des moindres carr es): On consid` ere, pour 1 t n, la suite dobservations :
P
xt =
k=1
at,k k + zt
o` u {at,k }, avec 1 k P , 1 t n et n > P , sont des valeurs connues. {k } est une suite de param` etres ` a estimer et zt est un terme dincertitude qui mod elise par exemple des erreurs de mesure. Avec des notations matricielles evidentes on peut ecrire X = A + Z . On note A le sous-espace de Rn engendr e 2. z par les colonnes de A. Lestimation, dite des moindres carr es, consiste ` a trouver qui minimise n t=1 t Ce probl` eme peut alors se formaliser de la fa con suivante : d eterminer le vecteur de A le plus proche de X . La solution est la projection orthogonale proj ( X | A) qui, dapr` es le point ii du th eor` eme de projection, v erie : AT (X proj ( X | A)) = 0 AT proj ( X | A) = AT X On sait que le vecteur proj ( X | A) est unique. Par contre la r esolution, par rapport ` a , de l equation proj ( X | A) = A na pas n ecessairement une solution unique. Elle d epend du rang de la matrice A. Si A est de rang plein P , AT A est inversible et = (AT A)1 AT X qui est alors unique. Si A est de rang strictement inf erieur ` a P , alors il existe une innit e de valeurs de telle que T T A A = A X . Elles di` erent toutes par un vecteur u de lespace nul de A d eni par Au = 0. Th eor` eme 2.2.3 Si E est un sous-ensemble dun espace de Hilbert H, alors E est un sous-espace ferm e. monstration Soit (xn )n0 une suite convergente d De el ements de E . Notons x la limite de cette suite. Par continuit e du produit scalaire nous avons, pour tout y E , x, y = lim xn , y = 0
n
et donc x E .
2.3
Bases Hilbertiennes
D enition 2.3.1 (Famille orthonormale) Soit E = {ej ; j T } un sous ensemble de H. On dit que E est une famille orthonormale ssi ei , ej = 1 si i = j et 0 sinon. Proposition 2.3.2 (In egalit e de Bessel) Si x est un vecteur dun espace de Hilbert H et si E = {e1 , , ek } est une famille orthonormale nie, alors :
k
| x, ei |2 x
i=
20
monstration Notons E = span (E ) le sous-espace engendre par les vecteurs {e1 , , ek }. Nous De 2 = avons proj ( x| E ) x . On v erie ais ement que proj ( x| E ) = k i=1 x, ei ei et que proj ( x| E ) k 2 i=1 | x, ei | . Remarquons en eet, pour tout j {1, . . . , k },
k
x
i=1
x, ei ei , ej = x, ej x, ej = 0 .
D enition 2.3.3 (Famille orthonormale compl` ete) Soit E = {ej ; j T } une famille orthonormale de H. On dit que E est une famille orthonormale compl` ete ssi span (E ) = H. Lemme 2.3.4 (i) Soit (Mn ) une suite croissante de sous-espaces vectoriels (s.e.v.) ferm es dun espace de Hilbert H et notons M = n Mn . Alors, pour tout h H, nous avons proj ( h| M ) = lim proj ( h| Mn )
n
(ii) Soit M =
nZ Mn .
Alors, pour tout h H, proj ( h| M ) = lim proj ( h| Mn ) .

n
(iii) Soit {ek , k N} une famille orthonormale de h, ej ek , for j = k , ej span (el , 0 l n) et E = n0 En . Alors
= 1. Soit En =
proj ( h| E ) =
k=0
h, ek ek .
monstration (a) Comme Mn est un s.e.v. ferm De e de H et donc M est un s.e.v. ferm e de H. Le th eor` eme de projection 2.2.1 prouve que proj ( h| M ) existe. Pour m < n, d enissons Mn Mm le compl ement orthogonal de Mm dans Mn , cest ` a dire lensemble des vecteurs x Mn tel que x Mm . Mn Mm est un s.e.v ferm e de H. Notons que proj ( h| Mn On a, pour tout m 0,
Mm ) = proj ( h| Mn ) proj ( h| Mm ) .
proj ( h| Mn
n=m
Mn1 )
= proj ( h| M0
Mm )
<
et donc la suite {proj ( h| Mn ) , n = 0, 1, 2, . . .} est une suite de Cauchy. Comme H est complet, proj ( h| Mn ) converge dans H. Notons z = limm proj ( h| Mn ). Il reste ` a prouver que z = proj ( h| M ). En appliquant le th eor` eme de projection 2.2.1, nous devons donc d emontrer que (i) z M et (ii) h z M . Comme proj ( h| Mn ) Mp pour tout n p, nous avons donc limn proj ( h| Mn ) Mp pour tout p et donc z M , ce qui etablit (i). Pour prouver (ii), prenons p M . Nous avons p Mn pour tout n Z, et donc, pour tout n Z, 21
def
h proj ( h| Mn ) , p = 0 et (ii) d ecoule de la continuit e du produit scalaire. La preuve du point [(b)] est similaire et est laiss ee au lecteur ` a titre dexercice Nous prouvons nalement le point [(c)]. En appliquant [(b)], nous avons proj ( h| E ) = lim proj ( h| En ) .
n n
On v erie ais ement que proj ( h| En ) =
h, ek ek .
k=1
Notons en eet que proj ( h| En ) En et, pour tout k {1, , n}, h proj ( h| En ) , ek = h, ek h, ek = 0. On conclut la preuve en combinant les deux r esultats pr ec edents. Dans les espaces de Hilbert le fait quil existe une famille orthonormale compl` ete d enombrable joue un r ole important. Ce qui conduit ` a la d enition suivante. D enition 2.3.5 (Espace de Hilbert s eparable) On dit quun espace de Hilbert est s eparable ssi il existe une famille orthonormale compl` ete d enombrable. La plupart des espaces de Hilbert que nous rencontrerons seront s eparables. En particulier le sousespace ferm e engendr e ` a partir dune famille d enombrable dun espace de Hilbert, que celui-ci soit s eparable ou non s eparable, est s eparable. Th eor` eme 2.3.6 Soit H un espace de Hilbert s eparable et soit {ei ; i N} une famille orthonormale compl` ete d enombrable. Alors : 1. Pour tout 2. x = 3. x
2 + i=0
> 0, il existe un entier k et une suite c0 , , ck telle que x ei , xi ei (s erie de Fourier), + 2 egalit e de Parseval), i=0 | ei , xi | ( + i=0 x, ei ei , y ,
k i=0 ci ei
4. (x, y ) =
5. x = 0 si et seulement si ei , x = 0 pour tout i N.
22
Chapitre 3
Processus stationnaires au second ordre

3.1 Processus du second ordre
On a vu dans lexemple 2.4 que lespace L2 () des v.a. al eatoires de variance nie est un espace de Hilbert. Pour proter des propri et es de ces espaces il est donc naturel de travailler sur des processus faisant intervenir des v.a. de cet espace. D enition 3.1.1 (Processus du second ordre) Le processus X = {Xt , t T } ` a valeurs dans Cd est dit du second ordre, si E est la norme hermitienne de x Cd . Xt
2
< , o` u x
Notons que la moyenne (t) = E {Xt } est un vecteur de dimension d d ependant de t et que la fonction dautocovariance d enie en utilisant lexposant H pour indiquer lop eration de transposition et conjugaison par (s, t) = cov(Xs , Xt ) = E (Xs (s))(Xt (t))H , est une matrice de dimension d d d ependant ` a la fois de s et de t. Proposition 3.1.2 Pour un processus du second ordre on a : 1. (s, s) 0, l egalit e ayant lieu si et seulement si Xs est presque s urement egale ` a sa moyenne. 2. Sym etrie hermitienne (s, t) = (t, s)H (3.1) 3. Type positif Pour tout n, pour toute suite dinstants (t1 < t2 < < tn ) et pour toute suite de vecteurs complexes (a1 , , an ) de dimension d, on a : aH k (tk , tm )am 0
1k,mn
(3.2) Y est une variable al eatoire
monstration Formons la combinaison lin De eaire Y = complexe. Sa variance, qui est positive, s ecrit
n H k=1 ak Xtk .
var(Y ) = E |Y E {Y } |2 0 23
c = X E {X } le processus centr c , il vient : On note Xt e. En d eveloppant var(Y ) en fonction de Xt t t k n n c H k Xtk k=1 m=1 cT Xt k k
var(Y ) = E ce qui etablit (3.2).
=
1k,mn
H k (tk , tm )m
Dans le cas scalaire (d = 1), on note en g en eral (s, t) la covariance, en r eservant la notation (s, T ) au cas des processus vectoriels (d > 1).
3.2
Covariance dun processus stationnaire au second ordre
On d enit la stationnarit e au second ordre en ne retenant que les propri et es du second ordre (moyenne et covariance) dun processus stationnaire au sens stricte index e par Z. Cela donne la d enition suivante. D enition 3.2.1 (Stationnarit e au second ordre) d d d Soit C et : Z C . Un processus {Xt , t Z} ` a valeurs dans Cd est dit stationnaire au second ordre (ou faiblement stationnaire) de moyenne et de fonction dauto-covariance si : X est un processus du second ordre, i.e. E Xt 2 < +, pour tout t Z, E {Xt } = , pour tout couple (s, t) Z Z, cov(Xs , Xt ) = (t s). On remarque quun processus {Xt , t Z} ` a valeurs dans Cd est stationnaire au second ordre de moyenne et de fonction dauto-covariance si et seulement si pour tout Cd , le processus {H Xt , t Z} ` a valeurs dans C est stationnaire au second ordre de moyenne H et de fonction dauto-covariance H . L etude des processus stationnaires au second ordre peut donc se restreindre au cas d = 1 sans grande perte de g en eralit e.
3.2.1
Propri et es
Proposition 3.2.2 La fonction dautocovariance : Z C dun processus stationnaire au second ordre ` a valeurs complexes v erie les propri et es suivantes qui sont une cons equence directe de la proposition 3.1.2. 1. Sym etrie hermitienne : Pour tout h Z, (h) = (h) 2. caract` ere positif : Pour tout entier n 1 et tout vecteur (a1 , , an ) de valeurs complexes,
n n
a k (k j )aj 0
k=1 j =1
24
Ces propri et es d ecoulent imm ediatement des propri et es de la fonction dautocovariance dun processus. La matrice de covariance de n valeurs cons ecutives X1 , . . . , Xn du processus est donc hermitienne positive. Elle poss` ede de plus une structure particuli` ere, dite de Toeplitz, caract eris ee par le fait que (n )ij = (i j ). On obtient une matrice de la forme n = E [(X1 X ) . . . (Xn X )]T [(X1 X ) . . . (Xn X ) ] (0) (1) (n 1) (1) (0) (n 2) = . . . (n 1) (n 2) (0)
(3.3)
D enition 3.2.3 (Fonction dautocorr elation) Pour un processus stationnaire, on appelle fonction dautocorr elation (h) = (h)/ (0). Il sagit dune quantit e normalis ee dans le sens o` u (1) = 1 et |(k )| 1. En eet, lin egalit e de Cauchy-Schwarz (voir le th eor` eme 2.1.2) appliqu ee ` a (k ) implique | (h)| = |E {(Xt+h X )(Xt X ) }| E {|Xt+h X |2 } E {|Xt X |2 } = (0)
la derni` ere in egalit e d ecoulant de lhypoth` ese de stationnarit e. Attention, certaines r ef erences (livres et publications), en g en eral anciennes, utilisent (incorrectement) le terme de fonction dautocorr elation pour (h). Dans la suite de ce document, le terme autocorr elation est r eserv ee ` a la quantit e normalis ee (h). 3.1 Exemple (Processus retourn e temporel): Soit Xt un processus al eatoire stationnaire au second ordre ` a valeurs r eelles de moyenne X et de fonction r = X r est un processus dautocovariance X (h). On note Xt e temporel. Alors Xt t le processus retourn stationnaire au second ordre de m eme moyenne et de m eme fonction dautocovariance que le processus Xt . En eet on a :
r E {Xt } = E {Xt } = X r r cov(Xt +h , Xt ) = cov(Xth , Xt ) = X (h) = X (h)
D enition 3.2.4 (Bruit blanc) On appelle bruit blanc un processus al eatoire stationnaire au second ordre a ` valeurs r eelles, centr e, de 2 2 fonction dautocovariance, (s, t) = (t s) = t,s . On le notera {Xt } BB(0, ). D enition 3.2.5 (Bruit blanc fort) On appelle bruit blanc fort une suite de variables al eatoires {Xt }, centr ees, ind ependantes et identi2 2 quement distribu ees (i.i.d.) de variance E Xt = < . On le notera {Xt } IID(0, 2 ).
2 = 2 et pour tout h = 0, E {X Par d enition si {Xt } IID(0, 2 ), E {Xt } = 0, E Xt t+h Xt } = E {Xt+h } E {Xt } = 0. {Xt } est donc egalement stationnaire au second ordre, de fonction dautocovariance (s, t) = 2 (t s). La structure de bruit blanc fort est clairement plus contraignante que celle de simple bruit blanc. En g en eral, il est tout ` a fait inutile de faire un telle hypoth` ese lorsque lon
25
sint eresse ` a des processus stationnaires au second ordre. Il arrivera cependant dans la suite que nous adoptions cette hypoth` ese plus forte an de simplier les d eveloppements math ematiques. Notons que dans le cas dun processus gaussienne, ces deux notions sont confondues puisque la loi gaussienne est compl` etement caract eris ee par les moments du premier et du second ordre (un bruit blanc gaussien est donc egalement un bruit blanc fort). 3.2 Exemple (Processus MA(1)): Soit {Xt } le processus stationnaire au second ordre d eni par : Xt = Zt + Zt1 o` u {Zt } BB(0, 2 ) et R. On v erie ais ement que E {Xt } = 0 et que : 2 (1 + 2 ) t = s 2 |t s | = 1 (t, s) = 0 |t s | > 1 Le processus Xt est donc bien stationnaire au second ordre. Un tel processus est appel e processus ` a moyenne ajust e dordre 1. Cette propri et e se g en eralise, sans dicult e, ` a un processus MA(q ). Nous reviendrons plus en d etail, paragraphe 4.2, sur la d enition et les propri et es de ces processus. 3.3 Exemple (Processus harmonique): 2 (k l) et { } Soient {Ak }1kN N variables al eatoires v eriant cov(Ak , Al ) = k k 1kN , N variables al eatoires ind ependantes et identiquement distribu ees (i.i.d), de loi uniforme sur [, ], et ind ependantes de {Ak }1kN . On d enit :
N
(3.4)
Xt =
k=1
Ak cos(k t + k )
(3.5)
o` u {k } [, ] sont N pulsations. Le processus Xt est appel e processus harmonique. On v erie ais ement que E {Xt } = 0 et que sa fonction dautocovariance est donn ee par : 1 (h) = E {Xt+h Xt } = 2
N 2 cos(k h) k k=1
Le processus harmonique est donc stationnaire au second ordre. 3.4 Exemple (Marche al eatoire): Soit St le processus d eni sur t N par St = X0 + X1 + + Xt , o` u Xt est un bruit blanc. Un tel 2 = t 2 et processus est appel e une marche al eatoire. On en d eduit que E {St } = 0, que (t, t) = E Xt que, pour h > 0, on a : (t + h, t) = E {(St + Xt+1 + + Xt+h )St } = t 2 Le processus {St } nest donc pas stationnaire au second ordre.
26
3.5 Exemple: Nous allons montrer que la suite d enie, pour h Z, par : 1 h = 0, |h| = 1 R(h) = 0 |h| 2 est la fonction dautocovariance dun processus stationnaire au second ordre si et seulement si || 1/2. Nous avons d ej` a montr e exemple 3.2 que la fonction dautocovariance dun processus MA(1) est donn ee par : 2 (1 + 2 ) pour h = 0 2 pour |h| = 1 (h) = 0 pour |h| > 1 La suite R(h) est donc la fonction dautocovariance dun processus MA(1) si et seulement si 2 (1+ 2 ) = 1 et 2 = . Lorsque || 1/2, ce syst` eme d equations admet comme solution : = (2)1 (1 1 42 ) et 2 = (1 + 2 )1
Lorsque || > 1/2, ce syst` eme d equations nadmet pas de solution r eelles et la suite R(h) nest donc pas la fonction dautocovariance dun processus MA(1). On v erie facilement que R(h) ne v erie pas dans ce cas la condition de positivit e (en prenant ak = (1)k pour > 1/2 et ak = 1 dans le cas oppos e). Pour || > 1/2, R(h) nest donc pas une s equence dautocovariance.
3.2.2
Interpr etation de la fonction dautocovariance
Dans les exemples pr ec edents, nous avons et e amen e ` a evaluer la fonction dautocovariance de processus pour quelques exemples simples de s eries temporelles. Dans la plupart des probl` emes dint er et pratique, nous ne partons pas de mod` eles de s erie temporelle d enis a priori, mais dobservations, {x1 , , xn } associ ees ` a une r ealisation du processus. An de comprendre la structure de d ependance entre les di erentes observations, nous serons amen es ` a estimer la loi du processus, ou du moins des caract eristiques de ces lois. Pour un processus stationnaire au second ordre, nous pourrons, ` a titre dexemple, estimer sa moyenne par la moyenne empirique :
n
n = n1
k=1
xk
et les fonctions dautocovariance et dautocorr elation par les fonctions dautocorr elation et dautocovariance empiriques
n|h|
(h) = n
1 k=1
(xk n )(xk+|h| n )
et
(h) = (h)/ (0)
Lorsquil est a priori raisonnable de penser que la s erie consid er ee est stationnaire au second ordre, la moyenne empirique, la fonction dautocovariance empirique et la fonction dautocorr elation empirique sont de bons estimateurs, dans un sens que nous pr eciserons chapitre 7. Lanalyse de la 27
fonction dautocovariance empirique est un el ement permettant de guider le choix dun mod` ele appropri e pour les observations. Par exemple, le fait que la fonction dautocovariance empirique soit proche de z ero pour tout h = 0 (proximit e quil faudra d enir dans un sens statistique pr ecis) indique par exemple quun bruit blanc est un mod` ele ad equat pour les donn ees. La gure 3.1 repr esente les 100 premi` eres valeurs de la fonction dautocorr elation empirique de la s erie des battements cardiaques repr esent es gure 1.1. On observe que cette s erie est positivement corr el ee cest-` a-dire que les fonctions coecients dautocorr elation sont positifs et signicativement non nuls. Nous avons, ` a titre de comparaison, repr esent e aussi la fonction dautocorr elation empirique dune trajectoire de m eme longueur dun bruit blanc gaussien. Une forte corr elation peut etre interpr et ee comme lindice dune
1 0.8 0.6 0.4 0.4 0.2 0.2 0 0 0.2 1 0.8 0.6
50
100
50
100
Figure 3.1 Courbe de gauche : fonction dautocorr elation empirique de la

s erie des battements cardiaques (gure 1.1). Courbe de droite : fonction dautocorr elation empirique dune trajectoire de m eme longueur dun bruit blanc gaussien.
d ependance lin eaire. Ainsi la gure 3.2 montre que le fait que (1) = 0.966 pour la s erie des battements cardiaques se traduit par une tr` es forte pr edictabilit e de Xt+1 en fonction de Xt (les couples de points successifs salignent quasiment sur une droite). Nous montrerons au chapitre 5, que dans un tel contexte, E {(Xt+1 ) (1)(Xt )} = (1 2 )cov(Xt ), cest ` a dire, compte tenu de la valeur estim ee pour (1), que la variance de lerreur de pr ediction Xt+1 [ + (1)(Xt )] est 15 fois plus faible que celle du signal original. Lindice S&P500 trac e (g. 1.4) pr esente un cas de gure plus dicile, dune part parce que la s erie de d epart ne saurait etre tenue pour stationnaire et quil nous faudra consid erer la s erie des evolutions journali` eres ; dautre part, parce que selon le choix de la transformation des donn ees consid er ees, la s erie transform ee pr esente ou non des eets de corr elation. On d enit tout dabord les log-retours de lindice S&P500 comme les di erences des logarithmes de lindice ` a deux dates successives : St St1 Xt = log(St ) log(St1 ) = log 1 + St1 La s erie des log-retours de la s erie S&P 500 est repr esent ee gure 3.3. Les coecients dautocorr elation empiriques de la s erie des log-retours sont repr esent es gure 3.4. On remarque quils sont approximativement nuls pour h = 0 ce qui sugg` ere de mod eliser la s erie des log-retours par un bruit blanc (une suite 28
110
105
100
95
Xt+1
90
85
80
75
70 70
75
80
85
90 Xt
95
100
105
110
Figure 3.2 Xt+1 en fonction de Xt pour la s erie des battements cardiaques

de la gure 1.1). Les tirets gurent la meilleure droite de r egression lin eaire de Xt+1 sur Xt .
0.1
0.05
0.05
0.1
500
1000
1500
2000
2500
Figure 3.3 Log-Retour de la s erie S&P 500 (gure 1.4).
29
1.2 1 0.8 0.6 0.4 0.2 0 0.2 0 20 40 60 80 100
Figure 3.4 Fonction dautocorr elation empirique de la s erie des log-retours

de lindice S&P 500.
de variables d ecorr el ees). Il est int eressant d etudier aussi la s erie des log-retours absolus, A(t) = |Xt |.
1 0.8 0.6 0.4 0.2 0
20
40
60
80
100
Figure 3.5 Fonction dautocorr elation empirique de la s erie des valeurs

absolues des log-retours de lindice S&P 500.
On peut, de la m eme fa con, d eterminer la suite des coecients dautocorr elation empirique de cette s erie, qui est repr esent ee dans la gure 3.5. On voit, qu` a linverse de la s erie des log-retours, la s erie des valeurs absolues des log-retours est positivement corr el ee, les valeurs dautocorr elation etant signicativement non nuls pour |h| 100. On en d eduit, en particulier, que la suite des log-retours peut etre mod elis ee comme un bruit blanc, mais pas un bruit blanc fort : en eet, pour un bruit blanc fort 2 < , cov(f (X Xt , nous avons, pour toute fonction f telle que E f (Xt )2 = f t+h ), f (Xt )) = 0 pour h = 0 (les variables f (Xt+h ) et f (Xt ) etant ind ependantes, elles sont a fortiori non corr el ees). Nous reviendrons dans la suite du cours sur des mod` eles possibles pour de telles s eries.
30
3.3
Mesure spectrale dun processus stationnaire au second ordre ` a temps discret
Dans toute la suite, T d esigne le tore (, ] et B (T) la tribu de bor elienne associ ee. Le th eor` eme dHerglotz ci dessous etablit l equivalence entre la fonction dautocovariance et une mesure nie d enie sur lintervalle {T, B (T)}. Cette mesure, appel ee mesure spectrale du processus, joue un r ole analogue a celui de la transformation de Fourier pour les fonctions. En particulier elle conf` ` ere une expression simple aux formules de ltrage lin eaire. Th eor` eme 3.3.1 (Herglotz) Une suite { (h)}hZ est de type positif si et seulement si il existe une mesure positive sur {T, B (T)} telle que : (h) =
T
eih (d)
(3.6)
Si la suite (h) est sommable (i.e. ede une densit e f (fonction h | (h)| < ), la mesure poss` positive) par rapport ` a la mesure de Lebesgue sur {T, B (T)}, donn ee par la s erie enti` ere uniform ement convergente : 1 f () = (h)eih 0 2
hZ
Lorsque est la fonction dautocovariance dun processus stationnaire au second ordre, la mesure est appel ee la mesure spectrale et la fonction f , lorsque quelle existe, est dite densit e spectrale de puissance. monstration Tout dabord si (n) a la repr De esentation (3.6), il est clair que (n) est de type positif. En eet, pour tout n et toute suite {ak C}1kn ,
2
ak a m (k
k,m
m) =
T k,m
ik im ak a e (d) me
=
T k
ak e
ik
(d) 0
R eciproquement, supposons que (n) soit une suite de type positif et consid erons la suite de fonctions index ee par n : fn () = 1 2n
n n
(k m)eik eim =
k=1 m=1
1 2
n1
1
k=(n1)
|k | n
(k )eik =
1 2
n (k )eik
k=
o` u nous avons pos e: n (k ) = 1 |k | n (k )

+
qui v erie |n (k )eik | | (k )| et limn n (k ) = (k ). Par construction, fn () est une fonction positive (pour tout n) du fait que la s equence dautocovariance (k ) est de type positif. Pour conclure la preuve, nous commen cons par le cas particulier pour lequel on suppose lhypoth` ese suppl ementaire
| (k )| < .
k=
(3.7)
31
Sous cette hypoth` ese, une application directe du th eor` eme de convergence domin e montre que : lim fn () = 1 lim 2 n
n (k )eik =
k=
1 2
k= n
lim n (k )eik =
1 2
(k )eikt = f ()
k=
et donc f () est positive comme limite de fonctions positives. Une application directe du th eor` eme de Fubini (la permutation etant l egitime car T k= | (k )|d < ), montre que, pour tout h Z, on a: 1 f ()eih d = (k ) ei(hk) d = (h) . 2 T
k=
Ceci conclut la preuve sous lhypoth` ese simplicatrice (3.7). La preuve du cas g en eral utilise le th eor` eme de Prohorov, voir le th eor` eme 6.2.2 du paragraphe 6.2. Remarquons tout dabord que lon peut supposer (0) = 1 **** REPRENDRE ICI**** Notons n la mesure (positive) de densit e fn par rapport ` a la mesure de Lebesgue sur T. On a alors par construction |p| fn (t)eipt dt = 1 n (p) = (p). n pour |p| n. En particulier on a n (T) = (0). De toute sous-suite {k = nk } de la suite {n }, on peut extraire une sous-suite {k } qui converge etroitement vers une mesure positive (d ependant a priori du choix de la sous suite ) de masse totale c(0) (th eor` eme de Prohorov). On a, pour tout p pour tout p Z (p) = lim k (p) = (p)
k
La limite (p) ne d epend pas du choix de la sous-suite, et donc de toute sous-suite de la suite {N }, on peut extraire une sous-suite qui converge vers la m eme mesure limite . On en d eduit que la suite N converge etroitement vers . Lorsque k | (k )| < , alors gN (t) converge vers f (t) par application du th eor` eme de convergence domin e. Th eor` eme 3.3.2 Soit n une suite de probabilit e sur (R, B (R), telle que, pour tout > 0, il existe un ensemble compact K , tel que n (K ) (1 ). Alors, pour toute sous-suite {nk }, il existe une sous-suite {nk(j ) } extraite de {nk } et une probabilit e telle que nk(j ) d faiblement. Proposition 3.3.3 (Corollaire du th eor` eme dHerglotz) Une suite { (h), h Z} ` a valeurs complexes absolument sommable est de type positif si et seulement si la fonction d enie par + 1 f () = (h)eih 2
h=
est positive pour tout T. 3.6 Exemple: En reprenant lexemple 3.5, on v erie imm ediatement que R(h) est de module sommable et que : f () = 1 2 R(h)eih =
h
1 (1 + 2 cos()) 2
32
et donc que la s equence est une fonction dautocovariance uniquement lorsque || 1/2. 3.7 Exemple (Densit e spectrale de puissance du bruit blanc): La fonction dautocovariance dun bruit blanc est donn ee par (h) = 2 (h), do` u lexpression de la densit e spectrale correspondante 2 f () = 2 La densit e spectrale dun bruit blanc est donc constante. Cette propri et e est ` a lorigine de la terminologie bruit blanc qui provient de lanalogie avec le spectre de la lumi` ere blanche constant dans toute la bande de fr equences visibles. 3.8 Exemple (Densit e spectrale de puissance du processus MA(1)): Le processus MA(1) introduit dans lexemple 3.2 poss` ede une s equence dautocovariance donn ee par (0) = 2 2 2 (1 + ), (1) = (1) = et (h) = 0 sinon (cf. exemple 3.2). Do` u lexpression de sa densit e spectrale : 2 2 2 f () = 1 + ei (2 cos() + (1 + 2 )) = 2 2 La densit e spectrale dun tel processus est repr esent ee gure 3.6 pour = 0.9 et 2 = 1 avec une echelle logarithmique (dB).
0 5
dB
10 15 20 25 30 0 +
Figure 3.6 Densit e spectrale (en dB) dun processus MA-1, d eni par
l equation (3.4) pour = 1 et = 0.9.
3.9 Exemple (Mesure spectrale du processus harmonique): La fonction dautocovariance du processus harmonique Xt = N k=1 Ak cos(k t + k ) (voir exemple 3.3) est donn ee par : N 1 2 (h) = k cos(k h) (3.8) 2
k=1
33
2 = E A2 . Cette suite de coecients dautocovariance nest pas sommable et la mesure spectrale o` u k k nadmet pas de densit e. En notant cependant que :
cos(k h) =
1 2
eih (k (d) + k (d))
esigne la mesure de Dirac au point x0 (cette mesure associe la valeur 1 ` a tout bor elien de o` u x0 (d) d [, ] contenant x0 et la valeur 0 sinon), la mesure spectrale du processus harmonique peut s ecrire : (d) = 1 4
N 2 k k (d) + k=1
1 4
N 2 k k (d) k=1
2 sont localis Elle appara t donc comme une somme de mesures de Dirac, dont les masses k ees aux pulsations des di erentes composantes harmoniques.
Contrairement aux autres exemples etudi es, le processus harmonique poss` ede une fonction dautocovariance, donn ee par 3.8, non absolument sommable ( (h) ne tend pas m eme vers 0 pour les grandes valeurs de h). Par suite, il admet une mesure spectrale mais pas une densit e spectrale. La propri et e suivante, ` a d emontrer ` a titre dexercice, implique que le processus harmonique est en fait enti` erement pr edictible ` a partir de quelques-unes de ses valeurs pass ees. Proposition 3.3.4 Sil existe un rang n pour lequel la matrice de covariance n d enie en (3.3) est non inversible, le processus correspondant Xt est pr edictible dans le sens o` u il existe une combinaison lin eaire a1 , . . . al l egalit e ayant lieu presque s urement. avec l n 1 telle que Xt = k=1 ak Xtk , l Lexpression de la fonction dautocovariance, obtenue en (3.8) pour le processus harmonique, montre que les matrices de covariances associ ees s ecrivent comme la somme de 2N matrices complexes de rang 1. Par cons equent, les matrices n ne sont pas inversibles d` es que n > 2N , ce qui implique que le processus harmonique est pr edictible d` es lors que lon en a observ e 2N valeurs. Ce r esultat est sans surprise compte tenu du fait que les trajectoires de ce processus sont des sommes de sinuso des de fr equences 1 , . . . , N dont seules les amplitudes et les phases sont al eatoires. La propri et e suivante donne une condition susante simple pour eviter ce type de comportements extr emes. Cette propri et e implique en particulier que, pour une fonction dautocovariance absolument sommable (tous les exemples vus ci-dessus en dehors du processus harmoniques), les valeurs futures du processus correspondant ne sont pas pr edictibles sans erreur ` a partir dun ensemble ni de valeurs pass ees du processus. Nous reviendrons en d etail sur ces probl` emes de pr ediction au chapitre 5. Proposition 3.3.5 Soit (h) la fonction dautocovariance dun processus stationnaire au second ordre. On suppose que (0) > 0 et que (h) 0 quand h . Alors, quel que soit n, la matrice de covariance d enie en (3.3) est de rang plein et donc inversible . monstration Supposons quil existe une suite de valeurs complexes (a1 , . . . , an ) non toutes nulles, De n telle que n ecrire : k=1 m=1 ak am (k m) = 0. En notant X la mesure spectrale de Xt , on peut
n n n 2
0=
k=1 m=1
ak a m
T
i(km)
X (d) =
T k=1
ak e
ik
X (d)
34
n n ik = 0 presque partout, cest ` ik = Ce qui implique que a dire que X ({ : X k=1 ak e k=1 ak e n i k 0}) = X (T Z ) = 0 o` u Z = {1 , . . . , M : k=1 ak e m = 0} d esigne lensemble ni (M < n) n i k des racines x T du polyn ome trigonom etrique . Par cons equent, les seuls el ements k=1 ak e de B (T), qui peuvent etre de mesure non nulle pour X , sont les singletons {m }. Ce qui implique M u am 0 ne peuvent etre tous nuls si (0) = 0). Mais, dans ce cas, que X = m=1 am m (o` ihm , ce qui contredit lhypoth` a e e se que (h) tend vers 0 quand n tend vers linni. (h) = M m=1 m
35
Chapitre 4
Filtrage des processus stationnaires au second ordre

4.1
4.1.1
Filtrages lin eaires de processus

D enition et exemples de base
On pose E = Rd et E = B (Rd ) pour un entier d 1. D enition 4.1.1 Soit une application lin eaire mesurable de (E T , E T ) dans lui-m eme et X = {Xt , t T } un processus ` a valeurs dans (E, E ). On appelle ltrage lin eaire du processus X le processus Y = (Yt )tT ` a valeurs dans (E, E ) d eni par Y = X , cest-` a-dire Yt = t X pour tout t T , o` u t est d eni par (1.5). Dor enavant, nous prendrons essentiellement T = Z. 4.1 Exemple (D ecalage): Un exemple fondamental de ltrage lin eaire de processus est obtenu en prenant = S o` u S est lop erateur de d ecalage de la d enition 1.2.5. Dans ce cas Yt = Xt+1 pour tout t Z. 4.2 Exemple (R eponse impulsionnelle nie (RIF)): Soient n 1 et t1 < < tn des el ements de Z et 1 , . . . , n E . Alors i i S ti d enit un ltrage lin eaire pour nimporte quel processus X = {Xt , t Z} pour lequel la sortie est donn ee par
n
Yt =
i=1
i Xtti ,
tZ.
4.3 Exemple (Di erentiation): Un cas particulier de lexemple pr ec edent est donn e par lop erateur de di erentiation I S 1 o` u I d enote lop erateur identit e. Le processus obtenu en sortie s ecrit Yt = Xt Xt1 , tZ.
36
On pourra it erer lop erateur de di erentiation, ainsi Y = (I S 1 )k X est donn ee par

k
Yt =
j =0
k Xtj , j
tZ.
4.4 Exemple (Retournement du temps): Etant donn e un processus X = {Xt , t Z}, on appellera processus retourn e le processus obtenu par retournement du temps d eni par Yt = Xt , t Z . 4.5 Exemple (Int egration): Etant donn e un processus X = (Xt )tZ qui v erie le processus d eni par
0 t= |Xt |
< p.s., on appellera processus int egr e
Yt =
s=0
Xts ,
tZ.
Contrairement aux exemples pr ec edents, lapplication qui d enit ce ltrage doit etre d enie avec quelques pr ecautions. Il faut en eet tout dabord d enir sur
0
A=
x = (xt )tZ E Z :
t=
|xt | <
eairement sur (E Z , E Z ). par (x) = s=0 xts . Comme A est un espace vectoriel, on peut prolonger lin Le point important est que ce ltrage ne sera appliqu e` a X que sous lhypoth` ese 0 t= |Xt | < p.s. et que ce prolongement est donc d eni de fa con quelconque. On remarque que dans tous les exemples pr ec edents les op erateurs introduits pr eservent la stationnarit e stricte et la stationnarit e au second ordre, cest-` a-dire, si X est strictement stationnaire alors Y lest aussi et idem pour la stationnarit e au second ordre. Il est facile de construire des ltrages lin eaires qui ne pr eserve pas la stationnarit e, par exemple, y = (x) avec yt = xt pour t pair et yt = xt + 1 pour t impaire, mais ce type de ltrage ne nous int eressera pas par la suite. Une propri et e plus forte que la conservation de la stationnarit e est donn ee par la d enition suivante. D enition 4.1.2 Un ltrage lin eaire est invariant par translation sil commute avec S : S = S . Cette propri et e implique la pr eservation de la stationnarit e mais ne lui est pas equivalente. Le retournement du temps est en eet un exemple de ltrage qui ne commute pas avec S puisque dans ce cas on a S = S 1 . En revanche tous les autres exemples ci-dessus satisfont la propri et e dinvariance par translation. Remarque 4.1 Un ltrage lin eaire invariant par translation est enti` erement d etermin e par sa projection canonique 0 , voir (1.5). En eet, notons 0 = 0 . Alors pour tout s Z, s = 0 S s = 0 S s .
37
4.1.2
Filtrage des processus stationnaires au second ordre
Nous nous int eresserons principalement dans la suite ` a des ltrages invariants par translation et consid ererons le cas o` u les processus X et Y = X sont tous deux stationnaires au second ordre. Consid erons les exemples pr ec edents. Pour tous ceux qui rentre dans la cat egorie des ltres RIF, il est clair que si X est un processus stationnaire au second ordre, alors Y lest aussi. Cest aussi le cas du ltrage par retournement du temps qui pr eserve de plus les propri et es du second ordre (moyenne, fonction dautocovariance et mesure spectrale). Pour le ltrage par int egration qui est du type RII (ltrage ` a r eponse impulsionnelle innie ), cette question est moins evidente. Ce type de ltrage implique en eet une notion de convergence de s eries de variables al eatoires. Dans le cadre des ltrages du type RII appliqu es aux processus stationnaires au second ordre, nous nous reposerons sur les propri et es de lespace de Hilbert L2 () des v.a. al eatoires de carr e int egrable. D enition 4.1.3 X la fermeture dans L2 () du sousSoit X = {Xt , t Z} un processus du second ordre. On note H espace engendr e par les v.a. {Xt , t Z},
X H = span (Xt , t Z) .
Cet ensemble est alors le sous-espace de L2 () contenant toute v.a. Y pour lesquelles il existe une suite d el ements (Yn )n1 de span (Xt , t Z) (lespace des combinaisons lin eaires nies form ees d el ements de {Xt , t Z}) qui converge vers Y au sens L2 quand n , i.e.
n
lim E|Y Yn |2 0 .
Dans lexemple suivant, on explique comment d enir un ltrage lin eaire dun processus X uniqueX. ment ` a partir dun el ement de H 4.6 Exemple (Filtrage dans HX ): Soit X = (Xt )tZ un processus stationnaire du second ordre de moyenne X et de covariance X . Soit X . On remarque alors que pour tout tableau ( ) de plus Y0 H t,n tZ,n1 tel que sZ s,n Xs converge 2 vers Y0 au sens L , on a aussi, par stationnarit e et en utilisant le crit` ere de Cauchy, que pour tout t Z, 2 dans HX . On note alors Y sa limite et on appelle Y = {Y , t Z} X converge au sens L s,n t s t t s Z le processus ltr e correspondant. Par continuit e de lesp erance et du produit scalaire sur L2 (), on obtient facilement que Y est stationnaire au second ordre de moyenne Y = X lim de fonction dautocovariance Y ( ) = lim
n n
s,n ,
s Z
s,n t,n X ( t + s) .
sZ tZ
Un cas particulier de lexemple pr ec edent est celui o` u X est un bruit blanc faible.
38
4.7 Exemple (Filtrage dun bruit blanc): Pla cons-nous dans le cas de lexemple 4.6 avec X bruit blanc faible. Dans ce cas, {Xt , t Z} forme une X et donc base hilbertienne de H
X H = tZ
t Xt : (t )
(Z)
o` u 2 (Z) est lensemble des suites (xt ) CZ telles que t |t |2 < et la convergence de la somme tZ est ` a comprendre au sens L2 . On peut en particulier prendre (t,n )tZ,n1 de la forme t,n = t 1(n t n). On introduit lop erateur de retard qui facilitera l ecriture de ces ltres. D enition 4.1.4 (Op erateur de retard) Soit {Xt , t Z} d eni sur (, F , P) un processus du second ordre. On d enit lop erateur de retard B X (comme backshift en anglais) comme lop erateur de lespace H dans lui-m eme d eni par B (Xt ) = X tout entier est obtenu en compl Xt1 . (lextension ` a H etant par lin earit e et densit e.) On a le r esultat suivant dont la preuve el ementaire est omise. Proposition 4.1.5 Soit X = {Xt , t Z} un processus du second ordre. Supposons que X soit de moyenne constante, pour tout t, E[Xt ] = . Alors X est stationnaire au second ordre si et seulement si B est une isom etrie de X eme. H dans lui-m Remarque 4.2 On remarque que lop erateur B est tr` es li e` a lop erateur S 1 . Une di erence essentielle X 1 est quil op` ere sur un espace de v.a. (lespace H ) alors que S op` ere sur un espace de trajectoires (lespace E Z ). Cette relation est formellement donn ee par l egalit e des 2 v.a. B (t X ) = t S 1 X . On note B k = B B k1 pour k 1 les compositions successives de lop erateur B . Pour k < 0, B k k est d eni comme lop erateur inverse de B . X . Quand, Reprenons lexemple 4.6 du ltrage lin eaire enti` erement d eni par un el ement Y0 H pour d enir Y0 , on peut prendre (t,n )tZ,n1 de la forme t,n = t 1(n t n) o` u (t ) CZ , on s notera sZ s B lop erateur correspondant, Yt =
s Z
s B s (Xt ) Yt =
sZ
s Xts
pour tout t Z .
Cest bien le cas dans lexemple 4.7 qui repose sur des hypoth` ese particuli` eres pour X . Ce sera encore le cas dans le cadre du paragraphe 4.1.3, cette fois sous des hypoth` eses particuli` eres pour la suite (t ).
4.1.3
Filtres ` a r eponse impulsionnelle sommable
Dans ce paragraphe, nous nous int eressons au ltrage des processus obtenus. par convolution des trajectoires avec un suite absolument sommable.
39
Th eor` eme 4.1.6 eatoire Soit {k }kZ une suite absolument sommable, i.e. k= |k | < et soit {Xt } un processus al tel que suptZ E {|Xt |} < . Alors, pour tout t Z, la suite :
n
Yn,t =
s=n
s Xts
converge presque s urement, quand n tend vers linni, vers une limite Yt que nous notons
Yt =
s=
s Xts .
De plus, la variable al eatoire Yt est int egrable, i.e. E {|Yt |} < et la suite {Yn,t }n0 converge vers Yt en norme . 1 , lim E {|Yn,t Yt |} = 0 .
n
Supposons que suptZ E < . Alors, E Yt2 < et la suite {Yn,t }n0 converge en moyenne quadratique vers la variable al eatoire Yt , cest ` a dire que
n
2 Xt
lim E |Yn,t Yt |2 = 0 .
monstration Voir le paragraphe 4.3 en n de chapitre. De Le r esultat suivant etabli que le processus obtenu par ltrage lin eaire dun processus stationnaire du second ordre est lui-m eme stationnaire au second ordre, ` a condition que la r eponse impulsionnelle {k } soit de module sommable. Th eor` eme 4.1.7 (Filtrage des processus stationnaires au second ordre) Soit {k } une suite telle que k= |k | < et soit {Xt } un processus stationnaire au second ordre de moyenne X = E {Xt } et de fonction dautocovariance X (h) = cov(Xt+h , Xt ). Alors le processus Yt = s= s Xts est stationnaire au second ordre de moyenne :
Y = X
k=
(4.1)
de fonction dautocovariance :

Y (h) =
j = k=
j k X (h + k j )
(4.2)
et de mesure spectrale : Y (d) = | (ei )|2 X (d) o` u (ei ) =

k
(4.3)
k eik est la transform ee de Fourier ` a temps discret de la suite {k }kZ .
monstration Voir le paragraphe 4.3 ` De a la n de ce chapitre. 40
La relation (4.3) qui donne la mesure spectrale du processus ltr e en fonction de la fonction de transfert du ltre et de la mesure dentr ee du processus dentr ee est particuli` erement simple. Elle montre par exemple que la mise en s erie de deux ltres (B ), (B ) de r eponses impulsionnelles absolument sommables conduit ` a une mesure spectrale |(ei )|2 | (ei )|2 X (d) pour le processus de sortie (ce qui montre au passage que lordre dapplication des ltres est indi erent). D enition 4.1.8 (Processus lin eaire) Nous dirons que {Xt } est un processus lin eaire sil existe un bruit blanc Zt BB(0, 2 ) et une suite de coecients {k }kZ absolument sommable telle que :
Xt = +
k=
k Ztk
(4.4)
o` u d esigne une valeur arbitraire. Il r esulte directement de la discussion ci-dessus quun processus lin eaire est stationnaire au second ordre, que sa moyenne est egale ` a , que sa fonction dautocovariance est donn ee par :
X (h) = 2
j =
j j +h
et que sa mesure spectrale admet une densit e dont lexpression est : fX () = o` u (ei ) =
k
2 | (ei )|2 2
(4.5)
k eik .
4.1.4
Repr esentation spectrale des processus stationnaire du second ordre et ltrage lin eaire
Pour un mesure sur (, ], ou de fa con equivalente sur le tore, on note L2 ( ) lensemble des fonctions bor eliennes f (2 )-p eriodiques a ` valeurs complexes telles que |f ()|2 (d) < .
D enition 4.1.9 Soit X = (Xt )tT un processus stationnaire du second ordre centr e de mesure spectrale . Il existe une X dans L2 ( ) telle que, pour tout t T , unique application lin eaire T de H T (Xt ) = eit . De plus T est une isom etrie hilbertienne.
41
Lexistence, lunicit e et lisom etrie proviennent de lobservation que T respecte le produit scalaire puisque EXt Xs = cov(Xt , Xs ) = ei(ts) (d) ,
enir une isom etrie et du fait que L2 ( ) = span ([ eit ] : t T ). Par bijection de T , on peut d X. r eciproque T 1 de L2 ( ) dans H Lisom etrie T 1 peut en fait sinterpr eter comme une int egrale par rapport ` a un processus d eni sur (, ]. Puisque 1(,+] L2 ( ), on peut d enir, pour tout (, ],
X () = T 1 (1(,+] ) H X .
On observe par isom etrie de T 1 que le processus ainsi obtenu est ` a accroissements orthogonaux, cest-` a-dire, pour tout 1 2 3 , (1 ), X (3 ) X (2 ) = 0 . cov X Soit f une fonction en escalier, cest-` a-dire telle que pour n 1 et = 0 < 1 < < n = donn es, f () = f (i ) pour tout i {0, 1, . . . , n 1} et (i , i+1 ] . On a alors par lin earit e de T 1 ,
n1
T 1 (f ) =
i=0
(i+1 ) X (i ) = f (i ) X
() , f () dX
o` u lint egrale ainsi d enie correspond ` a la formule habituelle de lint egrale dune fonction en escalier. Lint egrale stochastique est etendue des fonctions en escalier aux fonctions de L2 ( ) par passage ` a la 2 limite L en utilisant lisom etrie de T 1 et le fait que L2 ( ) est engendr e par les fonctions en escalier. Cest pourquoi on notera dans la suite lapplication T 1 sous une forme int egrale : T 1 (f ) = En particulier, on a Xt = () eit dX pour tout t T . () f () dX pour toute fonction f L2 ( ) .
X Reprenons maintenant lexemple 4.6 du ltrage lin eaire enti` erement d eni par un el ement Y0 H X mais cette fois en utilisant la repr esentation spectrale des el ements de H . Ce ltrage est d eni de fa con equivalente par un el ement f0 L2 ( ) en posant, pour tout t Z,
Yt = T 1 (ft ) On obtient de plus par isom etrie de T 1 que cov (Yt , Ys ) =
avec
ft () = eit f0 () .
ei(ts) |f0 ()|2 (d) ,
et donc que la mesure spectrale (Yt ) admet pour densit e |f0 ()|2 par rapport ` a . et si Y = (Yt ) est obtenu par ltrage de X comme pr ec edemment, on a Yt = () eit f0 () dX pour tout t Z .
42
4.2
Processus ARMA
Dans ce paragraphe nous nous int eressons ` a une classe importante de processus du second ordre, les processus autor egressifs ` a moyenne ajust ee ou processus ARMA. Il sagit de restreindre la classe des processus lin eaires en ne consid erant que les ltres dont la fonction de transfert est rationnelle.
4.2.1
Processus MA(q )
D enition 4.2.1 (Processus MA(q )) On dit que le processus {Xt } est ` a moyenne ajust ee dordre q (ou MA(q )) si {Xt } est donn e par : Xt = Zt + 1 Zt1 + + q Ztq o` u Zt BB(0, 2 ). La terminologie moyenne ajust ee est la traduction, assez malheureuse, du nom anglo-saxon moving average (moyenne mobile) En utilisant les r esultats du th eor` eme 4.1.7, on obtient E {Xt } = 0, et X (h) = 2 0
t|h| t=0 k k+|h|
(4.6)
pour 0 |h| q sinon
(4.7)
Enn, dapr` es la formule (4.5), le processus admet une densit e spectrale dont lexpression est : 2 fX () = 1+ 2
q 2
k e
k=1
ik
Un exemple de densit e spectrale pour le processus MA(1) est repr esent e gure 3.6. De mani` ere g en erale, la densit e spectrale dun processus M A(q ) poss` ede des anti-r esonnances au voisinage des pulsations q k correspondant aux arguments des racines du polyn ome (z ) = emontrera, ` a titre k=1 k z . On d dexercice, la propri et e suivante qui indique que toute suite de coecients covariance { (h)} non nulle sauf pour un nombre ni dindices temporels (i.e. le cardinal de lensemble {h Z, (h) = 0}) peut etre consid er ee comme la suite des coecients dautocovariance dun mod` ele lin eaire ` a moyenne mobile. Proposition 4.2.2 Soit (h) une fonction dautocovariance telle que (h) = 0 pour |h| > q . Alors, il existe un bruit blanc {Zt } et un polyn ome (z ) de degr e inf erieur ou egal ` a q tels que (h) soit la fonction dautocovariance du processus M A(q ) d eni par Xt = Zt + q Z k=1 k tk .
4.2.2
Processus AR(p)
D enition 4.2.3 (Processus AR(p)) On dit que le processus {Xt } est un processus autor egressif dordre p (ou AR(p)) si {Xt } est un processus stationnaire au second-ordre et sil est solution de l equation de r ecurrence : Xt = 1 Xt1 + + p Xtp + Zt o` u Zt BB(0, 2 ) est un bruit blanc. 43 (4.8)
Le terme autor egressif provient de la forme de l equation (4.8) dans laquelle la valeur courante du processus sexprime sous la forme dune r egression (terme synonyme de combinaison lin eaire) des p valeurs pr ec edentes du processus plus un bruit additif. Lexistence et lunicit e dune solution stationnaire au second ordre de l equation (4.8) constituent des questions d elicates (qui ne se posaient pas lorsque nous avions d eni les mod` eles MA). Nous d etaillons ci-dessous la r eponse ` a cette question dans le cas le cas p = 1. Cas : |1 | < 1 L equation de r ecurrence s ecrit : Xt = 1 Xt1 + Zt (4.9) Puisque |1 | < 1, la fraction rationnelle (z ) = (1 1 z )1 a un d eveloppement en s erie enti` ere de la forme : + 1 k (z ) = = k 1z 1 1 z
k=0
qui converge sur le disque {z C : |z | < |1 |1 }. Consid erons alors le ltre lin eaire de r eponse impulsionnelle k = k pour k 0 et = 0 sinon. Comme est absolument sommable, le processus k k 1

Yt =
k=0
k Ztk =
k=0
k 1 Ztk
est bien d eni et est stationnaire au second ordre. Par construction Yt est solution de (4.9) ce que lon peut egalement v erier directement en notant que :
+
Xt = Zt + 1
k=0
k 1 Zt1k = Zt + 1 Xt1
Lunicit e de la solution est garantie par lhypoth` ese de stationnarit e au second ordre. Supposons en eet que {Xt } et {Yt } soient deux processus stationnaires au second-ordre et que ces deux processus soient solutions de l equation de r ecurrence (4.9). On a alors par di erence (Xt Yt ) = 1 (Xt1 Yt1 ), relation qui it er ee k fois implique (Xt Yt ) = k 1 (Xtk Ytk ) . Par suite,
k k 2 E {|Xt Yt |} = k 1 E {|Xtk Ytk |} 1 (E {|Xtk |} + E {|Ytk |}) 1 (E X0
1 2
+ E Y02
1 2
o` u k peut etre pris quelconque. Comme 1 est en module plus petit que 1, on en d eduit que E {|Xt Yt |} = 0 et donc que Xt = Yt presque s urement. La fonction dautocovariance de Xt solution stationnaire de (4.9) est donn ee par la formule (4.2) qui s ecrit ;
X (h) =
2 k=0
k+|h| k 1 1
1 = 1 2 1
2
|h|
(4.10)
44
5 0 5 5 0 5 10 0 10 0 100 200 300 400 500 0 100 200 300 400 500 0 100 200 300 400 500
Figure 4.1 Trajectoires de longueur 500 dun processus AR(1)) gaussien.

Courbe du haut : 1 = 0.7. Courbe du milieu : 1 = 0.5. Courbe du bas : 1 = 0.9
Lorsque 1 > 0, le processus Xt est positivement corr el e, dans le sens o` u tous ses coecients dautocovariance sont positifs. Les exemples de trajectoires repr esent ees sur la gure 4.1 montrent que des valeurs de 1 proches de 1 correspondent ` a des trajectoires persistantes (dont, par exemple, les temps successifs de passage par z ero sont relativement espac es). Inversement, des valeurs de 1 n egatives conduisent ` a des trajectoires o` u une valeur positive a tendance ` a etre suivie par une valeur n egative. La densit e spectrale de Xt est donn ee par
2
1.5
0.5
Figure 4.2 Densit e spectrale dun processus AR(1), d eni par (4.9) pour
= 1 et 1 = 0.7.
2 fX () = 2
ik k 1e k=0
2 1 2 |1 1 ei |2
(4.11)
45
La gure 4.2 donne la forme de cette densit e spectrale pour 1 = 0.7. Cas |1 | > 1 Nous allons montrer que le processus retourn e temporel v erie une equation r ecurrente qui nous r r ram` ene au cas pr ec edent. Pour cela posons Xt = Xt . En portant Xt dans l equation (4.9), on obtient
r r Xt = Xt = 1 Xt1 + Zt = 1 Xt +1 + Zt
qui peut encore s ecrire :

1 r r Xt = 1 Xt1 + Wt
(4.12)
1 2 2 2 o` u Wt = equation (4.12) est maintenant du 1 Zt1 est un bruit blanc de variance W = /1 . L 1 type que (4.8) puisque |1 | < 1. Par cons equent il existe un unique processus stationnaire solution de l equation 4.12 donn e par r Xt = k=0 k 1 Wtk
(4.13)
Comme
r} {Xt
est stationnaire au second ordre, le processus

r Xt = X t = k=0 k 1 Wt+k = k=1 k 1 Zt+k
(4.14)
lest egalement (cf. exemple 3.1) avec la m eme moyenne et la m eme fonction dautocovariance. Les expressions de la fonction dautocovariance et de la densit e spectrale du processus sont donc donn ees respectivement par (4.10) et (4.11) ` a condition de substituer 1 par 1/1 . Un point remarquable ` a propos de lexpression de la solution stationnaire donn ee par (4.14) est que celle ci est enti` erement anti-causale, dans le sens o` u elle ne d epend que des valeurs futures du bruit Zt . Cette remarque montre quil ne faut pas se laisser tromper par lapparence de la relation de r ecurrence (4.12) : la solution stationnaire ne sexprime par forc ement comme un ltrage causal du bruit Zt , point que nous d evelopperons au paragraphe 4.2.2. Cas |1 | = 1 Nous avons d ej` a montr e` a propos de lexemple 3.4 que lorsque 1 = 1, un processus Xt v eriant 2 |X Xt = Xt1 + Zt ne peut avoir une variance constante au cours du temps (on a montr e que E Xt 0 = 2 2 2 2 t , o` u est la variance de Zt , et donc E Xt = t ). A fortiori, un tel processus ne peut etre stationnaire au second ordre. En utilisant la m eme technique, on montre ais ement que l equation de r ecurrence (4.9) ne peut avoir de solution stationnaire lorsque |1 | = 1. Une remarque int eressante est que dans le cas o` u 1 = 1, le processus Zt = Xt Xt1 est par hypoth` ese stationnaire. On peut donc utiliser le mod` ele Xt Xt1 = Zt pour un processus {Xt , t Z} non-stationnaire dont les incr ements sont suppos es stationnaires. Cest implicitement la strat egie que nous avons adopt ee pour analyser la s erie de lindice S&P500 repr esent ee gure 1.4 au paragraphe 3.2.2 (en utilisant en plus une transformation logarithmique des donn ees).
46
Cas g en eral Le th eor` eme suivant etend les r esultats pr ec edents ` a un processus AR(p). Th eor` eme 4.2.4 (Existence des processus AR(p)) L equation r ecurrente : Xt = 1 Xt1 + + p Xtp + Zt (z ) = 1 1 z p z p = 0 pour |z | = 1 et cette solution est unique. Elle a pour expression :
(4.15)
o` u Zt BB(0, 2 ) admet une solution stationnaire au second ordre si et seulement si le polyn ome :
Xt =
k=
k Ztk
(4.16)
o` u k est la suite des coecients du d eveloppement en s erie de Laurent de 1/(z ) au voisinage du cercle unit e. monstration La condition (z ) = 0 pour |z | = 1 implique que (z ) = 0 dans une couronne De 1 |z | 1 + et donc que la fonction (z ) = 1/(z ) est analytique dans cette couronne. Il sen suit que 1/(z ) admet, pour 1 |z | 1 + , un d eveloppement en s erie de Laurent qui s ecrit : 1 = (z )
k z k = (z )
k=
(4.17)
o` u la suite {k } est de module sommable et v erie 0 = 1. Nous pouvons alors consid erer le ltre de r eponse impulsionnelle {k }. Dapr` es le th eor` eme 4.1.7, nous pouvons appliquer ce ltre aux deux membres de l equation r ecurrente (B )Xt = Zt . Nous obtenons ( (B )(B ))Xt = Xt = (B )Zt . On en d eduit que lunique solution stationnaire de l equation (4.15) est donn ee par (4.16). AR(p) causal On peut distinguer trois cas suivant la position des racines de (z ) par rapport au cercle unit e: Les racines du polyn ome (z ) sont strictement ` a lext erieur du cercle unit e. Alors la fonction (z ) = 1/(z ) est analytique sur le disque {z : |z | < m }, o` u m > 1 est le module de la racine de (z ) de module le plus petit. En particulier (z ) est analytique en 0 et donc k = 0 pour k < 0. Il sen suit que :
Xt =
k=0
k Ztk
On note que Xt sexprime causalement en fonction de Zt dans le sens o` u Xt d epend uniquement des valeurs pr esente et pass ees de Zt . On dit dans ce cas que le mod` ele autor egressif est causal. Les racines du polyn ome (z ) sont strictement ` a lint erieur du cercle unit e. Alors la fonction 1/(z ) est analytique dans la couronne {z : |z | > M }, o` u M < 1 est le module de la racine de (z ) de module le plus grand. On en d eduit que k = 0 pour k 0 et donc que Xt sexprime anti-causalement en fonction de Zt , dans le sens o` u Xt d epend uniquement des valeurs futures de Zt . On dit dans ce cas que le mod` ele autor egressif est anti-causal. 47
Le polyn ome (z ) a des racines de part et dautre du cercle unit e. La suite k est alors bilat erale. Dans ce cas Xt d epend ` a la fois des valeurs pass ees, pr esente et futures de Zt . On dit dans ce cas que le mod` ele autor egressif est bilat erale. Th eor` eme 4.2.5 (AR(p) causal) L equation r ecurrente : Xt = 1 Xt1 + + p Xtp + Zt o` u Zt BB(0, 2 ) admet une solution stationnaire au second ordre causale si et seulement si (z ) = 1 1 z p z p = 0 pour |z | 1. Cette solution est unique et a pour expression :
Xt =
k=0
k Ztk
(4.18)
o` u k est la suite des coecients du d eveloppement en s erie de Laurent de 1/(z ) dans le disque {z : |z | 1}. monstration Il nous reste ` De a montrer que, si l equation r ecurrente poss` ede une solution station Z avec naire au second ordre causale cest-` a-dire telle que Xt = k t k k de module sommable, k=0 alors (z ) = 0 pour |z | 1. En eet partons de (B )Xt = Zt et rempla cons Xt par (B )Zt , o` u nous k supposons que (z ) = k=0 k z est analytique pour |z | 1. Alors on a ((B ) (B ))Zt = Zt et donc (z ) (z ) = 1 pour |z | 1 qui implique que (z ) = 0 pour |z | 1. Sauf indication contraire nous ne consid erons, dans la suite, que des processus autor egressifs causaux. La propri et e de causalit e joue en eet un r ole essentiel pour lestimation des param` etres (cf. les equations de Yule-Walker ci-dessous) ainsi que dans les probl` emes de pr ediction etudi es au chapitre 5. Par ailleurs, cette restriction nen est pas vraiment une comme le montre lexercice suivant : 4.1 Exercice: Soit M(p) un mod` ele AR(p) de param` etres 2 , 1 , . . . p qui admet une solution stationnaire ((z ) = 0 pour |z | = 1). Montrer quil existe toujours un mod` ele M (p) AR(p) stable et causal poss edant la m eme fonction u dautocovariance que M(p) (indication : utiliser des facteurs passe-tout de la forme (a1 z )/(1 a 1 z ) o` (a1 ) = 0). Equations de Yule-Walker Les equations de Yule-Walker fournissent une relation lin eaire entre les param` etres 1 , . . . , p et 2 de l equation (4.15), d enissant un processus AR(p), et la fonction dautocovariance de ce processus. Nous nous pla cons dans le cas o` u le processus AR(p) est causal et donc, pour k > 0 E {Zt Xtk } = 0 dapr` es (4.18). On en d eduit que :
p
E {Zt Xt } = E {Zt Zt } +
j =1
j E {Zt Xtj } = 2
48
et par suite en rempla cant, dans E {Zt Xt }, Zt par Xt p j =1 j Xtj il vient : p p 2 = E {Zt Xt } = E (Xt j Xtj )Xt = (0) k (k )
j =1 k=1
(4.19)
En multipliant, pour k > 0, les deux membres de l equation (4.15) par Xtk et en en prenant p lesp erance, on obtient 0 = E {Zt Xtk } = E (Xt j =1 j Xtj )Xtk . On en d eduit que la fonction dautocovariance v erie, pour tout k > 0, l equation de r ecurrence :
p
(k )
j =1
j (k j ) = 0
(4.20)
En regroupant, sous forme matricielle, les p equations (4.20) pour 1 k p, on obtient : (0) (1) (p 1) 1 (1) (1) (0) (p 2) 2 (2) = . . . . .. . . . . . . (p 1) (p 2) (0) p (p)
(4.21)
Les equations (4.19) et (4.21) sont appel ees equations de Yule-Walker. Nous retrouverons ces equations, dans le cadre de la pr ediction lin eaire au chapitre 5 ( equations (5.8) et (5.9)). Ces equations permettent egalement de d eterminer les valeurs des param` etres du mod` ele ` a partir destimation de la fonction dautocovariance (cf. chapitre 7). Calcul des covariances dun processus AR(p) causal Partant des param` etres du mod` ele, il est egalement possible de calculer la fonction dautocovariance du processus ` a partir des equations (4.19) et (4.21) en les r e ecrivant sous la forme 2 1 1 p 1 0 0 (0)/2 1 0 1 0 (1) p 1 0 + . = . (4.22) . . . . . . . . . .. .. . . . . .. .. . . . . . . . p 0 0 p 1 1 (p) 0 Partant alors de 1 , . . . , p , 2 , on calcule (0), . . . , (p) puis, en utilisant (4.20), on calcule (k ) pour tout k > p. Une autre fa con de proc eder consiste ` a calculer r ecursivement la suite k en remarquant que 1 = (z )(z ) = (0 + 1 z + . . . )(1 1 z p z p ) et donc, par identication, que : 0 = 1, 1 = 1 0 , 2 = 2 0 + 1 1 , etc.
puis dappliquer la formule (4.2) pour un processus dentr ee de fonction dautocovariance 2 (h) qui s ecrit
(h) = 2
k=0
k k+|h|
49
Densit e spectrale R e ecrivons l equation (4.15) sous la forme Xt p k=1 k Xtk = Zt . Le premier membre est un processus stationnaire au second ordre puisque il repr esente le ltrage, par un ltre de r eponse impulsionnelle nie, du processus Xt . Ce processus poss` ede donc une densit e spectrale qui a pour expression ik 2 f () o` 1 p e u f ( ) d e signe la densit e spectrale de Xt . Cette densit e spectrale est X X k=1 k 2 aussi egale ` a celle du second membre Zt , cest ` a dire ` a /2 . Par cons equent, f () = 2 2 1 1
p ik 2 k=1 k e
(4.23)
4.2.3
Processus ARMA
La notion de processus ARMA g en eralise les notions de processus MA et AR. Th eor` eme 4.2.6 (Existence des processus ARMA(p, q )) Soit l equation r ecurrente : Xt 1 Xt1 p Xtp = Zt + 1 Zt1 + + q Ztq (4.24)
o` u Zt BB(0, 2 ). On pose (z ) = 1 1 z p z p et (z ) = 1 + 1 z + + p z p . On suppose que (z ) et (z ) nont pas de z eros communs. Alors l equation (4.24) admet une solution stationnaire au second ordre si et seulement si le polyn ome (z ) = 0 pour |z | = 1. Cette solution est unique et a pour expression :
Xt =
k=
k Ztk
(4.25)
o` u k est la suite des coecients du d eveloppement en s erie de Laurent de (z )/(z ) au voisinage du cercle unit e. monstration Comme (z ) = 0 pour |z | = 1, 1/(z ) est d De eveloppable en s erie de Laurent au voisinage du cercle unit e, suivant : 1 (z ) = = (z )
k z k
k=
o` u la suite {k } est de module sommable et v erie 0 = 1. Dapr` es le th eor` eme 4.1.7, nous pouvons donc appliquer le ltre de r eponse impulsionnelle {k } aux deux membres de l equation r ecurrente (B )Xt = (B )Zt . Nous obtenons ( (B )(B ))Xt = Xt = (B )Zt o` u (B ) = (B )(B ). On en d eduit k que (z ) = k k z avec :
q
k = k +
j =1
j k j
o` u {k } est absolument sommable. Dans le cas o` u (z ) et (z ) ont des z eros communs, deux congurations sont possibles : 50
Les z eros communs ne sont pas sur le cercle unit e. Dans ce cas on se ram` ene au cas sans z ero commun en annulant les facteurs communs. Certains des z eros communs se trouvent sur le cercle unit e. L equation (4.24) admet une innit e de solutions stationnaires au second ordre. Du point de vue de la mod elisation, la pr esence de z eros communs ne pr esente aucun int er et puisquelle est sans inuence sur la densit e spectrale de puissance. Elle conduit de plus ` a une ambigu t e sur lordre r eel des parties AR et MA. ARMA(p, q ) causal Comme dans le cas dun processus AR(p), on peut distinguer trois cas, suivant que les z eros de (z ) sont ` a lext erieur, ` a lint erieur ou de part et dautre du cercle unit e. Dans le cas o` u les z eros de (z ) sont a lext ` erieur du cercle unit e, la suite k est causale (k = 0 pour k < 0) et donc k = k + q j =1 j kj est aussi causale. Par cons equent le processus Xt sexprime causalement en fonction de Zt . Th eor` eme 4.2.7 (ARMA(p, q ) causal) Xt 1 Xt1 p Xtp = Zt + 1 Zt1 + + q Ztq BB(0, 2 ). zp zp. (4.26)
o` u Zt On pose (z ) = 1 1 z p et (z ) = 1 + 1 z + + p On suppose que (z ) et (z ) nont pas de z eros communs. Alors l equation (4.26) admet une solution stationnaire causale au second ordre si et seulement si le polyn ome (z ) = 0 pour |z | 1. Cette solution est unique et a pour expression :
Xt =
k=0
k Ztk
(4.27)
o` u k est la suite des coecients du d eveloppement en s erie de Laurent de (z )/(z ) dans le disque {z : |z | 1}. monstration Il sut de remarquer que la condition sur (z ) implique que 1/(z ) poss` De ede un d eveloppement causal au voisinage du cercle unit e. (B ) correspond donc ` a une op eration de ltrage causal (voir preuve du th eor` eme 4.2.6 pour les notations), ce qui implique quil en va de m eme pour (B )(B ). Calcul des covariances dun processus ARMA(p, q ) causal Une premi` ere m ethode consiste ` a utiliser lexpression (4.2) qui s ecrit, compte tenu du fait que {Zt } est un bruit blanc,
(h) =
2 k=0
k k+|h|
o` u la suite {k } se d etermine de fa con r ecurrente ` a partir de l egalit e (z )(z ) = (z ) par identication du terme en z k . Pour les premiers termes on trouve : 0 = 1 1 = 1 + 0 1 2 = 2 + 0 2 + 1 1 51
La seconde m ethode utilise une formule de r ecurrence, v eri ee par la fonction dautocovariance dun processus ARMA(p, q ), qui sobtient en multipliant les deux membres de (4.24) par Xtk et en en prenant lesp erance. On obtient : (k ) 1 (k 1) p (k p) = 2
kj q
j j k
pour 0 k < max(p, q + 1) pour k max(p, q + 1)
(4.28) (4.29)
(k ) 1 (k 1) p (k p) = 0
o` u nous avons utilis e la causalit e du processus pour ecrire que E {Zt Xtk } = 0 pour tout k 1. Le calcul de la suite {k } pour k = 1, . . . , p se fait comme pr ec edemment. En reportant ces valeurs dans (4.28) pour 0 k p, on obtient (p +1) equations lin eaires aux (p +1) inconnues ( (0), . . . , (p)) que lon peut r esoudre. Pour d eterminer les valeurs suivantes on utilise lexpression (4.29). Inversibilit e dun processus ARMA(p, q ) Th eor` eme 4.2.8 (ARMA(p, q ) inversible) Soit Xt un processus ARMA(p, q ). On suppose que (z ) et (z ) nont pas de z eros communs. Alors il existe une suite {k } causale absolument sommable telle que :
Zt =
k=0
k Xtk
(4.30)
si et seulement si (z ) = 0 pour z 1. On dit alors que le mod` ele ARMA(p, q ) est inversible. La suite k est la suite des coecients du d eveloppement en s erie de (z )/(z ) dans le disque {z : |z | 1}. La preuve de ce th eor` eme est tout ` a fait analogue ` a celle du th eor` eme 4.2.7. Remarquons que la notion dinversibilit e, comme celle de causalit e, est bien relative au mod` ele ARMA(p, q ) lui-m eme et pas uniquement au processus Xt comme le montre lexercice suivant. 4.2 Exercice: Soit Xt un processus stationnaire au second ordre solution de l equation de r ecurrence (4.26) o` u le mod` ele ARMA(p, q ) correspondant est suppos e sans z ero commun mais pas n ecessairement inversible. Montrer t tel que Xt soit solution de quil existe un bruit blanc Z (B )Z t (B )Xt = 1 , . . . q est inversible (indication : consid o` u le mod` ele ARMA(p, q ) d eni par 1 , . . . p et erer des facteurs passe-tout). Un mod` ele ARMA(p, q ) est causal et inversible lorsque les racines des polyn omes (z ) et (z ) sont toutes situ ees ` a lext erieur du ltre unit e. Dans ce cas, Xt et Zt se d eduisent mutuellement lun de lautre par des op erations de ltrage causal, la r eponse impulsionnelle de chacun de ces ltres etant ` a phase minimale (cest ` a dire inversible causalement).
52
Densit e spectrale dun processus ARMA(p, q ) Th eor` eme 4.2.9 (Densit e spectrale dun processus ARMA(p, q )) Soit Xt un processus ARMA(p, q ) (pas n ecessairement causal ou inversible) d eni par (B )Xt = (B )Zt o` u Zt BB (0, 2 ) et o` u (z ) et (z ) sont des polyn omes de degr e q et p nayant pas de z eros communs. Alors Xt poss` ede une densit e spectrale qui a pour expression : f () = 2 1 + 2 1
q ik 2 k=1 k e p ik 2 k=1 k e
(4.31)
53
4.3
Preuves des th eor` emes 4.1.6 et 4.1.7
monstration (Preuve du The ore `me 4.1.6) Notons pour tout t Z et n N, |Y |n,t = De +n | || X . La suite {| Y | } est une suite de variables al eatoires int egrables. Le th eor` eme s ts n,t n0 s=n de convergence domin e montre que
n
lim E {|Y |n,t } = E {|Y |t }
o` u |Y |t =
s= |s ||Xts |.
Comme,
+n
E {|Y |n,t } =
s=n
|s |E {|Xts |} sup E {|Xt |}

tZ s=
|s | ,
on a donc E
|s ||Xts |
s=
< .
Par cons equent, il existe un ensemble A F , v eriant PA = 1 tel que, pour tout A, nous ayons
|s ||Xts ( )| <
s=
Pour A, la s erie de terme g en erique s s Xts ( ) est normalement sommable, ce qui implique que, pour tout A, la suite n Yn,t ( ) converge. Notons, pour tout , Yt ( ) = lim sup Yn,t ( ). Yt ( ) est une variable al eatoire comme limite sup erieure de variables al eatoires et pour tout A, nous avons limn Yn,t ( ) = Yt ( ) et donc la suite n Yn,t converge P-p.s vers Yt . Remarquons egalement que la suite n Yn,t est une suite de Cauchy dans L1 (, F , P). En eet, pour tout p q , nous avons :
p
E {|Yp,t Yq,t |} sup E {|Xt |}

tZ s=q +1
|s | 0
q,p
Fixons
> 0 et choisissons n tel que

p,q n
sup E {|Yp,t Yq,t |}
Par application du lemme de Fatou nous avons alors, pour tout q n, E lim inf |Yp,t Yq,t |
p
= E {|Yt Yq,t |} lim inf E {|Yp,t Yq,t |}

p
et donc lim supq E {|Yq,t Yt |} . Comme limq E {|Yq,t Yt |} = 0. Lin egalit e triangulaire
est
arbitraire,
nous
avons
donc
E {|Yt |} E {|Yt Yn,t |} + E {|Yn,t |} 54
2 < . Remarquons montre enn que Yt L1 (, F , P). Consid erons maintenant le cas o` u suptZ E Xt 2 )1/2 et donc que cette condition implique que sup tout dabord que E {|Xt |} (E Xt tZ E {|Xt |} < . La suite m Ym,t est une suite de Cauchy dans L2 (, F , P). En eet, pour p q , nous avons 2 p p 2 = j k E {Xtj Xtk } s Xts E (Yp,t Yq,t ) = E s=q +1 j,k=q +1 2 p p
j,k=q +1
|j ||k | sup E
tZ
2 Xt
= sup E
tZ
2 Xt
j =q +1
|j |
Comme pr ec edemment xons
> 0 et choisissons n tel que :

p,q n
sup E |Yp,t Yq,t |2 .
Par application du lemme de Fatou, nous avons : E lim inf (Yp,t Yq,t )2
p
= E (Yt Yq,t )2 lim inf E (Yp,t Yq,t )2

p
et donc : lim supq E (Yt Yq,t )2 . Comme est arbitraire, lim supq E (Yt Yq,t )2 = 0, en dautres termes, la suite {Yq,t }q0 converge en moyenne quadratique vers Yt . Finalement, nous avons :
2 E Yt2 2(E (Yt Yq,t )2 + E Yq,t )<
et Yt est donc une variable de carr e int egrable. monstration (Preuve du The ore `me 4.1.7) Comme E De th eor` eme de Fubini implique
s= |s |E {|Xts |}
< , le
E
s=
s Xts
=
s=
s E {Xts }
ce qui etablit (4.1). Pour la fonction dautocovariance, notons tout dabord que, pour tout n, le processus Yn,t = n s=n s Xts est stationnaire au second ordre et que nous avons
n n
cov(Yn,t , Yn,t+h ) =
j =n k=n
j k X (h + k j )
Remarquons ensuite que cov(Yt , Yt+h ) = cov(Yn,t + (Yt Yn,t ), Yn,t+h + (Yt+h Yn,t+h )) = cov(Yn,t , Yn,t+h ) + cov(Yt Yn,t , Yn,t+h ) + cov(Yn,t , Yt+h Yn,t+h ) + cov(Yt Yn,t , Yt+h Yn,t+h ) =A+B+C +D 55
Lin egalit e: var(Yn,t Yt ) = lim var(Yn,t Yp,t )

p j =n+1
2 |j | X (0)
permet ensuite de d eduire, quand n tend vers linni, les limites suivantes |B | (var(Yt Yn,t ))1/2 (var(Yn,t+h ))1/2 0 |C | (var(Yt+h Yn,t+h ))1/2 (var(Yn,t ))1/2 0 |D| (var(Yt+h Yn,t+h ))1/2 (var(Yt Yn,t ))1/2 0 et donc cov(Yt , Yt+h ) = limn cov(Yn,t , Yn,t+h ), ce qui d emontre lexpression (4.2) 1 . En reportant dans cette expression X (h) = I eih X (d) o` u X d esigne la mesure spectrale du processus {Xt }, nous obtenons

Y (h) =
j = k=
j k
I
ei(h+kj ) X (d)
En remarquant ensuite que

|j ||k |X (d) X (0)
2 |j |
j = k= I
j =
nous pouvons appliquer le th eor` eme de Fubini et permuter les signes somme et int egrale dans lexpression de Y (h). Ce qui donne :

Y (h) =
I
ih j = k=
j k eik eij =
I
eih | (ei )|2 X (d)
On en d eduit que Y (d) = | (ei )|2 X (d). Pour d eterminer lexpression de lintercovariance entre les processus entre les processus Yt et Xt , il sut de noter |cov(Yt+h , Xt )|2 Y (0)X (0) < + et que :
n
E {(Yt+h Y )(Xt X )} = lim cov(Yn,t+h , Xt ) = lim

n
k cov(Xt+hk Xt )
k=n
=
k=
k X (h k )
Ce qui conclut la preuve.
1. Nous venons ici de d emontrer directement la propri et e de continuit e de la covariance dans L2 que nous verrons comme une cons equence de la structure despace de Hilbert au chapitre 5.
56
Chapitre 5
Pr ediction des processus stationnaires au second ordre

5.1
5.1.1
Pr ediction lin eaire

Estimation lin eaire en moyenne quadratique
Soient X et {Y1 , , Yp } des variables al eatoires r eelles de L2 (, F , P). On cherche ` a d eterminer la meilleure approximation de X par une combinaison lin eaire des variables Yk . Nous supposons ici que nous connaissons les quantit es = E {X }, k = E {Yk } ainsi que les coecients de covariance cov(X, Yk ) et cov(Yk , Y ), pour tout 1 k, p. En pratique, nous verrons au chapitre 7 comment il est possible, sous certaines hypoth` eses, de construire des estimateurs consistants et asymptotiquement normaux de ces quantit es ` a partir dune suite dobservations. On consid` ere lespace ferm e de dimension nie Y = span (1, Y1 , , Yp ) et on cherche l el ement Y Y qui minimise la norme de le risque quadratique X Y 2 . Il d ecoule imm ediatement du th eor` eme de projection que le pr edicteur lin eaire optimal est la projection orthogonale proj ( X | Y ) de X sur Y qui v erie (X proj ( X | Y )) Y . On en d eduit que : X proj ( X | Y ) , 1 = 0 X proj ( X | Y ) , Yk = 0 . (5.1)
pour k {1, , p}
Ce sont ces (p + 1) equations qui vont nous donner la solution cherch ee. En eet la condition proj ( X | Y ) Y implique (comme Y est de dimension nie) que proj ( X | Y ) = a0 + p k=1 ak (Yk k ). Il sut donc de calculer a0 , a1 , . . . , ap . Partant de la premi` ere expression de (5.1), on obtient :
p
X a0
k=1
ak (Yk k ), 1 = X, 1 a0 = 0 ,
(5.2)
qui donne a0 = . En posant a0 = dans la seconde expression de (5.1), on a obtient alors k {1, . . . , p} :
p p
X
j =1
aj (Yj j ), Yk k = X , Yk k
j =1
aj Yj j , Yk k = 0 ,
(5.3)
57
qui montrent que {a1 , , ap } sont solution dun syst` eme de p equations lin eaires ` a p inconnues. Ce syst` eme d equations peut se mettre sous forme plus compacte en utilisant la matrice = [cov(Yk , Y )]1k, p des coecients de covariance de (Y1 , , Yp ) et le vecteur = [cov(X, Y1 ), , cov(X, Yp )]T des coecients de covariance entre X et les composantes Yk . Avec ces notations, le vecteur = [a1 , , ap ]T est solution de l equation : = (5.4)
Ce syst` eme lin eaire admet une unique solution si la matrice est inversible. Notons enn quen vertu de lidentit e de Pythagore, nous avons : X
2
= proj ( X | Y )
+ X proj ( X | Y )
et donc la norme minimale de lerreur de pr ediction a pour expression : X proj ( X | Y )

2
= X
proj ( X | Y )
Nous allons ` a pr esent appliquer ce r esultat ` a la pr ediction dun processus stationnaire au second-ordre a partir de son pass ` e imm ediat en prenant X = Xt et Yk = Xtk avec k = {1, . . . , p}.
5.1.2
Pr ediction lin eaire dun processus stationnaire au second-ordre
Soit {Xt , t Z} un processus stationnaire au second-ordre, de moyenne E {X0 } = et de fonction dautocovariance (h) = cov(Xh , X0 ). On cherche ` a pr edire la valeur du processus ` a la date t ` a partir dune combinaison lin eaire des p derniers echantillons du pass e {Xt1 , , Xtp }. Ce probl` eme est bien entendu un cas particulier du probl` eme pr ec edent o` u nous avons X = Xt et Yk = Xtk , pour k {1, . . . , p} et o` u : Ht1,p = span (1, Xt1 , Xt2 , , Xtp ) (5.5) Formons la matrice de covariance p du vecteur [Xt1 , , Xtp ] : (0) (1) (p 1) . . (1) (0) (1) . . .. .. .. . p = . . . . . . . (1) (p 1) (p 2) (1) (0)
(5.6)
Cette matrice est dite de Toeplitz, ses el ements etant egaux le long de ses diagonales. Notons p le T vecteur [ (1), (2), , (p)] le vecteur des coecients de corr elation. Dapr` es l equation (5.4), les coecients {k,p }1kp du pr edicteur lin eaire optimal d eni par :
p
proj ( Xt | Ht1,p ) =
k=1
k,p (Xtk )
(5.7)
sont solutions du syst` eme d equations : p p = p 58 (5.8)
Dautre part lerreur de pr ediction minimale a pour expression :

2 = X proj ( X | H p t t t1,p ) p 2
= Xt , Xt proj ( Xt | Ht1,p ) (5.9)
= (0)
k=1
k,p (k ) = (0) T p p
Les equations (5.8) et (5.9) sont appel ees equations de Yule-Walker. Notons la propri et e importante suivante : pour p x e, la suite des coecients {k,p }1kp du pr edicteur lin eaire optimal et la variance de lerreur minimale de pr ediction ne d ependent pas de t. Les equations (5.8) et (5.9) peuvent encore etre r e ecrites ` a partir des coecients de corr elation (h) = (h)/ (0). Il vient : (0) (1) (p 1) 1,p (1) . (2) . (1) 2,p (0) (1) . . . . . . . . . . .. .. .. (5.10) . = . . . . . . . . . (1) . . p,p (p) (p 1) (p 2) (1) (0) 5.1 Exemple (Pr ediction avant/arri` ere): Soit Xt = Zt + 1 Zt1 o` u Zt BB(0, 2 ). On note (h) la fonction dautocorr elation de Xt . 2 1. (0) = (1 + 1 ), (1) = 1 et (h) = 0 pour |h| 2. 2. D eterminons la pr ediction de X3 en fonction de X2 et X1 . Dapr` es le th eor` eme de projection proj ( X3 | span (X2 , X1 )) = 1 X1 + 2 X2 v erie X3 2 X2 1 X1 , Xj = 0 pour j = 1, 2. On en d eduit que : 2 1 2 1 + 1 = 1 2 1 1 + 1 1 0 3. D eterminons la pr ediction de X3 en fonction de X4 et X5 . Dapr` es le th eor` eme de projection proj ( X3 | span (X4 , X5 )) = 4 X4 + 5 X5 v erie X3 4 X4 5 X5 , Xj = 0 pour j = 4, 5. On en d eduit que : 2 1 + 1 1 4 = 1 2 1 1 + 1 5 0 Par cons equent 1 = 5 et 2 = 4 . 4. D eterminons la pr ediction de X3 en fonction de X1 , X2 , X4 et X5 . Pour d eterminer proj ( X3 | span (X1 , X2 , X4 , X5 )) = 1 X1 + 2 X2 + 4 X4 + 5 X5 Il sut de remarquer que span (X1 , X2 ) span (X4 , X5 ) et donc : proj ( X3 | span (X1 , X2 , X4 , X5 )) = proj ( X3 | span (X1 , X2 )) + proj ( X3 | span (X4 , X5 )) 5.2 Exemple (Cas dun processus AR(m) causal): Soit le processus AR(m) causal solution stationnaire de l equation r ecurrente : Xt = 1 Xt1 + + m Xtm + Zt
k o` u Zt B (0, 2 ) et o` u (z ) = 1 m k=1 k z = 0 pour |z | 1. Comme la solution est causale on a, pour tout h 1, E {Zt Xth } = 0 et donc E {(Xt m k=1 k Xtk )Xth } = 0 qui signie que, pour tout p m,
59
1. (Xt 2.
m k=1 k Xtk )
Ht1,p
m k=1 k Xtk
Ht1,p .
Par cons equent, dapr` es le th eor` eme de projection, m k=1 k Xtk = proj ( Xt | Ht1,p ) et donc, pour tout pm : k pour 1 k m k,p = . 0 pour k > m La projection orthogonale dun AR(m) causal sur son pass e de longueur p m co ncide avec la projection orthogonale sur les m derni` eres valeurs et les coecients de pr ediction sont pr ecis ement les coecients de l equation r ecurrente. Dans le cas o` u la matrice de covariance p , suppos ee connue, est inversible, le probl` eme de la 2 a une d etermination des coecients de pr ediction p et de la variance de lerreur de pr ediction p solution unique. Rappelons que, dapr` es la propri et e 3.3.5, si (0) > 0 et si limn (n) = 0, alors la matrice p est inversible ` a tout ordre. Il est facile de d emontrer que : proj ( Xt | span (1, Xt1 , . . . , Xtp )) = + proj ( Xt | span (Xt1 , . . . , Xtp )) . (5.11)
Par cons equent, dans le probl` eme de la pr ediction, il ny a aucune perte de g en eralit e ` a consid erer que le processus est centr e. Sil ne l etait pas, il surait, dapr` es l equation (5.11), deectuer le calcul c = X puis dajouter . Dans la suite, sauf indication des pr edicteurs sur le processus centr e Xt t contraire, les processus sont suppos es centr es. Les coecients de pr ediction dun processus stationnaire au second ordre fournissent une d ecomposition particuli` ere de la matrice de covariance p+1 sous la forme dun produit de matrice triangulaire. Th eor` eme 5.1.1 Soit {Xt } un processus stationnaire au second ordre, centr e, de fonction dautocovariance (h). On note : 1 0 0 2 . . 0 0 . . 0 1,1 . 1 . 0 2 0 1 . . . . . . . Ap+1 = . D = . . p+1 . . . . . . . . . . .. 2 . 0 . 0 p p,p p1,p 1,p 1 On a alors :
1 T p+1 = A p+1 Dp+1 Ap+1
(5.12)
monstration Posons Fk = span (Xk , , X1 ) et montrons tout dabord que, pour k = , nous De avons : Xk proj ( Xk | Fk1 ) , X proj ( X | F 1 ) = 0 . (5.13) En eet, pour k < , on a Xk proj ( Xk | Fk1 ) Fk F 1 . On a aussi X proj ( X | F 1 ) F 1 et donc X proj ( X | F 1 ) Xk proj ( Xk | Fk1 ), ce qui d emontre (5.13). Dautre part, par d enition 60
des coecients de pr ediction, on peut ecrire successivement : X1 1 0 0 1,1 1 0 X2 Ap+1 Xp+1 = . = . . . . . . . . p,p p1,p qui donne : 1 Xp+1
X1 X2 proj ( X2 | F1 ) . . . Xp+1 proj ( Xp+1 | Fp )
T T E Ap+1 Xp+1 XT p+1 Ap+1 = Ap+1 p+1 Ap+1 = Dp+1 2 = X proj ( X | F 2 , ce qui d o` u, par d enition, k emontre (5.12) puisque la matrice Ap+1 est k k k 1 ) inversible, son d eterminant etant egal ` a 1. Ajoutons que linverse dune matrice triangulaire sup erieure est elle-m eme triangulaire sup erieure.
Dans la suite nous notons Ht1,p = span (Xt1 , . . . , Xtp ) et nous appelons erreur de pr ediction directe dordre p ou innovation partielle dordre p le processus :
p + t,p
= Xt proj ( Xt | Ht1,p ) = Xt
k=1
k,p Xtk
(5.14)
+ 2 2 = Dapr` es l equation (5.12) lorsque la matrice p+1 est inversible, la variance p est strictement t,p 2 2 positive. Il est clair, dautre part, que la suite p est d ecroissante et donc que p poss` ede une limite quand p tend vers linni. Cela conduit ` a la d enition suivante, dont nous verrons paragraphe 5.5 quelle joue un r ole fondamental dans la d ecomposition des processus stationnaires au second ordre.
D enition 5.1.2 (Processus r egulier/d eterministe) 2 la variance de Soit {Xt , t Z} un processus al eatoire stationnaire au second ordre. On note p 2 . On dit que le processus {X , t Z} est r linnovation partielle dordre p et 2 = limp+ p egulier t 2 2 si > 0 et d eterministe si = 0. Nous avons d ej` a not e (voir equation (5.8)) que, pour p x e, la suite {k,p } ne d epend pas de t et donc + que le processus t,p (relativement ` a lindice t) est stationnaire au second ordre, centr e. On a aussi la formule suivante : + + 2 (5.15) t,p , t,q = max(p,q ) .
+ En eet soit q > p. Par construction, nous avons + t,q Ht1,q , et comme Ht1,p Ht1,q , t,q Ht1,p + et en particulier t,q proj ( Xt | Ht1,p ) puisque proj ( Xt | Ht1,p ) Ht1,p . Par cons equent, pour q > p, on a :
+ + t,p , t,q )
= Xt proj ( Xt | Ht1,p ) ,
+ t,q
2 = Xt , Xt proj ( Xt | Ht1,q ) = Xt , Xt proj ( Xt | Ht1,q ) = q ,
ce qui d emontre (5.15). Notons ici que le probl` eme de la recherche des coecients de pr ediction pour un processus stationnaire au second ordre se ram` ene ` a celui de la minimisation de lint egrale : 1 2

| (ei )|2 X (d) 61
sur lensemble Pp des polyn omes ` a coecients r eels de degr e p de la forme (z ) = 1 + 1 z + + p z p . En eet, en utilisant la relation (4.3) de ltrage des mesures spectrales, on peut ecrire que la variance + 2 de t,p , qui minimise de lerreur de pr ediction, a pour expression :
2 p =
1 2
|p (ei )|2 X (d)

p
(5.16)
o` u : p (z ) = 1
k,p z k
k=1
d esigne le polyn ome pr edicteur dordre p. Th eor` eme 5.1.3 Si {Xt } est un processus r egulier, alors, pour tout p, p (z ) = 0 pour |z | 1. Tous les z eros des polyn omes pr edicteurs sont ` a lext erieur du cercle unit e. monstration Elle est donn De ee en n de chapitre. Une cons equence directe du th eor` eme 5.1.3 est qu` a toute matrice de covariance de type d eni positif, de dimension (p + 1) (p + 1), on peut associer un processus AR(p) causal dont les (p + 1) premiers coecients de covariance sont pr ecis ement la premi` ere ligne de cette matrice. Ce r esultat nest pas g en eral. Ainsi il existe bien un processus AR(2) causal ayant (0) = 1 et (1) = , comme premiers coecients de covariance, ` a condition toutefois que la matrice de covariance soit positive cest-` a-dire que || < 1, tandis quil n existe pas, pour cette m eme matrice de processus MA(2). Il faut en eet, en plus du caract` ere positif, que || 1/2 (voir exemple 3.5).
5.2
Algorithme de Levinson-Durbin
La solution directe du syst` eme des equations de Yule-Walker requiert de lordre de p3 op erations : la r esolution classique de ce syst` eme implique en eet la d ecomposition de la matrice p sous la forme du produit dune matrice triangulaire inf erieure et de sa transpos ee, p = Lp LT ecomposition de Chop (d leski) et la r esolution par substitution de deux syst` emes triangulaires. Cette proc edure peut sav erer co uteuse lorsque lordre de pr ediction est grand (on utilise g en eralement des ordres de pr ediction de lordre de quelques dizaines ` a quelques centaines), ou lorsque, ` a des ns de mod elisation, on est amen e a ` evaluer la qualit e de pr ediction pour di erents horizons de pr ediction. Lalgorithme de LevinsonDurbin exploite la structure g eom etrique particuli` ere des processus stationnaires au second ordre pour etablir une formule de r ecurrence donnant les coecients de pr ediction ` a lordre (p + 1) ` a partir des coecients de pr ediction obtenus ` a lordre p. Supposons que nous connaissions les coecients de pr ediction lin eaire et la variance de lerreur de pr ediction ` a lordre p, pour p 0 :
p
proj ( Xt | Ht1,p ) =
k=1
k,p Xtk
et
2 p = Xt proj ( Xt | Ht1,p )
(5.17)
Nous avons besoin ici dintroduire lerreur de pr ediction r etrograde ` a lordre p d enie par :
t,p
= Xt proj ( Xt | Ht+p,p ) = Xt proj ( Xt | span (Xt+1 , , Xt+p )) 62
Elle repr esente la di erence entre l echantillon courant Xt et la projection orthogonale de Xt sur les p echantillons {Xt+1 , , Xt+p } qui suivent linstant courant. Le qualicatif r etrograde est clair : il traduit le fait que lon cherche ` a pr edire la valeur courante en fonction des valeurs futures. Indiquons que lerreur r etrograde joue un r ole absolument essentiel dans tous les algorithmes rapides de r esolution des equations de Yule-Walker. Remarquer tout dabord que les coecients de pr ediction r etrograde co ncident avec les coecients de pr ediction directe. Cette propri et e, que nous avons rencontr ee exemple 5.1, est fondamentalement due ` a la propri et e de r eversibilit e des processus stationnaires au second ordre. En eet, si Yt = Xt , alors Yt a m eme moyenne et m eme fonction de covariance que Xt (voir exemple 3.1 chapitre 1) et par cons equent, en utilisant aussi lhypoth` ese de stationnarit e, on a simultan ement pour tout u, v Z :
p p
proj ( Xt+u | Ht+u1,p ) =

k=1
k,p Xt+uk et proj ( Xt+v | Ht+v+p,p ) =

k=1
k,p Xt+v+k
ainsi que :
2 p = + 2 t+u,p
2 t+v,p
(5.18)
En particulier on a : proj ( Xt | Ht1,p ) = p k=1 k,p Xtk proj ( Xtp1 | Ht1,p ) = p k=1 k,p Xtp1+k = . (5.19)
p k=1 p+1k,p Xtp1+k
Cherchons maintenant ` a d eterminer, ` a partir de ces projections ` a lordre p, la projection de Xt ` a lordre p + 1 sur le sous-espace Ht1,p+1 = span (Xt1 , , Xtp1 ). Pour cela d ecomposons cet espace en somme directe de la fa con suivante : Ht1,p+1 = Ht1,p span (Xtp1 proj ( Xtp1 | Ht1,p )) = Ht1,p span Un calcul simple montre (voir exemple 2.7) que proj Xt | et donc que proj ( Xt | Ht1,p+1 ) = proj ( Xt | Ht1,p ) + kp+1 [Xtp1 proj ( Xtp1 | Ht1,p )] , o` u, en utilisant aussi (5.18), on peut ecrire : kp+1 = Xt ,
tp1,p 2 p tp1,p tp1,p
tp1,p
avec
= (Xt ,
tp1,p )/
2 tp1,p
(5.20)
tp1,p + t+u,p t+v,p
Xt ,
(5.21)
En portant ` a pr esent (5.19) dans (5.20), on obtient lexpression :

p+1 p
proj ( Xt | Ht1,p+1 ) =
k=1
k,p+1 Xtk =
k=1
(k,p kp+1 p+1k,p )Xtk + kp+1 Xtp1
63
On en d eduit les formules de r ecurrence donnant les coecients de pr ediction ` a lordre p + 1 ` a partir de ceux ` a lordre p : k,p+1 = k,p kp+1 p+1k,p p+1,p+1 = kp+1 pour k {1, , p} (5.22)
D eterminons maintenant la formule de r ecurrence donnant kp+1 . En utilisant encore (5.19) et (5.20), on obtient :
p p
Xt , proj ( Xtp1 | Ht1,p ) =

k=1
k,p E {Xt Xtp1+k } =

k=1
k,p (p + 1 k )
Partant de lexpression de Xt , Xt ,
tp1,p
tp1,p
on en d eduit que :
p
= Xt , Xtp1 proj ( Xtp1 | Ht1,p ) = (p + 1)

k=1
k,p (p + 1 k )
et donc dapr` es (5.21) : kp+1 = (p + 1)
p k=1 k,p (p 2 p
+ 1 k)
2 Il nous reste maintenant ` a d eterminer lerreur de pr ediction p a lordre (p+1). En utilisant l equation +1 ` (5.20), on a + t,p+1
= Xt proj ( Xt | Ht1,p+1 ) = Xt proj ( Xt | Ht1,p ) kp+1 (Xtp1 proj ( Xtp1 | Ht1,p ))
dont on d eduit dapr` es (5.21) :

2 p +1 = + 2 t,p+1 2 2 2 = p + kp +1 p 2kp+1 Xt proj ( Xt | Ht1,p ) , Xtp1 proj ( Xtp1 | Ht1,p ) 2 2 = p (1 kp +1 )
Pour initialiser lalgorithme, nous faisons p = 0. Dans ce cas la meilleure pr ediction de Xt est 2 E {Xt } = 0 et la variance de lerreur de pr ediction est alors donn ee par 0 = E (Xt 0)2 = (0). 2 2 ). Au pas suivant on a k1 = (1)/ (0), 1,1 = (1)/ (0) et 1 = (0)(1 k1 Partant dune suite de (K + 1) coecients de covariance (0), . . . , (K ), lalgorithme de LevinsonDurbin permet de d eterminer les coecients de pr ediction {m,p }1mp,1pK :
2 = (0)(1 k 2 ) Initialisation k1 = (1)/ (0), 1,1 = (1)/ (0) et 1 1
R ecursion Pour p = {2, . . . , K } r ep eter : Calculer

p1
kp =
2 p 1
(p)
k=1
k,p1 (p k )
p,p = kp
2 2 2 p = p 1 (1 kp )
64
Pour m {1, , p 1} calculer : m,p = m,p1 kp pm,p1 Le coecient kp poss` ede la propri et e remarquable d etre de module inf erieur ` a 1. Notons tout dabord que proj ( Xt | Ht1,p ) tp1,p puisque proj ( Xt | Ht1,p ) Ht1,p et que tp1,p Ht1,p . Partant de (5.21) on peut ecrire que : kp+1 = Xt proj ( Xt | Ht1,p ) , Xtp1 proj ( Xtp1 | Ht1,p )
+ t,p tp1,p
+ t,p , tp1,p + t,p tp1,p
(5.23)
En utilisant lin egalit e de Schwarz, on montre que |kp+1 | 1. Remarquons aussi que kp+1 appara t comme le coecient de corr elation entre lerreur de pr ediction directe et lerreur de pr ediction r etrograde. Dans la litt erature ce coecient est appel e coecient dautocorr elation partielle. D enition 5.2.1 (Fonction dautocorr elation partielle) Soit Xt un processus al eatoire, stationnaire au second ordre, de fonction de covariance (h). On appelle fonction dautocorr elation partielle la suite {kp , p 1} d enie par : X ,Xt1 pour p = 1 corr(Xt , Xt1 ) = Xt t X t1 kp = . X proj ( X | H ) , X proj ( X | H ) t t t1,p1 tp tp t1,p1 corr( + pour p 2 t,p1 , tp,p1 ) = Xt proj ( Xt | Ht1,p1 ) Xtp proj ( Xtp | Ht1,p1 ) (5.24) Dans (5.24), lexpression pour p = 1 est en accord avec celle pour p 2 dans la mesure o` u on peut + noter que t,0 = Xt et que t1,0 = Xt1 . Notons aussi que, dans lexpression de kp , Xt et Xtp sont projet es sur le m eme sous-espace span (Xt1 , . . . , Xtp+1 ). Le r esultat remarquable est que la suite des coecients de corr elation partielle est donn ee par : kp = p,p (5.25)
o` u p,p est d eni au moyen des equations de Yule-Walker (5.10). Dans le cas particulier dun processus AR(m) causal, on a alors : p,p pour 1 p < m p=m kp = m pour 0 pour p>m Notons enn que contrairement ` a la fonction dautocorr elation partielle dun processus AR(m) qui v erie kp = 0 pour tout p m, nous avons pour un processus MA(q ), kp = 0 pour un nombre inni de termes. Il est toutefois possible de montrer quil existe un r eel , 0 < < 1, et une constante C , k telle que, pour tout p 1, |kp | C .
5.3
Algorithme de Schur
Partant des coecients dautocorr elation, lalgorithme de Levinson-Durbin evalue ` a la fois les coecients des pr edicteurs lin eaires optimaux et les coecients dautocorr elation partielle. Dans certains cas, seuls les coecients dautocorr elation partielle sont n ecessaires. Il en est ainsi, par exemple, 65
lorsque lon cherche ` a calculer les erreurs de pr ediction directe et r etrograde ` a partir du processus Xt . Montrons, en eet, que les erreurs de pr ediction ` a lordre (p + 1) sexpriment, en fonction des erreurs de pr edictions ` a lordre p, ` a laide dune formule de r ecurrence ne faisant intervenir que la valeur du coecient de corr elation partielle :
+ + t,p+1 = t,p t(p+1),p+1
kp+1 =
(t1)p,p
(t1)p,p
kp+1
(5.26)
t,p
Reprenons les expressions de lerreur de pr ediction directe et de lerreur de pr ediction r etrograde :

p + t,p p
= Xt
k=1
k,p Xtk et
tp1,p
= Xtp1
k=1
k,p Xtp1+k
En utilisant directement la r ecursion de Levinson-Durbin, equations (5.22), dans lexpression de lerreur de pr ediction directe ` a lordre p + 1, nous obtenons :
p+1 + t,p+1
= Xt = = Xt
k,p+1 Xtk
k=1 p p
k,p Xtk
k=1 tp1,p
kp+1
Xtp1
k=1
k,p Xtp1+k (5.27)
+ t,p
kp+1
De fa con similaire, nous avons :

p+1 tp1,p+1
= Xtp1 = = Xtp1
k,p+1 Xtp1+k
k=1 p p
k,p Xtp1+k
k=1 + t,p
kp+1
Xt
k=1
k,p Xtk (5.28)
tp1,p
kp+1
Partant de la suite des autocorr elations, lalgorithme de Schur calcule r ecursivement les coecients de corr elation partielle, sans avoir ` a d eterminer les valeurs des coecients de pr ediction. Historiquement, lalgorithme de Schur a et e introduit pour tester le caract` ere d eni positif dune suite (ou de fa con equivalente, la positivit e des matrices de Toeplitz construites ` a partir de cette suite). En eet, comme nous lavons montr e ci-dessus, une suite de coecients de covariance est d enie positive si et seulement si les coecients de corr elation partielle sont de module strictement inf erieur ` a 1. D eterminons ` a pr esent cet algorithme. En faisant t = 0 dans l equation (5.27), en multipliant ` a gauche par Xm et en utilisant la stationnarit e, il vient : Xm ,
+ 0,p+1
= Xm ,
+ 0,p
kp+1 Xm ,
p1,p
= Xm ,
+ 0,p
kp+1 Xm+p+1 ,
0,p
(5.29)
En faisant t = p + 1 dans l equation (5.28), en multipliant ` a gauche par Xm+p+1 et en utilisant la stationnarit e, il vient : Xm+p+1 ,
0,p+1
= Xm+p+1 ,
0,p
kp+1 Xm+p+1 ,
+ p+1,p
= Xm+p+1 , 66
0,p
kp+1 Xm ,
+ 0,p
. (5.30)
En faisant m = 0 dans (5.30), il vient : Xp+1 ,

0,p+1
= Xp+1 ,
0,p
kp+1 Xp+1 ,
+ p+1,p
= Xp+1 ,
0,p
kp+1 X0 ,
+ 0,p
(5.31)
Mais on a aussi : Xp+1 ,

0,p+1
= Xp+1 , X0 proj ( X0 | span (X1 , , Xp+1 )) = 0 .
Nous pouvons donc d eduire de l equation (5.31) : kp+1 = Xp+1 , X0 ,

0,p + 0,p
(5.32)
En couplant les equations (5.29), (5.30) et (5.32) et en partant des conditions initiales : Xm ,
+ 0,0
= (m)
et
Xm+1 ,
0,0
= (m + 1) .
on peut d eterminer les coecients de corr elation partielle directement, sans avoir ` a evaluer explicitement les coecients de pr ediction. On note u(m, p) = Xm , + 0,p et v (m, p) = Xm+p+1 , 0,p . Partant des (K + 1) coecients de covariance { (0), . . . , (K )}, lalgorithme de Schur calcule les K premiers coecients de corr elation partielle : Initialisation Pour m = {0, . . . , K 1} : u(m, 0) = (m) v (m, 0) = (m + 1) R ecursion Pour p = {1, . . . , K }, calculer kp = Pour m = {0, . . . , K p 1} calculer : u(m, p) = u(m, p 1) kp v (m, p 1) v (m, p) = v (m + 1, p 1) kp u(m + 1, p 1) . v (0, p 1) u(0, p 1)
La complexit e de lalgorithme de Schur est equivalente ` a lalgorithme de Levinson. Filtres en treillis

T En notant e(t, p) = [ + erateur de retard D, les expressions (5.26) t,p tp,p ] et en utilisant lop peuvent se mettre sous la forme matricielle :
e(t, p + 1) =
1 kp+1 D e(t, p) kp+1 D 1 67
x(t)
k1 kp
+ (t,p) (t,p)
z 1
k1
z 1
kp
Figure 5.1 Filtre danalyse en treillis. Ce ltre permet de construire les

erreurs de pr ediction directe et r etrograde ` a partir du processus et de la donn ee des coecients de corr elation partielle.
Les erreurs initiales (p = 0) sont e(t, 0) = [Xt Xt ]T . Ces equations d ebouchent sur une structure de ltrage dite en treillis qui calcule, au moyen des coecients de corr elation partielle, les erreurs de pr ediction directe et r etrograde ` a partir du processus {Xt , t Z}. Ce ltre danalyse est repr esent e gure 5.1. Les equations (5.26) peuvent encore s ecrire :
+ + t,p = t,p+1 t(p+1),p+1
+ kp+1 =
(t1)p,p
+ (t1)p,p kp+1 t,p
qui donne le sch ema de ltrage de la gure 5.2.

+ (t,p)
kp k1 k1 z 1 z 1 z 1 x(t)
(t,p)
kp
Figure 5.2 Filtre de synth` ese en treillis. Ce ltre permet de reconstruire le processus ` a partir de la suite des erreurs de pr ediction directe et de la donn ee des coecients de corr elation partielle.
5.4
Algorithme des innovations
Lalgorithme des innovations est une application directe de la m ethode de gram-Schmidt et est, ` cet a egard, plus el ementaire que lalgorithme de Levinson-Durbin. Il ne suppose de plus pas que le processus {Xt , t Z} est stationnaire. Supposons, sans perte de g en eralit e que E {Xt } = 0 et notons (i, j ) = Xi , Xj = E {Xi Xj } , la fonction dautocovariance de ce processus. Nous supposons dans ce paragraphe, que pour tout n 1, la matrice [(i, j )]n ere. D enissons, pour n 1, Hn = span (X1 , . . . , Xn ), et i,j =1 est non singuli` 2 n = Xn+1 proj ( Xn+1 | Hn ). Il est clair que, pour tout n 1, Hn = span (X1 , X2 proj ( X2 | X1 ) , . . . , Xn proj ( Xn | Hn1 )) , 68
ce qui implique que

n
proj ( Xn+1 | Hn ) =
j =1
n,j (Xn+1j proj ( Xn+1j | Hnj )) .
(5.33)
Nous allons maintenant montrer quil est possible de d eterminer de fa con r ecursive les coecients {n,j , 1 j n}. Remarquons en eet que les vecteurs {Xi proj ( Xi | Hi1 ) , i 1} forment une famille orthogonale. En eet, pour i < j , Xi proj ( Xi | Hi1 ) Hj 1 et Xj proj ( Xj | Hj 1 ) Hj 1 . Par cons equent, pour 0 k < n,
2 proj ( Xn+1 | Hn ) , Xk+1 proj ( Xk+1 | Hk ) = n,nk k +1 .
Since Xn+1 proj ( Xn+1 | Hn ) , Xk+1 proj ( Xk+1 | Hk ) = 0, les coecients n,nk , k = 0, . . . , n 1 sont donn es par 2 n,nk = k +1 Xn+1 , Xk+1 proj ( Xk+1 | Hk ) . En utilisant la repr esentation (5.33), nous avons donc
k1 j =0 2 Comme Xn+1 , Xj +1 proj ( Xj +1 | Hj ) = j +1 n,nj pour 0 j < n, nous avons donc pour k {1, . . . , n}, k 1 j =0 2 n,nk = k +1 (n + 1, k + 1)
k,kj Xn+1 , Xj +1 proj ( Xj +1 | Hj ) .
n,nk =
2 k +1 (n
+ 1, k + 1)
2 k,kj n,nj j . +1
(5.34)
Le Th eor` eme de projection implique que

2 n +1 = Xn+1 proj ( Xn+1 | Hn ) 2
= Xn+1
proj ( Xn+1 | Hn )
2 n1
= (n + 1, n + 1)
k=0
2 2 n,n k k+1 . (5.35)
Remarquons qualors que lalgorithme de Durbin Levinson permet de d eterminer les coecients du d eveloppement de proj ( Xn+1 | Hn ) sur X1 , . . . , Xn , proj ( Xn+1 | Hn ) = n j =1 n,j Xn+1j , lalgorithme pr ec edent calcule les coecients du d eveloppement de proj ( Xn+1 | Hn ) sur la suite des innovations, X1 , X2 proj ( X2 | X1 ), . . . ,Xn proj ( Xn | Hn1 ). 5.3 Exemple (Pr ediction dun processus MA(1)): Consid erons le processus Xt = Zt + Zt1 o` u {Zt } BB(0, 2 ). Nous avons donc (i, j ) = 0 pour 2 2 |i j | > 1, (i, i) = (1 + ) et (i, i + 1) = 2 . Dans ce cas, n,j = 0
2 2 n,1 = n 1 ,
2 j n,
2 1 = (1 + 2 ) 2 ,
69
et
2 2 2 2 2 2 n +1 = [1 + n ] . 2 / 2 , nous avons Si nous posons rn = n
proj ( Xn+1 | Hn ) = (Xn proj ( Xn | Hn1 )) /rn , avec r1 = 1 + 2 , et pour n 1, rn+1 = 1 + 2 2 /rn .
5.5
D ecomposition de Wold
Un des r esultats fondamentaux de la th eorie des processus stationnaires au second-ordre est la d ecomposition de Wold. Cette d ecomposition permet de d ecomposer nimporte quel processus stationnaire au second-ordre comme la somme dun processus r esultant du ltrage lin eaire dun bruit blanc et dun processus d eterministe (d enition 5.1.2). La preuve de ce r esultat est de nature g eom etrique. X X Lid ee de base est la suivante. Soit Ht = span (Xs , s t). Ht est appel e le pass e lin eaire du procesX HX , et nous disposons ainsi dune famille de sous-espace sus ` a la date t. Par construction, Ht t+1 X , appel X = X X e le embo t es de H eaire du processus. Lespace tZ Ht tZ Ht . H est lenveloppe lin pass e inni du processus {Xt , t Z} jouera aussi un r ole particulier. Par d enition Xt appartient X , mais il nappartient g X . Le th a Ht ` en eralement pas ` a Ht eor` eme de projection dit quil existe un 1 X X unique el ement not e proj Xt | Ht1 et appartenant ` a Ht1 tel que :
t X X = Xt proj Xt | Ht 1 Ht1
Dans ce contexte t sappelle linnovation (lin eaire) du processus. Il d ecoule de cette construction g eom etrique que le processus dinnovation est un processus orthogonal dans le sens o` u : s = t,
s
(5.36)
X X HX et En eet, pour s < t, nous pouvons ecrire s Hs t Ht1 . Et donc s t . t1 La proposition qui suit montre que le processus dinnovation est la limite des processus dinnovations partielles ` a lordre p.
Proposition 5.5.1 Pour tout Y L2 (, F , P) et tout t Z nous avons :

p X X lim proj Y | Ht,p = proj Y | Ht
X = span (X , X o` u Ht,p t t1 , , Xtp+1 ).
5.4 Exemple (Bruit blanc): X Supposons que {Xt } soit un bruit blanc. Nous avons proj Xt | Ht = 0 pour tout p et donc 1,p X X proj Xt | Ht1 = 0. Nous avons donc t = Xt proj Xt | Ht1 = Xt : le processus Xt co ncide avec son innovation. Ceci signie quun bruit blanc ne peut etre pr edit de fa con lin eaire ` a partir de son pass e.
70
5.5 Exemple (Pr ediction dun processus AR(p) causal): On consid` ere le processus AR(p) causal d eni par l equation r ecurrente Xt = 1 Xt1 + + p Xtp + Zt X = HZ et, pour tout k 1, on avait E {X o` u Zt BB(0, 2 ). Dans le cas causal, on a Ht tk Zt } = 0. t X et HX = HX span (Z ). On en d Par cons equent Zt Ht e duit que : t t 1 t1
p p
proj
X Xt | Ht 1
=
k=1
k proj
X Xtk | Ht 1
+ proj
X Zt | Ht 1
=
k=1
k Xtk
p X et donc Xt proj Xt | Ht equent le bruit blanc Zt , qui intervient 1 = Xt k=1 k Xtk = Zt . Par cons dans l equation r ecurrente dun AR causal, est pr ecis ement linnovation du processus AR. Ce r esultat montre p que k=1 k Xtk est la projection de X (t) sur tout le pass e Ht1 et quelle co ncide avec la projection orthogonale sur le pass e Ht1,p de dur ee p. Par cons equent, pour tout m p, la suite des coecients de pr ediction est {1 , . . . , p , 0, . . . , 0}. Ce r esultat est faux pour un AR non causal. mp
5.6 Exemple (Processus harmonique): 2 et Soit le processus harmonique Xt = A cos(0 t +) o` u A est une variable al eatoire, centr ee, de variance A une variable al eatoire, ind ependante de A et distribu ee suivant une loi uniforme sur [, ]. Le processus 2 /2) cos( ). Les Xt est stationnaire au second-ordre, centr e, de fonction dautocovariance ( ) = (A 0 coecients du pr edicteur lin eaire optimal ` a lordre 2 sont donn es par : 1,2 1 cos(0 ) = 2,2 cos(0 ) 1
1
2 cos(0 ) cos(0 ) = 1 cos(20 )

2
2 = X proj X | HX On v erie facilement que 2 t t t1,2
= 0. Par cons equent, on a :
X X Xt = proj Xt | Ht 1,2 = 2 cos(0 )Xt1 Xt2 Ht1 X et donc la projection proj Xt | Ht 1 = Xt , ce qui implique que processus est enti` erement pr edictible ` a partir de son pass e. t
= 0. A linverse du bruit blanc, le
En appliquant la proposition 5.5.1 ` a Xt , nous pouvons ecrire :

p X X lim proj Xt | Ht 1,p = proj Xt | Ht1
et
lim + p t,p
(5.37)
Le processus dinnovation t est donc la limite en moyenne quadratique de la suite des innovations X partielles + equence imm ediate est que le processus dinnovation t,p = Xt proj Xt | Ht1,p . Une cons est un processus stationnaire au second ordre. En utilisant, en eet, la continuit e du produit scalaire et la stationnarit e au second ordre de linnovation partielle dordre p, on peut ecrire :
t+ , t
= lim
+ + t+,p , t,p
= lim
+ + ,p , 0,p
(5.38)
qui ne d epend que de . En particulier nous avons : 2 =

t 2 X = lim Xt proj Xt | Ht,p p 2 2 = lim p p
71
2 = 0 et donc, dapr` Dans le cas du bruit blanc on obtient 2 = E Xt es la d enition 5.1.2, le bruit blanc est un processus r egulier. Dun autre c ot e, le processus harmonique, pour lequel 2 = 0, est d eterministe. Nous remarquons aussi que la somme dun bruit blanc et dun processus harmonique est un processus r egulier. X } et lorthogonalit La structure g eom etrique embo t ee des espaces {Ht e des innovations fournissent, pour tout s < t, la formule suivante de d ecomposition en somme directe : X X Ht = Hs span ( s+1 ,
, t)
(5.39)
X X X Notons, tout dabord, que t = Xt proj Xt | Ht 1 Ht et que t Ht1 , ce qui implique que X X X Ht1 span ( t ) Ht . Dun autre c ot e, puisque Xt = t + proj Xt | Ht1 , X Ht = span t X + proj Xt | Ht 1 , {Xs , s t 1} = span ( t , {Xs , s t 1}) ,
X HX span ( ). En conclusion HX = HX span (Z ). En r ce qui entra ne que Ht eit erant ce t t t t1 t1 X raisonnement, on en d eduit la d ecomposition (5.39). Cette d ecomposition orthogonale de lespace Ht nest pas sans rappeler la d ecomposition de Gram-Schmidt. Notons qu` a linverse de la d ecomposition de Gram-Schmidt classique, nous proc edons ici dans le sens r etrograde. D enissons pour tout s 0 :
s =
Xt , ts 2
(5.40)
Remarquons que s ne d epend pas de t. En eet, la continuit e du produit scalaire et la stationnarit e conjointe du processus Xt et de linnovation partielle impliquent que : Xt ,
ts
= lim Xt ,
p
+ ts,p
= lim X0 ,
p
+ s,p
Lemme 5.5.2 La suite {s , s Z} est de carr e sommable et 0 = 1.

X monstration Remarquons, tout dabord, que la relation proj Xt | Ht De 1 , t
= 0 entra ne que :
0 =
Xt , t 2 X Xt proj Xt | Ht 1 , = 2 = 1.
Dautre part, pour tout s 0, la projection orthogonale de Xt sur Ht,s = span ( t , t1 , , ts+1 ) 1 s ecrit, du fait de lorthogonalit e du processus dinnovation, proj Xt | Ht,s = s k=0 k tk . On en 1 2 d eduit que proj Xt | Ht,s 2 = 2 s es l egalit e de Pythagore (proposition k=0 k . On a alors dapr` 2.2.2) :
s1
proj Xt | Ht,s ce qui conclut la preuve.
2 k=0
2 k = Xt
Xt proj Xt | Ht,s
Xt
72
e, une suite La suite (s )s0 etant de carr e sommable, la suite s Xt,s = s k=0 k tk est, pour t x 2 de Cauchy dans L (, F , P). Elle admet donc, quand s , une limite que nous notons :
Ut =
k=0
tk
et qui est un processus stationnaire au second-ordre. On a, en eet :

s
E {Ut } = (Ut , 1) = lim et

s
k (
k=0
tk , 1)
=0
E {Ut+ Ut } = (Ut+ , Ut ) = lim
k
k=0
t+ k , k=0
tk
= lim
k
k=0
k , k=0
qui est ind ependant de t. Le th eor` eme suivant, connu sous le nom de d ecomposition de Wold, est vraisemblablement le r esultat le plus important de la th eorie des processus stationnaires au second-ordre. Th eor` eme 5.5.3 (D ecomposition de Wold) Soit Xt un processus stationnaire au second ordre et t son processus dinnovation. On suppose que Xt u k = Xt , tk / 2 . Alors est un processus r egulier ( 2 = t 2 = 0). On note Ut = k=0 k tk o` il existe un processus Vt tel que : Xt = Ut + Vt , (5.41) et tel que : (i) pour tout (t, s), Vt ,
s
= 0, qui implique que Vt , Us = 0,

X t= Ht , U = Ut proj Ut | Ht 1 est linnovation du processus {Ut , t Z}.
X X = (ii) Vt = proj Xt | H est la projection orthogonale de Xt sur H
(iii) Ut est un processus r egulier et U. De plus, Ht = Ht
V = HX . (iv) Vt est un processus d eterministe et Ht
monstration Elle est donn De ee en n de chapitre.

X Un processus {Xt } tel que H = {0} est dit purement non d eterministe. Pour un tel processus la partie d eterministe de la d ecomposition de Wold est identiquement nulle. Par exemple, le processus r egulier Ut de la d ecomposition de Wold est purement non d eterministe. En eet, en appliquant la d ecomposition de Wold au processus Ut on a, pour tout t, Ut = Ut + Vt avec Vt = 0 et donc, dapr` es le U point iv, H = {0}. Le th eor` eme de Wold permet donc de d ecomposer tout processus stationnaire au second-ordre sous la forme dune somme de deux processus orthogonaux, le premier etant purement non d eterministe et le second etant d eterministe. La partie purement non-d eterministe sexprime comme le ltrage dun bruit blanc par un ltre lin eaire invariant dans le temps de r eponse impulsionnelle {k } causale (k = 0 pour k < 0) et de carr e sommable (pas n ecessairement de module sommable).
73
5.7 Exemple (Processus MA(1)): Soit {Zt } un bruit blanc et soit le processus Xt = Zt + 1 Zt1 . Remarquons que, par construction, X HZ mais que linclusion r Ht eciproque nest pas n ecessairement v eri ee. Montrons par contre que, pour t X = HZ . En eet, en r |1 | < 1, nous avons eectivement Ht e it e rant p fois l equation Xt = Zt + 1 Zt1 et t en r esolvant par rapport ` a Zt , nous obtenons :
p p+1 2 Zt = Xt 1 Xt1 + 1 Xt2 + + (1)p 1 Xtp (1)p 1 Ztp
En prenant la limite en p, nous en d eduisons que, si |1 | < 1, alors :
Zt =
k=0
(1 )k Xtk
Z HX et donc que HX = HZ . Dans ce cas, nous pouvons ce qui montre que Ht ecrire : t t t X X X Z Z proj Xt | Ht 1 = proj Zt | Ht1 + 1 proj Zt1 | Ht1 = proj Zt | Ht1 + 1 proj Zt1 | Ht1
= 0 + 1 Zt1 ,
Z en remarquant que proj Zt | Ht eduit que Xt 1 = 0 car {Zt , t Z} est un bruit blanc. On en d X proj Xt | Ht1 = Xt 1 Zt1 = Zt . Par cons equent, lorsque |1 | < 1, le processus {Zt , t Z} est linnovation du processus {Xt , t Z}. Notons que le processus {Xt , t Z} est purement non d eterministe et que les coecients de la d ecomposition de Wold sont simplement donn es par 0 = 1, 1 = , et k = 0 pour k > 1.
74
5.6
Preuves des th eor` emes 5.1.3 et 5.5.3
monstration (Preuve du The ore `me 5.1.3) Nous allons tout dabord montrer que le De pr edicteur optimal na pas de racines sur le cercle unit e. Raisonnons par contradiction. Supposons que le polyn ome p (z ) ait deux racines complexes conjugu ees, de la forme exp(i), sur le cercle unit e. (on traite de fa con similaire le cas de racines r eelles, = 0 ou ). Nous pouvons ecrire :
2 p (z ) = p (z )(1 2 cos( )z + z ) i )|2 . On note X (d) = X (d)| X est une mesure positive sur [, ] de masse nie. On note p (e ( ) la suite des coecients de Fourier associ es ` a X :
( ) = Nous avons donc :

2 p =
1 2
e i X (d)
1 2
(1 2 cos()ei + e2i ) X (d) = inf
P2
1 2
|1 + 1 ei + 2 e2i |2 X (d) .
2 par rapport ` Comme on la dit (page 62), la minimisation de p a 1 et 2 est equivalent ` a la r esolution des equations de Yule-Walker ` a lordre p = 2 pour la suite des covariances (h). Par cons equent la suite des coecients {1, 2 cos(), 1} doit v erier l equation : 2 p 1 (0) (1) (2) (1) (0) (1) 2 cos() = 0 1 (2) (1) (0) 0 2 = 0. Ce qui est De cette equation il sen suit (les premi` ere et troisi` eme lignes sont egales) que p contraire ` a lhypoth` ese que le processus est r egulier. D emontrons maintenant que les racines des polyn omes pr edicteurs sont toutes strictement a ` lext erieur du cercle unit e. Raisonnons encore par labsurde. Supposons que le polyn ome pr edicteur a lordre p ait m racines {ak , |ak | < 1, 1 k m} ` ` a lint erieur du cercle unit e et (p m) racines {b , |b | > 1, 1 p m} ` a lext erieur du cercle unit e. Le polyn ome pr edicteur ` a lordre p s ecrit donc : m pm
p (z ) = Consid erons alors le polyn ome :

m
1 (1 a k z) k=1 =1
(1 b1 z )
pm
p (z ) =
(1 a k z)
k=1 =1
(1 b1 z )
Il a dune part toutes ses racines strictement ` a lext erieur du cercle unit e et dautre part il v erie p (ei )|2 < |p (ei )|2 . On a en eet |1a ei | = |1ak ei | = |ak ||1a1 ei | et donc | p (ei )|2 = | k k
75
|p (ei )|2 , ce qui d emontre le r esultat annonc e compte tenu du fait que |ak | < 1. On en d eduit alors que : 1 2

m 2 k=1 |ak |
p (ei )|2 X (d) < 2 | p

ce qui contredit que p (z ) = inf Pp (2 )1
| (ei )|2 X (d).
monstration (Preuve du The ore `me 5.5.3) (i). Par d De enition, Vt = Xt k=0 k tk X X Ht . Pour s > t, s Ht , et donc Vt , s = 0. Pour s t, Vt , s = Xt , s ts 2 qui est egal ` a 0 par d enition de k .
X . La preuve se fait par r X (ii). Montrons tout dabord que Vt H ecurrence. Nous avons Vt Ht X = HX span ( ), on en d et Vt t (dapr` es la propri et e pr ec edente). Comme Ht eduit t t1 X X que Vt Ht1 . Supposons ` a pr esent que Vt Hts , pour s 0. Comme Vt ts et que X X = HX X X Ht s ts1 span ( ts ), nous avons Vt Hts1 . On a donc Vt H = s= Hs . X . Pour cela consid Il reste ` a montrer que Xt Vt = k=0 k tk est orthogonal ` a H erons X Y H . Nous avons : s
Xt Vt , Y =
k=0
tk , Y = lim
s+
k
k=0
tk , Y
X X implique que, pour tout t, Y HX . Comme Mais, par d enition, Y H tk Hts1 pour t X 0 k s, nous avons s k=0 k tk , Y = 0. Et donc, pour tout Y H , on a :
Xt Vt , Y = Ut , Y = 0 .
(5.42)
X U = span (U , s t) HX . (iii). Notons que (5.42) implique que, pour tout t, Ut H et donc Ht s U X On peut alors poser Lt = Ht H . La d ecomposition Xt = Ut + Vt et la propri et e pr ec edente X X L , et donc (Vt = proj Xt | H ) impliquent que, pour tout t, Ht t t Lt . Comme, pour tout X t, t Htu pour tout u 0, t Y pour tout Y H , puisque, en particulier, Y Htu . U U X . Et donc ne que Nous avons t H t Ht . Cela entra k=1 k tk Ht1 . Notons que U equent, pour tout Y Ht1 on a : k=1 k tk = Ut t (0 = 1). Par cons
Ut
k=1
tk , Y
t, Y
= 0.
Cela implique que
k=1 k tk
U est la projection orthogonale de Ut sur Ht 1 et donc que : t U = Ut proj Ut | Ht 1 .
Cela signie que { t , t Z} est le processus dinnovation du processus {Ut , t Z}. Comme, par hypoth` ese, 2 = t 2 = 0, le processus {Ut , t Z} est donc r egulier. Remarquons que, comme U U . Comme, par construction, HU H , nous avons HU = H . H , nous avons H H t t t t t t t t
76
(iv). Montrons tout dabord que, pour tout t, on a :

X V Ht = span (Vs , s t) = H
(5.43)
X V HX . Dun autre c Pour tout t, Vt H et donc Ht ot e, puisque Xt = + k=0 k tk + Vt , X = H HV . Et donc, quel que soit Y HX , alors Y HX Ht t t s1 pour tout s, de telle sorte V , ce qui implique que HX V . Ce qui d que (Y, s ) = 0 et donc Y Ht Ht emontre (5.43). V X V = V et que Partant de (5.43), on d eduit que proj Vt | Ht1 = proj Vt | H = proj Vt | Ht t V 2 = 0 : le processus {V , t Z} est donc d Vt proj Vt | Ht eterministe. t 1
77
Deuxi` eme partie
Estimation pour les processus lin eaires
78
Chapitre 6
Statistique Asymptotique
6.1 Notions de convergence
Dans la suite nous notons {Xn }n0 une suite de vecteurs al eatoires ` a valeurs dans (Rd , B (Rd )) et d enies sur le m eme espace de probabilit e (, F , P). Nous notons, pour x, y Rd , d(x, y ) = x y la distance euclidienne. Nous donnons les trois notions de convergence pour une suite de v.a. {Xn }n0 dans lordre croissant, cest-` a-dire de la notion la plus faible ` a la plus forte (limplication dune convergence ` a une autre est etablie au th eor` eme 6.7). D enition 6.1.1 Nous dirons que la suite {Xn }n0 converge en loi vers X et nous noterons Xn X , si pour toute fonction f : Rd R continue born ee, lim E {f (Xn )} = E {f (X )} .
n L
Il serait plus appropri e de d enir la convergence en loi uniquement ` a partir des lois : D enition 6.1.2 Nous dirons que la suite de probabilit es {n } d enies sur (Rd , B (Rd )) converge etroitement vers la probabilit e d enie sur (X, B (X)) et nous noterons n si pour toute fonction f : Rd R continue born ee,
n
lim n (f ) = (f ) , f (x) (dx).
o` u pour une fonction f int egrable et une mesure , (f ) =
79
equivalent ` a PXn PX , o` u lon a not e PXn et PX les probabilit es Il est donc clair que Xn X est images de Xn et X . On voit ` a cette occasion quil nest pas n ecessaire de d enir les v.a. {Xn }n0 et X sur le m eme espace de probabilit e pour d enir la convergence en loi. Il existe divers caract erisations de cette convergence tr` es utiles en pratique qui seront abord ees dans la section 6.7 (voir le Lemme 6.3.1 et le Th eor` eme 6.3.3). D enition 6.1.3 Nous dirons que la suite {Xn }n0 converge en probabilit e vers X et nous noterons Xn X , si pour tout > 0, nous avons :
n P
lim P (d(Xn , X ) > ) = 0 .
Au contraire de la convergence en loi, cette d enition utilise que Xn et X sont d enies sur le m eme espace de probabilit e ; autrement, on ne serait calculer la loi de d(Xn , X ). Nous verrons les nombreuses relations qui existent entre convergence en loi et convergence en probabilit e dans la section 6.7. Notons cependant quil est un cas o` u ces d enitions co ncident. Si X est d eterministe, i.e. sil existe c Rd P P tel que P(X = c) = 1, alors il est facile de voir que Xn X (on notera plut ot Xn c dans ce cas tr` es particulier) est equivalent ` a Xn X (voir Th eor` eme 6.7-(ii) ). Il ny a pas de contradiction avec la remarque pr ec edente, les loi v.a. d eterministes sont d enies sans ambigu t e ind ependamment de lespace de probabilit e sur lesquelles elles sont d enies ; il sen suit que pour X constante la loi de d(Xn , X ) est connue uniquement ` a partir de la loi de Xn . La proposition 6.5.1 peut bien entendu se formuler sous une forme plus g en erale, en choisissant f telle que E {|f (Xn )|} < , et en lapplicant ` a la suite d enie par Yn = f (Xn ) pour n > 0. Une formulation plus el egante (et plus pr ecise) peut etre obtenue en introduisant la d enition suivante. D enition 6.1.4 Nous dirons que la suite {Xn }n0 converge presque-s urement vers X et nous noterons Xn X , si : P(lim sup d(Xn , X ) = 0) = 1.
n Pp.s. L
Cette fois-ci, il est n ecessaire de d enir {Xn }n0 et X sur le m eme espace de probabilit e sinon la loi de lim supn d(Xn , X ) na pas de sens. Une m ethode essentiele permettant de prouver une telle convergence est le Lemme de Borel-Cantelli : Lemme 6.1.5 (Lemme de Borel-Cantelli) Soit {An , n N} une suite d ev enements tels que n0 P(An ) < . Alors il existe une variable al eatoire N ` a valeurs dans N telle que, P(An {n N }) = 1. De plus, P
n0
1 I(An ) < = 1.
(6.1)
80
monstration Ce lemme est une application bien connue de la th De eorie des probabilit e. Remarest une suite d ecroissante d ev enements dont lintersection est pr ecis ement quons que nm An
m
l ev enement I(An ) = . Or P n0 1 nm An nm P(An ) qui tend vers zero quand m par hypoth` ese. Do` u (6.1). Observons alors quil sen suit que pour tout dans un ensemble de probabilit e un, la plus grande valeur de n telle An est un entier ni. Notons N ( ) ce nombre et compl etons la d enition de cette variable par zero en dehors . Le r esultat est alors obtenu. On en d eduit facilement que sil existe un suite de nombre positifs ( n ) telle que lim
nN P{|Xn | n
= 0 et
n}
< , alors Xn 0.
Pp.s.
6.2
Suites tendues
Introduisons la notion de tension pour une variable al eatoire. D enition 6.2.1 Une v.a. X ` a valeur dans un espace topologique quelconque est dite tendue si pour tout > 0, il existe un compact K tel que P(X / K ) . Une famille {X , A} est dite uniform ement tendue (ou born ee en probabilit e) si, pour tout > 0, il existe un compact K tel que supA P(X / K) . Toute v.a. ` a valeurs dans Rd equip e de la topologie associ e ` a la distance euclidienne est tendue con g en erale toute famille nie de variables al eatoires r eelles est puisque n1 { x n} = . De fa d tendue. Il sen suit quune suite (Xn )nN de v.a. ` a valeurs dans R est born ee en probabilit e si, pour tout > 0, il existe M > 0 tel que lim sup P( Xn > M ) .
n
Un crit` ere simple de tension uniforme pour une famille {X , A} de v.a. ` a valeurs dans Rd est obtenu comme suit. Si, pour p > 0, nous avons sup E {|X |p } < , lin egalit e de Markov montre que : P( X M ) M 1 E { X p } , et donc que {X } est uniform ement tendue. Plus g en eralement la notion de tension est intimement li ee ` a la notion de convergence en loi. Le r esultat suivant montre en eet que toute suite convergeant en loi est tendue et quil existe une r eciproque (partielle) ` a ce r esultat. Th eor` eme 6.2.2 (Prohorov dans Rd ) Soit {Xn } une suite de v.a. de Rd . (i) Si Xn X , alors la famille {Xn , n N} est uniform ement tendue, (ii) Si la famille {Xn , n N} est uniform ement tendue, alors il existe une sous suite telle que Xnj X pour une v.a X . monstration (i) : Si Xn X , on, pour tout M , lim supn P( Xn De M) lim supn E {M ( Xn )} = E {M ( X )} P( X M 1), o` u M est une fonction continue born ee 81
L L L
sur R telle que 1[M,) M 1[M 1,) . Donc pour tout > 0, on peut trouver M > 0 et N N tels que P( Xn M ) pour tout n N . En augmentant M susamment, on obtient que P( Xn M ) pour tout n {0, . . . , N }. (ii) : Soit {gk }kN une suite de fonction mesurables born ees de Rd dans R. Pour tout k la suite {E {gk (Xn )}}n0 est born ee par sup |gk | et on peut donc extraire une sous-suite convergente de chacune de ses sous-suites. En proc edant it erativement on construit une suite de sous-suites {nk,l } telle que enit alors r ecursivement une suite {nk+1,l } {nk,l } et {E gk (Xnk,l ) }l0 converge pour tout k . On d dentiers {n } 0 par n0 = 1 et, pour tout N, n
+1
= inf {n
+1,l
> n : l N}.
Par construction, la suite {n } 0 est croissante et, pour tout k , ` a partir dun certain rang, cest une sous-suite de la suite {nk,l }l . On a donc trouv e pour toute suite {gk }kN de fonctions mesurables born ees de Rd dans R un sous-suite {nj }j 0 telle que (E gk (Xnj ) )j 0 converge pour tout k . Choisissons pour cette suite une suite dense dans C0 (Rd ) lensemble des fonctions continues ` a support compact muni de la norme uniforme (voir le lemme 6.2.3 ci-dessous). Il sen suit que pour tout f C0 (Rd ), {E f (Xnj ) }j 0 converge. Notons u(f ) sa limite. Il vient par passage ` a la limite que f u(f ) est d une fonctionnelle lin eaire continue de C0 (R ) muni de la norme uniforme dans R. Elle est de plus positive (u(f ) 0 si f est une fonction positive). Une telle forme lin eaire est une mesure de Radon et lon sait par le c el` ebre th eor` eme de repr esentation de Riesz quil existe une mesure positive nie sur tout compact de Rd telle que u(f ) = f (voir th eor` eme ??)). Remarquons ` a ce stade que nous navons toujours pas utiliser dhypoth` eses sur la suite {Xn }. La tension uniforme de cette suite va en fait nous permettre de montrer que, dune part, est une mesure de probabilit e et dautre part que (E {f (Xnl )}l converge aussi vers f si f est continue mais pas n ecessairement ` a support compact, ce qui conclura la preuve de ce th eor` eme. Supposons donc que {Xn , n N} est uniform ement tendue. Soit (m )m1 une suite de fonction continue ` a valeur dans [0, 1], ` a support dans [m 1, m + 1]d et qui vaut 1 sur [m, m]d . Alors, dapr` es ce qui pr ec` ede, lim E {m (Xnl )} = m 1. Dapr` es lhypoth` ese de tension uniforme, pour tout on peut donc trouver m tel que m 1 . Par convergence monotone, on obtient (Rd ) = 1 et donc est une mesure de probabilit e. Soit X une v.a. de loi . Pour toute fonction f continue born ee de Rd et tout entier m > 0, on peut ecrire, pour toute variable Y , E {f (Y )} = E {(f (1 m ))(Y )} + E {(f m )(Y )} . Il suit de la d enition de m que |E {(f (1 m ))(Y )} | sup(|f |)P(|Y | m). En appliquant cette d ecomposition ` a Y = Xnl et Y = X et en utilisant que X est tendu et que {Xn , n N} est uniform ement tendue, il vient, pour tout et m susamment grand, |E {f (Xnl )} E {f (X )} | 2 sup(|f |) + |E {(f m )(Xnl )} E {(f m )(X )} | . La d emonstration est achev ee en remarquant que pour tout m, f m est ` a support compact donc que liml E {(f m )(Xnl )} = E {(f m )(X )} puis en prenant arbitrairement petit. Lemme 6.2.3 Pour tout compact K de Rd , lensemble C (K ) des fonctions continues sur K muni de la norme sup est s eparable, cest-` a-dire quelle contient une suite d enombrable dense. 82
monstration Nous donnons une preuve De el ementaire dans le cas d = 1. Pour un r esultat beaucoup plus g en eral, voir par exemple le corollaire 2.13.38 de Schwartz [1991]. Consid erons, pour tout entier j lensemble Ej des fonctions continues dont toutes les restrictions aux intervalles [k 2j , (k + 1)2j ]d avec k Z sont lin eaires et telles que les valeurs prises en les nombres k 2j sont rationnels. Toute fonction continue sur un compact est uniform ement continue sur ce compact. Pour lapprocher au sens de la norme sup sur K il sut donc de lapprocher par une fonction de Ej sur la grille {k 2j , k Z} K en choisissant j susamment grand. Lensemble Ej (K ) des fonctions de Ej restreintes ` aK 0 est d enombrable et lon trouve que j Ej est dense dans C (K ) pour tout compact K . En notant Ej 0 le sous-ensemble de Ej de ses fonctions ` a support compact, on trouve de m eme que j Ej est dense d dans C0 (R ). Corollaire 6.2.4 Soit {Xn } une suite de v.a. de Rd uniform ement tendue et X une v.a. de Rd v eriant : pour toute suite croissante divergente dentiers (kn ), si Xkn Y , alors Y X . Alors Xn X . monstration Dapr` De es le th eor` eme de Prohorov, de toute sous-suite de Xn , on peut extraire une L sous-suite qui converge en loi vers X . Un raisonnement par contradiction montre que Xn X : en eet, si tel n etait pas le cas, il existerait une fonction continue born ee f : Rd R telle que E {f (Xn )} ne converge pas vers E {f (X )}. On aurait donc une sous-suite {Xnj } et > 0 tels que |E f (Xnj ) E {f (X )} | > pour tout n N. Par suite, aucune sous-suite de {Xnj ) ne convergerait vers X , do` u la contradiction.
L L
6.3
Caract erisations de la convergence en loi
Le lemme de Portmanteau donne des conditions equivalentes ` a la convergence en loi. Lemme 6.3.1 (Portmanteau) Soit {Xn }n0 et X une suite de vecteurs al eatoires ` a valeurs dans Rd et soit Pn et P leurs loi respectives. Les assertions suivantes sont equivalentes. (i) Xn X , (ii) Pour toute fonction f born ee et lipschitzienne (|f (x) f (y )| Kf x y pour tout x, y Rd ), limn E {f (Xn )} = E {f (X )}, (iii) lim inf Pn (G) P(G) pour tout ensemble ouvert, (iv) lim sup Pn (F ) P(F ) pour tout ensemble ferm e, ) = P(intA), (v) Pour tout ensemble bor elien A tel que P(A) = P(A
n L
lim Pn (A) = P(A)
est la fermeture de A (A compl o` u A et e par lensemble des valeurs dadh erence des suites d el ements de A). monstration On montre une succession dimplications qui d De emontre l equivalence des propositions : 83
1. (i)(ii) est trivial puisque toute fonction lipschitzienne est continue. 2. (ii)(iii) : soit G un ouvert. Pour tout m, d enissons fm (x) = max(1, m d(x, Gc )). La suite {fm } est une suite croissante de fonctions positives born ees lipschitziennes {fm } qui convergence simplement vers 1 IG . Par construction, lim inf E {1 IG (Xn )} lim inf E {fm (Xn )} = E {fm (X )} par (ii). Le th eor` eme de Beppo-Levi montre dautre part E {fm (X )} converge vers en croissant vers E {1 IG (x)}, ce qui etablit le r esultat. 3. (iii) (iv) est evident en prenant les compl ementaires ) = P(intA), nous avons 4. (iii)(iv)(v) : pour tout A B (Rd ) v eriant P(A) = P(A P(A) = P(intA) lim inf Pn (intA) lim inf Pn (A) ) P(A ) = P(A). lim sup Pn (A) lim sup Pn (A Do` u (v) en coin cant lim inf Pn (A) et lim sup Pn (A) entre les deux m emes bornes. 5. (v)(i) : Soit AM = [M, M ]d . Alors : M P(AM ) est une fonction croissante R+ [0, 1], continue ` a droite, qui a un nombre ni de discontinuit es plus grande quun > 0 donn e. Lensemble de ses discontinuit es de sur R+ est donc au plus d enombrable. Soit (Mn ) une suite croissante divergente de points de continuit e de : pour tout > 0 il existe n tel que d (M ) = P([M, M ] ) > 1 . Comme, en tout point de continuit e M de , P(AM ) = P(A M) = P(intAM ), en utilisant (v), on obtient que lim sup Pn (AMn ) > 1 , puis par suite que (Pn ) est une suite uniform ement tendue. Utilisons le corollaire 6.2.4. Soit (kn ) une suite croissante L ) = divergente dentiers telle que Xkn Y . Alors Pour tout A B (Rd ) v eriant P(A) = P(A P(intA), on a P(Y A) = P(A). On d enit maintenant, pour x = (x1 , . . . , xd ), le bor elien Bx = (, x1 ] (, xd ]. En raisonnant comme pour les AM , on montre ais ement quil existe un ensemble C Rd dense dans Rd tel que, pour tout x C , P(Bx ) = P(intBx ). Comme C est dense, on a (Bx , x C ) = B (Rd ). On note C = {x : P(Bx ) = P(intBx )} . Comme C contient C , on a (Bx , x C ) = B (Rd ). Comme Bx By a sa fronti` ere incluse dans lunion des des fronti` eres de Bx et By , on voit que {Bx , x C } est un pisyst` eme (i.e. est stable par intersection nie). Le th eor` eme ?? permet donc de conclure que, la loi de Y co ncidant avec P sur ce syst` eme, elle co ncide avec sur tous les bor eliens. La proposition (v) implique que limn Fn (x) = F (x) en tout point de continuit e de F , o` u lon a not e Fn (x) = P(Xn x) et F (x) = P(X x) les fonctions de r epartition de Xn et X . Dapr` es la preuve de (v)(i), on voit que la r eciproque est en fait vraie : si limn Fn (x) = F (x) en tout point de continuit e de F , alors Xn X . Une cons equence imm ediate est que, si la fonction de r epartition L de X est continue, alors Xn X est equivalent ` a P(Xn x) P(X x) pour tout x Rd . Pour d = 1, la convergence est en fait uniforme en x comme lindique le r esultat suivant. Lemme 6.3.2 L Supposons, pour d = 1, que Xn X et que la fonction de r epartition de X est continue. Alors,
n xR L
lim sup |P(Xn x) P(X x)| = 0.
84
monstration Soit Fn (x) = P(Xn x) et F (x) = P(X x). F De etant continue, il existe des points d = x0 < x1 < . . . < xk = d tels que F (xi ) = i/k . Fn et F etant croissantes, nous avons, pour tout x Rd , en choisissant i tel que xi1 x xi : Fn (x) F (x) Fn (xi ) F (xi1 ) = Fn (xi ) F (xi ) + 1/k Fn (x) F (x) Fn (xi1 ) F (xi ) = Fn (xi1 ) F (xi1 ) 1/k. Donc |Fn (x) F (x)| est born e par supi |Fn (xi ) F (xi )| + 1/k pour tout x. Par cons equent,
n xR
lim sup |Fn (x) F (x)| lim
n i{0,...,k}
sup
|Fn (xi ) F (xi )| + 1/k = 1/k,
ce qui permet de conclure, en choisissant k arbitrairement grand. Le raisonnement s etend sans dicult e au cas multidimensionnel mais nous omettons cet enonc e, la fonction de r epartition etant mieux adapt ee ` a la dimension un. Comme nous lavons d ej` a vu dans le lemme de Portmanteau, pour d emontrer la convergence en loi, il sut de sint eresser ` a un sous-ensemble des fonctions continues born ees, par exemple, les fonctions lipschitziennes born ees, mais cette classe peut encore etre r eduite. Nous allons en fait d emontrer dans cette partie quil sut de sint eresser ` a une seule fonction, la fonction caract eristique, t E e it Pour tout t, la fonction x eit E e it
TX n TX TX
t Rd .
L
TX n
est continue et born ee. Par cons equent, si Xn X , E eit
. Le th eor` eme de continuit e de Levy montre que la r eciproque est vraie. E e it

TX
Th eor` eme 6.3.3 (L evy) T L Soit Xn et X des v.a. ` a valeurs dans Rd . Alors Xn X si et seulement si E eit Xn De plus si, pour tout t, E e
itT Xn L
converge vers une fonction (t) qui est continue en 0, alors (t)
est la fonction caract eristique dune v.a. X et Xn X . monstration Limplication directe est De evidente. Consid erons la r eciproque. Supposons tout dabord que la famille {Xn } est born ee en probabilit e et utilisons le corollaire 6.2.4. Soit (kn ) une suite croissante divergente dentiers telle que Xkn Y . La fonction caract eristique de E eit
itT Xkj
T T
TY
est
alors la limite de E e et donc, pour tout t, E eit Y = E eit X (ou (t) dans le cas o` u lon na pas suppos e lexistence de X ). La proposition ?? montre X et Y ont la m eme loi. TX TX i t i t n Il sut maintenant de d emontrer que lhypoth` ese E e E e implique que {Xn , n N} est born ee en probabilit e. Pour tout x et tout > 0 nous avons :
1(|x| 2/ ) 2 1
sin(x) x
(1 cos(tx))dt .
En rempla cant x par Xn , en en utilisant le th eor` eme de Fubini : P(|Xn | 2/ ) 1

Re 1 E eit 85
TX n
dt .
Par hypoth` ese, lint egrande converge pour tout t vers Re 1 E eit de convergence domin e implique donc : lim sup P(|Xn | 2/ ) 1
TX
, quand n . Le th eor` eme
Re(1 (t))dt .
Comme la fonction est continue en z ero, pour tout > 0, il existe tel que, pour tout |t| , |(t)| . Par suite, lim sup P(|Xn | 2/ ) 2 , et donc la famille {Xn , n N} est born ee en probabilit e. La fonction caract eristique dun vecteur al eatoire X = (X1 , . . . , Xk ) en t Rd peut etre vue TX T i t comme la fonction caract eristique de la v.a. Y = t X evalu ee au point 1, (t) = E e = (1) o` u : u R E eiuY . Supposons que Xn X . Alors, pour tout t Rd et tout u R, E eiut E eiu(t
T X)
TX n
eor` eme de Levy 6.3.3. R eciproquement, , et donc tT Xn tT X par application du th

L
T T X)
supposons que pour tout t Rd , tT Xn tT X . Alors E ei(t Xn ) E ei(t encore par application du th eor` eme de Levy. Par cons equent : Proposition 6.3.4 (Proc ed e de Cram er-Wold) Soit (Xn , n N) une suite de vecteurs al eatoires ` a valeurs dans Rd . Alors : Xn X
L
et donc Xn X ,
tT Xn tT X,
t Rd .
Cette approche est tr` es utilis ee pour prouver la convergence en loi de vecteurs. Elle est connue sous le nom de proc ed e de Cram erWold. Elle permet de r eduire les probl` emes de convergence de vecteurs al eatoires ` a des probl` emes de convergence de variables al eatoires.
6.4
Th eor` eme de continuit e
Une propri et e fondamentale des notions de convergence que lon a introduite est quelles sont conserv ees par une transformation continue : si la suite de v.a. {Xn } converge vers X et que g est continue, alors g (Xn ) converge vers g (X ) et le r esultat est vrai pour les trois types de convergence consid er es. Th eor` eme 6.4.1 (Transformation continue) Soit g : Rd Rm est continue en tout point dun ensemble C tel que P(X C ) = 1. Alors, (i) Si Xn X , alors g (Xn ) g (X ), (ii) Si Xn X , alors g (Xn ) g (X ), (iii) Si Xn X , alors g (Xn ) g (X ).
Pp.s. Pp.s. P P L L
86
monstration (i) : Par d De enition, {g (Xn ) F } = {Xn g 1 (F )}. Pour tout ferm e F , on a : g 1 (F ) g 1 (F ) (g 1 (F ) C c ). En eet, seule la seconde inclusion est non-triviale ; soit x g 1 (F ) et montrons quou bien x C c (le compl ementaire de C ) ou bien x g 1 (F ). Il existe une suite xm d el ements de g 1 (F ) telle que xm x. Si x C , g (xm ) g (x), car g est continue au point x, et comme g (xm ) F et F est ferm e, g (x) F , ce qui implique que x g 1 (F ). On d eduit de cette s erie dinclusions et du lemme de Portmanteau, comme Xn X et P(X C c ) = 0, lim sup P(g (Xn ) F ) lim sup P(Xn g 1 (F )) P(X g 1 (F )) P(X g 1 (F ) C c ) = P(X g 1 (F )) = P(g (X ) F ), et, donc, en appliquant de nouveau le lemme de Portemanteau, g (Xn ) g (X ). (ii) : Soit > 0. Pour tout > 0, soit B lensemble des points x tels quil existe y tel que x y mais g (x) g (y ) . Si X B et g (Xn ) g (X ) , alors Xn X . Nous avons donc : P( g (Xn ) g (X ) ) P(X B ) + P( Xn X ). Le second terme du membre de droite tend vers 0 car Xn X . Nous avons P(X B C c ) = 0 et lim 0 P(X B C ) = 0 par continuit e de g . (iii) : dans ce cas, une simple application de la d enition donne le r esultat.
P L L
6.5
Loi des grands nombres
Proposition 6.5.1 (Loi faible des grands nombres) Soit {Xn }n>0 une suite de v.a. i.i.d. telle que E Xn < et E [Xn ] = . Alors
n
n = n 1 X
i=1
Xi .
n et (t) la monstration (Proposition 6.5.1) Notons n (t) la fonction caract De eristique de X fonction caract eristique de Zk . Les variables etant i.i.d., :
n n
n (t) = E exp(itn
1 k=1
Zk )
=
k=1
E exp(itn1 Zk ) = (n1 t)n .
Comme E {|Z |} < existe, est d erivable en 0 et (n1 t)n = 1+ it E {Z } + o(n1 ) n

n
eit .
Le membre de droite est la fonction caract eristique de la constante . Le th eor` eme de Levy 6.3.3 L P n et donc Z n . montre que Z 87
Th eor` eme 6.5.2 (Loi forte des grands nombres) Soit {Xn }n>0 une suite de v.a. i.i.d. telle que E Xn < et E [Xn ] = . Alors
n
n = n1 Z
i=1
Zi .
Pp.s.
Comme son nom lindique, la loi forte des grands nombres est un r esultat plus puissant que la loi faible, puisque la convergence p.s. implique la convergence en probabilit e, comme nous le verrons au th eor` eme 6.7.
6.6
Th eor` eme de la limite centrale
Le th eor` eme de limite centrale (T.L.C.) donne des conditions sous lesquelles des sommes normalis ees de v.a. ind ependantes de moyenne nulle converge en loi vers une gaussienne. Ce r esultat joue un r ole majeur en statistique (voir Le Cam, 1986, pour une histoire de ce th eor` eme). Th eor` eme 6.6.1 Soit {Xn } une suite de vecteurs al eatoires de Rd i.i.d. de moyenne et de matrice de covariance > 0. Alors : n 1 L (Xi ) N(0, ), n
i=1
o` u lon a not e N(0, ) le vecteur gaussien centr e de matrice de covariance . monstration Il sut d De etablir le r esultat pour des v.a. scalaires. Le proc ed e de Cram er-Wold (voir section 6.3) nous permet d etendre le r esultat au cas vectoriel. Posons : Yn = 1 (Xn ). La variable al eatoire Yn est de moyenne nulle et de variance unit e : E {Yn } = 0 et Var(Yn ) = 1. Notons :
n
n = n1 Y
i=1
Yi . nYn .
Pour t R, notons n (t) la fonction caract eristique associ ee ` a la variable al eatoire n ) . n (t) = E exp(it nY Nous allons d emontrer que pour tout t :
n
lim n (t) = exp(t2 /2)
et nous conclurons en utilisant le th eor` eme de L evy, en remarquant que exp(t2 /2) est la fonction caract eristique de la loi gaussienne de moyenne nulle et de variance unit e. Les variables al eatoires {Yi }1in etant ind ependantes, nous avons, pour tout t R : n (t) = (n1/2 t)n ,
88
o` u (t) = E {exp(itY )}. Dapr` es la proposition ??, comme E {Y } = 0 et E Y 2 n , 1 (n1/2 t) = 1 (n1/2 t)2 + o(n1 ) , 2 et par suite, lim n (t) = exp((1/2)t2 ),
n
= 1, on a, quand
ce qui conclut la preuve du T.L.C. scalaire. Il existe une autre m ethode de preuve du th eor` eme de la limite centrale (T.L.C.), due ` a Lindeberg (1922), qui permet de g en eraliser le T.L.C. ` a des variables al eatoires ind ependantes mais qui ne sont pas n ecessairement identiquement distribu ees. Ce r esultat sapplique donc en toute g en eralit e` a des tableaux triangulaires de v.a. ind ependantes. Th eor` eme 6.6.2 (LindebergFeller) Soit (kn , n 0) une suite dentiers croissante. Soit (Yn,1 , . . . , Yn,kn ) un tableau triangulaire de vecteurs al eatoires ind ependants centr es tels que E Yn,i 2 < pour i {1, . . . , kn }. Supposons les conditions de LindebergFeller v eri ees :
kn n
lim
E
i=1 kn
Yn,i
1( Yn,i > ) = 0, > 0,
(6.2)
n kn i=1 Yn,i
lim
CovYn,i = .
i=1
(6.3)
Alors, la suite
converge vers une loi normale N(0, ).
monstration Par le proc De ed e de Cram er-Wold, il sut de montrer ce r esultat en dimension un. Ce r esultat repose tout dabord sur le fait que (6.3) permettrait de conclure directement si on supposait les v.a. Yn,i gaussiennes (voir proposition 6.9.3). La m ethode de Lindeberg repose alors sur la comparaison kn n X u (Xn,i )nN,1kkn est un tableau triangulaires de Y et entre les sommes partielles k i=1 n,i o` i=1 n,i v.a. gaussiennes ind ependantes, telles que, Pour tout n et pour tout i {1, . . . , kn }, varYn,i = varXn,i , Pour tout n et tout i, j {1, . . . , kn }, les v.a. Xn,i et Yn,j sont ind ependantes. Nous allons tout dabord que, sous ces deux conditions, il est possible de contr oler la di erence entre les sommes partielles construites ` a partir du tableau triangulaire (Xn,i , i {1, . . . , kn }) et (Yn,i , i n {1, . . . , kn }) de telle sorte que la convergence en loi de la somme partielle Sn = k i=1 Xn,i implique la kn convergence en loi de la somme partielle Tn = i=1 Yn,i . Consid erons deux sommes Sn = Xn,1 + Xn,2 + + Xn,kn et Tn = Yn,1 + Yn,2 + . . . + Yn,kn . Soit f une fonction deux fois di erentiable avec une d eriv ee seconde born ee et Lipschitzienne, i.e., |f |Lip = sup
(x,y )RR,x=y
|f (x) f (y )| < . |x y |
(6.4)
89
o` u f est la d eriv ee seconde de f . On a la d ecomposition

kn
E {f (Sn )} E {f (Tn )} =
k=1
[E {f (Rn,k + Xn,k )} E {f (Rn,k + Yn,k )}],
o` u Rn,k =
j<k
Xn,j +
j>k
Yn,j . D eveloppons f (Rn,k + Xn,k ) au voisinage de Rn,k :

2 Xn,k
f (Rn,k + Xn,k ) = f (Rn,k ) + Xn,k f (Rn,k ) +
f (Rn,k ) +
2 Xn,k
[f (Rn,k + n,k Xn,k ) f (Rn,k )],
o` u n,k [0, 1]. D eveloppons de m eme f (Rn,k + Yn,k ). Notons que, la v.a. Rn,k est ind ependante, par construction, des v.a. Xn,k et Yn,k . Par cons equent, nous avons pour tout k {1, . . . , n}, E f (Rn,k )(Xn,k Yn,k ) = E f (Rn,k ) (E {Xn,k } E {Yn,k }) = 0, en utilisant que E {Xn,k } = E {Yn,k } = 0. De la m eme fa con, comme par construction des v.a Xn,k et
2 Yn,k nous avons E Xn,k 2 = E Yn,k , nous avons 2 2 E Yn,k E Xn,k
2 2 ) = E f (Rn,k ) Yn,k E f (Rn,k )(Xn,k
= 0,
Comme f est une fonction Lipshitzienne, pour tout
> 0, nous avons, pour tout [0, 1],
|f (Rn,k + Xn,k )) f (Rn,k )| |f |Lip |Xn,k |, |f (Rn,k + Yn,k ) f (Rn,k )| |f |Lip |Yn,k |1 I(|Yn,k | ) + 2|f | 1 I(|Yn,k | > ) , ese). Nous utilisons ici deux majorations o` u |f | = supxR |f (x)| (qui est ni par hypoth` di erentes pour des raisons qui deviendront transparentes dans la suite de la preuve. Par cons equent, E {f (Rn,k + Xn,k )} E {f (Rn,k + Yn,k )} est major e en valeur absolue par 1 |f |Lip (E |Xn,k |3 + E |Yn,k 1(|Yn,k | )|3 + |f | E |Yn,k 1(|Yn,k | > )|2 , 2 pour tout > 0. Remarquons que
3 3 m3 , E |Xn,k /k,n |3 = n,k E |Xn,k |3 = n,k 2 o` u m3 est le moment dordre trois dune loi gaussienne centr ee r eduite et n,k = E Xn,k Remarquons aussi que 2 E |Yn,k 1(|Yn,k | )|3 E |Yn,k |2 = n,k . def 2 . = E Yn,k
Ces in egalit es conduisent ` a la majoration : |E {f (Sn )} E {f (Tn )} | 1 |f |Lip 2

kn kn 3 n,k + k=1 k=1 2 n,k kn
m3
+ |f |
k=1
E |Yn,k 1(|Yn,k | > )|2 .
90
On a dautre part
kn 3 n,k k=1 kn
k=1
2 n,k
k{1,...,kn }
max
(n,k ).
Or (6.3) implique que pour tout 1 k kn , et tout

2 n,k
> 0, nous avons

kn 2
+ E |Yn,k 1(|Yn,k | > )|
+
j =1
E |Yn,j 1(|Yn,j | > )|2 .
et donc lim sup

n k{1,...,kn }
max
2 n,k = 0.
Do` u, pour tout
> 0, 1 |f |Lip m3 2
kn k=1
2 n,k 2
kn
1/2 E |Yn,j 1(|Yn,j | > )|2

kn
kn
2 n,k
|E {f (Sn )}E {f (Tn )} |
+
j =1
+
k=1
+ |f |
k=1
E |Yn,k 1(|Yn,k | > )|2 . (6.5)

2 tend vers une constante n,k
ero et Par hypoth` ese la s erie k E |Yn,k 1(|Yn,k | > )|2 tend vers z 2 respectivement quand n tend vers linni. Do` u, pour tout > 0,
n
lim |E {f (Sn )} E {f (Tn )} |
1 |f |Lip (m3 + 1) 2 . 2
En faisant tendre, dans un deuxi` eme temps, vers z ero, on obtient donc une limite nulle. Comme les (Xn,j , j {1, . . . , kn }) sont des v.a. gaussiennes, la proposition 6.9.3 permet de conclure. Comme ces majorations sont en particulier valables pour f (x) = exp(itx), le th eor` eme 6.3.3 de Levy permets de conclure. La majoration (6.5) est plus pr ecise que le r esultat de convergence en loi car elles fournissent des vitesses de convergences de E {f (Sn )} en fonction de normes appliqu ees au tableau Yn,k et de normes appliqu ees ` a f pour des f convenablement choisis.
6.7
Symboles o et O stochastiques
Le th eor` eme suivant clarie les relations entre les di erentes d enitions de convergence et celles entre convergence dun vecteur et convergence de ses coordonn ees. Th eor` eme 6.7.1 Soient Xn , X et Yn des v.a. Nous avons : (i) Xn X implique Xn X , (ii) Xn X implique Xn X , (iii) Xn c, o` u c est une constante, si et seulement si Xn c, 91
P L P L Pp.s. P
(iv) Si Xn X et Xn Yn 0, alors Yn X , (v) Si Xn X et Yn c pour une constante c, alors, (Xn , Yn ) (X, c), (vi) Si Xn X et Yn Y alors (Xn , Yn ) (X, Y ). monstration (i) : Si Xn X , pour tout > 0, P ( n An ) = 0 avec An = De Par cons equent : lim P( Xn X ) lim P(An ) = 0
n n Pp.s. kn { P P P L P L
Xk X }.
(ii) : Soit f Lipschitzienne born ee, notons |f | = supx |f (x)| et |f |Lip = supx=y |f (x) f (y )|/ x y . Pour tout > 0, |E {f (Xn )} E {f (X )} | |f |Lip + 2|f | P( Xn X ). Le second terme du membre de droite tend vers 0 et le premier peut etre rendu arbitrairement petit. Donc, limn E {f (Xn )} = E {f (X )}. eciproque, soit > 0 et soit B (c, ) = {x : (iii) : (ii) montre que si Xn c, alors Xn c. Pour la r x c < } la boule ouverte de centre c et de rayon . Nous avons P( Xn c ) = P(Xn B (c, )c ). Si Xn c, le lemme de Portmanteau montre que lim sup P(Xn B (c, )c ) P(c B (c, )c ) = 0 (iv) : Soit f Lipschitzienne born ee, et > 0, |E {f (Xn )} E {f (Yn )} | |f |Lip + |f | P( Xn Yn ). Le second terme tend vers 0 et le premier peut etre rendu arbitrairement petit, donc E {f (Xn )} et E {f (Yn )} ont la m eme limite. (v) : Remarquons, en notant d(x, y ) la distance euclidienne, que d((Xn , Yn ), (Xn , c)) = d(Yn , c) 0. Donc, en utilisant (iv), il sut de prouver que (Xn , c) (X, c). Pour toute fonction continue born ee f : (x, y ) f (x, y ) la fonction f (., c) : x f (x, c) est continue et born ee et |E {f (Xn , c)} E {f (X, c)} | 0, car Xn X . (vi) : cons equence directe de d((x1 , y1 ), (x2 , y2 )) d(x1 , y1 ) + d(x2 , y2 ). Le th eor` eme 6.7 a quelques applications imm ediates et utiles en pratique. La propri et e (vi) montre que la convergence en probabilit e dune suite de vecteurs al eatoires Xn = (Xn,1 , . . . , Xn,k ) est equivalente ` a la convergence de chacune de ses composantes individuellement. Le r esultat analogue pour la convergence en distribution est faux : la convergence en distribution dune suite de vecteurs al eatoires est une propri et e plus forte que la convergence en distribution de chacune de ses composantes Xn,i . La propri et e (v) du th eor` eme implique que si Xn X et Yn c, alors (Xn , Yn ) (X, c). Le th eor` eme de continuit e (th eor` eme 6.4.1) montre donc que pour toute fonction g : (x, y ) g (x, y ) continue sur un ensemble C {c}, P(X C ) = 1, g (Xn , Yn ) g (X, c). Des applications particuli` eres de ce principe sont souvent regroup ees sous la forme du lemme suivant, connue sous le nom de lemme de Slutsky. Lemme 6.7.2 (Lemme de Slutsky) L L Soit Xn , X et Yn des v.a. r eelles. Si Xn X et Yn c o` u c est une constante, alors 92
L L P L L L L P L
(i) Xn + Yn X + c ; (ii) Yn Xn cX ;
1 X c1 X pour c = 0. (iii) Yn n L L
Le proc ed e de Cram er-Wold (voir section 6.3) permet d etendre ce r esultat au cas vectoriel/matricel, pour peu que, dans (i), c soit un vecteur de m eme dimension que X , et dans (ii) et (iii), {Yn }n et c soient des matrices (avec c inversible pour (iii) ) de m eme dimension adapt ee ` a celle des vecteurs {Xn }. Il est pratique de disposer de notations simples pour exprimer quune suite tend vers 0 en probabilit e ou est born ee en probabilit e. Nous dirons quune suite de v.a. (scalaire ou vecteur) Xn = oP (1) si ee en probabilit e. Plus g en eralement, pour Rn Xn 0 ; nous noterons Xn = OP (1) si Xn est born une suite de v.a., Xn = oP (Rn ) Xn = OP (Rn ) signie Xn = Yn Rn signie Xn = Yn Rn avec Yn = oP (1), avec Yn = OP (1), (6.6) (6.7) (6.8) Pour Xn et Rn des suites d eterministes, les symboles oP et OP co ncident avec les symboles o et O de lanalyse. Les symboles oP et OP se manipulent dailleurs exactement de la m eme fa con que les symboles o et O. Par exemple, oP (1) + oP (1) = oP (1), oP (1) + OP (1) = OP (1), OP (1)oP (1) = oP (1), (1 + oP (1))1 = OP (1), oP (Rn ) = Rn oP (1), OP (Rn ) = Rn OP (1)
P
Pour sassurer de la validit e de ces r` egles, il sut de les r e- ecrire explicitement avec des suites et P P dutiliser les r esultats classiques enonc es ci-dessus. Par exemple, si Xn 0 et Yn 0, le th eor` eme P L 6.7 (vi) implique que (Xn , Yn ) (0, 0) qui equivaut ` a (Xn , Yn ) (0, 0). Le th eor` eme de continuit e (appliqu e` a f : (x, y ) x + y ) implique Xn + Yn 0, qui equivaut ` a Xn + Yn 0 (th eor` eme 6.7 (iii)). La troisi` eme r` egle est une fa con concise d ecrire : si Xn est born e en probabilit e et Yn 0, alors Xn Yn 0. Si Xn X , alors ce r esultat d ecoule du lemme de Slutsky (car Xn X et Yn c implique que Yn Xn cX , donc si c = 0, Yn Xn 0 qui equivaut ` a Yn Xn 0). Dans le cas o` u Xn ne converge pas en probabilit e, on peut soit donner une preuve directe, soit utilis e le th eor` eme de Prohorov. La r` egle de calcul suivante est utile pour les d eveloppements asymptotiques. Lemme 6.7.3 Soit R une fonction D Rk telle que R(0) = 0. Soit Xn une suite de v.a. ` a valeurs dans D tels que Xn 0. Alors, pour tout p > 0, (i) Si R(h) = o( h p ) quand h 0, alors R(Xn ) = oP ( Xn p ), 93
L L P P L L P P L P
(ii) Si R(h) = O( h p ) quand h 0, alors R(Xn ) = OP ( Xn p ). monstration D De enissons g (h) = R(h)/ h

p
pour h = 0 et g (0) = 0 : R(Xn ) = g (Xn ) Xn p .

P
(i) La fonction g est continue en 0 et le th eor` eme de continuit e montre que g (Xn ) g (0) = 0. La deuxi` eme assertion se d emontre de fa con similaire.
6.8
Deltam ethode
Supposons que nous disposions dun estimateur Tn dun param` etre , mais que la quantit e dint er et soit g ( ). Un estimateur naturel de cette quantit e est g (Tn ). Pouvons nous d eduire le comportement asymptotique de g (Tn ) ` a partir de celui de Tn ? Nous savons d ej` a que si Tn converge en probabilit e vers et que g est continue au point , alors g (Tn ) converge en probabilit e vers g ( ). Si nous savons n(Tn ) converge en loi vers une distribution limite, pouvons nous armer quil en est de m eme pour n(g (Tn ) g ( )) ? La r eponse est armative si la fonction g est di erentiable au point : de fa con heuristique, nous avons : n(g (Tn ) g ( )) g ( ) n(Tn ), et donc, si n(Tn ) d T , alors n(g (Tn ) g ( ) d [g ( )]T . En particulier, si n(Tn ) est asymptotiquement N(0, 2 ) alors n(g (Tn ) g ( ) est asymptotiquement normal N(0, [g ( )]2 2 ). La m eme question se pose lorsque Tn = (Tn,1 , . . . , Tn,k ) est un vecteur al eatoire et g est une k m fonction de R R . Nous connaissons la loi de n(Tn ) et nous nous int eressons ` a la loi de n(g (Tn )g ( )). Le r esultat ci-dessus s etend directement en rempla cant la d eriv ee par la di erentielle g ( ). Proposition 6.8.1 Soit g : Dg Rk Rm une fonction d enie sur un sous ensemble Dg de Rk et di erentiable au point . Soit Tn des v.a. ` a valeurs dans Dg . Si rn (Tn ) T , pour une suite rn rn (g (Tn ) g ( )) g ( )T. De plus rn (g (Tn ) g ( )) g ( )(rn (Tn )) 0. monstration rn (Tn ) converge en distribution, la suite rn (Tn ) est born De ee en probabilit e et Tn tend vers 0. La di erentiabilit e de la fonction g implique que g ( + h) = g ( ) + g ( )h + R(h) et R(h) = o( h ). Le lemme 6.7.3 montre que : g (Tn ) g ( ) g ( )(Tn ) = R(Tn ) = oP ( Tn ). En multipliant les deux membres de lidentit e pr ec edente par rn , nous avons donc : rn (g (Tn ) g ( )) = g ( )(rn (Tn )) + oP (1). Nous concluons an appliquant le lemme de Slutsky.
L P L
, alors
94
6.9
Convergence des moments

L
ee f , E {f (Xn )}] Par d enition Xn X implique que pour toute fonction continue born E {f (X )}. La condition born ee nest pas superue, et il est tr` es facile de trouver des exemples de suite de variables v eriant Xn X et pour lesquelles nous navons pas E {f (Xn )} E {f (X )} pour f une fonction continue non born ee. D enition 6.9.1 (Uniforme Int egrabilit e) Une suite de v.a. Yn est dite uniform ement int egrable si
M n L
lim lim sup E { Yn
1( Yn M )} = 0.
Remarquons tout dabord que luniforme int egrabilit e implique E { Yn } est major e ind ependamment de n. En eet, il existe M et C > 0 tels que, pour tout n E { Yn ce qui implique E { Yn } = E { Yn
1( Yn M )} C,
1( Yn M )} + E { Yn 1( Yn M )} M + C
pour tout n. Comme le montre le th eor` eme ci-dessous, luniforme int egrabilit e permet de relier la convergence en loi et la convergence des moments. Th eor` eme 6.9.2 Soit f : Rk R une fonction bor elienne continue en tout point de C B (Rk ). Supposons que Xn X et P(X C ) = 1. Alors, E {f (Xn )} E {f (X )} si et seulement si la suite f (Xn ) est uniform ement int egrable. monstration Nous ne montrons ici que la r De eciproque. Posons Yn = f (Xn ) et supposons que Yn est uniform ement int egrable. Nous allons montrer que E {Yn } E {Y }, o` u Y = f (X ). Nous supposons sans perte de g en eralit e que Yn est positive (il sut autrement de raisonner sur les parties positives et n egatives s epar ement). Le th eor` eme de continuit e montre que Yn Y . Nous notons a b = inf(a, b). Lin egalit e triangulaire donne dune part E {Y M } |E {Yn M } E {Y M } | + E {Yn M } et dautre part |E {Yn } E {Y } | |E {Yn } E {Yn M } | + |E {Yn M } E {Y M } | + |E {Y M } E {Y } | . Comme la fonction y y M est continue et born ee, |E {Yn M } E {Y M } | 0 quand n . Le second terme de la partie droite de la premi` ere in egalit e est major ee ind ependamment de M (voir ci-dessus), donc E {Y } < . Le premier terme et le troisi` eme termes de la partie droite de la seconde in egalit e peuvent etre rendus arbitrairement petits en utilisant respectivement luniforme int egrabilit e et E {Y } < , ce qui ach` eve la d emonstration de limplication r eciproque. 95
L L
Une cons equence el ementaire de lexemple pr ec edent est donn ee ci-apr` es. Proposition 6.9.3 Si {Xk , k N} est une famille de vecteurs al eatoires gaussiens, alors les deux assertions suivantes sont equivalentes. (i) lim E {Xk } = et lim Cov(Xk ) =
k k
(ii) Xk N(, ). monstration Par le proc De ed e de Cram er-Wold, il sut de montrer ce r esultat en dimension un. En dimension un, on note = 2 . (i) (ii) est alors une simple application du lemme 6.7.2 de Slutsky puisque (Xk E {Xk })/ varXk suit une loi N(0, 1) pour tout k . Dautre part, le th eor` eme de convergence domin e appliqu e` a E {f (Xk )} = 1 2 var(Xk ) f (t) exp((t E {Xk })2 /(2var(Xk ))) dt
pour tout f continue born ee montre que si var(Xk ) , E {f (Xk )} 0, ce qui est impossible sous (ii). Il en est de m eme pour toute sous-suite var(Xk ). On en conclut que (ii) implique que var(Xk ) est major e ind ependamment de k . Dans ce cas il est facile de voir que E {Xk } a aussi une limite car le contraire impliquerait que P{|X | M } = 0 pour tout M > 0. Par un simple changement de variable, on montre que pour tout p > 0, il existe une constante cp telle que, pour toute variable gaussienne p centr ee Y , E {|Y |p } = cp (E Y 2 ) 2 . Il sen suit que (E {|Xk |p }) p (E {|Xk EXk |p }) p + |E {Xk } | cp var1/2 (Xk ) + |E {Xk } | est major e ind ependamment de k pour tout p > 0. On obtient dapr` es lexemple ?? que les moments q converge vers E[X q ] pour tout q > 0. Les cas q = 1 et q = 2 donnent (i), ce qui ach` eve la E Xk d emonstration.
1 1
96
Chapitre 7
Estimation de la moyenne et de la fonction dautocovariance

7.1 Estimation de la moyenne
Soit {Xt } un processus al eatoire ` a temps discret stationnaire au second ordre, de moyenne E {X0 } = , et de fonction dautocovariance . On suppose avoir observ en echantillons cons ecutifs X1 , . . . Xn du processus. Lestimateur de que nous consid erons est la moyenne empirique d enie par : n = 1 n
n
Xt
t=1
(7.1)
On constate tout dabord que n est un estimateur sans biais de la moyenne car 1 E { n } = n
n
E {Xt } =
t=1
(7.2)
du fait de la stationnarit e. Le risque quadratique de lestimateur, qui mesure sa dispersion autour de la valeur inconnue de la moyenne, a pour expression R( n , ) = E ( n )2 =E 1 n2
n n
(Xt )(Xs )
s=1 t=1
1 n2
(t s) =
s=1 t=1
1 n
n1
1
h=n+1
|h| n
(h) (7.3)
Do` u la proposition suivante : Proposition 7.1.1 Soit {Xt } un processus stationnaire au second ordre de moyenne et de fonction dautocovariance (h) avec | (h)| < . Alors, le risque quadratique de lestimateur de la moyenne empirique n = n1 n X v e rie t t=1
n
lim nE ( n )
= 2f (0)
o` u
1 f () = 2
( )ei .
=
(7.4)
97
cest ` a dire que n converge en moyenne quadratique vers , ` a la vitesse P-p.s.
n. De plus limn n =
monstration Lorsque (h) est absolument sommable, le th De eor` eme de la convergence domin ee appliqu ee ` a (7.3) montre que
n
lim nR( n , ) =
h=
lim
|h| 1 n
(h) =
h=
(h) = 2f (0)
ih est la densit o` u f () = (2 )1 e spectrale du processus {Xt }. La preuve de la h= (h)e convergence presque s ure de n est laiss ee ` a titre dexercice.
Cette proposition montre que la loi des grands nombres, etablie classiquement pour des variables al eatoires ind ependantes, est egalement valable pour un processus stationnaire au second ordre, du moment que la fonction dautocovariance d ecro t susamment rapidement ` a linni. Sous cette condition, il est possible destimer la moyenne ` a partir dune seule r ealisation de celui-ci. La proposition 7.1.1 nous donne acc` es ` a la valeur limite de E ( n( n ))2 . Cependant pour construire des intervalles de conance pour les param` etres estim es (cf. d enition ??) ou pour tester des hypoth` eses concernant la valeur des param` etres (voir d enition ??), il est n ecessaire dobtenir un r esultat plus pr ecis portant sur la distribution limite de n( n ). Lobtention de th eor` emes de type limite centrale pour des suites de variables al eatoires d ependantes est un sujet d elicat, qui a donn e lieu ` a une vaste litt erature. Il nest bien entendu pas question ici de pr esenter une th eorie g en erale et nous nous contentons donc d enoncer un r esultat valable dans le cas de processus lin eaire fort. Le fait de devoir emettre une hypoth` ese aussi contraignante sur la loi du processus dans un contexte o` u, en fait, seules les propri et es au second ordre nous int eressent est bien s ur frustrant, mais il traduit la dicult e technique dun tel r esultat (la preuve de ce th eor` eme est donn ee dans la Section 7.3). Th eor` eme 7.1.2 Soit {Xt } un processus lin eaire fort de moyenne . On a Xt = + et Zt IID(0, 2 ). On pose n = n 1 n t=1 Xt . Alors : (0)|2 /(2 ), () = o` u f (0) = 2 | nulle 0. n( n ) N (0, 2f (0))
L k= k Ztk
avec
|k | <
(7.5)
ij j = j e ,
est la densit e spectrale de {Xt , t Z} ` a la fr equence
7.1 Exemple (Moyenne empirique pour un processus AR(1) (fort)): Soit Xt un processus autor egressif dordre 1 fort, de moyenne , solution stationnaire au second ordre d eni par l equation de r ecurrence Xt = (Xt1 ) + Zt o` u {Zt } IID(0, 2 ) et || < 1. Nous rappelons que la fonction dautocovariance dun processus AR(1) pour || < 1 est donn ee par 2 X (k ) = | k | (1 2 )
98
et que la densit e spectrale de ce processus a pour expression f () = 2 2 |1 ei |

2
Dans ce cas, la variance limite qui intervient dans l equation (7.5), est donn ee par 2f (0) = 2 /(1 )2 . 2 Cette valeur est ` a comparer avec la variance de Xt donn ee par (0) = /(1 2 ). On constate que le rapport 2f (0)/ (0) = (1 + )/(1 ) tend vers 0 lorsque 1 et vers + lorsque 1. Ce qui implique par exemple lorsque lon consid` ere lintervalle de conance asymptotique de niveau 95% pour la moyenne donn e par [ n 1.96n1/2 /(1 ), n + 1.96n1/2 /(1 )] que la longueur de lintervalle de conance est minimale lorsque = 1 (corr elation n egative). et maximale lorsque 1 (corr elation positive).
7.2
Estimation corr elation
des
coecients
dautocovariance
et
dauto-
Consid erons ` a nouveau un processus {Xt } stationnaire au second ordre, de moyenne et de fonction dautocovariance (h) suppos ee de module sommable. Pour estimer la suite (h), nous consid erons les estimateurs, dits de covariances empiriques, d enis par : n (h) = n1 0
n|h| t=1 (Xt+|h|
n )(Xt n )
si |h| n 1 sinon
(7.6)
etant o` u n = n1 n t=1 Xt . Remarquons que le nombre dobservations, dont nous disposons, pr ecis ement egal ` a n, il nexiste pas de paires dobservations s epar ees de plus de n 1 intervalles de temps et donc lexpression (7.6) ne permet pas destimer les valeurs de (h) pour |h| n. De plus, lorsque |h| est proche de n, il est clair que lestimateur (7.6) de la covariance nest pas able, dans la mesure o` u on ne dispose que de peu de paires dobservations (Xt , Xt+|h| ), ce qui implique que leet de moyennage statistique ne peut pas jouer. La partie la plus utile de la fonction dautocovariance empirique est celle qui correspond au valeurs du d ecalage h signicativement plus faibles que le nombre dobservations n. A echantillon ni, n (h) est un estimateur biais e de (h). Un calcul simple montre par exemple que E { n (0)} = (0) 1 n
(n1)
1
k=(n1)
|k | n
(k )
Toutefois on peut montrer que, pour tout h, lestimateur donn e par (7.6) est asymptotiquement sans biais dans le sens o` u limn E { n (h)} = (h) ` a la vitesse 1/n. Une propri et e importante de cet estimateur est que la suite n (h) est de type positif. En eet, si on d enit le p eriodogramme par 1 1 In () = 2n
n 2
(Xt n )e
t=1
it
(7.7)
1. Le p eriodogramme joue un r ole fondamental pour lestimation de la densit e spectrale etudi ee dans le chapitre 8.
99
Par construction, In () est une fonction positive pour [, ]. Par ailleurs,
eih In ()d =
1 n
(Xt n )(Xs n )
t=1 s=1
1 2
ei(ht+s) = n (h)
Par cons equent, dapr` es le th eor` eme dHerglotz 3.3.1, la suite n (h) est de type positif. Proposition 7.2.1 n,p d Si n (0) > 0 alors, pour tout p n, la matrice enie par n (0) n (1) . . . n (1) n (0) n (p 1) n (p 2) n (0)
n = n (p 1) n (p 2) est de rang plein et est donc inversible.
(7.8)
monstration La suite De n (h) est de type positif, n (0) > 0 et n (h) tend vers 0 quand n tend vers linni. On en d eduit, dapr` es la propri et e 3.3.5, que, pour tout p, la matrice est inversible. Lestimateur dit non biais e de la fonction dautocovariance obtenu en rempla cant n1 par (n |h|)1 dans lexpression (7.6) ne d enit pas une suite de type positif. Ajout e au fait que ces deux estimateurs sont asymptotiquement equivalents, lestimateur non biais e pr esente peu dint er et dans le cas des s eries temporelles et nest que tr` es rarement utilis e. Les coecients dautocovariance empiriques interviennent quasiment dans tous les probl` emes dinf erence statistique portant sur les processus stationnaires. A linstar de la moyenne empirique, il est donc indispensable de disposer de r esultats concernant leur distribution. Cependant, m eme pour les mod` eles de processus les plus simples, il est en g en eral impossible de pr eciser la distribution exacte de la suite de variables al eatoires n (0), . . . , n (K ) pour un nombre d echantillons n donn e. Nous ne consid erons ici que des r esultats asymptotiques concernant la distribution limite jointe des coecients dautocovariance [ n (0), . . . , n (K )], pour K x e, lorsque n tends vers linni. Th eor` eme 7.2.2 Soit {Xt , t Z} un processus lin eaire d eni par Xt = suppose que Zt
def s= s Zts
avec
def
s |s |
< . On
IID(0, 2 )
v erie E
4 Zt
4 .
n = [ Pour K 1, notons n (1), . . . , n (K )]T ,
= [ (1), . . . , (K )]T et V la matrice de dimension K K dont l el ement Vp,q est donn e par
Vp,q = ( 3) (p) (q ) +
def
[ (u) (u p + q ) + (u + q ) (u p)] .
Alors,
n ( n ) N (0, V ) .
La preuve de ce r esultat est donn e dans le paragraphe 7.3.
100
Il est aussi int eressant, et souvent plus pratique, de consid erer la distribution limite des coecients dautocorr elations [ n (0), . . . , n (K )]. On rappelle que les coecients dautocorr elation sont d enis par (h) (h) = (0) et quils v erient |(h)| (0) = 1 (cf. paragraphe ??). On d enit les coecients dautocorr elation empiriques par n (h) n (h) = (7.9) n (0) o` u n (h) est donn e par (7.6). Th eor` eme 7.2.3 Soit {Xt } un processus lin eaire d eni par Xt = s |s | < . On suppose s= s Zts avec 2 4 que Zt IID(0, ) v erie E Zt < . Pour K 1, on note n = ( n (1), . . . , n (K ))T , = ((1), . . . , (K ))T et W = [wp,q , p, q = 1, . . . , K ] la matrice de dimension K K d enie, pour 1 p, q K , par l el ement :
wp,q
u=1
((u + p) + (u p) 2(u)(p))((u + q ) + (u q ) 2(u)(q ))
(7.10)
Alors :
n(n ) d N (0, W )
(7.11)
Il est remarquable de noter que la distribution des coecients dautocorr elation ne d epend pas des 2 moments du processus Zt (on a uniquement suppos e que Zt IID(0, ) avec un moment du 4` eme ordre ni). Comme dans le cas du th eor` eme 7.1.2, on constate quil est n ecessaire dadmettre des hypoth` eses relativement fortes pour garantir ce r esultat. La preuve est donn ee dans le paragraphe 7.3. 7.2 Exemple (Bruit blanc fort): Soit {Xt } IID(0, 2 ). Dans ce cas (h) = 0 pour tout h = 0 et la matrice de covariance asymptotique W est egale ` a la matrice identit e. Lexpression (7.11) montre que, lorsque la taille de l echantillon n tend vers linni, le vecteur des coecients dautocorr elation empiriques multipli e par la racine carr ee du nombre d echantillons n[ n (1), . . . , n (K )] converge vers un vecteur gaussien, centr e et de covariance identit e. On en d eduit que, si {Xt } est un bruit blanc fort, pour tout h = 0 :
n
lim P 1.96n1/2 n (h) 1.96n1/2 = 0.95
(7.12)
Ce r esultat peut etre utilis e pour d enir des tests asymptotiques de lhypoth` ese nulle H0 : {Xt } est un bruit blanc fort. Consid erons en eet la proc edure de test consistant ` a accepter lhypoth` ese nulle si 1 / 2 1 / 2 n (h) appartient ` a lintervalle [1.96n , 1.96n ] et ` a la rejeter sinon est un test de lhypoth` ese nulle dont lerreur de premi` ere esp` ece tend, lorsque n , vers 0, 05. Nous avons repr esent e gure 7.1 les 60 premiers coecients dautocorr elation empiriques dun echantillon de taille n = 500, dun bruit blanc fort, gaussien, centr e, de variance 2 = 1. En utilisant la formule (7.12), nous avons repr esent e lintervalle asymptotique [1.96n1/2 , 1.96n1/2 ] autour de la vraie valeur (h) = 0. Pour les valeurs des
101
1 0.8 0.6 0.4 0.2 0 0.2 0 10 20 30 40 50
Figure 7.1 Fonction dautocorr elation empirique pour un echantillon de

bruit blanc fort, gaussien, centr e, de variance 2 = 1. Le nombre d echantillons est egal ` a n = 500. Les droites en pointill e repr esentent les extr emit es des intervalles [1.96n1/2 , 1.96n1/2 ].
retards h pour lesquelles lautocorr elation empirique appartient ` a lintervalle [1.96n1/2 , 1.96n1/2 ] le test dhypoth` ese d ecrit ci-dessus est accept e. Ce type de visualisation o` u lon repr esente les coecients dautocorr elation empiriques ainsi que les extr emit es des intervalles [1.96n1/2 , 1.96n1/2 ] pour les estimateurs correspondants dans le cas du bruit blanc (fort) est classique dans le domaine des s eries temporelles o` u il est d esign e sous le nom de corr elogramme. Il permet de d etecter visuellement les retards pour lesquels les coecients de corr elation sont ou ne sont pas compatibles avec lhypoth` ese de bruit blanc fort (comme dans le cas de la gure 7.2 par exemple). Il faut toutefois faire attention quand on consid` ere simultan ement plusieurs valeurs de retards, car si le risque de premi` ere esp` ece de chaque test individuel est asymptotique egal ` a 0,05, il est dicile d evaluer le risque dun test consistant ` a prendre en consid eration simultan ement une plage de valeurs de retards, car nous ne prenons pas en compte la d ependance entre les di erents tests. Nous pouvons toutefois d eduire du Th eor` eme pr ec edent un test de lhypoth` ese nulle prenant en compte simultan ement une plage de valeurs de retards. En eet, le Th eor` eme 7.2.3 montre que, sous lhypoth` ese 2 est distribu ( l ) e e suivant une loi du que {Xt , t Z} est un bruit blanc fort, la statistique Tn = K l=1 n 2 centr e` a K degr es de libert e. Le test consistant ` a accepter lhypoth` ese nulle si la valeur prise par la statistique Tn est inf erieure au quantile ` a 95% de la loi du chi2 centr e` a K degr es de libert e, a une erreur de premi` ere esp` ece asypmptotique egale ` a 0,05. 7.3 Exemple (Processus MA(1)): On consid` ere le processus MA(1) d eni par Xt = Zt + 1 Zt1 o` u Zt est un bruit blanc fort, centr e, de
102
variance 2 . Ici, la suite des coecients dautocorr elation est 1 pour 1 (h) = 2 pour 1 + 1 0 pour
donn ee par : h=0 |h| = 1 |h| 2
On en d eduit, dapr` es (7.10), que les el ements diagonaux de la matrice de covariance de la distribution limite des coecients dautocovariance empiriques ont pour expression : Wh,h = 1 32 (1) + 44 (1) pour |h| = 1 1 + 2(1)2 pour |h| 2
Par cons equent la zone cr edible ` a 95% pour les coecients dautocorr elation empiriques sont donn es, pour h = 1, par : 1/2 1/2 n (1) (1) 1.96W1,1 n1/2 (1) + 1.96W1,1 n1/2 et, pour h 2, par : n (h) 1.96W2,2 n1/2
1/2
+ 1.96W2,2 n1/2
1/2
Notons ici que ces r egions d ependent, par linterm ediaire de (1), de la quantit e a priori inconnue 1 . Nous avons repr esent e gure 7.2 les 60 premiers coecients dautocorr elation empiriques dun echantillon de longueur n = 500 dun processus MA(1) d eni par 1 = 0.8 et = 1. Les traits en pointill e repr esentent les bornes asymptotiques autour des vraies valeurs au niveau 95%.
1
0.5
0.5 0 10 20 30 40 50
Figure 7.2 Fonction dautocorr elation empirique dun echantillon de longueur n = 500) dun processus MA(1) pour 1 = 0.8 et donc (1) = 0.4878.
7.4 Exemple (Processus autor egressif fort dordre 1): On consid` ere le processus al eatoire Xt d eni par : Xt = Xt1 + Zt 103
o` u {Zt } IID(0, 2 ) et o` u || < 1. La fonction dautocorr elation dun tel processus est donn ee par (h) = |h| et les el ements diagonaux de la matrice de covariance W sont donn es par
h
Wh,h =
m=1
2h (m m )2 +
2h 2 m=h+1 2 1
2m (i i )2 2h2h
= (1 )(1 + )(1 )
Consid erons la s equence, de longueur n = 1800, des battements cardiaques repr esent es gure 1.1 (chapitre 1). La gure 3.2 qui repr esente les couples (Xt , Xt1 ) sugg` ere fortement la pr esence dune relation lin eaire entre les variables Xt et Xt1 et invite donc ` a tester la validit e dun mod` ele autor egressif dordre 1. Pour estimer le param` etre du mod` ele autor egressif, une m ethode naturelle, compte tenu de lallure n = de la fonction dautocorr elation de lAR(1), consiste ` a utiliser comme estimateur n (1) qui donne n = 0.966. Pour tester la validit e du mod` ele, deux solutions sorent ` a nous : (i) tester que les r esidus de pr ediction donn es par Zt = Xt n n (Xt1 n ) sont compatibles avec un mod` ele de bruit blanc, (ii) v erier directement que les coecients dautocorr elation empiriques sont compatibles avec ceux dun mod` ele AR(1). Les r esidus de pr ediction sont report es gure 7.3 et la fonction dautocorr elation de ces r esidus gure 7.4, o` u nous avons aussi indiqu e les bornes de la zone cr edible ` a 95% pour le bruit blanc avec un nombre dobservations n = 1800. Les corr elations empiriques, en particulier pour h = 2, sont signicativement ` a lext erieur des intervalles de conance du bruit blanc, ce qui conduit ` a rejeter le mod` ele de bruit blanc pour les r esidus et donc le mod` ele autor egressif dordre 1 pour les observations. Les r esultats de lanalyse de la suite des coecients dautocorr elation empiriques du processus et des zones cr edibles ` a 95% sous lhypoth` ese dun mod` ele AR(1) avec = 0.966 sont report es gure 7.5. On observe que les premi` eres valeurs des coecients de corr elation sont nettement ` a lext erieur de cette zone, ce qui contribue ici encore ` a rejeter le mod` ele AR(1).
20
10
10
20
200
400
600
800
1000
1200
1400
1600
1800
t = Figure 7.3 S erie des battements cardiaques : R esidu de pr ediction Z n (Xt1 (Xt n ) n ).
104
1.2 1 0.8 0.6 0.4 0.2 0 0.2 0 10 20 30 40 50 60 70 80 90
n (Xt1 t = (Xt empiriques des r esidus de pr ediction Z n ) n ) et zones cr edibles a ` 95% pour le bruit blanc (n = 1800).
Figure 7.4 S erie des battements cardiaques : coecients dautocorr elation
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0 10 20 30 40 50 60 70 80 90
Figure 7.5 S erie des battements cardiaques : coecients dautocorr elation

empiriques de la s erie et bornes des zones cr edibles ` a 95% pour un mod` ele AR(1) de param` etre = 0.966.
105
7.3
Th eor` emes Limites pour les observations d ependantes
Les preuves sont bas ees sur le Th eor` eme dapproximation suivant Th eor` eme 7.3.1 Soient (An , n 0), (Bm , m 0), (Bm,n , m 0, n 0) et B des vecteurs al eatoires v eriant (i) Pour tout m, Bm,n Bm quand n , (ii) Bm B pour m , (iii) Pour tout
L L L
> 0, limm lim supn P (|An Bm,n | ) = 0.
Alors An B quand n . Remarque 7.1 Pour etablir la condition (iii) il est souvent pratique dutiliser lin egalit e de Markov. monstration En appliquant le Th De eor` eme de Levy (voir Th eor` eme 6.3.3), il sut de montrer que, pour tout , An () B (), o` u Z () est la fonction caract eristique du vecteur al eatoire Z . Lin egalit e triangulaire montre que |An () B ()| |An () Bm,n ()| + |Bm,n () Bm ()| + |Bm () B ()| . Consid erons tout dabord le premier terme. |An () Bm,n ()| = E ei E E
def
tA n
E ei 1 ei(
tB m,n
ei
tA
tB t m,n An )
1 ei(
tB t m,n An )
Pour > 0, posons Am,n ( ) = {|t Bm,n t An | }. Nous avons donc : |An () Bm,n ()| E Pour et 1e 1 ei(
tB t m,n An )
1Am,n () + E 1 ei( Bm,n An ) 1Ac . m,n ( )

t t tB t m,n An )
> 0, nous choisissons ( ) tel que 1 ei( 2, lin egalit e pr ec edente implique
1Ac < . Comme m,n ( ( ))
i(t Bm,n t An )
|An () Bm,n ()| 2P [Am,n ( ( ))] + . Comme limm lim supn P [Am,n ( ( ))] = 0, nous pouvons choisir un entier m( ) tel que, pour tout m m( ) il existe un entier n(m, ) tel que P [Am,n ( ( ))] , pour tout n n(m, ) .
La condition (ii) montre que lon peut choisir m m( ) assez grand pour que |Bm () B ()| |. La condition (i) montre que lon peut choisir n n(m, ) susamment grand pour que |Bm,n () Bm ()| < , ce qui conclue la preuve du Th eor` eme. 106
Nous allons maintenant etendre le Th eor` eme de la Limite Centrale dans un cadre d ependant. Nous nous allons tout dabord etablir ce th eor` eme pour des suites m-d ependantes, puis nous etendrons ce r esultat aux processus lin eaires au sens fort. D enition 7.3.2 (Processus M -d ependant) def Nous dirons que le processus {Xk , k Z} est M -d ependant, si pour tout n Z, les tribus Pn = ependantes. (Xk , k n) et Fn+m+1 = (Xk , k n + m + 1) sont ind Th eor` eme 7.3.3 2 < Soit {Xk , k Z} un processus stationnaire au sens strict M -d ependant. Nous supposons que E X0 et nous notons par () la fonction dautocovariance du processus. Alors, o` u = E {X0 } et VM =
M h=M L n n X N (0, VM ) , def
(h).
monstration Sans perte de g De en eralit e, nous supposons que = 0. Nous allons utiliser le Th eor` eme dapproximation 7.3.1 en construisant un tableau de variables al eatoires {Bm,n , (m, n) N N} def n . Pour m 2M , consid approchant An = n1/2 X erons Bm,n = n1/2 [(X1 + + XmM ) + (Xm+1 + + X2mM ) + (X(rn 1)m+1 + + Xrn mM ) n , mais les variables al o` u rn = n/m . Cette approximation contient une partie des termes de X eatoires Zm,k = (X(k1)m+1 + + XkmM ), k {1, . . . , r} sont ind ependantes. Comme le processus est stationnaire au sens strict, les vecteurs al eatoires {Zm,1 , . . . , Zm,r } sont ind ependants et identiquement distribu es de moyenne nulle et de variance SmM =
def |h|M
(m M |h|) (h) , m 2M .
(7.13)
Nous allons v erier que cette approximation satisfait les conditions du Th eor` eme 7.3.1. (i) En appliquant le Th eor` eme de Limite Centrale aux vecteurs al eatoires {Zm,k , k 0}, nous obtenons
rn rn
Bm,n = n
1/2 k=1
Zm,k =
1/2 (n/rn )1/2 rn k=1 L
Zm,k ,
et en utilisant limn (n/rn )1/2 = m1/2 , nous obtenons Bm,n Bm lorsque n , o` u Bm est une variable al eatoire Gaussienne de moyenne nulle et de variance SmM /m. (ii) Comme limm SmM /m = VM , nous avons Bm B , o` u B est une variable al eatoire gaussienne de moyenne nulle et de variance VM . En eet, la fonction caract eristique est donn ee 2 par Bm () = e SmM /m et, donc, limm Bm () = VM () et le r esultat est donc une cons equence de la caract erisation du Th eor` eme Levy (voir Theor` eme 6.3.3). (iii) Pour v erier la derni` ere condition, consid erons la di erence n Bm,n = n1/2 (Wm,1 + + Wm,rn ) , n1/2 X 107
L
o` u Wm,k = XkmM +1 + + Xkm pour 1 k rn 1 et Wm,rn = Xrn mM +1 + + Xn . Les variables al eatoires Wm,k , 1 k rn sont ind ependantes. La variance des rn 1 premi` eres ee par variables est egale ` a SM o` u SM est d eni par (7.13). La variance de Wm,rn est donn Var(Wm,rn ) =
|u|mM
(n n/m m + M |u|) (u)

|u|mM
(m + M |u|) (u) .
En utilisant n Bm,n = n1 [(rn 1)SM + Var(Wm,rn )] , Var n1 X nous avons n Bm,n = m1 SM , lim sup Var n1 X
n
et donc
m n
n Bm,n = 0 . lim lim sup Var n1 X
En utilisant le r esultat pr ec edent, nous allons etablir le Th eor` eme Central Limite pour la moyenne empirique dun processus lin eaire au sens fort
Xt = +
j =
j Ztj ,
(7.14)
o` u {Zt , t Z} sont des variables al eatoires ind ependantes et identiquement distribu ees (bruit blanc fort), de moyenne nulle et de variance 2 et
|j | < .
j =
(7.15)
Remarquons tout dabord que si le processus {Zt , t Z} est un bruit blanc fort gaussien, la variable n est elle aussi gaussienne, de moyenne nulle et de variance X n ) = n1 Var(X
|u|<n
|u| (u) n
et comme
n
lim
1
|u|<n
|u| (u) n
(u) = 2
2 j = V ,
def
=
u=
(7.16)
j =
nous avons donc g en erale.
L n n X N (0, V ). Nous allons montrer que ce r esultat reste vrai de fa con
Th eor` eme 7.3.4 Soit {Xt , t Z} un processus lin eaire fort (7.14) tel que 1. {Zt , t Z} est un bruit blanc fort de moyenne nulle et de variance 2 2.
j Z |j |
< . 108
Alors
L n N (0, V ) , n X j =
2 j .
V = 2
monstration Sans perte de g De en eralit e, nous supposons que = 0. Pour etablir ce r esultat, nous allons utiliser encore le Th eor` eme dapproximation 7.3.1. Lid ee est dapprocher le processus {Xt , t m m = Z}, par une suite de processus 2m-d ependant, Xt i=m i Zti et nous construisons les variables :
n
Ym,n = n1/2
t=1
m Xt .
u Ym 1. En appliquant le Th eor` eme 7.3.3, nous avons, pour tout m, Ym,n Ym quand n , o` est une variable al eatoire gaussienne de moyenne nulle et de variance Vm , avec
2m
m (h) = 2
2 j . (7.17)
Vm =
h=2m
j =m L
2. Comme Vm V quand m , nous avons, Ym Y , o` u Y est une variable al eatoire gaussienne de moyenne nulle et de variance V = 2 3. Finalement, n Ym,n = nVar n1 Var n1/2 X
t=1 |j |>m n j = j 2
j Ztj
= 2
|j |m
2 j
qui convergence vers 0 quand m . Nous allons maintenant etudier les distributions asymptotique de la fonction dautocovariance et dautocorr elation. Consid erons, pour h 0,
n
n (h) = n
1 t=1
(Xt+h )(Xt ) .
(7.18)
nh t=1 (Xt
Cette quantit e est plus facile ` a etudier que lautocovariance empirique n (h) = n1 Xn )(Xt+h Xn ) et comme n1/2 ( n (h) n (h)) = oP (1) ,
les distributions limites de (h) et de (h) sont identiques. Nous allons tout dabord calculer la variance et la variance asymptotique de n (h) lorsque {Xt , t Z} est un processus lin eaire fort dont le bruit 109
4 = 4 < o` blanc tel que E Z0 u est une constante. Notons que E { n (h)} = (h). Nous allons v erier tout dabord que pour tout p, q 0, (n1)
Cov( n (p), n (q )) = n1
u=(n1)
|u| n
Vu ,
(7.19)
o` u
Vu = (u) (u + p q ) + (u + p) (u q ) + ( 3) 4
i
def
i+u+q i+u i+p i .
(7.20)
Labsolue sommabilit e de {t , t Z} implique que domin e implique donc que

n
uZ |Vu |
< . Le th eor` eme de convergence
lim nCov( n (p), n (q )) =

u=
Vu
(7.21) [ (u) (u + p q ) + (u + p) (u q )] .
u=
= ( 3) (p) (q ) +
(7.22)
Ce calcul est el ementaire mais un peu compliqu e, et nous nen donnons que les el ements essentiels en laissant les d etails au lecteur : Notons tout dabord que E { n (p) n (q )} = n 2
s,t i,j,k,
s+pi sj t+qk t E {Zi Zj Zk Z } .
Nous evaluons ensuite E {Zi Zj Zk Z }. Un calcul el ementaire montre que 4 E {Zi Zj Zk Z } = 4 4 0 si i = j = k = si i = j = k = sinon
ou i = k = j =
ou i = = j = k
La formule sobtient ensuite directement en d ecomposant la somme. En utilisant cette formule de variance, nous pouvons obtenir un premier r esultat sur la distribution asymptotique des coecients dautocovariance : Th eor` eme 7.3.5 Soit {Xt , t Z} un processus lin eaire d eni par Xt = suppose que Zt
def s= s Zts
avec
def
s |s |
< . On
IID(0, 2 )
v erie E
4 Zt
4 .
n = [ Pour K 1, notons n (1), . . . , n (K )]T ,
= [ (1), . . . , (K )]T et V la matrice de dimension K K dont l el ement Vp,q est donn e par
Vp,q = ( 3) (p) (q ) +
def
[ (u) (u p + q ) + (u + q ) (u p)] .
(7.23)
Alors,
n ( n ) N (0, V ) . 110
monstration Nous allons n par n = [ De etablir ce r esultat en rempla cant n (1), . . . , n (K )]T , car nous savons que ces deux quantit es sont asymptotiquement equivalentes. Nous consid erons tout dabord le processus stationnaire au sens strict (2m + K )-d ependant d eni par m ) 2 (Xt (X m )(X m ) t t+1 Ytm = , . . .
m )(X m ) (Xt t +K m = + o` u Xt def
|j |m j Ztj .
La moyenne empirique de ce processus est donn ee par

m n Y = n 1 n
Ytm = t=1
m (0) n m (1) n , . . . m n (K )
o` u, pour h 0,
m n (h) = n1
n m m (Xt +h )(Xt ) . t=1
Nous remarquons que m,n = E Y

m (0) n m (1) n . . . m (K ) n
m , X m ). Nous allons appliquer le Th eor` eme dapproximation 7.3.1. Consid erons le o` u m (h) = Cov(X0 h vecteur m,n E Y m,n , Bm,n = n1/2 Y
qui approche le vecteur An = n1/2 ( n ) . 1. Soit c un (K +1) 1 vecteur d eterministe, et appliquons le Th eor` eme Central Limite au processus (2m + K )-d ependant cT Yt . Nous obtenons m E Y m Bm,n = n1/2 Y t 0 Bm
L
o` u Bm est une variable al eatoire gaussienne de moyenne nulle et de variance cT V m c, les el ements m m Vp,q de la matrice V etant donn es par,
m def Vp,q =
( 3) (p) (q ) +
[ m (u) m (u p + q ) + m (u + q ) m (u p)] .
L
2. En remarquant que comme limm Vm = V , nous avons Bm B quand m , o` u B est une variable al eatoire gaussienne de moyenne nulle et de variance cT V c. 111
3. Il reste ` a etablir luniformit e de la convergence : pour tout

m n
> 0,
lim lim sup P (|Bm,n An | ) = 0 .
Comme P(|Bm,n An | )
K m P(n1/2 | n (h) n (h)| h=0 K)
il sut d etablir (en utilisant lin egalit e de Bienaym e-Tchebyshev) que

m n m lim lim sup nVar( n (h) n (h)) = 0 .
(7.24)
En utilisant lidentit e
m m m nVar( n (h) n (h)) = n [Var( n (h)) + nVar( n (h)) + 2Cov( n (h), n (h))] ,
et des calculs similaires ` a ceux que nous avons eectu e pour etablir (7.19) and (7.21), nous obtenons (7.24). Nous allons etendre le r esultat pr ec edent aux coecients dautocorr elation n (h) = n (h)/ n (0). Th eor` eme 7.3.6 Soit {Xt , t Z} un processus lin eaire d eni par Xt =
4 suppose que Zt IID(0, 2 ) v erie E Zt def s= s Zts
avec
def
s |s |
< . On
n = [ = 4 . Pour K 1, notons n (1), . . . , n (K )]T ,
= [ (1), . . . , (K )]T et W la matrice de dimension K K dont l el ement Wp,q est donn e par
Wp,q ==
u=1
[(u + p) + (u p) 2(p)(u)] [(u + q ) + (u q ) 2(q )(u)],
Alors,
n ( n ) N (0, W ) .
monstration La preuve est une application directe du Th De eor` eme 7.2.2 par application de la delta-m ethode (voir paragraphe 6.8). On consid` ere la fonction g : RK +1 RK d enie pour x0 = 0 par g (x0 , x1 , . . . , xK ) = [x1 /x0 , . . . , xK /x0 ]T . Nous avons, g ( n (0), . . . , n (K )) = ( n (1), . . . , n (K ))T . et une application directe de la Proposition 6.8.1 montre que n (g ( n (0), . . . , n (K )) g ( (0), . . . , (K ))) N (0, DV DT )
L
112
o` u V est la matrice de covariance des coecients dautocovariance donn ee par (7.23) et D est la matrice jacobienne de la fonction g au point [ (0), . . . , (K )], (1) (0) 0 ... 0 0 (0) . . . 0 1 2 (2) D= . . . . . .. . . . . (0) . . . . . (K ) 0 0 . . . . (0) Cette matrice peut se r e ecrire de fa con plus compacte D= 1 [IK ] (0)
o` u IK est la matrice identit e K K . En ecrivant la matrice V sous la forme V = la matrice W peut s ecrire
T W = 2 (0) v0 T v1 v1 T + V2,2 , T v0,0 v1 v1 V2,2
o` u v1 = [v1,0 , v2,0 , . . . , vK,0 ]T et V2,2 = [vp,q , p, q = 1, . . . , K ]. Un calcul el ementaire montre que wp,q = 2 (0) [vp,q (p)v0,q (q )vp,0 + (p)(q )v0,0 ]
=
u=
(u)(u p + q ) + (u p)(u + q ) + 2(p)(q )2 (u) 2(p)(u)(u + q ) 2(q )(u)(u p) .
113
Chapitre 8
Estimation de la densit e spectrale

Dans le chapitre pr ec edent, nous nous sommes int eress es ` a lestimation de la fonction dautocovariance. Dans certaines applications, il est plus pertinent dessayer de mod eliser la densit e spectrale, qui d ecrit la fa con dont l energie du processus se r epartit en fr equence. Linformation spectrale est souvent plus riche et plus facile ` a interpr eter que la fonction dautocovariance, r ev elant des structures (par exemple, cycles ou pseudo-cycles) qui ne sont pas directement visibles sur la forme donde ni m eme sur la suite des corr elations. Pour nous en convaincre consid erons lexemple de la forme donde repr esent ee gure 8.1. Il sagit dun segment denviron 40 millisecondes extrait dun enregistrement dun son produit par un harmonica. La forme donde est complexe, re etant les deux caract eristiques essentielles du signal produit par cet instrument : des composantes cycliques li ees aux vibrations des lames m etalliques modulant de fa con quasi-p eriodique le ux dair et un bruit de friction. La fonction dautocorr elation, que nous avons repr esent ee ` a gauche gure 8.2, r ev` ele en eet des structures temporelles complexes mais cette repr esentation nest pas apte ` a r eellement mettre en evidence la pr esence de (pseudo)-cycles. Ceux-ci apparaissent, par contre, clairement quand on observe le module de la transform ee de Fourier du signal (` a droite gure 8.2). Cette repr esentation fr equentielle nest toutefois pas tout ` a fait satisfaisante, car elle est tr` es bruit ee, ce qui rend dicile son interpr etation. Cette variabilit e est simplement la traduction, dans le domaine de Fourier, de la variabilit e que nous observons dans la forme donde. Lobjet de ce chapitre est de trouver une m ethode destimation spectrale qui, tout en pr eservant les structures cycliques, soit capable de lisser les uctuations.
8.1
Le p eriodogramme
Nous supposons dans cette partie que {Xt } est un processus stationnaire au second-ordre de moyenne et de fonction de covariance (h) E {(Xt+h )(Xt )} absolument sommable : | (h)| < . Sous ces hypoth` eses, le processus {Xt } admet une densit e spectrale donn ee par : 1 fX () = 2
(h)eih
h=
114
0.03 0.02 0.01 0 0.01 0.02
seconde
0.03 0 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04
Figure 8.1 Signal dharmonica echantillonn e a ` 11.025 kHz (temps en seconde).
20 10
0.5
0 10
20 30
0.5
40 50
1 0 10 20 30 40
60 0 1000 2000 3000 4000
Hz 5000
Figure 8.2 A gauche, suite des 40 premiers coecients de corr elation du

signal repr esent e gure 8.1. A droite, transform ee de Fourier (en dB) de ce signal (fr equence en Hz).
115
Pour estimer la densit e spectrale de {Xt }, il est naturel de sint eresser au p eriodogramme, d eni comme le module au carr e de la transform ee de Fourier discr` ete des observations {X1 , X2 , , Xn } :
X In (k )
2 |dX n (k )|
o` u
dX n (k )
1 = 2n
Xt eitk
t=1
(8.1)
o` u k = 2k/n sont les fr equences de Fourier. Remarquons ici que la relation :

n1
eitk = 0
t=0
pour
k = 2k/n et k {1, . . . , (n 1)}
montre que le p eriodogramme aux fr equences de Fourier k , non nulles modulo 2 , est invariant par ajout dune constante. Le p eriodogramme a et e introduit par Sir Arthur Schuster (1898) pour etudier les p eriodes cach ees apparaissant dans la s erie de t aches solaires. Lanalyse spectrale des s eries temporelles sest ensuite consid erablement d evelopp ee avec lapparition de moyens de calculs performants, et la d ecouverte dalgorithmes de transform ee de Fourier rapides (voir Brillinger, 1981). Malheureusement nous allons voir dans la suite que le p eriodogramme nest pas un bon estimateur de la densit e spectrale, dans le sens o` u cet estimateur nest pas consistant (il ne converge pas vers la vraie densit e quand n tend vers linni). N eanmoins, il est ` a la base de la construction de la plupart des estimateurs de densit e spectrale. Rappelons tout dabord que, comme nous lavons d ej` a not e dans le chapitre 7 (voir expression (7.7)), le p eriodogramme est aussi egal ` a la transform ee de Fourier discr` ete de la suite des coecients dautocovariance empiriques. En eet partant de :
n|h| n
(h) = n1
t=1
(Xt n )(Xt+|h| n )
o` u n = n1
t=1
Xt
on v erie ais ement que

X In (0) = X In (k ) =
1 n| n |2 2 1 2
n1
(8.2) (h) exp(ihk ) pour k = 0 (8.3)
h=(n1)
Pour estimer la densit e spectrale fX () ` a toutes les fr equences, il est pratique d etendre le p eriodogramme pour les valeurs de fr equences normalis ees ne co ncidant pas avec les fr equences de Fourier. Ceci peut etre fait de di erentes mani` eres ; nous suivrons lextension adopt ee par Fuller (1976) qui consiste ` a d enir le p eriodogramme comme la fonction constante par morceaux donn ee par : I X (k ) si k /n < k + /n et 0 n X In () = (8.4) I X () si < 0
n
Par construction, cette d enition garantit que le p eriodogramme est une fonction paire, qui co ncide avec l equation (8.1) aux fr equences k = 2k/n. De fa con plus concise on peut alors ecrire que :
X X In ( ) = In (g (n, ))
116
o` u g (n, ) d esigne, pour [0, ], le multiple de 2/n le plus proche de et, pour [, 0), g (n, ) = g (n, ). La proposition suivante etablit que le p eriodogramme est asymptotiquement sans biais. Th eor` eme 8.1.1 Soit {Xt } un processus stationnaire de moyenne et de fonction dautocovariance (h) absolument sommable. Alors quand n + on a : 1 n2 fX (0) 2 X E In () fX () pour = 0
X E In (0)
et
monstration Remarquons que, pour = 0, on a : De

X E In (g (n, )) =
1 2
(n1)
1
h=(n+1)
|h| n
( )eihg(n,)
Posons n (h, ) = (2 )1 I[n,n] (h)(1 |h|/n) (h)eihg(n,) . Nous avons |n (h, )| | (h)| et limn n (h, x) = (h)eih . On conclut en appliquant le th eor` eme de convergence domin ee. Pour comprendre les propri et es statistiques du p eriodogramme, nous allons tout dabord nous int eresser ` a la distribution statistique du p eriodogramme dun bruit blanc fort, cest-` a-dire dune suite de variables al eatoires ind ependantes et identiquement distribu ees, de moyenne nulle et de variance nie. Th eor` eme 8.1.2 Soit {Zt } une suite de variables al eatoires i.i.d., de moyenne nulle et de variance 2 < . Sa distribution spectrale a pour densit e fZ () = 2 /2 .
Z ( ), , I Z ( )] 1. Soient 0 < 1 < . . . < m < , m fr equences xes. Le vecteur al eatoire [In 1 m n converge en loi vers un vecteur de variables al eatoires ind ependantes, distribu ees suivant une loi exponentielle, de moyenne 2 /2 . 4 < , alors : 2. Supposons que E Zt
2f 2 ( ) + /4 2 n {0, } 4 k Z k Z var{In (k )} = 2 2 f (k ) + 4 /4 n 0 < k < Z et

Z Z cov{In (j ), In (k )} = 4 /4 2 n
(8.5) (8.6)
pour
j = k
o` u k = 2k/n sont les fr equences de Fourier et o` u 4 est le cumulant dordre 4 de la variable Z1 d eni par : 4 2 2 4 = E Z1 3(E Z1 ) 3. Supposons que les variables al eatoires Zt soient gaussiennes. Alors 4 = 0 et, pour tout n, les Z variables al eatoires In (k )/fZ (), k {1, , (n 1)/2} sont ind ependantes et identiquement distribu ees suivant une loi exponentielle 1 de moyenne 1.
1. Cette loi a pour densit e p(u) = eu I(u 0).
117
monstration Elle est donn De ee en n de chapitre. La relation (8.5) du th eor` eme 8.1.2 montre que la variance de lestimateur du p eriodogramme ne tend pas vers 0 lorsque le nombre d echantillons tend vers linni. Le p eriodogramme est bien un estimateur asymptotiquement sans biais de la densit e spectrale du bruit blanc, mais nest pas consistant. On Z ( )) est de lordre de 2 et donc les uctuations autour de la vraie valeur voit m eme que var(In k sont de lordre de grandeur de ce que lon cherche ` a estimer. Cest ce que montre la gure 8.3 o` u nous avons repr esent e le p eriodogramme en dB dun bruit blanc pour di erentes valeurs de n. On observe sur ces r ealisations qu` a certaines fr equences de Fourier les ecarts avec la vraie valeur 2 /2 restent tr` es importants m eme lorsque n augmente. Nous avons aussi report e (droite en pointill e) le seuil de conance ` a = 90% de la loi asymptotique de In (k )/fZ (k ). Ce seuil a pour expression s = log(1 ). Partant du th eor` eme 8.1.2, valable pour les processus i.i.d., nous allons voir quil est
n = 64 0 10 20 30 0 10 20 30 n = 128
0 n = 256
0 n = 512
0 10 20 30
0 10 20 30
Figure 8.3 P eriodogramme en dB dun bruit blanc de variance 1 en fonction

de la fr equence (0, ), pour di erentes valeurs de n. La droite en trait plein repr esente la densit e spectrale th eorique 2 /2 et la droite en pointill e le seuil de conance ` a 90%.
encore possible d etendre ce th eor` eme ` a la classe plus large des processus lin eaires forts centr es dont nous rappelons la d enition. D enition 8.1.3 (Processus lin eaire fort) Le processus {Xt } est lin eaire fort, sil existe un bruit blanc fort Zt IID(0, 2 ) et une suite de coecients {k }kZ absolument sommable telle que :
Xt =
k=
k Ztk
(8.7)
118
On rappelle que Xt est stationnaire au second ordre, que E {Xt } = 0 et que sa densit e spectrale est donn ee par : 2 fX () = | (ei )|2 (8.8) 2
X () du Le th eor` eme 8.1.4 montre quil existe une relation analogue ` a (8.8) entre le p eriodogramme In Z () du bruit blanc fort {Z } qui d processus {Xt } et le p eriodogramme In enit Xt . t
Th eor` eme 8.1.4 1/2 < et que E Z 4 < . On a Soit {Xt } un processus lin eaire fort. Supposons que t j = |j ||j | alors : Z X (k ) + Rn (k ) In (k ) = | (eik )|2 In o` u le terme Rn (k ) v erie 2 :
k{1, , (n1)/2 }
max
E |Rn (k )|2 = O(n1 )
monstration Elle est donn De ee en n de chapitre. On comprend alors quen utilisant lapproximation donn ee par le th eor` eme 8.1.4 on puisse etendre le th eor` eme 8.1.2 aux processus lin eaires forts. Th eor` eme 8.1.5 Soit {Xt } un processus lin eaire d eni par :
Xt =
k=
k Ztk |k |1/2 |k | <
4 < . On suppose que o` u {Zt } est un bruit blanc fort IID(0, 2 ) v eriant E Zt et que (ei ) = k k eik = 0. On note :
fX () =
2 (ei ) 2
1. Soient 0 < 1 < < m < , m fr equences xes. Le vecteur al eatoire X ( )/f ( ), , I X ( )/f ( )] converge en loi vers un vecteur de variables al e atoires [In m m 1 1 X X n ind ependantes, distribu ees suivant une loi exponentielle, de moyenne 1. 2. On a : 2f 2 (k ) + O(n1/2 ) k {0, } X X var(In (k )) = f 2 ( ) + O(n1/2 ) 0 < < k X k
X X cov(In (j ), In (k )) = O(n1 )
j = k
monstration La preuve est une cons De equence directe des th eor` emes 8.1.4 et 8.1.2.
2. Notation : O(n ) d esigne une suite d ependant de n qui v erie, quand n , O(n )/n c = 0 et o(n ) v erie o(n )/n 0.
119
En cons equence, comme pour le bruit blanc fort, la variance du p eriodogramme dun processus lin eaire fort est, ` a une fr equence de Fourier, de lordre de grandeur du carr e de la densit e spectrale ` a cette fr equence. La gure 8.4 illustre ce r esultat : elle montre le p eriodogramme, evalu e sur 1024 echantillons, dun processus AR(2) gaussien. L ecart-type du p eriodogramme est proportionnelle ` a la densit e spectrale, ce qui rend bien entendu linterpr etation du p eriodogramme dicile. Le th eor` eme 8.1.5 implique
50 45 40 35 30 25 20 15 10 5 n = 1024 0 0
Figure 8.4 P eriodogramme pour un AR(2) de param` etres [1, 1, 0.9] et
2 = 1 calcul e sur n = 1024 echantillons, en fonction de la fr equence (0, ).
quasymptotiquement les variables al eatoires [In (1 ), . . . , In (N/2 )] se comportent comme un tableau de variables ind ependantes distribu ees marginalement comme W fX (k ) o` u W suit une loi exponentielle. Il sagit donc dune structure de bruit de type multiplicatif, o` u le param` etre dint er et, ` a savoir la densit e spectrale, est multipli ee par le bruit W . Lapplication dune transformation logarithmique conduit naturellement ` a une structure de bruit additif : asymptotiquement le log-p eriodogramme est egal ` a la log-densit e spectrale observ ee dans un bruit approximativement additif et de variance constante. Figure 8.4, nous avons repr esent e le spectre evalu e en dB ainsi que lintervalle de conance X a = 90% de la loi asymptotique de In (k )/fX (k ) soit : `
n X lim P In (k )/fX (k ) > c = 1 ec =
qui donne c = log(1 ).
8.2
Estimateur ` a noyau
Nous pr esentons ici une technique permettant de construire un estimateur non param etrique de la densit e spectrale, lestimateur ` a noyau. Cette approche, qui eectue un lissage du p eriodogramme en fr equence, exploite les propri et es du p eriodogramme que nous avons mises en evidence dans le 120
20 15 10 5 n = 1024 0 5 10 15 20 25 30 0
Figure 8.5 P eriodogramme en dB pour un AR(2) de param` etres [1, 1, 0.9]
et 2 = 1 calcul e sur n = 1024 echantillons, en fonction de la fr equence (0, ). La courbe en pointill e donne le seuil de conance ` a 90%.
paragraphe pr ec edent. Nous supposons dans toute cette partie que {Xt } est un processus lin eaire fort, satisfaisant les conditions dapplications du th eor` eme 8.1.5. Dapr` es le th eor` eme 8.1.5, ` a la limite des grands echantillons, les coordonn ees du p eriodogramme 2 aux fr equences de Fourier k = 2k/n sont des variables d ecorr el ees d ecart type | (eik )|2 /(2 ). i 2 La fonction | (e )| est continue, elle varie donc peu sur de petits intervalles de fr equence. Ceci sugg` ere de construire un estimateur de la densit e spectrale ` a la fr equence en moyennant les coordonn ees du p eriodogramme aux fr equences de Fourier dans un voisinage de la fr equence . Nous appelons un noyau une fonction W : R R+ satisfaisant les propri et es suivantes : W (u) = 0 pour |u| > 1, i.e. le noyau a un support compact 1 1 1 W (u)du = 1 et 1 uW (u)du = 0, W est deux fois contin ument di erentiables et W (1) = limu1+ W (u) = 0 et W (1) = limu1 W (u) = 0. Soit {bn }n0 une suite d ecroissante au sens large de r eels positifs, satisfaisant
n
lim bn = 0 .
(8.9)
Nous consid erons lestimateur ` a noyau de la densit e spectrale, d eni par X () = 2 f n nbn ou plus g en eralement X () = 2 f n n
n 1 X W b n ( k ) In (k ) , k=1 n X Wm,n (k )In (k ) . k=1
(8.10)
(8.11)
121
Dans ce dernier cas, nous pr ef ererons les conditions (proches de celles d ecrites ci-dessus pour W ) :
(i) pour tout k, Wm,n (k ) = Wm,n (k ) et Wm,n (k ) 0 (ii) |k|m Wm,n (k ) = 1 2 (iii) |k|m Wm,n (k ) 0 quand n
(8.12)
Le param` etre bn est appel e largeur de bande, i.e. en modiant bn nous agissons sur la largeur du 1 1 noyau bn W (bn ). Nous allons, de fa con informelle, caract eriser la fa con dont le param` etre bn inue sur la qualit e de lestimateur et essayer de d eduire de ce comportement heuristique, des proc edures permettant de choisir de mani` ere automatique ce param` etre. Nous allons tout dabord etudier le biais X () et fX (), ` de cet estimateur, ` a savoir la di erence entre la moyenne de lestimateur E f a une n fr equence = 0, (mod) 2 (pour traiter ces valeurs limites, il conviendrait dutiliser dautres noyaux). X ( ) = f ( ) + O (n1 ). Par cons En utilisant le th eor` eme 8.1.4, nous savons que E In equent X k k X () = 2 E f n nbn 1 = bn =
n 1 1 W b n ( k ) f (k ) + O (n ) , k=1 2
1 1 W [b n ( )]f ()d + O (n ) ,
0 1 b n
1 b n (2 )
W ( )f ( + bn )d fX () .
X () = f (), i.e. f Ceci montre que limn E f n,b () est un estimateur asymptotiquement sans n biais de la densit e spectrale f (). Pour comprendre de fa con plus pr ecise la fa con dont le biais d epend de la largeur de bande bn , nous supposons dans la suite que la densit e spectrale fX est deux fois contin ument di erentiable. Nous avons donc, pour tout [, ] et [1, +1], 1 f () 2 + o(b2 fX ( + bn ) = fX () + bn fX () + b2 n) 2 n X o` u le terme o(b2 n ) est uniforme en et en . En utilisant le fait que, pour 1 1 aurons donc, pour tout n tel que b n (2 ) < 1 et bn > 0, X () = fX () + 1 b2 f () E f n 2 n X
1 1 +1 1 W ( )d
= 0, nous
2 W ( )d + o(b2 n ),
(8.13)
X () est une fonction qui cro ce qui montre que le biais de lestimateur f t comme le carr e de la largeur n de bande bn et qui est proportionnelle ` a la d eriv ee seconde de la densit e spectrale en . Notons que 1 comme nous avons suppos e que le noyau a exactement un moment nul, 1 W ( )d = 0, le biais ne d epend pas de la d eriv ee de la densit e spectrale f () en . Il est facile de voir quil est possible de r eduire le terme de biais en consid erant des noyaux dordre sup erieur. Pour comprendre les performances de cet estimateur de la densit e spectrale, nous allons evaluer son biais et sa variance. Pour simplier lanalyse, nous supposerons dans la suite que la fonction
122
| (ei )|2 est trois fois di erentiable sur [, ] et que la d eriv ee troisi` eme est born ee. En utilisant les r esultats du th eor` eme 8.1.4 nous avons : X () = E f n
|k|m
Wm,n (k )fX (g (n, ) + 2k/n) + O(n1 )
(8.14)
o` u fX () = (2 )1 2 | (ei )|2 est la densit e spectrale du processus {Xt }. Comme la fonction fX est deux fois contin ument di erentiables, nous avons, pour |k | m, fX (g (n, ) + 2k/n) = fX (g (n, )) + fX (g (n, )(2k/n) + (1/2)fX (g (n, )(2k/n)2 + Rk,m,n o` u Rk,m,n c max |fX ()|(m/n)3 pour |k | m. Comme la fen etre de pond eration est sym etrique, nous avons |k|m Wm,n (k )k = 0, ce qui implique en utilisant (8.12)(ii) : Wm,n (k )fX (g (n, ) + 2k/n) = fX (g (n, )) + (1/2)fX (g (n, ))W m,n + Rm,n
|k|m
o` u W m,n =
4 2 n2
k 2 Wm,n (k )
|k|m
etre de pond eration rectangulaire, et o` u |Rm,n | c max |fX ()|(m/n)3 . En prenant par exemple la fen nous avons W m,n m2 /n2 ce qui montre que le biais de lestimateur varie comme le carr e du nombre de points de fr equence pris en compte dans le calcul de la moyenne pond er ee. Le calcul de la variance de cet estimateur s ecrit : E X () E f f X,n () n 1 4 2
2 Wm,n (k ) |k|m 2 2 = Wm,n fX (g (n, )) + Qm,n
o` u Wm,n =
2 (k )(m/n). On voit ici que la troisi` eme des conditions (8.12) et o` u |Qm,n | c max[|fX ()|] |k|m Wm,n assure que la variance tend vers 0 quand n tend vers linni. En sappuyant encore sur lexemple de la fen etre rectangulaire, nous avons Wm,n 1/m ce qui montre que la variance de lestimateur est inversement proportionnelle au nombre de points pris en compte dans le calcul de la moyenne locale. En conclusion dans le cas dune fen etre rectangulaire, le param` etre m (qui d etermine le nombre de coordonn ees de p eriodogramme moyenn ees) a un eet n efaste pour le biais et b en eque pour la variance de lestimateur. Le risque quadratique de lestimateur (qui prend en compte ces deux eets) a pour expression :
f X,n () fX ()
(1/4) fX (g (n, )W m,n
2 + Wm,n fX,m (g (n, ))
Il est naturel de choisir le param` etre m de fa con ` a minimiser lerreur quadratique moyenne. Dans le cas o` u Wm,n (k ) = 1/(2m + 1), cette optimisation peut etre eectu ee de fa con explicite. Une autre fen etre couramment utilis ee est la fen etre triangulaire d enie par : Wm,n (k ) =
1 m
|k | m
pour sinon
|k | m
0 123
Elle v erie les conditions (8.12) et pr esente lavantage dassurer au spectre estim e d etre positif. Les r esultats obtenus avec la fen etre rectangulaire ont un caract` ere g en eral : lutilisation de fen etre de pond eration permet dobtenir un risque qui tend vers 0 quand n tend vers linni. Ce r esultat saccompagne en g en eral dun biais asymptotiquement non nul. En r` egle g en erale, la valeur de m, qui d etermine la largeur de la fen etre, doit tendre vers linni, quand n +, mais susamment lentement pour que le rapport n/m tende aussi vers linni. Il faut donc ajouter aux conditions (8.12) la condition suivante : m(n) et m(n)/n 0 quand n Typiquement on aura m(n) = n avec 0 < < 1.
8.3
Preuves des th eor` emes 8.1.2, 8.1.4

(i). Notons :
n t=1 Zt cos(k t) n t=1 Zt sin(k t)
monstration (Preuve du the ore `me 8.1.2) De
Z ( ) = (1/2n)1/2 n k Z ( ) = (1/2n)1/2 n k
(8.15)
les parties r eelles et imaginaire de la transform ee de Fourier discr` ete de {Zt } aux points de fr equences k = 2k/n. Pour une fr equence arbitraire , nous avons :
Z In () =
1 Z Z (g (n, ))2 + n (g (n, ))2 2 n
Rappelons que si une suite de vecteurs al eatoires Yn converge en loi vers une variable al eatoire Y et que est une fonction continue, alors (Yn ) converge en loi vers (Y ). Il sut donc de montrer que le vecteur al eatoire :
Z Z Z Z (n (1 ), n (1 ), , n (m ), n (m ))
(8.16)
converge en loi vers une distribution normale de moyenne nulle et de matrice de covariance asymptotique ( 2 /4 )I2m , o` u I2m est la matrice identit e (2m 2m). Nous allons tout dabord nous int eresser au cas m = 1. La preuve d ecoule alors du th eor` eme suivant : Th eor` eme 8.3.1 (Lindeberg) Soit Un,t , o` u t = 1, . . . , n et n = 1, 2, . . . , une suite triangulaire de variables al eatoires centr ees de variance nies. Pour tout n, les variables {Un,1 , . . . , Un,n } sont ind ependantes. On pose Yn = n n 2 t=1 Un,t et wn = t=1 var(Un,t ). Alors si pour tout > 0 :
n n
lim
t=1
1 2 E Un,t I(|Un,t | wn ) = 0 2 wn Yn /wn d N (0, 1)
on a :
124
Z (g (n, ))+ Soit u et v deux r eels quelconques x es et (0, ). Consid erons la variable Yn = un Z vn (g (n, )) que nous pouvons encore ecrire : n
Yn =
t=1
Un,t
o` u Un,t =
1 (u cos(g (n, )t) + v sin(g (n, )t))Zt 2n
Notons que, pour n x e les variables al eatoires {Un,t } sont ind ependantes. Dautre part, pour tout = 0, on v erie ais ement que :
n n
cos (g (n, )t) =

t=1 t=1
n sin (g (n, )t) = 2

2
et
t=1
cos((g (n, )t) sin(g (n, )t) = 0
Par suite, on peut ecrire que :

n 2 wn =
var(Un,t )
t=1 n
1 2n
(u2 cos2 (g (n, )t) + v 2 sin2 (g (n, )t) + 2uv cos((g (n, )t) sin(g (n, )t)))
t=1
1 2 2 (u + v 2 ) = w1 = 4 Par suite, en posant c0 = (|u| + |v |)/2w1 et

n t=1
2w1 /(|u| + |v |), on a :

2 n) = c0 E Z1 I(|Z1 |
1 c0 2 E Un,t I(|Un,t | wn ) 2 wn n
n 2 E Zt I(|Zt | t=1
n)
2 I(|Z | n) Le dernier terme tend vers 0 puisque on a E Z1 E |Z1 |3 / n et que 1 E |Z1 |3 < puisque E |Z1 |4 < . La preuve s etend ais ement ` a un ensemble de fr equences 1 , . . . , m en utilisant la m ethode de Cramer-Wold (see Proposition 6.3.4)
Z ( ), nous avons au premier ordre : (ii). Par d enition de In k n Z In (k ) 1 s,t=1
= (2n)
E {Zs Zt } eik (ts) = (2 )1 2
(8.17)
Au second ordre nous avons :

n Z Z E In (j )In (k ) = (2n)2 s,t,u,v =1
E {Zs Zt Zu Zv } ei(j (ts)+k (vu))
(8.18)
En utilisant que les variables al eatoires Zt sont ind ependantes, centr ees, de m eme variance 2 et 4 = + 3 4 , on obtient : de moment dordre 4 ni et en posant E Z1 4 E {Zs Zt Zu Zv } = 4 s,t,u,v + 4 (s,t u,v + s,u t,v + s,v t,u ) (8.19)
125
En portant cette expression dans (8.18), nous avons :

Z Z E In (j )In (k ) = (2 )2 n1 4 + (2 )2 n2 4 n2 +
ei(j +k )t
t=1
+
t=1
ei(k j )t
et donc :
Z ( ), I Z ( )) = E I Z ( )I Z ( ) E I Z ( ) E I Z ( ) cov(In j j n j k k k n n n n n
= (2 )2 n1 4 + (2 )2 n2 4
t=1
ei(j +k )t
+
t=1
ei(k j )t
ce qui permet de conclure. (iii). Lorsque {Zt } est une variable gaussienne centr ee, le vecteur :
Z ( ) Z ( ) Qn = n 1 1 n Z ( ) Z ( ) n n n n
est gaussien comme transform ee lin eaire dun vecteur gaussien. Il sut donc de calculer le vecteur-moyenne et sa matrice de covariance. Il est facile de v erier que le vecteur-moyenne est nul et que, pour 0 < k = j < , nous avons :
Z Z E (n (k ))2 = E (n (k ))2 = (4 )1 Z Z E n (k )n (k ) = 0 Z Z Z Z E n (k )n (j ) = E n (k )n (j ) = 0 Z Z E n (k )n (j ) = 0
La matrice de covariance est donc 2 In u In e de taille n . Par cons equent /4 o` est la matrice identit les composantes de Qn sont ind ependantes. Rappelons que :
Z Z Z In (k ) = (n (k ))2 + (n (k ))2 Z ( ) sont ellesDe lind ependance des composantes de Qn , on d eduit que les variables al eatoires In k Z 2 m eme ind ependantes et que 4In (k )/ est la somme du carr e de deux variables gaussiennes centr ees, ind ependantes, de m eme variance 1, dont la distribution de probabilit e est la loi dite 2 du ` a deux degr es de libert e. Ce qui conclut la preuve. Z monstration (Preuve du the ore `me 8.1.4) Notons respectivement dX De n (k ) et dn (k ) les transform ees de Fourier discr` etes des suites {X1 , , Xn } et de {Z1 , , Zn } au point de fr equence
126
2k/n avec k {1, . . . , (n 1)/2 . Nous pouvons ecrire successivement :

n 1/2 dX n (k ) = (2n) t=1
Xt eik t
n
= (2n)1/2
j =
j eik j
t=1
Ztj eik (tj )

nj t=1j n
Zt eik t
= (2n)1/2
j =
j eik j
i k j t=1
= (2n) = (e o` u nous avons pos e :
1/2 j =
j e
Zt eik t + Un,j (k )
ik
)dZ n (k )
nj
+ Yn (k )
Un,j (k ) =
t=1j
Zt e
ik t
t=1
Zt eik t j eik j Un,j (k )
(8.20)
et Yn (k ) = (2n)1/2
j =
(8.21)
On remarque que, pour |j | < n, Un,j (k ) est une somme de 2|j | variables ind ependantes centr ees de variance 2 tandis que, pour |j | n, Un,j (k ) est la somme de 2n variables centr ees ind ependantes de variance 2 . Par cons equent, partant de (8.20), on a : E |Un,j (k )|2 2 2 min(|j |, n) ainsi que : E |Un,j (k )|4 CR 4 (min(|j |, n))2
4 o` u CR < est une constante. Pour montrer (8.23), il sut de poser E Zt lin egalit e (8.24) pour p = 4.
(8.22) (8.23) = 4 et dutiliser
Proposition 8.3.2 (In egalit e de Rosenthal (Petrov, 1985)) Soient (X1 , . . . , Xn ) des variables ind ependantes (mais pas n ecessairement identiquement distribu ees) et soit p 2. Alors il existe une constante universelle C (p) < telle que :
n p n p/2 n
E
k=1
Xk
C (p)
k=1
2 Xk
+
k=1
E {|Xk |p }
(8.24)
Utilisons ` a pr esent (8.23) pour majorer E |Yn (k )|4 . En adoptant la notation X p = (E {|X |p })1/p (pour p > 0) on a, dapr` es lin egalit e triangulaire (in egalit e de Minkovski) X + Y p X p + Y p :
sup
k{1, , (n1)/2 }
Yn (k )
sup
(2n)1/2
j =
|j | Un,j (k )
k{1, , (n1)/2 }
127
Dapr` es (8.23), Un,j (k )
c min(|j |, n)1/2 . Par cons equent :
sup
k{1, , (n1)/2 }
Yn (k )
c (2n)1/2
j =
|j | min(|j |, n)1/2
Maintenant on peut ecrire :

|j | min(|j |, n)1/2
j = j =
|j ||j |1/2
Par cons equent Yn (k ) 4 est dun ordre egal ` a O(n1/2 ). X ( ) | (eik )|2 I Z ( ) en fonction de Y ( ) = Nous pouvons ` a pr esent exprimer Rn (k ) = In n k k k n X i Z dn (k ) (e k )dn (k ). Il vient :
2 ik 2 Z )| In (k ) Rn (k ) = | (eik )dZ n (k ) + Yn (k )| | (e i k Z )dn (k )Yn (k ) + |Yn (k )|2 = (eik )dZ n (k )Yn (k ) + (e
Dapr` es lin egalit e de H older, XY il vient :
si p1 + q 1 = r1 . En faisant p = q = 4 et r = 2, |j | dZ n (k )
(E |Rn (k )|2 )1/2 = Rn (k )
2
j
Yn (k )
+ Yn (k )
Dapr` es le th eor` eme 8.1.2, dZ equent Rn (k ) n (k ) 4 est de lordre de / 2 . Par cons de n1/2 et E |Rn (k )|2 = Rn (k ) 2 de lordre de 1 /n . Ce qui conclut la preuve. 2
est de lordre
128
Chapitre 9
Estimation des mod` eles ARMA (p, q ) : m ethodes el ementaires

Consid erons un processus ARMA(p, q )
p q
Xt
j =1
j Xtj = Zt +
j =1
j Ztj ,
o` u {Zt } BB(0, 2 ). Dans les chapitres pr ec edents, nous avons suppos es que les param` etres 2 (1 , . . . , p , 1 , . . . , q , ) etaient connus et nous avons montr e comment nous pouvions, ` a partir de ces param` etres, calculer la fonction dautocovariance, la densit e spectrale, et des pr edicteurs. Dans ce chapitre, nous pr esentons des m ethodes permettant destimer les param` etres de ces mod` eles. Dans ce chapitre, nous nous concentrerons sur les m ethodes el ementaires, qui permettent dobtenir les valeurs des param` etres sans avoir recours ` a des m ethodes doptmisation non-lin eaires. Dans le chapitre suivant, nous etudierons plus sp eciquement les m ethodes de maximum de vraisemblance.
9.1
Estimation AR : m ethode de Yule-Walker
Nous avons etabli, chapitre 1, une relation simple ( equations (4.21) de Yule-Walker) entre les (p +1) coecients du mod` ele et les (p + 1) premiers coecients dautocovariance dun processus AR(p) causal d eni par l equation r ecurrente : Xt = 1 Xt1 + + p Xtp + Zt En posant = 1 . . . 1
T
, p = (1) . . . (0) (1) p = . . .
(p)
et : (p) (p 1) (0)
(1) (0)
.. .
(p) (p 1)
129
les equations de Yule-Walker ont pour expression matricielle : p = p = (0) p En substituant, dans ces relations, les covariances (h) par les covariances empiriques (h), on obtient 2 comme solution de : et un syst` eme lin eaire qui fournit les estimateurs n n = p p n
2 n = (0) n p T 2 T
(9.1)
(9.2) (9.3)
p est de rang plein. En divisant alors les deux membres On a vu paragraphe 7.2 que, si (0) > 0, alors = p p par de (0) et en introduisant lautocorr elation empirique (h) = (h)/ (0), on aboutit n aux deux equations : =C 1 n p p
2 1 p ) T n = (0)(1 p Cp
(9.4) (9.5)
p = (1) . . . o` u
(p)
et : (0) (1) p = C . . . (1) (0) .. . (p) (p 1) (0)
(p) (p 1)
p (comme la matrice C p ) soit, par construction, de Toeplitz et de type d Le fait que la matrice R eni positif (voir th eor` eme 5.1.3 chapitre 5) implique que les coecients estim es p sont tels que le polyn ome p k (z ) = 1 k=1 k z a toutes ses racines strictement ` a lext erieur du cercle unit e : cette fa con de proc eder aboutit donc n ecessairement ` a un processus AR(p) causal. Ses (p + 1) premiers coecients de covariance co ncident alors avec les coecients de covariance empiriques. La m ethode qui consiste pour estimer des param` etres ` a substituer, dans une relation telle que (9.1), les moments par des estimateurs consistants, porte le nom de m ethode des moments. En r` egle g en erale, elle conduit ` a des estimateurs des param` etres qui sont moins ecaces que ceux obtenus par la m ethode des moindres carr es ou encore par la m ethode du maximum de vraisemblance. Cependant, dans le cas dun mod` ele AR(p) et gaussien, on montre que les estimateurs 2 , donn es par (9.2) et (9.3), ont le m eme comportement asymptotique, quand n tend vers linni, que ceux du maximum de vraisemblance. Nous avons vu, chapitre 5 exemple 5.5, que les coecients de l equation r ecurrente dun AR(p) causal sont directement reli es aux coecients du meilleur pr edicteur lin eaire donnant Xt ` a partir de ses valeurs pass ees : plus pr ecis ement, pour tout m p, la suite des m coecients de pr ediction m = {1,m , . . . , m,m } co ncide avec {1 , . . . , p , 0, . . . , 0}. Par cons equent, pour un AR(p) causal, lalgorithme de Levinson-Durbin fournit une r esolution rapide des equations de Yule-Walker.
130
Th eor` eme 9.1.1 Soit Xt un processus AR(p) causal o` u Zt IID(0, 2 ) et soit un echantillon {X1 , . . . , Xn } de taille n. T 1 2 1 =C p p p et p C p ). Alors, quand n , on a : On note n = (0)(1 n
2 2 n P 1 n(n ) d N (0, 2 p )
(9.6)
Ce th eor` eme permet de construire des intervalles de conance et des tests dhypoth` ese. Dans la plupart des cas, lordre du mod` ele autor egressif nest pas connu. Il est donc important de disposer de r esultats asymptotiques pour des situations o` u lordre du mod` ele est di erent du mod` ele exact. Le th eor` eme suivant couvre le cas o` u lordre du mod` ele estim e m est sup erieur ` a lordre du mod` ele exact. Th eor` eme 9.1.2 Soit Xt un processus AR(p) causal o` u Zt IID(0, 2 ) et soit un echantillon {X1 , . . . , Xn } de taille n. 1 =C On note o` u m > p . Alors, quand n , on a : n m m ) d N (0, 2 1 ) n( (9.7) n m m edicteur lin eaire de Xt en fonction de o` u m = {1 , . . . , p , 0, . . . , 0} est la suite du meilleur pr {Xt1 , . . . , Xtm }. n (m) = m,m v En particulier, le m-` eme coecient de corr elation partielle k erie : n (m) d N (0, 1) nk
(9.8)
On en d eduit le r esultat pratique suivant : si un mod` ele autor egressif est appropri e pour une suite n (m) sont dobservations, il doit y avoir une valeur m ` a partir de laquelle les valeurs observ ees de k compatibles avec la distribution N (0, 1/n). En particulier si m est sup erieur ` a lordre du mod` ele, n (m) doit e proche de 95%. Ce r esultat sugg` ere k etre compris entre 1.96/ n avec une probabilit dutiliser comme estimateur de p la plus petite valeur r au del` a de laquelle |kn (m)| < 1.96/ n pour tout m > r. Cette valeur peut servir de valeur initiale ` a des algorithmes plus performants destimation de p. 9.1 Exemple (Suite des coecients de r eexion dun processus AR(2)): Le th eor` eme 9.1.2 montre que le coecient de r eexion m,m pour m > 1 se comporte comme une variable al eatoire gaussienne de moyenne nulle et de variance de lordre de 1/n. Nous avons repr esent e gure 9.1 les suites, obtenues au cours de 7 simulations, de m,m en fonction de m pour un echantillon AR(2) de longueur n = 500. Les valeurs des param` etres sont 1 = 1.6, 2 = 0.9 et 2 = 1. Le calcul th eorique donne 1,1 = 0.8, 2,2 = 0.9 et, pour m 2, m,m = 0. Nous avons aussi repr esent e lintervalle de conance ` a 95% pour m 2.
9.2
Estimation MA : m ethode de Durbin
Il est plus dicile de construire des estimateurs pr eliminaires de processus MA que de processus AR. Il nest en fait pas possible de faire appara tre une relation lin eaire entre les param` etres du mod` ele MA et les coecients dautocovariance. 131
0.5
0.5 m 1 2 3 4 5 6 7 8 9 10
Figure 9.1 Suites, obtenues au cours de 7 simulations, des coecients de

r eexion en fonction de m, pour un echantillon de longueur n = 500 dun processus AR(2) d eni par 1 = 1.6, 2 = 0.9 et 2 = 1.
LEquation 4.7 donne la relation entre les coecients dautocovariance dun mod` ele MA et les param` etres du mod` ele (cette relation est non lin eaire). A titre dexemple, consid erons le cas dun processus MA(1) d eni par Xt = Zt + Zt1 , {Zt } BB(0, 2 ). On suppose que || 1 et donc que le mod` ele MA est causal et inversible. La fonction dautocorr elation est donn ee par (h) = /(1 + 2 ) 0 si h = 1 si |h| 2
Supposons que nous disposions de n observations cons ecutives X1 , . . . , Xn . La m ethode des moments consiste ` a substituer ` a (1) la corr elation empirique n (1) = n (1)/ n (0) et ` a r esoudre par rapport ` a . En supposant que |1 | < 1, il vient : si n (1) < 1/2 1 2 1 / 2 n = (1 (1 4 n (1)) )/2 n (1) si | n (1)| 1/2 +1 si (1) > 1/2 Bien entendu, si | n (1)| est signicativement plus grand que 1/2, il est douteux que le processus soit un MA(1). Comme (0) = 2 (1 + 2 ), nous avons 2 = (0)/(1 + 2 ). Cette expression sugg` ere destimer 2 2 2 par n = n (0)/(1 + n,1 ). Le th eor` eme 7.3.6 montre que n( n (1) (1)) est asymptotique normal de variance asymptotique W = (1 + 2 )4 1 + 2 + 44 + 6 + 8 . En supposant que |(1)| < 1/2, la delta-m ethode montre que lestimateur tiquement normal, de variance 2 () 2 () = (1 2 )2 1 + 2 + 44 + 6 + 8 . 132 n est asympton
Nous montrerons dans la suite que cet estimateur nest pas asymptotiquement ecace. Le probl` eme est que lestimateur pr ec edent est construit uniquement ` a partir de la statistique n (1) et quil nexploite donc pas linformation statistique pr esente dans les autres coecients de corr elation. La m ethode propos ee par Durbin sappuie sur le fait quun processus MA(q ), d eni par Xt = Zt + q Z , inversible est un mod` e le AR( ) et peut donc e tre approch e par un mod` ele autor egressif k=1 k tk dordre susamment grand. k Plus pr ecis ement supposons que (z ) = 0 pour |z | 1. On a vu que (z ) = 1/(z ) = 1 k=1 k z o` u {k } est une suite de module sommable et que
Zt = Xt
k=1 m La relation (z )(z ) = (1 m=1 m z )(1 + MA(q ) et de la repr esentation AR() v erient
k Xtk . = 1 implique que les coecients du mod` ele
q k k=1 k z )
1 = 1 2 = 2 1 1 . . . q = q 1 q1 2 q2 q1 1
q
(9.9)
j =
m=1
m j m , j = q + 1, q + 2, . . . .
Comme les coecients de la repr esentation AR() satisfont |j | Cj avec 0 < < 1, il est possible dapprocher le mod` ele AR() par un mod` ele AR(p). Comme la fonction z (z ) est continue, il existe M > 0 tel que, pour tout |z | 1, on a |(z )| M et donc | (z )| 1/M = m > 0. Posons k p (z ) = 1 p k=1 k z . Alors il existe p susamment grand tel que, pour tout |z | 1, | (z ) p (z )| < m/2. On en d eduit que m | (z )| = | (z ) p (z ) + p (z )| | (z ) p (z )| + |p (z )| m/2 + |p (z )| qui implique que |p (z )| m/2 > 0. En conclusion, pour tout |z | 1, il existe p susamment p grand tel que |p (z )| > 0. On en d eduit que le processus {Xt , t Z} d eni par l equation r ecurrente p p p p Xt = Zt + k=1 k Xtk est un processus AR(p) causal. De plus Xt Xt = k=p+1 k Xtk et donc
t |2 (0) E |Xt X qui tend vers 0 quand p tend vers linni. Cette approximation k=p+1 |k | est ` a la base de la m ethode de Durbin. n,1 , . . . , n,p de pr Dans une premi` ere etape, nous estimons les p coecients ediction lin eaire, obtenus comme solution des equations de Yule-Walker. Pour estimer les coecients du mod` ele MA, les relations (9.9) sugg` erent de minimiser lerreur 2
133
quadratique n,1 1 0 n,2 n,1 1 . . . .. . . . . n,p1 ( 1 , . . . , q ) + n,p 0 .. . 0 . . . . . . .. . . . . 0 0 .. . .. . .. . .. 0 0 . . .

2
0 1 . . 1 . n,1 q . . . n,p
n + n =
La solution de ce probl` eme doptimisation est donn ee par n = ( T 1 T n n ) n n (9.10)
On remarque que l equation (9.10) a la m eme forme que la solution des equations de Yule-Walker en n,1 , . . . , n,p }. prenant pour suite des observations les p + 1 coecients de pr ediction {1, Dans la m ethode de Durbin, qui estime un MA(q ) comme un AR(p) long, se pose le probl` eme du choix de lordre p. Ce probl` eme ne sera pas trait e ici de fa con g en erale. Nous nous limiterons a lexemple num ` erique qui suit et qui montre quil y a un compromis ` a trouver entre le biais et la variance. Remarquons ` a ce sujet que, plus les z eros de (z ) sont proches du cercle unit e, plus la valeur de p doit etre choisie grande pour diminuer le biais faible. Dun autre c ot e, plus lordre p est grand, plus la dispersion de lestimateur est grande. 9.2 Exemple (Estimation MA(1) : m ethode de Durbin): Le tableau 9.1 donne la moyenne, la variance et le risque, estim es empiriquement ` a partir de 200 r ealisations, de lestimateur de Durbin pour un processus MA(1) (o` u 1 = 0.95) et pour di erentes valeurs de p. La taille de l echantillon est n = 300. On observe que, quand p augmente, la variance augmente, tandis que la moyenne et le risque passent par un minimum.
p biais variance risque 20 0.1008 0.0007 0.0108 40 0.0863 0.0009 0.0083 70 0.0841 0.0012 0.0082 120 0.0840 0.0016 0.0087 250 0.0939 0.0018 0.0106
Table 9.1 Biais, variance et risque empiriques de lestimateur

de Durbin pour un processus MA(1) pour di erentes valeurs de p.
9.3
Estimation ARMA
p q
Consid erons un processus ARMA(p, q ) causal d eni par : Xt =

k=1
k Xtk +
k=1
k Ztk + Zt
134
k o` u (z ) = 1 p k=1 k z = 0 pour |z | 1. On note (h) sa fonction de covariance. Alors en multipliant les deux membres de l equation r ecurrente par Xth , en prenant lesp erance et en utilisant le fait que E {Zt Xth } = 0 pour h q + 1, il vient : p
(h) =
k=1
k (h k )
En regroupant pour q + 1 h p + q les p equations sous forme matricielle, on obtient : (q ) (q 1) (q p + 1) (q + 1) (q + 1) 1 ( q ) ( q + p 2) 2 (q + 2) . .. . . = . . . . . . . . . . .. . (q + p) p (q + p 1) (q + p 2) (q )
(9.11)
Cette expression matricielle a une forme analogue aux equations de Yule-Walker dun AR(p). On notera cependant que la matrice nest plus sym etrique. En substituant aux coecients dautocovariance (q p + 1), . . . , (q + p) les coecients dautocovariance empiriques (q p + 1), . . . , (q + p) permet de construire un estimateur du vecteur des coecients autor egressifs 1 , . . . , p . Contrairement ` a lestimation des coecients dun mod` ele AR(p) par la m ethode de Yule-Walker, la r esolution de (9.11) (z ) dont les racines sont toutes strictement ` ne fournit pas n ecessairement un polyn ome pr edicteur a lext erieur du cercle unit e. Une fa con de proc eder est de d eterminer les racines de (z ), z1 , . . . , zp et . Du point de vue spectral, de remplacer les racines zi de modules strictement inf erieurs ` a 1 par 1/zi cette construction est justi ee puisque cette transformation ne modie la densit e spectrale que dune constante multiplicative. Comme pour un processus MA(q ) on peut am eliorer lestimation en partant dun syst` eme sur-dimensionn e q > pet en d eterminant une solution de norme minimale. Une fois la suite {1 , . . . , p } estim ee, il reste ` a estimer {1 , . . . , q , 2 }. Th eoriquement si nous dis X est simplement le processus posions de la vraie suite {k }, le processus et = Xt p k t k k=1 Z . Une fa c on simple de proc e der est donc de ltrer la suite MA(q ) d eni par et = Zt + q k=1 k tk {X1 , . . . , Xn } par le ltre de r eponse impulsionnelle {1, 1 , . . . , p } puis dutiliser, par exemple, la m ethode de Durbin pour estimer 1 , . . . , q , 2 . Une autre fa con est dutiliser ` a nouveau lid ee de Durbin qui est que (z )/(z ) peut etre approch ee par un AR(m) causal susamment long. Notons 1,m , . . . , m,m la suite des coecients, obtenus par pr ediction lin eaire, de ce processus AR. On peut q p m k k alors ecrire que (1 k=1 k,m z )(1 + k=1 k z ) = 1 k=1 k z k . En notant k les coecients de k z pour p + 1 k m + q et en adoptant des notations matricielles evidentes, on peut ecrire : p+1,m p,m pq+1,m p+2,m . .. . p+1,m . . . . . . . . . . . p+1 1 m,m . . .. + m,m . = . . . 0 . .. . m+q . q . 0 . . . .. .. . . . . . . . . . 0 0 m,m 0 135
= + e. La solution qui minimise eT e a pour qui peut encore ecrire, de fa con plus compacte, expression : = ( T ) 1 T (9.12)
notons ici que, contrairement ` a lexpression (9.10), la matrice ` a inverser dans (9.12) nest pas une matrice de Toeplitz et ne peut donc inverser, de fa con rapide, par lalgorithme de Levinson. Comme dans le cas de lestimation MA(q ), aucune de ces deux m ethodes nest vraiment pr ecise. Toutefois elles fournissent des estim ees correctes pour linitialisation dalgorithmes it eratifs.
136
Chapitre 10
Estimation des mod` eles ARMA(p, q ) : m ethodes de maximum de vraisemblance

10.1 M ethode du Maximum de vraisemblance pour les mod` eles AR
p q
Consid erons un processus ARMA(p, q ) Xt

j =1
j Xtj = Zt +
j =1
j Ztj ,
o` u {Zt } BB(0, 2 ). Nous etudions dans ce chapitre lestimateur du maximum de vraisemblance. Notons = (c, 1 , . . . , p , 1 , . . . , q , 2 ) le vecteur des param` etres du mod` ele. Cette approche consiste a calculer la vraisemblance ` p(X1 , . . . , Xn ; ) , et ` a chercher la valeur du param` etre qui maximimise cette fonction. Cette approche, ` a linverse des 2 m ethodes el ementaires, requi` erent de supposer que {Zt } IID(0, ) est un bruit blanc fort et de sp ecier la loi marginale de Z . Nous supposerons dans ce chapitre, sauf mention expresse, que {Zt } est un bruit blanc gaussien. La mise en oeuvre de la proc edure du maximum de vraisemblance proc` ede en deux etapes. La premi` ere etape consiste ` a calculer la fonction de vraisemblance (ou le logarithme de cette fonction). La deuxi` eme etape consiste ` a maximiser la fonction ainsi calcul ee.
10.1.1
mod` ele AR(1) : M ethode du maximum de vraisemblance exact
Consid erons tout dabord un processus AR(1) gaussien stationnaire Xt = c + Xt1 + Zt , o` u {Zt } IID(0, 2 ) est un bruit blanc fort gaussien. Dans ce cas le param` etre ` a estimer est = (c, , 2 ). 137
Consid erons tout dabord la distribution de X1 , la premi` ere observation. Nous avons E {X1 } = = c/(1 ) , Var(X1 ) = 2 /(1 2 ) . Comme {Zt } est un processus gaussien, la variable X1 est gaussienne et la densit e de cette variable est donn ee par 1 (X1 [c/(1 )])2 . p(X1 ; ) = exp 2 2 /(1 2 ) 2 2 /(1 2 ) Consid erons ensuite la distribution de X2 conditionnelle ` a X1 . Comme X2 = c + X1 + Z2 et que la variable Z2 est ind ependante de X1 , la loi de X2 conditionnelle ` a X1 est une loi gaussienne de moyenne c + X1 et de variance 2 p(X2 |X1 , ) = 1 2 2 exp (X2 c X1 )2 2 2 .
La densit e conjointe des observations (X1 , X2 ) est donn ee, en appliquant la r` egle de Bayes, par p(X1 , X2 ; ) = p(X2 |X1 ; )p(X1 ; ) . De fa con g en erale, la loi de Xt conditionnelle ` a Xt1 , . . . , X1 est une loi gaussienne de moyenne c + Xt1 et de variance 2 (elle ne d epend de Xt1 , . . . , X1 qu` a travers Xt1 ) p(Xt |Xt1 , . . . , X1 ; ) = 1 2 2 exp (Xt c Xt1 )2 2 2 .
En appliquant de fa con r ecursive la r` egle de Bayes, la vraisemblance des observations est donn ee par
n
p(X1 , . . . , Xn ; ) = p(X1 ; )
j =2
p(Xt |Xt1 ; ).
Le logarithme de la vraisemblance (ou log-vraisemblance) est donn ee par

n
( ) = log p(X1 ; ) +
t=2
log p(Xt |Xt1 ; ) 2 1 2

n t=2
n 1 = log(2 ) log 2 2 (n 1) log( 2 ) 2
(X1 [c/(1 )])2 2 2 /(1 2 ) (10.1)
(Xt c Xt1 )2 . 2 2
correspond ` Lestimateur du maximum de vraisemblance a la valeur qui maximize la fonction ( ). Loptimisation dun tel crit` ere nest pas explicite, et on doit donc avoir recours ` a une proc edure doptimisation num erique pour d eterminer lestimateur. Voir paragraphe 10.4.
138
10.1.2
mod` ele AR(1) : une autre m ethode de calcul de la vraisemblance
Collectons les observations dans un vecteur X = [X1 , . . . , Xn ]T . Le vecteur X est un vecteur gaussien de moyenne = [c/(1 ), . . . , c/(1 )]T et de matrice de covariance (, 2 ) = Cov,2 (X), o` u k,l (, 2 ) = Cov,2 (Xk , Xl ), 1 k, l n. Dans ce cas particulier, Cov,2 (Xk , Xl ) = 2 |kl| /(1 2 ). Par cons equent, (, 2 ) = 2 V (), o` u la matrice V () est donn ee par : 1 2 . . . n1 1 . . . n2 1 2 1 . . . n3 V () = 1 2 . . . . . . . . . . . ... . n1 n2 n3 . . . 1 La loi du vecteur X est donn ee par p(X; ) = 1 1 |(, 2 )|1/2 exp (X )T 1 (, 2 )(X ) , n/ 2 2 (2 )
et la log vraisemblance a pour expression ( ) = (n/2) log(2 ) + 1 1 log |1 (, 2 )| (X )T 1 (, 2 )(X ) . 2 2
Consid erons la matrice L() donn ee par def L() =
1 2 0 1 0 . . . . . . 0 0
0 0 1 . . .
... ... ...
... 0 ...
0 0 0 . . .
0 0 0 . . .
Notons que V 1 () = LT ()L() : L() est un facteur de Choleski de linverse de la matrice V ()). Par cons equent, 1 () = 2 LT ()L() et ( ) = (n/2) log(2 ) + En posant X= 1 1 log | 2 LT ()L()| (X )T 2 LT ()L()(X ) . 2 2 (10.2)
= L()(X ), nous avons 1 2 0 1 0 . . . . . . 0 0 0 0 1 . . . ... ... ... 0 0 0 . . . 0 0 0 . . . X1 c/(1 ) X2 c/(1 ) X3 c/(1 ) . . . Xn c/(1 ) = 1 2 [X1 c/(1 )] X2 c X1 X3 c X2 . . . Xn c Xn1
... 0 ...
139
et par suite 1 1 2 (X )T 2 LT ()L()(X ) = 2 2 2 1 1 = 2 (1 2 )[X1 c/(1 )]2 + 2 2 2 Nous avons dautre part n 1 log | 2 LT ()L()| = log( 2 ) + log |L()| . 2 2 Comme la matrice L() est triangulaire inf erieure, son d eterminant est egal au produit de ces el ements diagonaux. Par cons equent 1 n 1 log | 2 LT ()L()| = log( 2 ) + log(1 2 ) . 2 2 2 (10.4)
(Xt c Xt1 )2 . (10.3)

t=2
En substituant (10.3) et (10.4) dans (10.2), nous retrouvons (10.1). Cette fa con de proc eder est donc une autre m ethode de calcul de la vraisemblance.
10.1.3
mod` ele AR(1) : m ethode du maximum de vraisemblance conditionnel
Au lieu doptimiser la vraisemblance p(X1 , . . . , Xn ; ), le maximum de vraisemblance conditionnel maximise la vraisemblance conditionnelle p(X2 , . . . , Xn |X1 ; ) = n t=2 p(Xt |Xt1 ; ). La log-vraisemblance conditionnelle, dans le cas gaussien, est donn ee par n1 n1 log p(X2 , . . . , Xn |X1 ; ) = log(2 ) log( 2 ) 2 2 La maximimisation en c et equivaut ` a minimiser
n n t=2
(Xt c Xt1 )2 . 2 2
(Xt c Xt1 )2
t=2
et revient donc ` a calculer les coecients du r egresseur la matrice de r egression 1 X1 1 X2 . . . . . . 1 Xn1 La solution de ce probl` eme est donn e par c = n1 n1 t=1 Xt
n1 t=1 Xt n1 2 t=1 Xt
lin eaire du vecteur (X2 , . . . , Xn ) par rapport ` a
n t=2 Xt n t=2 Xt1 Xt
140
Lestimateur du maximum de vraisemblance conditionnel de la variance est donn e par

n
=
t=2
t1 )2 (Xt c X . n1
A linverse de lestimateur du maximum de vraisemblance exact, lestimateur du maximum de vraisemblance conditionnel est facile ` a calculer. Lorsque n est susamment grand, la contribution de la premi` ere observation devient n egligeable. On peut montrer que lestimateur du maximum de vraisemblance exact ont la m eme loi asymptotique. Cet estimateur est le plus couramment utilis e en pratique.
10.1.4
mod` ele AR(p) : M ethode du maximum de vraisemblance exact
Consid erons un AR(p) causal Xt = c + 1 Xt1 + + p Xtp o` u {Zt } IID(0, 2 ) et Z0 est Gaussien. Le calcul de la vraisemblance combine les deux m ethodes de calcul de la vraisemblance def pr ec edente. Collectons tout dabord les p premi` eres observations dans un vecteur Xp = [X1 , . . . , Xp ]T . Xp est un vecteur Gaussien de moyenne p = [, . . . , ]T o` u = c/(1 1 p ) , et de matrice de covariance 2 Vp o` u 2 Vp = (10.5)
... (p 1) (p 2) . . .
(0) (1) . . .
(1) (0) . . .
... ...
(p 1) (p 2) . . . (0)
o` u { (h)} est la fonction dautocovariance de {Xt }. La densit e de ce vecteur al eatoire est donn ee par p(X1 , . . . , Xp ; ) = (2 )p/2 p |Vp1 |1/2 exp Remarquons ensuite que Xp+1 = c + 1 Xp + + p X1 + Zp+1 . . . X = c + X + + X +Z
n 1 n1 p np
1 (Xp p )T Vp1 (Xp p ) . 2 2
Rappelons que, pour un AR(p) causal ((z ) = 0 pour |z | 1), les variables al eatoires {X1 , . . . , Xp } apZ = span (Z ; s p). Comme {Z } IID(0, 2 ), les variables al eatoires {X1 , . . . , Xp } partiennent ` a Hp s t sont ind ependantes des variables al eatoires {Zp+1 , . . . , Zn }. On en d eduit que le logarithme de la densit e du vecteur (Xp+1 , . . . , Xn ) conditionnellement ` a (X1 , . . . , Xp ) est donn ee par :
n
log p(Xp+1 , . . . , Xn |X1 , . . . , Xp ; ) =

t=p+1
log p(Xt |Xt1 , . . . , Xtp ; )

n t=p+2
(n p) (n p ) 1 log(2 ) log( 2 ) 2 2 2 2
Xt c
2 j Xtj . (10.6)
j =1
141
La log-vraisemblance a donc pour expression n 1 n ( ) = log(2 ) log( 2 ) + log |Vp1 | 2 2 2 1 1 [Xp p ]T Vp1 [Xp p ] 2 2 2 2
n t=p+1
Xt
2 Xtj . (10.7)
j =1
L evaluation de la fonction dautocovariance requiert donc, pour chaque valeur de , d evaluer la forme 1 quadratique 2 (Xp p )T 2 Vp1 (Xp p ) et de calculer le logarithme du d eterminant log |Vp1 |. Notons comme pr ec edemment Lp un facteur de Choleski de linverse de Vp : Vp1 = LT p Lp . En notant comme pr ec edemment p = Lp (Xp ), la forme quadratique a pour expression 1 1 T Xp . (Xp p )T 2 Vp1 (Xp p ) 2 X 2 2 p Nous avons dautre part 1 p 2 log | 2 LT p Lp | = log( ) + log |Lp | . 2 2 Comme la matrice Lp est triangulaire inf erieure, son d eterminant est egal au produit de ces el ements diagonaux et log |Lp | est donc egal ` a la somme des logarithmes de ces el ements diagonaux. Le probl` eme se ram` ene donc ` a trouver une m ethode de calcul de la d ecomposition de Choleski de linverse de la matrice de covariance. Pour 1 < p, notons par ( ,1 , . . . , , ) les coecients du pr edicteur lin eaire optimal dordre proj ( Xt | Xt1 , Xt2 , . . . , Xt ) =
j =1
,j (Xt ) ,
o` u est donn e par Ces coecients de pr ediction ( ,1 , . . . , , ) sont evalu es dans les r ecursions de Levinson-Durbin (voir paragraphe 5.2). En utilisant ces pr edicteurs, nous pouvons calculer les erreurs de pr ediction directe aux di erents ordres
+ 0,1 + 1,2 + 2,3
= X1 = X2 proj ( X2 | X2 ) = X2 1,1 (X1 ) = X3 proj ( X3 | X2 , X1 ) = X3 2,1 (X2 ) 2,2 (X1 )
. . .
p + p1,p
= Xp proj ( Xp | Xp1 , . . . , X1 ) = Xp
j =1
p1,j (Xpj ) .
+ Par construction, les erreurs de pr ediction directes + ecorr el ees. Leurs variances sont 1,1 , . . . , p,p sont d 2, . . . , 2 . egales aux variances des erreurs de pr ediction directes aux di erents ordres donn ees 0 p1 Rappelons que ces erreurs de pr ediction peuvent se calculer r ecursivement : 2 = 21 (1 k 2 ) o` uk
142
2 = (0). Posons est le -i` eme coecient de corr elation partielle, et 0 1 0 0 0 1,1 1 0 0 2,2 1 0 2,1 Lp = . . . . . . . . . . . . p1,p1 p1,p2 p1,p3 p1,1
0 0 0 . . . 1
En appliquant la matrice Lp au vecteur Xp p , nous obtenons donc

def p + 0,1 + 1,2 + 2,3
= Lp (Xp p ) ,
. . .
+ p1,p
et par cons equent Dp =

2 0 0 0 2 0 0 1 2 0 0 2 . . . . . . . . . 0 0 0
0 0 0 . . .
2 p 1
2 T = Lp Vp Lp .
En inversant la relation pr ec edente, nous obtenons

1 T V 1 L 1 , Dp = 2 L p p p
T et en multipliant ` a droite et ` a gauche la relation pr ec edente par L p et Lp , respectivement, nous obtenons 1 T Vp1 = 2 L p Dp Lp . p nous obtenons ainsi les facteurs de Choleski de linverse requis pour calculer En posant Lp = Dp L la forme quadratique. Loptimisation de la log-vraisemblance exacte n ecessite davoir recours ` a une m ethode doptimisation num erique.
1/2
10.1.5
Mod` ele AR(p) : Maximum de vraisemblance approch e
Lestimateur du maximum de vraisemblance conditionnel consiste ` a trouver, pour une suite dobservations (X1 , . . . , Xn ), la valeur de qui maximise la log-vraisemblance conditionnelle (10.6). Dans le cas o` u la loi de Zt est gaussienne, 2 log pZ (z ; 2 ) = log(2 2 ) z 2 / 2 et lexpression (10.6) s ecrit : np 1 log p(Xp+1 , . . . , Xn |X1 , . . . , Xp ; ) = log(2 2 ) 2 2 2 =
n
(Xk c T Xk1 )2
k=p+1 2
np 1 log(2 2 ) 2 X X 2 2 143
= [Xp+1 . . . o` u Xk = [Xk , Xk1 , . . . , Xkp+1 ]T , X Xp Xp+1 X = . . . Xn1
Xn ]T et :
X1 X2 Xnp
) = 0. X En annulant le gradient de la log-vraisemblance par rapport ` a , nous obtenons X T (X Lorsque la matrice X est de rang complet, ce syst` eme d equations ` a une solution unique donn ee par = (X T X )1 X T X qui correspond ` a lestimateur des moindres carr es. On notera que la matrice X T X est sym etrique et d enie positive, mais que contrairement ` a la technique de Yule-Walker, elle 1 , . . . , n,p ] qui en na pas une structure de Toeplitz. La cons equence majeure est que l estimateur [ sont d eduits nest pas n ecessairement associ e` a un AR causal. Il peut arriver que les z eros du polyn ome (z ) associ e soient ` a lint erieur du cercle unit e. Dans le cas o` u la loi de Zt nest pas gaussienne, lexpression dun estimateur du maximum de vraisemblance ne poss` ede pas de forme simple et on doit, en g en eral, faire appel ` a des techniques num eriques.
10.2
10.2.1
M ethode du maximum de vraisemblance pour les mod` eles MA

mod` ele MA(1) : m ethode du maximum de vraisemblance exact
Consid erons un mod` ele MA(1) gaussien, Xt = + Zt + Zt1 o` u {Zt } BBF (0, 2 ) et Z0 est Gaus2 sien. Nouns notons = (, , ) les param` etres de ce mod` ele. Comme dans le paragraphe pr ec edent, T T consid erons le vecteur X = [X1 , X2 , . . . , Xn ] . La moyenne de ce vecteur est = [, , . . . , ] et sa matrice de covariance est (), qui est donn ee par (1 + 2 ) 0 ... 0 (1 + 2 ) ... 0 2 2 def 2 0 (1 + ) . . . 0 (, ) = . . . . . . . . . . . ... . 0 0 0 ... (1 + 2 ) Le vecteur X est un vecteur Gaussien de moyenne et de covariance (, 2 ). La fonction de vraisemblance est donc donn ee par (, , 2 ) p(X1 , . . . , Xn ; , , 2 ) 1 = (2 )n/2 |(, 2 )|1/2 exp (X )T 1 (, 2 )(X ) . (10.8) 2
144
Consid erons la d ecomposition de Choleski de la matrice : (, 2 ) = 2 A()D()AT (), o` u A() est une matrice triangulaire inf erieure donc les el ements sont donn es par 1 0 0 ... 0 0 2 1 0 ... 0 0 1+ (1+2 ) 0 1 ... 0 0 def 1+2 +4 A() = . . . . . . . . . . . . ... . . . 2 2j n j =0 0 0 0 ... 1 n1 2j
j =0
et D() est une matrice diagonale donn ee par 1 + 2 0 1+2 +4 0 1+2 def 0 0 D() = . . . . . . 0 0
0 0
1+2 +4 +6 1+2 +4
... ... ... ... ...
. . .
0 0 0 . . .
n 2j j =0 n1 2(j 1) j =0
La d ecomposition de Choleski de la matrice de covariance (, 2 ) peut etre obtenue en utilisant lalgorithme des innovations, pr esent es dans le paragraphe 5.4. En eet, consid erons le vecteur
1 2 3
1 =X 2 proj X 2 =X 3 proj X 3 =X . . .
1 X 2, X 1 X
n proj X n X n1 , . . . , X 1 , =X
t = Xt , 1 t n. Nous navons pas indiqu o` uX e la d ependance des innovations partielles vis-` a-vis des param` etres (, , 2 ) an de ne pas alourdir les notations. Par construction, les coordonn ees du t proj X t X t1 , . . . , X 1 vecteur [ 1 , 2 , . . . , n ]T sont d ecorr el ees. On appelle, pour t 1, t = X 2 linnovation partielle du processus {Xt }. Nous notons t = Var( t ), t {1, . . . , n} les variances des innovations partielles. Remarquons tout dabord que, pour tout t {1, . . . , n}, span (X1 , . . . , Xt ) = span ( 1 , . . . , t ). t span (X1 , . . . , Xt2 ). Par cons Notons dautre part que, pour t 2, X equent, pour t {2, . . . , n},
t1
t X t1 , . . . , X 1 = proj X t proj X
t1 , . . . ,
=
j =1
t, X
j
j 2
t, X
t1
t1 2
t1 .
2 peuvent se calculer de fa Les coecients de pr ediction t,1 et la variance de linnovation t con r ecursive. Notons en eet que pour t {1, . . . , n 1},
t,1 =
t+1 , X
t 2
145
Comme par d enition
t t1,1 =X t+1 , X
t
t1 ,
nous avons
t1
t+1 , X t t1,1 X t+1 , = X

t1
Comme
t1
t+1 , span (X1 , . . . , Xt1 ), X
= 0, ce qui implique que, pour tout t {1, . . . , n}, 2 2 . t (10.9)
t,1 = Dautre part, pour t {2, . . . , n}, nous avons :

2 t +1 = t+1 2
t+1 = X
t+1 X t, . . . , X 1 proj X
= 2 (1 + 2 )
4 2 2 . t
(10.10)
2 = (0) = 2 (1 + 2 ), nous avons Par cons equent, comme 1 2 2 = 2 (1 + 2 ) 2 4 2 41 + + = , 1 + 2 1 + 2
et, par une r ecurrence el ementaire, pour tout t 1,

2 t
t 2j j =0 t1 2j j =0
t = Par construction, pour t {2, . . . , n}, X 1 X X 2 X 3 . . . n X
+ t1,1 t1 , ce qui implique

t 1
2 = A() 3 . . . .
n
do` u lon d eduit que (, 2 ) = 2 A()D()AT (). En utilisant cette d ecomposition dans lexpression de la vraisemblance (10.8), nous obtenons donc : p(X1 , . . . , Xn ; , , 2 ) = (2 )n/2 n |A()D()AT ()|1/2 exp 1 (X )AT ()D1 ()A1 ()(X ) . 2 2
Comme la matrice A() est diagonale inf erieure et que ces coecients diagonaux sont egaux ` a 1, |A()| = 1 et
n
|A()D()AT ()| = |A()| |D()| |AT ()| =

t=1
Dt,t () .
En posant = [ 1,
T 2, . . . , n]
= A1 ()(X ) ,
(10.11)
146
nous avons donc

n
p(X1 , . . . , Xn ; , , 2 ) = (2 )n/2
t=1
1 t exp
1 2
n 2 2 t /t t=1
Comme A() est une matrice triangulaire inf erieure, le vecteur sobtient en r esolvant de fa con r ecursive le syst` eme d equation A() = X , ce qui revient ` a ecrire
1 2 3
= X1 = X2 1,1 = X3 2,1 . . .
1 2
= Xn n,1
n1 ,
o` u les coecients t,1 , t {1, . . . , n} sont calcul es de fa con r ecursive ` a laide de (10.9). La logvraisemblance exacte dun processus MA(1) est donc donn ee par 1 n (, , ) (, , ) = log(2 ) 2 2
2 2 n 2 log(t ) t=1
1 2
2 t 2 t=1 t
Cette fonction d epend de fa con complexe des param` etres (, , 2 ) qui interviennent dans le calcul des innovations partielles et de leur variance. Loptimisation de cette quantit e n ecessite donc davoir recours ` a une proc edure doptimisation num erique.
10.2.2
mod` ele MA(1) : m ethode du maximum de vraisemblance conditionnel
Nous consid erons le processus MA(1) Xt = + Zt + Zt1 o` u {Zt } IID(0, 2 ) et Z0 est gaussien. Nous allons tout dabord evaluer la vraisemblance conditionnelle (, , 2 ) p(X1 , . . . , Xn |Z0 ; , , 2 ) . En appliquant de fa con r ep et ee la loi de Bayes, nous obtenons p(X1 , . . . , Xn |Z0 ; , , 2 ) = p(X1 |Z0 ; , , 2 )p(X2 |X1 , Z0 ; , , 2 ) . . . p(Xn |Xn1 , . . . , X1 , Z0 ; , , 2 )
n
= p(X1 |Z0 ; , , 2 )
t=2
p(Xt |Xt1 , . . . , X1 , Z0 ; , , 2 ) .
Par d enition, X1 = + Z1 + Z0 et comme les variables Z1 et Z0 sont ind ependantes, la loi de X1 conditionnelle ` a Z0 est une loi gaussienne de moyenne + Z0 et de variance 2 , p(X1 |Z0 ; , , 2 ) = 1 2 2 exp 1 (X1 Z0 )2 2 2 .
Consid erons maintenant p(X2 |X1 , Z0 ; , , 2 ). Posons 1 (X1 , Z0 ) = X1 Z0 . Comme, X1 = + Z1 + Z0 , nous avons 1 (X1 , Z0 ) = Z1 + Z0 Z0 = Z1 . Par cons equent, X2 = + Z2 + 1 (X1 , Z0 ), 147
et comme Z2 est ind ependant de X1 et de Z0 , la loi de X2 conditionnelle ` a X1 et Z0 est une loi gaussienne de moyenne + 1 (X1 , Z0 ) et de variance 2 . De fa con g en erale, posons 0 (Z0 ) = Z0 et pour t {1, . . . , n}, d enissons r ecursivement t (X1 , . . . , Xk , Zk ) par
t (X1 , . . . , Xt , Z0 )
= Xt
k1 (X1 , . . . , Xt1 , Z0 ) .
Nous avons
1 (X1 , Z0 )
= X1 Z0 = Z1 , = X2 1 (X1 , Z0 ) = Z2 ,
2 (X1 , X2 , Z0 )
et, par une r ecurrence el ementaire, pour tout t {1, . . . , n},

t (X1 , . . . , Xt , Z0 )
= Xt
t1 (X1 , . . . , Xt1 , Z0 )
= Xt Zt1 = Zt .
Comme Zt est ind ependant de (X1 , . . . , Xt1 , Z0 ), la loi de Xt conditionnelle ` a (Xt1 , . . . , X1 , Z0 ) est une loi gaussienne de moyenne t1 (X1 , . . . , Xt1 , Z0 ) et de variance 2 . Par cons equent, la vraisemblance de (X1 , X2 , . . . , Xn ) conditionnelle ` a Z0 est donn ee par : p(X1 , . . . , Xn |Z0 ; , , 2 ) = 1 1 1 exp 2 n n/ 2 2 (2 )
n 2 2 t (X1 , . . . , Xt , Z0 ) t=1
Lestimateur du maximum de vraisemblance conditionnel consiste ` a maximiser la vraisemblance de lobservation conditionnelle ` a Z0 = 0 (, , 2 ) p(X1 , . . . , Xn |Z0 = 0; , , 2 ) . Pour evaluer cette fonction, nous calculons de fa con r ecursive 0 = 0 1 (X1 ) = X1 2 (X1 , X2 ) = X2 1 (X1 ) . . . et pour t {2, . . . , n}, t (X1 , . . . , Xt ) = Xt k1 (X1 , . . . , Xt1 ) . puis nous evaluons p(X1 , . . . , Xn |Z0 = 0; , , 2 ) = 1 1 1 exp 2 n n/ 2 2 (2 )
n
(10.12)
2 t (X1 , . . . , Xt ) .
t=1
Bien que la vraisemblance conditionnelle se calcule simplement (pour une valeur de , , 2 , il sut de t (X1 , . . . , Xt ) en utilisant (10.12), puis ` calculer r ecursivement I a evaluer la somme des carr es), cest 2 une fonction complexe du param` etre , , : ` a linverse du mod` ele AR(p), loptimisation de la vraisemblance conditionnelle nest pas signicativement plus simple que loptimisation de la vraisemblance exacte. Ce probl` eme doptimisation doit etre r esolu par une m ethode num erique, ce qui limite lint er et de cette approche. 148
10.2.3
Mod` ele MA(q ) : M ethode du maximum de vraisemblance exact
Consid erons un mod` ele MA(q) gaussien, Xt = + Zt + q u {Zt } BBF (0, 2 ) et j =1 j Ztj o` Z0 est Gaussien. Nouns notons = (, , 2 ), avec = (1 , . . . , q ) les param` etres de ce mod` ele. Comme dans le paragraphe pr ec edent, consid erons le vecteur X = [X1 , X2 , . . . , Xn ]T . La moyenne de ce vecteur est = [, , . . . , ]T et sa matrice de covariance est , qui est donn ee par [()]k,l = (k l) , 1 k, l n , o` u, pour |h| q , (h) = 2 j =0 j j +|h| (en posant 0 = 1), et (h) = 0 pour |h| q + 1. La matrice () est une matrice de Toeplitz dont seules les 2q + 1 diagonales sont non-nulles. La fonction de vraisemblance est donn ee par 1 p(X1 , . . . , Xn ; ) = (2 )n/2 |()|1/2 exp (X )T 1 ()(X ) . 2 (10.13)
q |h|
Comme dans le cas dun mod` ele MA(1), nous allons tout dabord calculer la d ecomposition de Choleski de la matrice ( , 2 ) = 2 A( )D( )AT ( ) , = [1 , . . . , q ] , (10.14) o` u A( ) est une matrice triangulaire inf erieure et D( ) est une matrice diagonale. Le calcul de cette d ecomposition de Choleski sobtient en utilisant lalgorithme des innovations, qui consiste ` a evaluer de fa con r ecursive pour t {1, . . . , n}, linnovation du processus d enie par
1 2
1 =X 2 proj X 2 X 1 = X 2 proj X 2 =X
. . .
q
1 = X q proj ( Xq | q proj X q X q1 , . . . , X =X
q 1 , . . . , 1 )
et pour t q + 1,
t
t proj X t X t1 , X t2 , . . . , X 1 = X t proj X t =X
t1 , . . . , 1
t proj X t =X
t1 , . . . , tq
t = Xt o` u nous avons pos eX 1, . . . , X t = span ( 1. span X t span 2. Pour t q + 1, X
et o` u nous avons utilis e les identit es

1, . . . , t)
pour t {1, . . . , n} et pour t q + 1, 1 = span ( tq , . . . , 1 ), Xtq , . . . , X

t1 , . . . , 1
t X t1 , . . . , X 1 = proj X t 3. Pour t q + 1, proj X
t , tj X q 2 j =1 tj
tj
et
Pour t {1, . . . , n}, notons par t,i , 1 i min(t, q ) les coecients du pr edicteur lin eaire optimal, i.e. pour t {1, . . . , n}
min(t,q )
t+1 proj X
t, . . . , 1
=
j =1
t,j
t+1j
o` u, pour tout t {1, . . . , n}, nous avons pos e t,j = t+1 , t+1j X , 2 t +1j j {1, . . . , min(t, q )} .
149
Les coecients se calculent r ecursivement, en utilisant les equations (5.34) et (5.35), qui s ecrivent, pour j = max(1, t q ), . . . , t 1,
j 1
t,tj = et
2 j +1 (t
j)
k=(tq )(j j q )
2 j,j k t,tk k , +1
t1 2 t +1
= (0)
j =(tq )1
2 2 t,t j j +1 .
Nous ne d etaillerons pas, pour les mod` eles MA(q ) la m ethode du maximum de vraisemblance conditionnel.
10.3
M ethode du maximum de vraisemblance pour les mod` eles ARMA
M ethode du maximum de vraisemblance approch ee

p u Zt Comme dans le cas MA(q ), partant de l equation Xt = Zt + q k=1 k Xtk o` k=1 k Ztk + est un bruit blanc, centr e, gaussien, on peut ecrire : 1 0 0 1 0 0 1 1 0 Xp1 Zp 1 Xp 1 1 0 Zp . . . .. .. . = . . ... ... . . + 0 . . + 0 . . . . . . . . . . . . . . .. . . 1 0 Zn X1 Zpq . . 1 0 Xn . .
1 1
On peut alors d eterminer une expression approch ee de la log-vraisemblance conditionnelle de {Xp , . . . , Xn } par rapport ` a {X1 , . . . , Xp1 }, en n egligeant le terme contenant {Zp1 , . . . Zpq }. Il vient : x1 1 np . 2 2 log(2 ) 2 x1 xn C ( , ) . log pXp ,...,Xn |X1 ,...,Xp1 (x1 , . . . , xn ; , , ) . 2 2 xn o` u C ( , ) = (1 )T 1 . La maximisation de log pX1 ,...,Xn (x1 , . . . , xn ; , , 2 ) par rapport ` a , et 2 peut etre faite par des techniques num eriques.
10.4
M ethodes num eriques doptimisation
Nous d ecrivons bri` evement dans ce paragraphe les algorithmes doptimisation num erique, en commen cant par le plus simple, lalgorithme du gradient (appel e aussi algorithme de la plus forte pente )
150
puis en introduisant les algorithmes de quasi-Newton. Nous r ef erons le lecteur int eress e par loptimisation non-lin eaire aux livres classiques de Luenberger [1984], Fletcher [1987] et Nocedal and Wright [2006]. Nous consid erons seulement loptimisation dune fonction : () d enie sur = Rd . Nous supposons dans tout ce chapitre que la fonction est deux fois contin ument di erentiable. i Les algorithmes doptimisation sont it eratifs : ils construisent une suite { , i 0} qui converge ( eventuellement) vers un extr emum de la fonction .
10.4.1
Algorithme de la plus forte pente
Lalgorithme le plus simple revient a ` mettre ` a jour la valeur courante du param` etre i en lui i ajoutant une quantit e proportionnelle au gradient ( ) de la fonction en ce point : i+1 = i + i (i ) . (10.15)
Le pas i est une suite de nombres non n egatifs qui doit etre choisi de telle sorte que la suite { (i )} soit non d ecroissante lalgorithme est alors dit monotone dans le sens o` u la valeur du crit` ere (i ) augmente ` a chaque it eration. Une fa con de choisir le pas i dans la direction du gradient est de chercher la valeur qui maximise la fonctionnelle : (10.16) i = arg max 0 [i + (i )] . On parle alors dalgorithme de plus forte pente ` a pas optimal. On peut montrer (voir par exemple [Luenberger, 1984, Chapter 7]) que sous des conditions techniques non restrictives, lalgorithme de la plus forte pente (10.16) converge, et que lensemble des points limites coincide avec les points stationnaires de la fonction . De fa con pratique, il est souvent impossible de d eterminer num eriquement la valeur exacte du maximum dans (10.16). Il est dusage dutiliser des algorithmes doptimisation approch es an dobtenir une valeur raisonnable du pas i . Un algorithme approch e essaie typiquement un certain nombre de valeurs du pas , en sarr etant lorsque certaines conditions sont satisfaites. Cette recherche approch ee est en g en eral eectu ee en deux phases : une premi` ere phase consiste ` a trouver un intervalle de valeurs raisonnable pour et une seconde phase (bisection ou interpolation ) o` u lon cherche ` a d eterminer une valeur appropri ee du pas dans lintervalle de recherche. Ces algorithmes approch es sont souvent assez complexes (et conditionnent fr equemment le succ` es de la m ethode) ; voir [Nocedal and Wright, 2006, Chapitre 3]. La convergence de lalgorithme de la plus forte pente peut etre lente en particulier lorsque la dimension de lespace des param` etres est grande. On peut montrer que la vitesse de convergence de cet algorithme est lin eaire au sens o` u, si la suite {i }i0 converge en un point o` u le Hessien 2 ( ) est d eni n egatif.alors i+1 (k ) (k ) lim = k < 1 ; (10.17) i | i (k ) (k )| o` u (k ) est la k` eme coordonn ee du vecteur de param` etres. Lorsque la dimension de lespace des param` etres est grande, il appara t, quau moins pour une composante k , le facteur k est proche de 1. Lorsque la fonction est deux fois di erentiable, il est possible de mettre en oeuvre des m ethodes doptimisation permettant dobtenir des vitesses super-lin eaires. 151
10.4.2
Algorithme de Newton et de quasi Newton
Lalgorithme de Newton-Raphson revient ` a modier la direction de mise ` a jour : i+1 = i H 1 (i ) (i ) , (10.18)
i o` u H ( i ) = 2 etre compris ( ) est le Hessien de la fonction . Lalgorithme de Newton-Raphson peut en utilisant une approximation localement quadratique de la fonction dobjectif
() ( ) + ( ) +
1 2
H ( )
Si la suite {i }i0 converge vers une valeur pour lequel le Hessien est d eni n egatif, la vitesse de convergence est quadratique, dans le sens o` u il existe une constante positive elle que i+1 i 2 . Lutilisation pratique de lalgorithme de Newton-Raphson requiert toutefois quelques pr ecautions. Si la fonction nest pas concave, lalgorithme peut diverger. Pour eviter ce probl` eme, il est dusage dutiliser un pas i an de contr oler lamplitude de la mise ` a jour le long de la direction de recherche H 1 (i ) (i ), i+1 = i i H 1 (i ) (i ) . (10.19) Il est dusage de choisir ce pas i de fa con ` a maximiser la fonctionnelle i = arg max 0 [i + H 1 (i ) (i )] . (10.20)
Lorsque la fonctionnelle () nest pas strictement concave, limpl ementation directe de (10.18) peut conduire ` a des divergences : dans certaines r egions de lespace des param` etres, la matrice hessienne H () peut etre mal conditionn ee ou d enie positive (auquel cas la direction H 1 (i ) (i ) nest pas n ecessairement une direction de recherche valide). Pour eviter cet ecueil, les m ethodes de QuasiNewton utilisent la r ecursion modi ee i+1 = i + i W i (i ) ; (10.21)
o` u W i est une matrice de poids, qui peut etre ajust ee ` a linstar du pas i . Si lalgorithme de mise a jour de la matrice de poids W i conduit ` ` a une matrice proche de la matrice hessienne H 1 (i ) lorsque lalgorithme est proche de la convergence, alors lalgorithme de quasi-Newton aura une vitesse de convergence super-lin eaire ; voir Luenberger [1984] et [Nocedal and Wright, 2006, chapitres 7,8 et 9] pour une discussion pr ecise des m ethodes de quasi-Newton (notons que ces m ethodes utilisent la plupart du temps uniquement linformation li ee au gradient pour calculer la matrice de poids W i et nutilisent g en eralement pas la valeur de la matrice hessienne H ()).
152
Troisi` eme partie
Mod` eles d etats
153
Chapitre 11
D enitions, exemples et inf erence des etats

11.1 D enition
La forme g en erique du mod` ele d etat Gaussien que nous allons consid erer est donn ee par les equations Xk+1 = AXk + RUk , Yk = BXk + SVk , o` u {Uk }k0 et {Vk }k0 sont les bruits d etat et de mesure ; nous supposons que les vecteurs al eatoires {(Uk , Vk )}kZ sont ind ependants et identiquement distribu es (i.i.d.) de loi gaussienne centr ee et de covariance identit e; La condition initiale X0 est un vecteur al eatoire gaussien de moyenne et de covariance et est ind ependante des bruits de d etat et de mesures {Uk } and {Vk } ; La matrice de transition d etats A, la matrice de mesures B , et les matrices R et S sont des matrices connues. Ces mod` eles ont et e introduits dans la litt erature ` a la n des ann ees 1950 Kalman and Bucy [1961] ; ces mod` eles sont aujourdhui couramment utilis es en traitement des s eries temporelles scalaires ou multivari ees, avec des applications en econom etrie, nance, mais aussi dans di erents domaines du traitement du signal et du contr ole. Les etudiants souhaitant approfondir ce sujet (tr` es vaste) pourront consulter avec prot les livres de Anderson and Moore [1979], Caines [1988], ainsi que celui, plus r ecent, de Kailath et al. [2000]. Remarque 11.1 Notre d enition des mod` eles d etats (11.1)(11.2) est assez classique (` a lexception du choix des symboles repr esentant les di erentes matrices, mais il ny a pas dusage clairement x e) ; Les r oles jou es par les matrices R et S requi` erent toutefois un commentaire. Nous avons suppos e que les processus {Uk } et {Vk } sont i.i.d. gaussiens, de moyenne nulle et de covariance identit e. Par cons equent, R et S sont des racines carr ees des matrices de covariance du bruit d etats et de mesure, Cov(RUk ) = RRt et 154 Cov(SVk ) = SS t , (11.1) (11.2)
11.1 Exemple (Processus autor egressif bruit e): Un processus autor egressif dordre p, {Zk }k0 , est un processus stationnaire au second-ordre qui satisfait l equation aux di erences Zk+1 = 1 Zk + + p Zkp+1 + Uk , (11.3) o` u {Uk }k0 est un bruit blanc. D enissons le vecteur Xk = (Zk , . . . , Zkp+1 )t , (11.4)
en empilant les valeurs retard ees. Appelons A la matrice compagnon associ ee au polyn ome de pr ediction (z ) = 1 1 z p z p , 1 2 ... p 1 0 ... 0 0 1 ... 0 A= (11.5) . . . . .. . . . . . . . 0 0 ... 1 0 En utilisant les notations pr ec edentes, l equation aux di erences (11.3) peut etre r e ecrite sous forme d etats : Xk = AXk1 + 1 0 . . . 0 Uk1 , Yk = 1 0 . . . 0 Xk .
t
(11.6) (11.7)
Si le processus autor egressif nest pas directement observable mais que nous disposons de mesures bruit ees de celui-ci, l equation de mesures (11.7) est remplac ee par Yk = 1 0 . . . 0 Xk + Vk , (11.8)
o` u {Vk }k0 est le bruit de mesure. Remarquons que le polyn ome caract eristique de la matrice compagnon A est donn ee par : def A () = det(I A) = p 1 p1 p (11.9) Nous disons que la matrice compagnon A est stable si toutes les valeurs propres de cette matrices sont de modules strictement inf erieurs ` a 1. La matrice est stable si et seulement si les z eros du polyn ome de pr ediction (z ) = 1 1 z p z p sont tous ` a lext erieur du cercle unit e (et donc le processus AR est causalement stable).
11.2
Filtrage dans le mod` ele lin eaire Gaussien
Consid erons le mod` ele d etat : Xk+1 = Ak Xk + Rk Uk , Yk = Bk Xk + Sk Vk , (11.10) (11.11)
o` u {Uk }k0 et {Vk }k0 sont deux bruits blancs forts Gaussiens ind ependants (les suite {Uk } et {Vk } sont i.i.d. ind ependantes, Uk N(0, I ) et Vk N(0, I ), I notant la matrice identit e). De plus, nous 155
supposons que l etat initial X0 est distribu e suivant une loi gaussienne de moyenne nulle et de matrice de covariance , ce que nous notons X0 N(0, ) et que l etat initial X0 est ind ependant des bruits d etats {Uk } et de mesure {Vk }. Dans la plupart des applications que nous consid ererons, la matrice t = Cov(S V ) est de rang complet ; A linverse, la dimension de covariance du bruit de mesure Sk Sk k k du vecteur repr esentant le bruit de mesure Uk (que nous appellerons aussi lexcitation, ou, en anglais disturbance ) est dans de nombreuses situations inf erieure ` a la dimension de l etat Xk : par cons equent t est, dans de nombreux cas, de rang d la matrice Rk Rk ecient. Par rapport au mod` ele que nous avons introduit dans le paragraphe 11.1, la principale di erence tient au fait que les di erentes matrices intervenant dans la d enition de l evolution de l etat et de la mesure, Ak , Bk , Rk , et Sk d ependent de lindex temporel k . Cette g en eralisation est utile pour mod eliser des syst` emes pr esentant certaines formes de non-stationarit e. Une propri et e remarquable des mod` eles lin eaires d etats gaussiens d enis par (11.10)(11.11) est que la suite des vecteurs d etats X0:n et des observations Y0:n sont conjointement gaussiens (pour tout n) ; par cons equent, les distributions conditionnelles des etats etant donn ees les observations sont elles aussi gaussiennes. Ces distributions conditionnelles sont donc d etermin ees par la donn ee de leurs moyennes et de leurs matrices de covariance. Nous etudierons plus sp eciquement dans la suite de ce chapitre : la distribution conditionnelle de l etat Xk etant donn ee les observations jusqu` a la date k 1 et la distribution initiale , que nous notons ,k|k1 ; nous appelons cette loi la distribution de pr ediction (ou distribution pr edictive ), la distribution de l etat ` a la date k etant donn ee les observations jusqu` a linstant k et la distribution initiale , que nous notons ,k ; nous appelons cette loi la distribution de ltrage. Remarquons que les distributions k|k1 et k sont des fonctions des observations ; pour all eger les notations, cette d ependance nest pas indiqu ee explicitement. Nous notons L,n la vraisemblance des observations, d enie comme la distribution du vecteur des observations Y0:n . Notons qk la distribution de Xk+1 conditionnelle ` a Xk = x : dans le mod` ele lin eaire gaussien consid er e ici, cette loi admet une t . De fa con plus pr ecise, pour toute fonction densit e gaussienne, de moyenne Ak x, et de covariance Rk Rk f : Rdx R+ : E [ f (Xk+1 )| Xk = xk ] = o` u (u) est la densit e dune loi N(0, I ) et
t ). q (x, ) = N(Ak x, Rk Rk
f (Ak xk + Rk u)(u)du =
f (x )qk (x, x )dx ,
(11.12)
Nous notons de la m eme fa con gk la loi de lobservation Yk conditionnelle ` a l etat Xk = x : dans le mod` ele lin eaire gaussien, cette loi admet une densit e gaussienne de moyenne Bk x et de covariance t . Plus pr Sk Sk ecis ement, pour toute fonction f : Rdy R+ , E [ f (Yk )| Xk = xk ] = o` u
t gk (x, y ) = N(Bk x, Sk Sk ).
f (Bk xk + Sk v )(u)du =
f (y )gk (x, y )dy ,
156
En utilisant ces notations et les relations dind ependance conditionnelles du mod` ele lin eaire gaussien, la loi de pr ediction et de ltrage sont donn ees pour k 1 et toute fonction f : Rdx R+ , ,k|k1 (f ) = (L,k1 )1
def def
,k1 (xk1 )qk1 (xk1 , xk )f (xk ) ,k (xk )f (xk )
(11.13) (11.14)
,k (f ) = (L,k )1 o` u k est la fonction donn ee par

k
,k (xk ) =
(dx0 )g0 (x0 , Y0 )

i=1
qi1 (xi1 , xi )gi (xi , Yi )dx0:k1
(11.15)
et L,k est la vraisemblance des k premi` eres observations d enie par L,k = ,k (xk )dxk . (11.16)
En utilisant les d enitions pr ec edentes, il est possible de calculer de fa con r ecursive les lois pr edictive et de ltrage. Remarquons en eet que, pour tout k 1, ,k (f ) = (L,k )1 = (L,k )1 = L,k1 L,k ,k (xk )f (xk )dxk ,k1 (xk1 )qk1 (xk1 , xk )g (xk , Yk )f (xk )dxk1:k , ,k|k1 (xk )gk (xk , Yk )f (xk )dxk . (11.17)
Cette relation montre quil est possible de calculer de d eduire la loi de ltrage ` a la date k de la loi de pr ediction. De la m eme fa con, ,k+1|k (f ) = (L,k )1 = ,k (xk )q (xk , xk+1 )f (xk+1 )dxk:k+1 (11.18)
,k (xk )qk (xk , xk+1 )f (xk+1 )dxk:k+1 .
En appliquant successivement les equations (11.17) et (11.18), on obtient une formule r ecursive permettant de calculer les lois de pr ediction et de ltrage pour tous les indices temporels. Ces formules sont valables de fa con tout ` a fait g en erale (et s etendent par exemple au cas o` u les bruits d etats et de mesure sont des suites de variables al eatoires ind ependantes dont la distribution nest pas n ecessairement gaussienne). Dans le mod` ele lin eaire gaussien, les distributions de pr ediction et de ltrage sont gaussiennes et ,k|k1 et X ,k|k les moyennes des distributions de pr nous notons X ediction et de ltrage et ,k|k1 et ,k|k les covariances associ ees : ,k|k1 , ,k|k1 , ,k|k1 = N X ,k|k , ,k|k , ,k = N X 157 (11.19) (11.20)
Le lemme el ementaire suivant est tr` es utile pour calculer la distribution des lois de pr ediction et de ltrage dans le mod` ele lin eaire Gaussien. Proposition 11.2.1 (Conditionnement dans le mod` ele lin eaire gaussien) Soit X et V de vecteurs gaussiens ind ependants v eriant E {X } = X , Cov(X ) = X , et Cov(V ) = V . Supposons que E {V } = 0. Consid erons le mod` ele Y = BX + V , (11.21)
o` u B est une matrice (d eterministe) de dimension appropri ee. Supposons de plus que B X B t + V est une matrice de rang complet (inversible). Alors E [ X | Y ] = E {X } + Cov(X, Y ) {Cov(Y )}1 (Y E {Y }) = X + X B t B X B t + V et Cov(X | Y ) = Cov(X E [ X | Y ]) = E (X E [ X | Y ])X t = X X B t B X B t + V
1 1
(11.22)
(Y BX )
(11.23)
B X .
le membre de droite de l monstration Notons par X De equation (11.22). Nous avons = X E {X } Cov(X, Y ){Cov(Y )}1 (Y E {Y }) , X X ce qui montre que Y ) = Cov(X, Y ) Cov(X, Y ){Cov(Y )}1 Cov(Y ) = 0 . Cov(X X, (11.24)
sont donc conjointement Gaussiens (ce sont des transformaLes vecteurs al eatoires Y et X X sont aussi tions lin eaires de vecteurs gaussiens) et ils sont d ecorr el es. Par cons equent, Y et X X ind ependants. En ecrivant + (X X ) , X=X est (Y )-mesurable (combinaison lin est o` u X eaire des composantes du vecteur Y ) et X X , on v = E [ X | Y ] et que, de plus, ind ependant de X erie alors ais ement que X
def )(X X ) Cov (X | Y ) = Cov (X X
) . Y = Cov(X X
Finalement, nous obtenons (11.23) en remarquant que ) = E (X X )(X X )t = E (X X )X t Cov(X X est une transformation lin en utilisant (11.24) et le fait que X eaire de Y . Pour le mod` ele lin eaire Gaussien, la proposition 11.2.1 implique en particulier que les moyennes a ,k|k d posteriori X,k|k1 et X ependent des observations (sont des combinaisons lin eaires des observations pass ees), mais que les matrices de covariance ,k|k1 et ,k|k sont enti` erement d etermin ees par la donn ee du mod` ele (elles ne d ependent pas des observations et pourraient donc etre calcul ees hors ligne ). 158 ,
Proposition 11.2.2 (Loi de ltrage dans le mod` ele lin eaire gaussien) Les moyennes et covariance et de pr ediction peuvent etre mises ` a jour r ecursivement de la fa con suivante : pour k 0. Filtrage : k |k = X k|k1 + k|k1 B t (Bk k|k1 B t + Sk S t )1 (Yk Bk X k |k 1 ) , X k k k k|k = k|k1
t t k | k 1 Bk (Bk k|k1 Bk
(11.25) (11.26)
t 1 Sk Sk ) Bk k|k1 ,
0|1 = 0 et 0|1 = . avec les conventions X Pr ediction : k+1|k = Ak X k |k , X

t k+1|k = Ak k|k At k + Rk Rk ,
(11.27) (11.28)
monstration Consid De erons tout dabord (11.25) et (11.26). L etat est distribu e suivant Xk k|k1 , k|k1 ) et lobservation est donn N(X ee par : Yk = Bk Xk + Vk ,
t ) est ind ependant de Xk . Les equations (11.25) et (11.26) d ecoulent directement de o` u Vk N(0, Sk Sk la proposition Proposition 11.2.1. Les equations (11.27) et (11.28) sont obtenues en calculant la moyenne et la covariance de
Xk+1 = Ak Xk + Rk Uk k|k , k|k ) et N(0, I ). o` u Xk et Uk sont ind ependants et distribu es respectivement suivant les lois N(X
11.3
Lissage dans le mod` ele lin eaire Gaussien
k|n et k|n la moyenne et la covariance de la distribution de lissage ,k|n . Pour Nous notons par X d x toute fonction f : R R+ et tout k {0, . . . , n}, la loi de ltrage est donn ee par ,k|n (f ) = (L,n )1 = ,k (xk )f (xk )k|n (xk )dxk , (11.29) (11.30)
,k (xk )f (xk )k|n (xk )dxk , ,k (xk )k|n (xk )dxk
o` u k|n est la fonction r etrograde d enie, pour k {0, n 1} par

n
k|n (xk ) =
qk (xk , xk+1 )gk+1 (xk+1 , Yk+1 )

i=k+2
qi1 (xi1 , xi )gi (xi , Yi ) .
(11.31)
Il est int eressant de remarquer que la fonction k|n peut etre calculer r ecursivement dans le sens r etrograde, i.e. pour tout k {0, . . . , n 1} k|n (xk ) = qk (xk , xk+1 )gk+1 (xk+1 , Yk+1 )k+1|n (xk+1 )dxk+1 , 159 (11.32)
o` u, par convention, nous avons pos e n|n 1. En utilisant cette relation dans lexpression pr ec edente de la loi de lissage, nous obtenons une equation r ecursive elle aussi r etrograde de mise ` a jour de la loi de lissage ,k|n (f ) = = = 1 L,n
def
1 ,k (xk )f (xk )k|n (xk )dxk L,n ,k (xk ) f (xk )qk (xk , xk+1 )gk+1 (xk+1 , Yk+1 )k+1|n (xk+1 )dxk:k+1 ,k+1 (xk+1 )
(11.33) (11.34)
B,k (xk+1 , xk ),k+1|n (xk+1 )f (xk )dxk:k+1 ,
o` u B,k est le noyau r etrograde d eni par B,k (xk+1 , xk ) = = ,k (xk )qk (xk , xk+1 )gk+1 (xk+1 , Yk+1 ) ,k+1 (xk+1 ) ,k|n (xk )qk (xk , xk+1 )gk+1 (xk+1 , Yk+1 ) . ,k|n (xk )qk (xk , xk+1 )gk+1 (xk+1 , Yk+1 )qk (xk , xk+1 )gk+1 (xk+1 , Yk+1 )dxk (11.35) (11.36)
En utilisant la formule el ementaire des esp erances conditionnelles, nous avons pour toute fonction f non-n egative et tout entier k {0, . . . , n 1}, E [ f (Xk )| Y0:n ] = E [ E [ f (Xk )| Xk+1 , Y0:n ]| Y0:n ] = k+1|n (dxk+1 )E [ f (Xk )| Xk+1 = xk+1 , Y0:n ] . (11.37)
Par cons equent, en identiant (11.37) et (11.34), nous obtenons E [ f (Xk )| Xk+1 = xk+1 , Y0:n ] = f (xk )B,k (xk+1 , xk )dxk (11.38)
qui est donc un noyau r etrograde. Lalgorithme de lissage permet de calculer ces quantit es r ecursivement, en proc edant dans le sens inverse du temps (ou sens r etrograde). Remarquons en eet que la loi de lissage pour k = n coincide k|n et avec la loi de ltrage. Lid ee est de d eduire, pour k = 0, . . . , n 1 r ecursivement la moyenne X k+1|n et k+1|n . la covariance k|n de la loi de lissage ` a partir de X B,k (xk+1 , ) est egal ` a la loi de Xk conditionnelle ` a Xk+1 = xk+1 dans le mod` ele Xk+1 = Ak Xk + Rk Uk , k|k , k|k ) et Uk N(0, I ) et est ind o` u Xk N(X ependant de Xk . En utilisant la Proposition 11.2.1, B,k (xk+1 , ) est une loi gaussienne de moyenne et de covariance donn ees respectivement par k|k + k|k At (Ak k|k At + Rk Rt )1 (xk+1 Ak X k |k ) , X k k k et
t t 1 k |k k |k A t k (Ak k|k Ak + Rk Rk ) Ak k|k .
(11.39)
(11.40)
160
La formule de mise ` a jour r etrograde des moyennes et des covariances de la loi de lissage est donc donn ee par : k |n = X k|k + k|k At Mk (X k+1|n Ak X k |k ) , X k
t k|n = k|k k|k At k Mk Ak k|k + k|k Ak Mk k+1|n Mk Ak k|k ,
(11.41) (11.42)
o` u
t 1 Mk = (Ak k|k At . k + Rk Rk )
Les r ecursions donn ees ci-dessus correspondent ` a lalgorithme de lissage de Rauch, Tung et Striebel Rauch et al. [1965].
11.4
Le ltre de Kalman
Lapproche que nous avons adopt e permet dobtenir de fa con el ementaire les distributions de pr ediction et de ltrage. Nous allons proc eder en nous appuyant sur la th eorie de la pr ediction lin eaire optimale (au sens du risque quadratique). Le point essentiel est que les equations de mise de la loi de ltrage et de lissage pourront, dans ce contexte, etre interpr et ees de fa con g eom etrique en utilisant les propri et es ( el ementaires) de la projection dans lespace des variables de carr e int egrable. Dans les mod` eles d etats cette interpr etation g eom etrique fournit un guide permettant le d eveloppement dalgorithmes. De plus, lapproche que nous allons d evelopper nest plus limit ee aux simples mod` eles gaussiens, mais sappliquent ` a tous les mod` eles d etats lin eaires pour lesquels les lois des bruit d etats et de mesure poss` edent des moments dordre 2. Pr ediction lin eaire optimale Nous rappelons dans ce paragraphe les el ements essentiels sur la projection lin eaire dans L2 que nous exploiterons dans la suite de notre expos e. Soit Y0 , . . . , Yk et X des el ements de L2 (, F , P). Nous supposons pour dans un premier temps que Y0 , . . . , Yk et X sont des variables al eatoires scalaires. Le pr edicteur lin eaire optimal de X etant donn es Y0 , . . . , Yk est la projection lin eaire dans L2 de la variable al eatoire X sur lespace engendr e par les variables Y0 , . . . , Yk et la variable constante 1,
k
span(1, Y0 , . . . , Yk ) =
def
Y :Y =+
i=0
i Yi ,
, 0 , . . . , k R
Nous noterons le pr edicteur lin eaire optimal par proj ( X | 1, Y0 , . . . , Yk ), ou plus simplement par X dans les situations o` u il ny a pas de confusion possible sur la d enition de lespace sur laquelle est eectu ee la projection. satisfait les conditions La caract erisation de la projection dans les espaces de Hilbert montre que X )Y E (X X =0 pour tout Y span(1, Y0 , . . . , Yk ) .
Comme 1, Y0 , . . . , Yk est une famille g en eratrice de span(1, Y0 , . . . , Yk ), cette condition peut etre r e ecrite de fa con equivalente : )1 = 0 E (X X )Yi = 0, et E (X X 161 pour tout i = 0, . . . , k .
span(1, Y0 , . . . , Yk ) et X X Yi seront aussi utilis Les notations X X ee pour indiquer les 2 span(1, Y0 , . . . , Yk ), cette variable relations dorthogonalit e (dans lespace L (, F , P)). Comme X s ecrit comme une combinaison lin eaire des variables 1, X1 , . . . , Xk = + 0 (Y0 E {Y0 }) + . . . + k (Yk E {Yk }) X (11.43)
pour des facteurs , 0 , . . . , k scalaires. En notant par k la matrice [Cov(Yi , Yj )]0i,j k et k le vecteur [Cov(X, Y0 ), . . . , Cov(X, Yk )]t , les coecients d enissant le pr edicteur lin eaire optimal sont solutions de l equation = E {X } and n = k , where = (1 , . . . , k )t . (11.44)
est unique. Si Le th eor` eme de projection dans les espaces de Hilbert assure que la projection X la matrice n est inversible, les coecients de projection sont eux aussi d enis de fa con unique en r esolvant le syst` eme lin eaire pr ec edent. Si la matrice de covariance k est singuli` ere, le syst` eme d equation (11.44) admet une innit e de solutions, mais toutes ces solutions d enissent le m eme pr edicteur lin eaire optimal. Une cons equence imm ediate de la Proposition ???? est que la matrice de covariance de lerreur de pr ediction a pour expression ) = E X (X X ) = Cov(X ) Cov(X ) . Cov(X X (11.45)
Remarque 11.2 Comme E {(Yi E {(} Yi ))1} = 0 pour i = 0, . . . , k , la projection sur lespace span(1, Y0 , . . . , Yk ) peut etre d ecompos ee sous la forme de la somme de la projection sur lespace engendr ee par la variable al eatoire constante span(1), qui est egale ` a E {X }, et de la projection sur lespace engendr e par les variables al eatoires Y0 , . . . , Yk recentr ees, span(Y0 E {Y0 } , . . . , Yk E {Yk }). En suivant (11.44), la projection de la variable al eatoire X est obtenue en projetant tout dabord sur les variables al eatoires recentr ees Yi E {Yi } puis en ajoutant au r esultat la moyenne E {X } de la variable al eatoire X . Par souci de simplicit e, nous supposerons dans la suite que les variables sont toutes de moyenne nulle (linclusion des moyennes etant triviale !). Nous etendons maintenant les r esultats pr ec edents au cas de variables al eatoires vectorielles D enition 11.4.1 (Pr edicteur lin eaire optimal) Soit X = [X (1), . . . , X (dx )]t un vecteur al eatoire de dimension dx et Y0 , . . . , Yk une famille de vecteurs al eatoires de dimensions dy , el ements de L2 (, F , P). Nous supposons de plus que E {X } = 0 et E {Yi } = 0 pour i = 0, . . . , k . Le pr edicteur lin eaire optimal du vecteur al eatoire X etant donn e les (1), . . . , X (dx )]t dont les composantes X (j ), j = 1, . . . , dx , observations Y0 , . . . , Yk est le vecteur [X sont egales aux projections au sens de L2 des variables al eatoires X (j ) sur les espaces lin eaires span(Y1 , . . . , Ydy ) = span {Yi (j )}0ik,1j dy . Nous notons = proj ( X | Y0 , . . . , Yk ) = proj ( X | span(Y0 , . . . , Yk )) . X
def
162
La d enition 11.4.1 montre que la j` eme composante X (j ) du vecteur X est projet e sur lespace engendr e par les composantes des vecteurs Y1 , . . . , Yk , k dy Y :Y = i,j Yi (j ) , i,j R .
i=0 j =1
peut En proc edant comme pour les variables scalaires, la projection X etre ecrite
k
= X
i=0
i Yi ,
o` u 0 , . . . , k sont des matrices dx dy . Les relations dorthogonalit e qui caract erisent la projection se r de X esument ` a
k
i E Yi Yjt = E XYjt
i=0
for j = 0, . . . , k ,
(11.46)
o` u E Yi Yjt
et E XYjt
sont des matrices de dimension dy dy et dx dy d enies par E Yi Yjt E XYjt

l1 l2 l1 l2
= E {Yi (l1 )Yj (l2 )} , = E {X (l1 )Yj (l2 )} .
Le th eor` eme de projection assure quil existe au moins une solution ` a ce syst` eme d equation. Cette solution est unique si la matrice dy (k + 1) dy (k + 1) E Y0 Y0t E Y0 Ykt . . . . k = . . t t E Yn Y0 E Yn Yn est inversible. Comme dans le cas scalaire, la matrice de covariance de lerreur de pr ediction sexprime de la fa con suivante X t ) = E X (X X )t = E XX t E X Cov(X X Notons que, pour toute matrice A (d eterministe) de dimension appropri ee proj ( AX | Y0 , . . . , Yk ) = A proj ( X | Y0 , . . . , Yk ) . (11.48) . (11.47)
Cette relation traduit simplement le fait que lop erateur de projection dans les espaces de Hilbert est lin eaire. Remarque 11.3 Lorsque k = 0, et que la matrice de covariance E Y Y t est inversible, le pr edicteur lin eaire optimal X en fonction Y a pour expression = E XY t E Y Y t 1 Y , X (11.49) ) = E X (X X )t = E XX t E XY t Cov(X X E YYt
1
E Y Xt .
L equation (11.49) est equivalente aux equations (11.22) et (11.23), sous lhypoth` ese que X est une variable ` a moyenne nulle. Pour un vecteur al eatoire gaussien, le pr edicteur lin eaire optimal et la covariance de lerreur de pr ediction coincide avec la moyenne et la variance de la loi de X conditionnelle a Y. ` 163
Innovation Consid erons lespace span(Y0 , . . . , Yj ) engendr e par les observations jusqu` a linstant j . Par analogie avec la proc edure dorthogonalisation de Gram-Schmidt, nous pouvons remplacer les vecteurs al eatoires {Y0 , . . . , Yj } par un ensemble de vecteurs al eatoires { 0 , . . . , j } d ecorr el es dont les composantes engendrent le m eme sous-espace de L2 : span(Y0 , . . . , Yj ) = span( 0 , . . . , j ) pour tout j = 0, . . . , k . (11.50)
0
La construction de ces variables al eatoires peut etre eectu ee de fa con r ecursive. Nous posons puis nous d enissons par r ecurrence la suite de vecteurs al eatoires, pour j 0
j +1
= Y0
= Yj +1 proj ( Yj +1 | span(Y0 , . . . , Yj ))
(11.51)
La projection de Yj +1 sur span(Y0 , . . . , Yj ) = span( 0 , . . . , j ) a une forme explicite car, par construction, les vecteurs al eatoires 0 , . . . , j sont d ecorr el es :
j
proj ( Yj +1 | span( 0 , . . . , j )) =
i=0
E Yj +1
t i
t i i
i,
(11.52)
Cette relation conduit ` a la formule r ecursive :

j j +1
= Yj +1
i=0
E Yj +1
t i
t i i
i.
(11.53)
Le processus { j , j 0} est appel ee innovation (ou innovation lin eaire) du processus {Yj , j 0}. La suite dinnovation { j }j 0 , d enie r ecursivement par l equation (11.53) est d ecorr el ee et v erie, pour tout j 0, (11.54) j span(Y0 , . . . , Yj ) and Yj span( 0 , . . . , j ) . Pour eviter la d eg en erescence de (11.52) et (11.53), nous devons supposer que la matrice de t enie positive. covariance E j j est d D enition 11.4.2 (Processus non d eterministe) Le processus {Yk }k0 est non-deterministe si pour tout j 0 la matrice Cov [Yj +1 proj ( Yj +1 | Y0 , . . . , Yj )] est d enie positive. La suite dinnovation { k }k0 est tr` es utile pour obtenir les formules de mise ` a jour des moyennes et |k le pr covariance de pr ediction et de ltrage. Soit Z L2 (, F , P) et soit Z edicteur lin eaire optimal de Z etant donn e les observations jusqu` a linstant k . Z|k v erie la r ecursion
k
|k = Z
i=0
E Z
t i
E
t k
t i i
1 i t k k 1 k
(11.55) .
|k1 + E Z =Z
164
La matrice de covariance de lerreur de pr ediction v erie |k ) = Cov(Z ) Cov(Z |k ) Cov(Z Z

k
(11.56)
t i
= Cov(Z )
i=0
E Z
t i i t k
iZ t k k
|k1 ) E Z = Cov(Z ) Cov(Z
kZ
11.5
Equations de pr ediction et de ltrage
Filtre de Kalman Consid erons le mod` ele d etat Xk+1 = Ak Xk + Rk Uk , Yk = Bk Xk + Sk Vk , (11.57) (11.58)
o` u le bruit d etat {Uk }k0 et de mesure {Vk }k0 sont des bruits blancs faibles (moyenne nulle et covariance identit e), d ecorr el es. L etat initial X0 est suppos e d ecorr el e des bruits d etats et de mesure {Uk }k0 and {Vk }k0 et est tel que E {X0 } = 0 et Cov(X0 ) = . Nous supposons aussi que le processus {Yk }k0 est non d eterministe (d enition 11.4.2). L equation (11.58) montre quune condition susante pour que les observations soient non d eterministes est que la matrice de covariance du bruit t soit d Sk Sk enie positive pour tout k 0. k|n la projection de Zk sur lespace Pour tout processus scalaire ou vectoriel {Zk }k0 , nous notons Z k|k1 correspond lin eaire engendr e par les vecteurs dobservations Y0 , . . . , Yn . Avec cette convention, X k|k1 ` au pr edicteur lin eaire optimal (` a un pas) de l etat et Y a la pr ediction lin eaire optimale de lobservation etant donn e l etat. Le processus dinnovation k introduit au paragraphe pr ec edent est par d enition egal ` a la di erence Yk Yk|k1 entre lobservation ` a la date k et sa pr ediction lin eaire optimale. Nous utiliserons de plus les notations suivantes : k = Cov( k )
def
and
def k |n ) . k|n = Cov(Xk X
En projetant (11.58) sur span(Y0 , . . . , Yk1 ) nous obtenons k|k1 . k|k1 = Bk X k|k1 + Sk V Y Sous les hypoth` eses que nous avons faites sur le mod` ele d etat E Vk Yjt k|k1 = 0. Par cons de telle sorte que V equent
k
(11.59) = 0 pour j = 0, . . . , k 1,
k|k1 = Yk Bk X k|k1 . = Yk Y
(11.60)
Nous appliquons ensuite la d ecomposition (11.55) au vecteur al eatoire Xk+1 pour obtenir l equation de mise ` a jour du pr edicteur. Equation (11.55) appliqu ee ` a Z = Xk+1 implique k+1|k = X k+1|k1 + E Xk+1 X 165
t k
t k k
1 k
(11.61)
En projetant l equation d etat (11.57) sur lespace engendr e par Y0 , . . . , Yk1 , nous obtenons k|k1 = Ak X k|k1 , k+1|k1 = Ak X k|k1 + Rk U X o` u nous avons utilis e que E Uk Yjt sexprime (11.62)
= 0 pour les indices j = 0, . . . , k 1. Par cons equent, (11.61) k+1|k = Ak X k|k1 + Hk X

k
(11.63)
o` u Hk , est appel e le gain de Kalman donn e par Hk = E Xk+1 Pour calculer le gain de Kalman, notons que
k def t k 1 k .
(11.64)
k|k1 = Bk (Xk X k|k1 ) + Sk Vk . = Yk Bk X
(11.65)
k|k1 )t = 0, (11.65) implique que En utilisant la relation E Vk (Xk X

t t k = Bk k|k1 Bk + Sk Sk ,
(11.66)
k|k1 . En utilisant le m eme principe, o` u k|k1 est la covariance de lerreur de pr ediction Xk X E Xk+1
t k
= Ak E Xk
t k
+ Rk E Uk
t k
t k | k 1 )t B t + Rk E Uk (Xk X = Ak k | k 1 B k k t , = Ak k | k 1 B k
(11.67)
o` u nous avons utilis e Uk span(X0 , U0 , . . . , Uk1 , V0 , . . . , Vk1 ) span(Xk , Y0 , . . . , Yk1 ) . En combinant (11.66) et (11.67) conduit a ` lexpression suivante du gain de Kalman :
t t t + Sk Sk Bk k|k1 Bk Hk = Ak k|k1 Bk 1
(11.68)
Finalement, nous devons evaluer la covariance de lerreur de pr ediction k+1|k . En utilisant t = 0, nous obtenons l equation d etat Xk+1 = Ak Xk + Rk Uk et E Xk Uk
t Cov(Xk+1 ) = Ak Cov(Xk )At k + Rk Rk .
(11.69)
k
k|k1 et linnovation ` De fa con similaire, le pr edicteur lin eaire optimal ` a la date k X a la date k aussi d ecorr el ees. Par cons equent, k+1|k ) = Ak Cov(X k|k1 )At + Hk k H t . Cov(X k k En utilisant (11.47), nous obtenons k+1|k ) k+1|k = Cov(Xk+1 ) Cov(X
t t = Ak k|k1 At k + Rk Rk Hk k Hk ,
sont
(11.70)
(11.71)
en soustrayant (11.70) de (11.69). L equation (11.71) est appel ee equation de Riccati. En rassemblant (11.60), (11.63), (11.66), (11.68), et (11.71), nous obtenons la forme classique que ltre de Kalman 166
Algorithme 11.1 (R ecursion de Kalman pour la pr ediction) Initialisation : X0|1 = 0 et 0|1 = . R ecursion : Pour k = 0, . . . n,
k
k|k1 , = Yk Bk X , , +
t Rk Rk
innovation cov. innovation Gain de Kalman

k
(11.72) (11.73) (11.74) (11.75) (11.76)
t t k = Bk k|k1 Bk + Sk Sk t 1 Hk = Ak k|k1 Bk k ,
k+1|k = Ak X k|k1 + Hk X k+1|k = (Ak
predict. etat . cov. erreur de pr ediction
Hk Bk )k|k1 At k
Remarque 11.4 L evaluation de la vraisemblance pour un mod` ele d etat g en eral est dicile. Pour un mod` ele lin eaire gaussien, k et k d eterminent compl` etement la densit e de probabilit e de lobservation Yk conditionnellement aux observations Y0 , . . . , Yk1 , (2 )dy /2 |k |1/2 exp 1 t 1 2 k k
k
(11.77)
o` u dy est la dimension du vecteur dobservations.Par cons equent, la log-vraisemblance du vecteur dobservations jusqu` a la date n peut etre obtenu de la fa con suivante
n
(n + 1)dy 1 log(2 ) = 2 2
log |k | +
k=0
t 1 k k k
(11.78)
qui peut etre calcul e (r ecursivement en n) en utilisant lalgorithme 11.1. L equation (11.78) sav` ere tr` es importante pour lestimation des param` etres dans un mod` ele d etat. 11.2 Exemple (Filtrage dune marche al eatoire observ ee en pr esence de bruit): An dillustrer lutilisation de lalgorithme 11.1 sur un exemple el ementaire, consid erons une marche al eatoire discr` ete observ ee en pr esence de bruit Xk+1 = Xk + u Uk , Yk = Xk + v Vk . Dans cet exemple, toutes les variables sont scalaires. En appliquant les equations de Kalman (pour la pr ediction), nous obtenons, pour k 1, k+1|k = X k | k 1 + X k |k 1 k | k 1 Yk X 2 k | k 1 + v k |k 1 + a k Y k , = (1 ak )X
2 u
(11.79)
k+1|k = k|k1 + =
2 k | k 1
2 k|k1 + v
2 k | k 1 v 2 def + u = f (k|k1 ) , 2 k|k1 + v
(11.80)
167
2 ). La r 0|1 = 0 et 0|1 = . o` u nous avons not e ak = k|k1 /(k|k1 + v ecursion est initialis ee par X Dans ce cas particulier, les matrices de transition d etats et dobservations sont ind ependantes du temps et il est int eressant de consid erer le comportement en temps long du ltre de Kalman. Il est facile de montrer que la matrice de covariance de pr ediction converge vers une limite , qui est une solution de l equation 2 v 2 + u . 2 + v
= f () =
En r esolvant cette solution (en prenant la solution positive) nous obtenons = 1 2 + 2 u

4 + 4 2 2 . u u v
Pour M < , sup0M |f()| < 1. De plus, pour k 1, (k+1|k )(k|k1 ) 0. Ces remarques montrent que k+1|k appartient pour tout k ` a lintervalle k|k1 et , et en particulier k+1|k max(1|0 , ). Comme le coecient de Lipshitz de f sur tout ensemble born e de R+ est stric2) tement inf erieur ` a 1, ind ependamment de la valeur de , et donc les coecients ak = k|k1 /(k|k1 +v converge vers a = , 2 + v k+1|k ) converge vers + 2 . et lerreur quadratique (Yk+1 Y v
Equations de Kalman pour le ltre k|k1 Lalgorithme 11.1 permet d evaluer de fa con r ecursive le pr edicteur lin eaire optimal de l etat X et la covariance de lerreur de pr ediction k|k1 . Il est bien entendu possible dobtenir des equations similaires pour la moyenne de la distribution de ltrage Xk|k et la covariance associ ee k|k . Nous utilisons cette fois encore l equation (11.55), que nous appliquons avec Z = Xk , pour obtenir k |k = X k|k1 + E Xk X
def t k 1 k k
k|k1 + Kk =X
(11.81)
1 o` u Kk = Cov(Xk , k ) k est le gain de Kalman (pour le ltrage). Le membre de droite de (11.81) peut etre r e ecrit de la fa con suivante
k1|k1 + Rk1 U k1|k1 = Ak1 X k1|k1 , k|k1 = Ak1 X X o` u nous avons utilis e Uk1 span(X0 , U0 , . . . , Uk2 ) span(Y0 , . . . , Yk1 ) .
(11.82)
De fa con similaire, le second terme du membre de droite de (11.81) peut etre ecrit de fa con equivalente
t 1 Kk = k|k1 Bk k ,
(11.83)
car
k|k1 ) + Sk Vk et E Xk V t = 0. = Bk (Xk X k 168
Pour obtenir une r ecursion compl` ete, il reste a ` relier k|k et k|k1 . L equation d etat Xk = Ak1 Xk1 + Rk1 Uk1 et l equation de pr ediction d etat Xk|k1 = Ak1 Xk1|k1 implique que
t Cov(Xk ) = Ak1 Cov(Xk1 )At k1 + Rk1 Rk1 , k|k1 ) = Ak1 Cov(X k1|k1 )At , Cov(X k 1
ce qui, combin e avec (11.47), produit

t k|k1 = Ak1 k1|k1 At k1 + Rk1 Rk1 .
(11.84)
De fa con similaire, la r ecursion d etat Xk = Ak1 Xk1 + Rk1 Uk1 et l equation de mise ` a jour du ltre Xk|k = Ak1 Xk1|k1 + Kk k implique que
t t k|k = Ak1 k1|k1 At k1 + Rk1 Rk1 Kk k Kk .
(11.85)
En rassemblant ces di erentes r ecursions, nous obtenons les equations de Kalman pour le ltre Algorithme 11.2 (Filtrage de Kalman) Pour k = 0, . . . n k|k1 = 0 et k|k1 = ; autrement Si k = 0, posons X k1|k1 , k|k1 = Ak1 X X
t k|k1 = Ak1 k1|k1 At k1 + Rk1 Rk1 .
Mise ` a jour
k
k|k1 , = Yk Bk X
t 1 k|k1 Bk k , k
innovation cov. innovation gain de Kalman (ltre) , estim. moy. du ltre cov. ltre
(11.86) (11.87) (11.88) (11.89) (11.90)
t t , + Sk Sk k = Bk k|k1 Bk
Kk = k |k = X k|k1 + Kk X
k|k = k|k1 Kk Bk k|k1 .
Remarque 11.5 Les adaptations n ecessaires pour transformer les r ecursions de pr ediction et de ltrage au cas o` u les bruits d etats et de mesures ne sont pas centr es sont directs. Lid ee est de d enir un = X E {X }, U = U E {U }, Y = Y E {Y }, and mod` ele d etat sur les variables centr ees Xk k k k k k k k k Vk = Vk E {Vk } ; les moyennes des variables d etats et des mesures peuvent etre calcul es directement a partir des ` equations d etats et de mesure E {Xk+1 } = Ak E {Xk } + Rk E {Uk } , E {Yk } = Bk E {Xk } + Sk E {Vk } . Il est clair que
Xk +1 = Xk+1 E {Xk+1 } = Ak (Xk E {Xk }) + Rk (Uk E {Uk }) = Ak Xk + Rk Uk
169
et de fa con similaire
Yk = Yk E {Yk } = Bk Xk + Sk Vk . , Y } = 0, E {U } = 0 and Par cons equent {Xk ele (11.57)(11.58) avec X0 k k0 satisfont le mod` k E {Vk } = 0. Les r ecursions de Kalman peuvent etre utilis ees directement pour calculer X k|k1 , le pr edicteur lin eaire optimal de l etat Xk etant donn e Y0 , . . . , Yk1 . Le pr edicteur lin eaire optimal de Xk etant donn es Y0 , . . . , Yk1 est alors
k | k 1 = X X k|k1 + E {Xk } . Les equations de ltrage peuvent etre obtenus de fa con similaire.
11.6
Lissage
Nous allons dans ce paragraphe d eriver une seconde solution au probl` eme du lissage mais qui op erera directement sur le bruit d etat Uk plut ot que directement sur le vecteur d etat Xk . Nous allons obtenir ainsi une autre forme de lalgorithme de lissage, qui va sav erer plus ecace num eriquement que lalgorithme RTS, est connu sur le nom de lalgorithme de lissage du bruit (disturbance smoother), et a et e introduit par De Jong [1988], Kohn and Ansley [1989], and Koopman [1993]. Ces di erents algorithmes sont tr` es similaires ` a ceux d eriv es par Bryson et Frazier Bryson and Frazier [1963]voir aussi [Kailath et al., 2000, Section 10.2.2]. k|n la moyenne de lissage du bruit d Pour k = 0, . . . , n 1 nous notons U etat, i.e., le pr edicteur lin eaire optimal du bruit d etat Uk en fonction des observations Y0 , . . . , Yn . Nous notons k|n la matrice de covariance def k |n ) . k|n = Cov(Uk U Nous allons tout dabord donner la forme des r ecursions ; nous justierons ensuite ces r ecursions Algorithme 11.3 (Lissage du bruit d etat) [Initialisation :] Appliquer le ltre de Kalman (Algorithme 11.1) et m emoriser pour k = 0, . . . , n les innovations 1 , et la covariance de pr ediction k|k1 , et , linverse de la covariance de linnovation k k k = Ak Hk Bk , o` u Hk est le gain de Kalman (forme pr ediction). Filtrage direct Lissage : arri` ere : Pour k = n 1, . . . , 0, calculer pk = Ck =
t 1 Bn n n 1 t Bk+1 k+1 def
k+1
+ t k+1 pk+1
for k = n 1, autrement, for k = n 1, autrement,
(11.91) (11.92) (11.93)
t 1 B Bn n n 1 t Bk+1 k+1 Bk+1 + t k+1 Ck+1 k+1
k |n = R t p k , U k k|n = I
t Rk Ck Rk
. 170
(11.94)
Initialisation du lissage de l etat : Calculer 0|n = B t 1 X 0 0 0|n = Lissage de l etat : Pour k = 0, . . . n 1, k+1|n = Ak X k |n + R k U k |n , X k+1|n = Ak k | n At k
t + Rk k|n Rk t Ak k|k1 t k Ck Rk Rk t Rk Rk Ck k k|k1 At k. t 0 + 0 p0 t 1 B0 0 B0 +
, t 0 C0 0 .
(11.95) (11.96)
(11.97) (11.98)
Lalgorithme 11.3 est assez complexe, comportant trois etapes. La premi` ere consiste ` a appliquer les equations de Kalman (forme pr ediction). La seconde est une passe arri` ere pour obtenir les estimateurs liss es du bruit de mesure. La troisi` eme etape consiste ` a calculer dans une passe avant les estimateurs de lissage des etats en utilisant les estimateurs liss es du bruit d etat. La preuve de la correction des r ecursions ci-dessus est divis ee en deux parties, correspondant aux deux derni` eres etapes de lalgorithme. monstration (Lissage arrie `re) Nous commen De cons par justier les equations requises pour calk|n pour k = n 1 ` culer le lissage du bruit d etat U a 0 (en d ecroissant). Comme pr ec edemment, nous utiliserons la suite des innovations { 0 , . . . , n } plut ot que directement les observations {Y0 , . . . , Yn }. En utilisant (11.55), nous obtenons :
n n
k |n = U
i=0
Uk t i
1 i i
=
i=k+1
E Uk
t i
1 i, i
(11.99)
o` u nous avons utilis e la propri et e Uk span{Y0 , . . . Yk } = span{ 0 , . . . ,

k} ,
pour obtenir la deuxi` eme expression. Nous allons prouver par r ecurrence que pour i = k + 1, . . . , n, i|i1 )t = E Uk (Xi X E Uk Notons tout dabord que E Uk
t k+1 t i t , Rk t t t t Rk k+1 k+2 . . . i1 ,
i = k + 1, i k + 2,
(11.100) (11.101)
t Bt Rk k+1 , t t t t Rk k+1 t k+2 . . . i1 Bi ,
i = k + 1, i k + 2.
k+1|k )t B t = E Uk (Xk+1 X k+1

t t t t = E Uk Xk +1 Bk+1 = Rk Bk+1 ,
en utilisant (11.60) et les relations dorthogonalit e Uk Vk+1 , Uk span(Y0 , . . . , Yk ) et Uk Xk . Supposons maintenant que les relations (11.100)(11.101) sont satisfaites pour i k +1. En combinant l equation d etat (11.57) et l equation de mise ` a jour du pr edicteur (11.63), nous obtenons i+1|i = i (Xi X i|i1 ) + Ri Ui Hi Si Vi . Xi+1 X 171 (11.102)
En utilisant E Uk Uit = 0 et E Uk Vit = 0, lhypoth` ese de r ecurrence implique que

t t t t i+1|i )t = E Uk (Xi X i|i1 )t t E Uk (Xi+1 X i = Rk k+1 k+2 . . . i .
(11.103)
En proc edant comme dans le cas i = k ci-dessus, nous ecrivons E Uk

t i+1 t t i+1|i )t B t = Rt t t = E Uk (Xi+1 X i+1 k k+1 k+2 . . . i Bi+1 ,
(11.104)
qui, par r ecurrence, montre que (11.100)(11.101) est v eri e pour tous les indices i k + 1. En combinant (11.101) et (11.99), nous obtenons
n
k |n = R t U k
1 t Bk +1 k+1
k+1 + i=k+2
t t 1 t k+1 . . . i1 Bi i
(11.105)
o` u le terme entre parenth` ese correspond ` a pk d eni r ecursivement par la relation (11.91) : ceci montre (11.93). k|n , nous appliquons Eq. (11.56) qui implique Pour calculer la covariance k|n de lerreur Uk U k |n k|n = Cov(Uk ) Cov U
n
(11.106)
t i Uk n
=I
i=k+1
E Uk
t i
1 i E
1 t t = I Rk Bk +1 k+1 Bk+1 + i=k+2
t t 1 t k+1 . . . i1 Bi i Bi i1 . . . k+1 Rk ,
o` u I est la matrice identit e. monstration (Lissage de le tat) En utilisant une preuve par induction similaire ` De a (11.100) (11.101), nous obtenons i|i1 )t = E Xk (Xi X E Xk
t i
k|k1 , t t k|k1 t k k+1 . . . i1 ,
i = k, i k + 1,
(11.107) (11.108)
t , k|k1 Bk t t t k|k1 t k k+1 . . . i1 Bi ,
i = k, i k + 1,
En utilisant (11.55), le pr edicteur lin eaire optimal de l etat initial X0 en fonction des observations Y0 , . . . , Yn est donn e par
n
0|n = X
i=0
E X0
t i
1 i. i
(11.109)
Une application directe de (11.108),

n
0|n = X
t 1 B0 0 0
+
i=1
t t 1 t 0 . . . i1 Bi i
(11.110)
172
montre (11.95). En proc edant comme pour (11.106), lexpression de la covariance de lerreur d etat (11.96) se d eduit de (11.56). L equation de mise ` a jour (11.97) est une cons equence directe de la lin earit e de la projection combin ee avec l equation (11.57). Finalement, pour prouver (11.98), nous combinons l equation (11.57) avec (11.97) pour obtenir k+1|n ) = Cov[Ak (Xk X k|n ) + Rk (Uk U k|n )] = Cov(Xk+1 X
t t t t t Ak k|n At k + Rk k|n Rk Ak E Xk Uk|n Rk Rk E Uk|n Xk Ak , (11.111)
k|n (Uk U k|n )t o` u nous avons utilis e E X
= 0 pour obtenir la seconde relation. Pour calculer
t , nous utilisons (11.105), en E Xk U ecrivant k |n

n
t E Xk U k|n = E Xk
t k+1
1 k+1 Bk+1 Rk
+
i=k+2
E Xk
t i
1 i Bi i1 . . . k+1 Rk .
(11.112)
Finalement, en invoquant (11.108), nous obtenons

1 t t t E Xk U k|n = k|k1 k Bk+1 k+1 Bk+1 Rk n
+
i=k+2
t t 1 t k |k 1 t k k+1 . . . i1 Bi i Bi i1 . . . k+1 Rk ,
qui peut etre r e ecrit

t t E Xk U k|n = k|k1 k Ck Rk .
(11.113)
L equation (11.98) d ecoule de (11.111).
11.7
11.7.1
La m ethode ` a deux ltres

Param etrisation par la matrice dinformation
En supposant que V et Cov(Y ) = B t X B + V sont des matrices de covariance de rang complet, la densit e de X conditionnelle ` a Y , que nous notons dans ce paragraphe p(x|y ) est, en appliquant la r` egle de Bayes, proportionnelle ` a la densit e a priori p(x) de X et la densit e conditionnelle p(y |x) de lobservation Y conditionnelle ` a l etat X , p(x|y ) exp 1 1 t 1 (y Bx)t V (y Bx) + (x X ) X (x X ) 2 , (11.114)
o` u le symbole indique que les deux quantit es apparaissant ` a droite et ` a gauche de lexpression pr ec edente di` erent dune constante multiplicative qui ne d epend pas de x. Notons que dans l equation pr ec edente, cette constante est facile ` a calculer car p(x|y ) est la densit e dune loi Gaussienne multidimensionnelle densit e de probabilit e. Nous pouvons calculer la densit e conditionnelle p(x|y ), en ecrivant 173
le terme apparaissant dans lexponentielle dans (11.114) comme une forme quadratique de la variable x: p(x|y ) exp { 1 t t 1 1 1 t t 1 x (B V B + X )x x (B V y + X X ) 2
1 1 t (B t V y + X X ) x
, (11.115)
ou de fa con equivalente p(x|y ) exp avec

1 1 X |Y = X |Y B t V y + X X , 1 1 X |Y = B t V B + X 1
1 1 (x X |Y )t X |Y (x X |Y )] 2
(11.116)
(11.117) (11.118)
Les equations (11.118) et (11.117) sont equivalentes aux equations (11.23) et (11.22). Le fait que (11.23) et (11.118) coincide est une cons equence directe du lemme dinversion matriciel. Il est int eressant dutiliser une param etrisation alternative utilisant linverse de la matrice de 1 covariance = et le vecteur = . La matrice est appel ee matrice dinformation et (, ) d enissent la param etrisation information de la densit e.
11.7.2
Le mod` ele lin eaire gaussien (Encore !)
Proposition 11.7.1 Consid erons le mod` ele Y = BX + V , (11.119) o` u B est une matrice d eterministe et X et V sont des vecteurs Gaussiens ind ependants v eriant X = Cov(X )1 E {X }, X = Cov(X )1 , V = Cov(V )1 et V = E {V } = 0, Then X |Y = X + B t V Y , X |Y = X + B t V B , o` u X |Y = Cov(X |Y )1 E [ X | Y ] and X |Y = Cov(X |Y )1 . Les equations (11.120) et (11.121) sont des r e ecritures de (11.117) et (11.118), respectivement. Si les matrices X , V , ou X |Y ne sont pas des matrices de rang complet, (11.120) et (11.121) restent encore valides en utilisant le concept de distribution a priori impropre. Consid erons l equation Eq. (11.114) et supposons que la fonction p(x), par exemple, est constante. Dans ce cas, (11.115) a pour expression p(x|y ) exp 1 t t 1 1 t 1 t x (B V B )x xt (B t V y ) (B V y ) x 2 174 , (11.122) (11.120) (11.121)
1 qui est (en tant que fonction de x) une densit e gaussienne lorsque B t V B est de rang complet. Bien entendu, il faut interpr eter cette formule avec une certaine pr ecaution car il nexiste pas de densit e de probabilit e p(x) sui soit constante sur X. Il sagit, dans la terminologie des statistiques bay esiennes, dune loi impropre. Lutilisation de telle loi est commune dans le cadre de la th eorie de linf erence bay esienne. Linterpr etation de (11.122) est que, en prenant une a priori impropre constant pour X , la moyenne de X conditionnelle ` a Y est donn ee par 1 B t V B 1 1 B t V Y .
(11.123)
Le message important est que (11.123) d ecoule de (11.120) en supposant que X est la matrice nulle et que X est le vecteur nul. Donc la Proposition 11.7.1 couvre aussi le cas o` u la loi a priori sur X est impropre, ce qui correspond ` a supposer que X et X sont egaux ` a 0. Lexemple suivant illustre une situation un peu plus complexe : 11.3 Exemple: Consid erons le mod` ele (11.119) o` u X est un vecteur al eatoire de dimension 2, Y est une variable scalaire et B= 1 0 et Cov(V ) = 2 . En utilisation la proposition 11.7.1 les param` etres de la loi a posteriori sont donn es par X |Y = X + X |Y = X + 2 Y 0 2 0 0 0 , . (11.124) (11.125)
En particulier, si la loi a priori sur X est impropre constante, alors (11.124) et (11.125) montre que la distribution a posteriori de la premi` ere composante de X conditionnelle ` a Y est gaussienne de moyenne Y et de variance 2 , mais que la loi a posteriori de la seconde composante est elle aussi impropre et constante. Lexemple pr ec edent illustre le fait important que les formules donn ees dans la Proposition 11.7.1 restent valables m eme lorsque X et X est associ e` a une loi a priori impropre. La loi de X conditionnelle ` a X peut elle-m eme etre impropre, mais les param` etres information de cette loi impropre sont donn es par (11.120) et (11.121). Nous utiliserons aussi le r esultat suivant Lemme 11.7.2
exp
1 (y Bx)t 1 (y Bx) 2
exp
1 2
y t y 2 y t
dy , (11.126)
exp
1 t t x B (I + )1 Bx 2xt B t (I + )1 2
175
monstration Notons p(x) le terme apparaissant dans le terme de gauche de lexpression (11.126). De Nous avons 1 p(x) = exp xB t 1 Bx 2 En compl etant le carr e, nous avons y ( + 1 )1 ( + 1 Bx)
t
exp
1 t y ( + 1 )y 2y t ( + 1 Bx) dy . 2
(11.127)
( + 1 ) y ( + 1 )1 ( + 1 Bx) ( + 1 Bx)t ( + 1 )1 ( + 1 Bx) . (11.128)
Par cons equent p(x) exp 1 [2xt B t 1 ( + 1 )1 + xt B t 1 1 ( + 1 )1 1 Bx , 2 (11.129)
o` u nous navons fait gur e que les termes qui d ependent de x. L equation (11.126) d ecoule des identit es 1 1 1 1 matricielles ( + ) = (I + ) et 1 1 ( + 1 )1 1 = 1 ( + 1 )1 ( + 1 ) 1 = (I + )1 .
11.7.3
R ecursion r etrograde
Nous allons maintenant r e ecrire la r ecursion r etrograde en utilisant les param` etres dinformation. Les fonctions r etrogrades d enies par (11.31) ne sont pas des distributions de probabilit es. En eet, k|n (x) est la densit e des observations futures Yk+1 , . . . , Yn conditionnelles ` a Xk = x. Dans les mod` eles lin eaires gaussiens, la Proposition 11.7.1 montre que k|n (x) est de la forme p(y |x) exp 1 (y M x)t 1 (y M x) , 2
o` u les matrices M et sont donn ees par (11.22) et (11.23). En proc edant comme au paragraphe pr ec edent, cette densit e peut etre mise sous la forme (11.122), en rempla cant B et V par M et , respectivement. En utilisant cette r e ecriture, nous pouvons r einterpr eter k|n (x) comme la distribution de Xk conditionnelle ` a Yk+1 , . . . , Yn dans un pseudo-mod` ele o` u l etat Xk est suppos e etre distribu e suivant une loi a priori impropre constante. La fonction k|n (x) nest une distribution de probabilit e propre que si M t 1 M est de rang complet. En particulier, rappelons que la r ecursion r etrograde Eq. (11.32) est initialis ee en posant n|n (x) = 1 : par cons equent, n|n nest jamais une distribution gaussienne propre. Nous notons par k|n et k|n les param` etres dinformation (produit de la matrice de pr ecision et de la moyenne et matrice de pr ecision) correspondant ` a la distribution (propre ou impropre) k|n pour k = n. Par d enition, n|n = 0 et n|n = 0. Remarquons que k|n et k|n permettent de sp ecier k|n ` a une constante multiplicative inconnue. Proposition 11.7.3 (R ecursion r etrograde pour les param` etres dinformation) t est de rang Consid erons le mod` ele lin eaire gaussien donn e par (11.10)(11.11) et supposons que Sk Sk complet pour tout k 0. Les param` etres dinformation k|n and k|n qui d eterminent la fonction r etrograde k|n (` a une constante multiplicative pr` es), sont donn es r ecursivement par : 176
Initialisation : Posons n|n = 0 et n|n = 0. R ecursion r etrograde : Pour k = n 1 ` a 0,

t t k+1|n = Bk +1 Sk+1 Sk+1 t k+1|n = B t k+1 Sk+1 Sk+1 1 1
Yk+1 + k+1|n , Bk+1 + k+1|n ,

1
(11.130) (11.131) (11.132) (11.133)
t k|n = At k I + k+1|n Rk Rk t k |n = A t k I + k+1|n Rk Rk
k+1|n ,
1
k+1|n Ak .
monstration Consid De erons tout dabord le calcul de la fonction k+1|n (x) gk+1 (x)k+1|n (x) (11.134)
` partir de k+1|n . Cette fonction peut a etre interpr et ee comme la distribution a posteriori de X dans un pseudo-mod` ele dans lequel X serait distribu e suivant la densit e (potentiellement impropre) k+1|n (sp eci ee par les param` etres dinformation k+1|n et k+1|n ) et lobservation Y serait donn ee par Y = Bk+1 X + Sk+1 V , o` u V est ind ependant de X . Les equations (11.130)(11.131) correspondent aux param` etres dinfork+1|n par application de la Proposition 11.7.1. mation de la loi (potentiellement impropre) La fonction r etrograde (11.32) est d enie par k|n (x) k+1|n (x ) . Qk (x, dx ) (11.135)
Comme Qk est un noyau de transition gaussien (correspondant ` a l equation d etat (11.10)), (11.135) se d eduit directement du Lemme 11.7.2 qui donne (11.132) et (11.133). Il est possible de calculer r ecursivement la loi de lissage dans la r ecursion permettant de calculer la fonction r etrograde Algorithme 11.4 (Lissage avant-arri` ere) R ecursion directe : Mettre en oeuvre lalgorithme du l k|k et la covariance k|k de ltrage. trage de Kalman (Algorithm 11.2) et m emoriser la moyenne X R ecursion r etrograde : Mettre en oeuvre la r ecursion r etrograde puis calculer pour tout k k |n = X k|k + k|k I + k|n k|k X k|n = k|k k|k I + k|n k|k
1 1
k |k ) , (k|n k|n X k | n k |k .
(11.136) (11.137)
monstration Les De equations (11.136) and (11.137) sobtiennent exactement comme dans le Lemme 11.7.2, en rempla cant (y Bx)t 1 (y Bx) by (x )t 1 (x ) et en appliquant le k|k , = k|k , = k|n et = k|n . Si la matrice k|n est inversible, (11.136) r esultat avec = X et (11.137) d ecoulent de la Proposition 11.2.1.
177
Chapitre 12
Estimation des param` etres pour les mod` eles d etats

Dans le chapitre pr ec edent, nous nous sommes principalement int eress e ` a linf erence des etats (pr ediction, ltrage, lissage) en supposant que le mod` ele etait parfaitement connu. Dans la plupart des cas, les param` etres du mod` ele sont inconnus, et il est donc n ecessaire de les estimer en utilisant les donn ees. A lexception de quelques cas el ementaires, lutilisation destimateurs el ementaires (m ethodes des moments, moindres carr es) ne sont pas directement applicables. Nous allons nous int eresser dans ce chapitre ` a lestimation au sens du maximum de vraisemblance.
12.1
Maximum de vraisemblance : lapproche innovation
Consid erons le mod` ele lin eaire gaussien Xk+1 = Ak ()Xk + Rk ()Uk , Yk = Bk ()Xk + Sk ()Vk , o` u {Uk }k0 et {Vk }k0 sont des bruits blancs forts gaussiens, ind ependants et la condition initiale X0 est elle aussi gaussienne et est ind ependante des bruits d etats et de mesure. Le param` etre est suppos e appartenir ` a un sous-ensemble ouvert de Rd et les fonctions Ak (), Rk (), Bk () et Sk () sont des fonctions deux fois contin ument di erentiable de . Nous ne discutons pas ici de fa con g en erale le probl` eme didentiabilit e, auquel il convient en g en eral dapporter une r eponse au cas par cas. Supposons par exemple que, pour tout entier k , = (A, R, B, S ) et que Ak () = A, Rk () = R, Bk () = B et Sk () = S ), cest ` a dire que les matrices de transition d etat et de mesure sont constantes, ainsi que les matrices de covariance de l etat et du bruit. Remarquons quil nest possible didentier R et S qu` a une matrice unitaire pr et. En eet, si nous multiplions R ou S par nimporte quelle matrice unitaire (de dimension appropri ee) nous ne modions pas la distribution des observations. Les param` etres identiables sont donc les matrices de covariance R = RRt et S = SS t . De m eme, les matrices A et B ne sont identiables qu` a une similarit e pr et. En eet, posons Xk = T Xk pour une matrice inversible T quelconque ; il est clair que {(Xk , Yk )} satisfait aussi le mod` ele avec T AT 1 , 1 BT , et T R rempla cant A, B , et R, respectivement. 178
La vraisemblance du mod` ele peut etre calcul ee en utilisant les innovations.Le calcul de la vraisemblance est ais e en notant que, par construction, les innovations 1 (), . . . , n () donn ees par (11.51) sont des vecteurs gaussiens, ind ependants, ` a moyenne nulle et de covariance k () (voir (??)), qui peuvent etre evalu ees de fa con r ecursive
t t k () = Bk ()k|k1 ()Bk () + SSk () , t ( ) est la covariance du bruit de mesure et o` u SSk ediction k|k1 ( ) est la covariance de lerreur de pr optimale de l etat. La vraisemblance () est donn ee par
() =
1 2
log |k ()|
k=1
1 2
n 1 T k ( )k ( ) k ( ) , k=1
(12.1)
Bien entendu, LEq. (12.1) est une fonction non-lin eaire du param` etre ; pour calculer son maximum, nous utilisons des proc edures num eriques (voir Chapitre ??). Dans le cas pr esent, il nest pas tr` es ais e de calculer directement le gradient : il faut en eet calculer les d eriv ees de linnovation et de sa covariance par rapport ` a . Cette op eration est faisable, voir par exemple Gupta and Mehra [1974]. Nous donnerons dans la suite une fa con plus simple de calculer ces d eriv ees, bas ees sur lalgorithme de lissage.
12.2
Maximum de vraisemblance dans des mod` eles ` a donn ees latentes
An de pr esenter les m ethodes de fa con aussi concise que possible, nous adoptons ici un point de vue tr` es g en eral. Nous supposons simplement que la fonction de vraisemblance dint er et peut etre ecrite comme la constante de normalisation (ou fonction de partition) dune mesure nie. Dans la terminologie introduite dans Dempster et al. [1977], cette mesure nie est la vraisemblance des donn ees compl` etes. Les donn ees incompl` etes r ef` erent ` a la suite des observations.
12.2.1
Formulation du probl` eme et notations
Etant donn ee une mesure -nie sur (X, X ), nous consid erons la famille {f (; )} de fonctions -int egrables sur X. Cette famille est index ee par , o` u est un sous ensemble de Rd (o` u d N). Nous cherchons ` a maximiser la vraisemblance L() =
def
f (x ; ) (dx)
(12.2)
par rapport au param` etre . La fonction f ( ; ) peut etre vue comme une densit e de probabilit e non-normalis ee dont L() est la constante de normalisation. Dans les exemples usuels, f ( ; ) est une fonction relativement simple de . A linverse, le calcul de la quantit e L() n ecessite l evaluation dune int egrale dans un espace de grande dimension, op eration susamment complexe pour rendre dicile l evaluation de la fonction. Nous consid erons dans la suite le cas o` u f est la densit e de probabilit e jointe de deux variables X et Y , o` u Y est observ ee et X est latent. La variable X est appel ee la donn ee manquante, f est la vraisemblance compl` ete, et L est la vraisemblance des observations. 179
Dans la suite, nous supposons que L() est positive, et que la maximisation de L() equivaut ` a maximiser def () = log L() . (12.3) En statistique, est la log-vraisemblance. Nous associons ` a chaque fonction f ( ; ) la densit e de probabilit e p( ; ) (par rapport ` a la mesure de domination ) d enie par p(x ; ) = f (x ; )/L() .
def
(12.4)
12.2.2
Lalgorithme EM
Lalgorithme le plus couramment utilis e pour r esoudre le probl` eme destimation dans un mod` ele ` a donn ees latentes est lalgorithme EM (pour expectation-maximization) introduit par Dempster et al. [1977]. Lid ee centrale est de remplacer loptimisation de L par une suite doptimisation de fonctions plus simples D enition 12.2.1 (Quantit e interm ediaire de lEM) La quantit e interm ediaire de lEM {Q( ; )} est la famille de fonctions d enies sur par Q( ; ) =
def
log f (x ; )p(x ; ) (dx) .
(12.5)
La quantit e interm ediaire de lEM Q( ; ) peut etre interpr et ee comme la moyenne de log f (X ; ) lorsque X est distribu ee suivant la loi de densit e p( ; ) index ee par une valeur (a priori di erente de ) du param` etre. En utilisant (12.3) et (12.4), on peut r e ecrire la quantit e interm ediaire de lEM (12.5) de la fa con suivante Q( ; ) = () H( ; ) , (12.6) o` u H( ; ) =
def
log p(x ; )p(x ; ) (dx) .
(12.7)
Lzquation (12.6) montre que la quantit e interm ediaire de lEM Q( ; ) di` ere du logarithme de la fonction objectif () du facteur H( ; ) egal ` a lentropie de Shannon de la distribution p( ; ) [see for instance Cover and Thomas, 1991]. De plus H( ; ) H( ; ) = log p(x ; ) p(x ; ) (dx) , p(x ; ) (12.8)
est egal ` a la divergence de Kullback-Leibler (ou entropie relative) entre les lois de densit e p(; ) et p(; ). Nous notons le gradient et le hessien de la fonction f au point par f ( ) et 2 f ( ). Pour eviter des ambigu t es, le gradient de H( ; ) par rapport ` a son premier argument, evalu e ` a , est not e H( ; )|= (nous utilisons la m eme convention pour le Hessien). Hypoth` ese 12.2.2 (i) Lensemble des param` etres est un sous-ensemble ouvert de Rd . 180
(ii) Pour tout , L() est positive. (iii) Pour tout (, ) , . Nous sommes en mesure d enoncer le r esultat fondamental qui est ` a la base de lalgorithme EM. Proposition 12.2.3 Supposons que les hypoth` eses 12.2.2 soient v eri ees. Alors, pour tout (, ) , () ( ) Q( ; ) Q( ; ) , avec egalit e si et seulement si p( ; ) = p( ; ) -p.p. Supposons de plus que (a) L() est contin ument di erentiable sur ; (b) Pour tout , H( ; ) est contin ument di erentiable sur . Alors, pour tout , Q( ; ) est contin ument di erentiable sur et ( ) = Q( ; ) La preuve d ecoule de fa con el ementaire de (12.8). Lalgorithme EM Lessence de lalgorithme EM, sugg er e par (12.6), est que Q( ; ) peut etre utilis ee comme un substitut ` a (). Ces deux fonctions ne sont pas n ecessairement comparables, mais (12.9) montre que pour tout telle que Q( ; ) Q( ; ) satisfait L() L( ). Lalgorithme EM propos e par Dempster et al. [1977] consiste ` a construire une suite {i }i1 destimateurs. Chaque it eration se d ecompose en deux etapes. E-Step : D eterminer Q( ; i ) ; M-Step : Choisir i+1 comme la valeur de qui maximise Q( ; i ). Une cons equence imm ediate de (12.9) est que la suite { (i )}i0 est croissante : lalgorithme EM est monotone. Dautre part, si lit eration se stoppe en un point , alors la fonction Q( ; ) admet un maximum en et par cons equent v erie L( ) = 0, i.e. est un point stationnaire de la vraisemblance. La discussion ci-dessus est heuristique dans le sens o` u des conditions suppl ementaires sont requises pour que lalgorithme EM converge . EM dans une famille exponentielle D enition 12.2.4 (Famille Exponentielle) La famille {f ( ; )} d enit une famille exponentielle de fonctions positives sur X si f (x ; ) = exp{ ()t S (x) c()}h(x) , o` u S : X Rd et : Rd , c : R et h : X R+ . 181 (12.11)
=
| log p(x ; )|p(x ; ) (dx) < .
(12.9)
(12.10)
Lorsque {f ( ; )} est une famille exponentielle et interm ediaire de lEM s ecrit Q( ; ) = ()t
|S (x)|f (x ; ) (dx) pour tout , la quantit e
S (x)p(x ; ) (dx) c() +
p(x ; ) log h(x) (dx) .
(12.12)
Notons que le second terme dans le membre de droite ne d epend pas de et ne joue donc aucun r ole dans loptimisation. Il nest donc pas n ecessaire de le calculer. Le premier terme du membre de droite (12.12) poss` ede une expression statistique d` es que lon sait calculer la moyenne de S sous p( ; ). Les deux conditions n ecessaires pour que lon puisse mettre en oeuvre lalgorithme EM est donc que E-Step : la moyenne du vecteur S (X ) sous p( ; ) soit calculable. M-Step : la maximisation ()t s c() par rapport ` a est faisable (et ais ee) pour tout s dans lenveloppe convexe de S (X).
12.2.3
M ethodes directes
Il est aussi possible de calculer le gradient de () par rapport au param` etre . Ceci d ecoule directement de l equation (12.10). Au lieu dutiliser lalgorithme EM, il est possible dutiliser des outils eprouv es doptimisation non lin eaire, bas ees sur le calcul des gradients. Calcul du gradient et du Hessien dans un mod` ele ` a donn ees incompl` etes Proposition 12.2.5 Supposons que 12.2.2 et les hypoth` eses enonc ees ci-dessous soient satisfaites (a) L() est deux fois contin ument di erentiable sur . (b) Pour tout , H( ; ) est deux fois contin ument di erentiable sur . De plus, log p ( x ; ) | p ( x ; ) (d x ) est ni pour k = 1 , 2 et tout ( , ) , et |k k Alors, ( ) = 2 ( ) = 2 log f (x ; ) log f (x ; )|= p(x ; ) (dx) , p(x ; ) (dx) + 2 log p(x ; )
=
log p(x ; )p(x ; ) (dx) =
k log p(x ; )p(x ; ) (dx) .
(12.13)
p(x ; ) (dx) . (12.14)
La deuxi` eme identit e peut etre r e ecrite sous la forme equivalente 2 ( ) + ( ) ( )

t
2 log f (x ; )
+ { log f (x ; )|= } { log f (x ; )|= }t p(x ; ) (dx) . (12.15)
182
L equation (12.13) est souvent appel ee lidentit e de Fisher. Lorsque L est une vraisemblance, le membre de gauche de (12.13) est appel ee le score. LEq. (12.13) montre que le score peut etre evalu e en calculant la moyenne, sous p( ; ), de la fonction log f (X ; )|= . Cette quantit e est appel ee le score du mod` ele complet. monstration Les De equations (12.13) et (12.14) d ecoulent de (12.6). Pour etablir (12.15), nous consid erons (12.14) que nous r e ecrivons 2 log p(x ; ) p(x ; ) (dx) = { log p(x ; )|= } { log p(x ; )|= }t p(x ; ) (dx) .
Pour etablir cette identit e nous avons utilis e que p( ; ) est une densit e de probabilit e pour toutes les valeurs du param` etre , ce qui implique log p(x ; )|= p(x ; ) (dx) = 0 . En utilisant la relation el ementaire log p(x ; ) = log f (x ; ) () et (12.13) nous concluons que { log p(x ; )|= } { log p(x ; )|= }t p(x ; ) (dx) = { log f (x ; )|= } { log f (x ; )|= }t p(x ; ) (dx) ( ) ( )
t
Remarque 12.1 A linstar de la quantit e interm ediaire de lEM, les expressions du gradient et du Hessien de la vraisemblance font intervenir des esp erances sous p( ; ) de quantit es associ es ` a la vraisemblance compl` ete f ( ; ). Lorsque f ( ; ) est une famille exponentielle (voir la d enition 12.2.4), le gradient peut etre r e ecrit ( ) = ( )
t
S (x)p(x ; ) (dx) c( ) ,
o` u par convention ( ) est, par convention, la matrice d d dont les entr ees sont donn ees par [ ( )]ij = i ( )/j . Dans ce cas, ces quantit es requi` erent simplement d evaluer lesp erance de la statistique S (x) par rapport ` a p( ; ) pour toute valeur du param` etre . Remarque 12.2 Dans certains contextes, il est possible de concevoir et de mettre en oeuvre des algorithmes qui natteignent pas des vitesses de convergence super-lin eaires, mais qui toutefois convergent beaucoup plus vites que lalgorithme de plus forte pente. Dans les mod` eles dobservations incompl` etes, 1 ( i ) donn Lange [1995] a sugg er e par exemple dutiliser (10.21) avec une matrice de poids Ic ee par Ic ( ) = 2 log f (x ; )
=
p(x ; ) (dx) .
(12.16)
183
Cette matrice est le premier terme de la matrice dinformation de Fisher (12.14). Dans de nombreux mod` eles dint er et, cette matrice est d enie positive pour tout , et donc linversion de cette matrice ne conduit pas ` a des instabilit es num eriques. En sappuyant sur (12.14), il est raisonnable de penser que Ic ( ) puisse etre une approximation raisonnable de la matrice hessienne 2 ( ) et donc que lalgorithme de gradient ainsi modi e converge plus vite que lalgorithme de plus forte pente [see Lange, 1995, for further results and examples].
12.2.4
Avantages et incov enients des algorithmes de gradient
Dans les mod` eles ` a observations incompl` etes, il appara t que les algorithmes de type EM sont beaucoup plus couramment utilis es que les m ethodes doptimisation num erique classiques. Lalgorithme EM est facile ` a mettre en oeuvre Ceci nest g en eralement pas le cas pour lalgorithme doptimisation classique, qui en particulier de d evelopper des algorithmes de pond eration du gradient et de recherche du pas. Lalgorithme EM prend en compte implicitement les contraintes. Dans la plupart des cas, loptimisation dans l etape M est tr` es simple et peut etre eectu ee en prenant en compte les contraintes. Pour les approches doptimisation classiques, les contraintes doivent etre prises en compte explicitement, soit en utilisant une reparam etrisation ou en utilisant un algorithme doptimisation sous contrainte. Lalgorithme EM est ind ependant du choix de la param etrisation. La mise ` a jour dans lalgorithme EM etant bas e sur le calcul du maximum dune fonction interm ediaire, lalgorithme est ind ependant du choix de la param etrisation, ` a linstar de lestimateur du maximum de vraisemblance. Une transformation bijective du param` etre ne modie pas les r ecursions de lEM. Ceci nest pas le cas pour lalgorithme de plus forte pente (mais cette condition est satisfaite pour une transformation di eomorphique par lalgorithme de Newton-Raphson). A linverse on peut etre amen e` a pr ef erer les algorithmes de gradient pour les raisons suivantes Les algorithmes de gradient ne requi` erent pas d etape M. Ils peuvent donc etre utilis es dans des situations o` u l etape M na pas de solution el ementaire. Les algorithmes bas es sur le gradient peuvent converger dans certaines situations plus vite. Comme nous lavons soulign e, des algorithmes de gradient correctement pond er es peuvent atteindre des vitesses de convergence super-lin eaires, alors que lalgorithme EM est typiquement lin eaire.
12.2.5
Quantit e interm ediaire de lEM pour le mod` ele lin eaire Gaussien
En utilisant les notations introduites pr ec edemment, la quantit e interm ediaire de lalgorithme Q( ; ), d eni dans (12.5) peut sexprimer de la fa con suivante 1 E 2
n1
n log |R | +
k=0
1 (Xk+1 AXk )t R (Xk+1 AXk ) Y0:n
1 E {[} ](n + 1) log |S | + 2
n 1 (Yk BXk )t S (Yk BXk ) Y0:n , (12.17) k=0
184
en omettant les termes qui ne d ependent pas explicitement des param` etres. Pour expliciter les solutions de l etape M, nous di erentions (12.17) en utilisant les r` egles el ementaires du calcul (et en utilisant lidentit e C log |C | = C t pour toute matrice inversible C ) :
n1 1 A Q( ; ) = R E k=0 t t (AXk Xk Xk+1 Xk ) Y0:n ,
(12.18)
1 Q( ; ) =
R
1 nR 2
n1
(12.19) (Xk+1 AXk )(Xk+1 AXk )t Y0:n
+ E
1 B Q( ; ) = S E
k=0 n t t (BXk Xk Yk Xk ) Y0:n , k=0
(12.20)
1 Q( ; ) =
S
1 (n + 1)S 2
n
(12.21)
+ E
k=0
(Yk BXk )(Yk BXk )t Y0:n .
Notons que dans les expressions pr ec edentes, nous avons di erenci e par rapport aux inverses des matrices de covariance (i.e. par rapport aux matrices de pr ecision) R et S plut ot que par rapport aux matrices de covariance. Cette approche permet dobtenir des formules plus simples. Les valeurs des param` etres ` a chaque it eration de lEM sont d etermin es en cherchant les param` etres qui annulent ces d eriv ees. Nous notons A , B , R , et S , ces valeurs. Pour ecrire ces quantit es, k|n ( ) = E [ Xk | Y0:n ] and k|n ( ) = nous utilisons les notations introduites dans le chapitre 11 : X k|n ( )X t ( ), o` u nous indiquons maintenant explicitement la d ependance de la E [ Xk Xk | Y0:n ] X k |n moyenne et des covariances de lissage par rapport ` a la valeur courante des param` etres (ces quantit es d ependent aussi de la valeur initiale de la matrice de covariance , mais nous nindiquons pas explicitement cette d ependance pour ne pas alourdir des notations d ej` a assez complexes). Nous aurons aussi besoin d evaluer les matrices de covariance Ck,k+1|n ( ) = Cov [Xk , Xk+1 | Y0:n ] t k |n ( ) X = E Xk X t Y0:n X
k+1 def
k+1|n (
).
185
En utilisant ces notations, les valeurs mises ` a jour des param` etres sont donn ees par
n1 t
A =
k=0
k |n ( ) X t Ck,k+1|n ( ) + X k+1|n ( )
n1 1
(12.22)
k|n ( )X t ( ) k | n ( ) + X k |n R = 1 n
k=0 n1
k+1|n ( )X t k+1|n ( ) + X k+1|n ( )

k=0
(12.23) , (12.24)
k|n ( )X t A Ck,k+1|n ( ) + X k+1|n ( )

n t
B =
k=0
k|n ( )Y t X k
n 1
k|n ( )X t ( ) k|n ( ) + X k |n
k=0
1 = n+1
k|n ( )Y t . Yk Ykt B X k
k=0
(12.25)
186
Quatri` eme partie
Annexes
187
Annexe A
Rappels sur la transform ee de Fourier

Dans toute la suite, I d esigne lintervalle I = [, ] et B (I ) la tribu de Borel de I construite sur les ouverts de I . Proposition A.0.6 (Transform ee de Fourier discr` ete dune suite sommable) Soit R(n) une suite complexes de module sommable. Alors : R(n) =
I
ein f ()d
o` u
f () =
1 2
R(n)ein
n= n |R(n)|d
Dapr` es labsolue sommabilit e de R(n), f () existe. Du fait que directe du th eor` eme de Fubini donne : ein f ()d =
I I
< +, lapplication
ein
1 2
R(k )eik d =
k= k=
R (k )
1 2
ei(nk) d = R(n)
I
Proposition A.0.7 (Coecients de Fourier dune mesure nie) Soit une mesure non-n egative, d enie sur {I, B (I )}, nie (i.e. telle que n Z. On appelle n-i` eme coecient de Fourier de : (n) =
I
(d) < +) et soit
ein (d)
Du fait que la mesure est nie | (n)| est ni. 1. Lapplication est injective. 2. La suite { } est de type non-n egatif. 3. Soit {n }n0 et des mesures nies. La suite de mesures {n } converge etroitement vers la mesure (quand n tend vers linni), si et seulement si, pour tout k Z, n (k ) converge vers (k ) (quand n tend vers linni). 1. Cb (I ) d esigne lensemble des fonctions complexes, continues et born ees, d enies sur I = [, ], muni de la topologie associ ee ` a la norme uniforme f = sup[,] |f ()|. Pr ecisons que 188
l egalit e 1 = 2 doit etre comprise dans le sens o` u I f ()1 (d) = I f ()2 (d) pour toute fonction f Cb (I ). Le point 1 est alors une cons equence directe du fait que les combinaisons lin eaires dexponentielles complexes, de la forme ein , sont denses dans Cb (I ). Lapplication qui, ` a tout f Cb (I ) fait correspondre le nombre complexe c (f ) = f () (d) C est une forme lin eaire continue sur Cb (I ), qui associe aux exponentielles complexes de la forme ein les coecients de Fourier c (ein ) = (n). Par cons equent, si pour deux mesures et , les formes lin eaires associ ees, c et c , co ncident pour les exponentielles complexes (i.e. (n) = (n)), alors elles co ncident pour toute fonction de Cb (I ). Ce qui d emontre le point 1. 2. Soit (z1 , z2 , , zn ) des nombres complexes. On a :
d zr zs (r r,s=1 d d i(rs) zs zr e (d) I r,s=1 2
s) =
=
I r=1
zr e
ir
(d) 0
3. Par d enition, la suite de mesure n converge etroitement vers si pour toute fonction f Cb (I ), ee), nous limn cn (f ) = c (f ). En particulier, si on prend f = eik (qui est continue et born ik n (k ) (k ). R eciproquement, soit {n } une suite de mesures nies sur I avons cn (e ) = telles que, pour tout k Z, limn n (k ) = (k ). Cette propri et e implique en particulier que la n (0) < . Remarquons aussi suite n (0) = n (I ) est convergente, et est donc born ee, supn0 que | n (k )| n (0). Pour f L2 (I, d) (o` u d d esigne la mesure de Lebesgue), d enissons : (k ) = f
I
f (t)eikt dt
(k )| < . La classe F est dense dans Consid erons la classe F de fonctions f v eriant kZ |f Cb (I ). Notons que, pour toute fonction f F , nous avons : f () = 1 2 (k )eik f
k Z
Par cons equent, en appliquant le th eor` eme de Fubini, on a : cn (f ) =

I
f ()n (d) =
1 2
I kZ
(k )eik n (d), = 1 f 2
(k ) f n (k )
kZ
Comme supk supn | n (k )| < , le th eor` eme de convergence domin ee et le th eor` eme de Fubini impliquent que : lim cn (f ) =
n
1 2
kZ
1 (k ) lim f n (k ) = n+ 2
(k ) f (k ) = c (f )
k Z
Soit maintenant f une fonction continue. Pour tout > 0, il existe f F tel que f f et nous avons : |n (f ) (f )| |n (f ) (f )| + | (f ) (f )| |n (f ) (f )| + f f 189 n (0)| (| + | (0)|)
et donc puisque f F la limite du premier terme est 0 et on a : lim sup |n (f ) (f )| 2 | (0)|

n
Comme
est arbitraire, nous avons donc limn n (f ) = (f ), ce qui conclut la preuve.
190
Annexe B
Compl ements sur les matrices

Toutes les matrices et tous les vecteurs (colonne) consid er es sont de dimensions nies ` a el ements complexes. On suppose connue la d enition du d eterminant. Notations Lexposant T d esigne la transposition, lexposant H d esigne la transposition-conjugaison. I d esigne une matrice identit e de dimension ad equate. La matrice diag(a1 , . . . , aN ) d esigne la matrice carr ee diagonale de dimension N , dont les el ements diagonaux sont a1 , . . . , aN . Une matrice carr ee U est dite unitaire si U U H = U H U = I . Une matrice carr ee P est un projecteur si P 2 = P = P H . Par exemple, si v d esigne un vecteur, la matrice vv H /v H v est un projecteur. La trace dune matrice est la somme de ses el ements diagonaux. La trace v erie Trace(A + B ) = Trace(A)+Trace(B ) et Trace(AB ) = Trace(BA). Matrice-bloc, d eterminant et trace Pour des matrices carr ees ayant des dimensions appropri ees, on a les formules suivantes : (AB )H = B H AH (AH )1 = (A1 )H det(A) = det(AT ) det(AB ) = det(A)det(B ) det(I AB ) = det(IM BA) A B det = det(A)det(D CA1 B ) C D A B C D o` u
1
A1 + A1 B 1 CA1 A1 B 1 1 CA1 1
= D CA1 B
Lemme dinversion matricielle : si A et B sont deux matrices carr ees inversibles, alors pour toutes matrices G et H de dimensions appropri ees : (A + GBH )1 = A1 A1 G HA1 G + B 1 191
1
HA1
Valeurs propres Pour une matrice carr ee A de dimension N N , les vecteurs propres repr esentent les directions de lespace CN qui sont invariantes. Ce sont par cons equent les vecteurs w d enis par l equation Aw = w. La trace est egale ` a la somme des valeurs propres et le d eterminant ` a leur produit. Cela s ecrit :
N N
Trace(A) =
i=1
i et det(A) =
i=1
Image de A Soit A une matrice de dimension M N . On appelle image de A le sous-espace de CM not e I (A), qui est engendr e par les vecteurs-colonnes de A. On appelle noyau de A le sous-espace de CN not e N (A), qui est solution de Ax = 0. On appelle rang-colonne de A la dimension de son espace image rang (A) = dim I (A). Cest aussi le nombre de vecteurs-colonnes de A qui sont ind ependants. On montre que : dim N (A) + dim I (A) = N Si A est de rang-colonne plein, cad rang (A) = N , alors soit AH A est inversible. On d enit de la m eme mani` ere un rang-ligne. Le rang de A est le minimum de son rang-colonne et de son rang-ligne. Dans tous les cas le rang dune matrice est inf erieur ` a min(M, N ). Valeurs singuli` eres Soit A une matrice de dimension M N et de rang r. Alors il existe deux matrices carr ees unitaires lune not ee U de taille M M et lautre not ee V de taille N N , telles que : A=U r 0 0 0 VH
o` u r = diag(1 , . . . , r ) avec 1 r > 0. Les valeurs i sont dites valeurs singuli` eres de A. H Les vecteurs colonnes de U de dimension M sont les vecteurs propres de AA . Les r premiers vecteurs colonnes de U forment une base orthonorm ee de limage de A. Les vecteurs colonnes de V de dimension N sont les vecteurs propres de AH A. Les (N r) derniers vecteurs colonnes de V forment une base orthonorm ee du noyau de A. On appelle pseudo-inverse de A la matrice de dimension N M : A+ = V
1 0 r 0 0
UH
Dans CM , la matrice carr ee AA+ est le projecteur sur I (A). Dans CN , la matrice carr ee (I A+ A) est le projecteur sur N (A). Si A est de rang plein, alors : pour M = N , A+ = A1 , pour M > N , A+ = (AH A)1 AH et pour M < N , A+ = AH (AAH )1 Le rapport entre la plus grande et la plus petite valeur singuli` ere dune matrice sappelle son nombre de conditionnement. Il mesure la dicult e num erique ` a calculer sa pseudo-inverse. 192
Matrice carr ee positive Une matrice carr ee R est dite hermitienne si elle v erie R = RH . Une matrice carr ee hermitienne R est dite non-n egative, respectivement positive si pour tout vecteur a, on a aH Ra 0 (resp. > 0). Pour les matrices non n egatives, la d ecomposition en valeurs propres et la d ecomposition en valeurs singuli` eres co ncident. Si R est positive, alors R1 existe et est positive. Si R est non n egative, toutes ses valeurs propres sont r eelles, non n egatives et leur ordre de multiplicit e est egal ` a la dimension du sous-espace propre associ e. Si R est une matrice non n egative et si ses valeurs propres i sont distinctes, alors les vecteurs propres wi associ es sont deux ` a deux orthogonaux et on a :
N
R=
i=1
H i wi wi
o` u tous les i sont non n egatifs. On en d eduit que :

N
Rn =
i=1
H n i wi wi
Il est facile d etendre cette ecriture ` a une fonction polynomiale quelconque. En particulier on en d eduit que R v erie son equation caract eristique (det(A I ) = 0). Par extension, pour toute fonction f d eveloppable en s erie enti` ere, on peut d enir la fonction de matrice :
N
f (R) =
i=1
H f (i )wi wi
193
Bibliographie
B. D. O. Anderson and J. B. Moore. Optimal Filtering. Prentice-Hall, 1979. A. Bryson and M. Frazier. Smoothing for linear and nonlinear dynamic systems. Technical Report TDR 63-119, Aero. Sys. Div. Wrigth-Patterson Air Force Base, 1963. P. E. Caines. Linear Stochastic Systems. Wiley, 1988. T. M. Cover and J. A. Thomas. Elements of Information Theory. Wiley, 1991. P. De Jong. A cross validation lter for time series models. Biometrika, 75 :594600, 1988. A. P. Dempster, N. M. Laird, and D. B. Rubin. Maximum likelihood from incomplete data via the EM algorithm. J. Roy. Statist. Soc. Ser. B, 39(1) :138 (with discussion), 1977. R. Fletcher. Practical Methods of Optimization. Wiley, 1987. N. Gupta and R. Mehra. Computational aspects of maximum likelihood estimation and reduction in sensitivity function calculations. IEEE Trans. Automat. Control, 19(6) :774783, 1974. T. Kailath, A. Sayed, and B. Hassibi. Linear Estimation. Prentice-Hall, 2000. Olav Kallenberg. Foundations of modern probability. Probability and its Applications (New York). Springer-Verlag, New York, second edition, 2002. ISBN 0-387-95313-2. R. E. Kalman and R. Bucy. New results in linear ltering and prediction theory. J. Basic Eng., Trans. ASME, Series D, 83(3) :95108, 1961. R. Kohn and C. F. Ansley. A fast algorithm for signal extraction, inuence and cross-validation in state space models. Biometrika, 76 :6579, 1989. S. J. Koopman. Disturbance smoother for state space models. Biometrika, 80 :117126, 1993. K. Lange. A gradient algorithm locally equivalent to the EM algorithm. J. Roy. Statist. Soc. Ser. B, 57(2) :425437, 1995. D. G. Luenberger. Linear and Nonlinear Programming. Addison-Wesley, 2nd edition, 1984. J. Nocedal and S. J. Wright. Numerical optimization. Springer Series in Operations Research and Financial Engineering. Springer, New York, second edition, 2006. ISBN 978-0387-30303-1 ; 0-38730303-0. 194
H. Rauch, F. Tung, and C. Striebel. Maximum likelihood estimates of linear dynamic systems. AIAA Journal, 3(8) :14451450, 1965. L. Schwartz. Analyse. I, volume 42 of Collection Enseignement des Sciences [Collection : The Teaching of Science]. Hermann, Paris, 1991. ISBN 2-7056-6161-8. Th eorie des ensembles et topologie. [Set theory and topology], With the collaboration of K. Zizi.
195

Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Master 1 MMD - Séries Temporelles (Paris-Dauphine)

Încărcat de

Drepturi de autor:

Formate disponibile

Analyse des S eries Temporelles et Applications

Eric Moulines, Fran cois Roue T el ecom ParisTech 15 septembre 2010

Table des mati` eres

Estimation pour les processus lin eaires

143 144 144 147 149 150 150 151 152

Mod` eles d etats

A Rappels sur la transform ee de Fourier B Compl ements sur les matrices

Premi` ere partie

Processus au second ordre, repr esentation spectrale et pr ediction

Processus al eatoires et stationnarit e

Figure 1.1 Battements cardiaques : evolution du nombre de battements par

D enition et construction de la loi dun processus al eatoire

Figure 1.4 Cours quotidien douverture de lindice S&P500 : entre Janvier

Stationnarit e stricte dun processus ` a temps discret

Par d enition de la loi image on a PS X = PX si et seulement si

P(Z (t1 ) A1 , , Z (tn ) An ) =

El ements dAnalyse Hilbertienne

< est un espace vectoriel

(|xk |2 + |yk |2 ) <

(ii) In egalit e triangulaire : | x y | x y x + y ,

Projection et principe dorthogonalit e

(ii) proj ( x| E ) E et x proj ( x| E ) x proj ( x| E ) E .

si et seulement si proj ( x| E ) E et 0. Alors il existe une suite

monstration (i) Soit x H. On note h = inf wE x w De w1 , w2 , , de vecteurs de E tels que :

Lidentit e du parall elogramme, a b montre que : wm wn

2(h2 + ) + 2(h2 + ) 4h2 = 4 .

4h2 + 2h2 + 2h2 = 0

h2 . Il sen suit que y = z . x

Par cons equent x E est strictement plus proche de x que ne lest u.

proj ( x + y | E ) = proj ( x| E ) + proj ( y | E ) .

Si la matrice est inversible la solution est unique. 19

Alors, pour tout h H, proj ( h| M ) = lim proj ( h| Mn ) .

On v erie ais ement que proj ( h| En ) =

5. x = 0 si et seulement si ei , x = 0 pour tout i N.

Processus stationnaires au second ordre

(3.2) Y est une variable al eatoire

var(Y ) = E ce qui etablit (3.2).

Covariance dun processus stationnaire au second ordre

Interpr etation de la fonction dautocovariance

(h) = (h)/ (0)

Figure 3.1 Courbe de gauche : fonction dautocorr elation empirique de la

Figure 3.2 Xt+1 en fonction de Xt pour la s erie des battements cardiaques

Figure 3.3 Log-Retour de la s erie S&P 500 (gure 1.4).

1.2 1 0.8 0.6 0.4 0.2 0 0.2 0 20 40 60 80 100

Figure 3.4 Fonction dautocorr elation empirique de la s erie des log-retours

Figure 3.5 Fonction dautocorr elation empirique de la s erie des valeurs

Mesure spectrale dun processus stationnaire au second ordre ` a temps discret

o` u nous avons pos e: n (k ) = 1 |k | n (k )

eih (k (d) + k (d))

Filtrage des processus stationnaires au second ordre

Filtrages lin eaires de processus

On pourra it erer lop erateur de di erentiation, ainsi Y = (I S 1 )k X est donn ee par

< p.s., on appellera processus int egr e

Filtrage des processus stationnaires au second ordre

Filtres ` a r eponse impulsionnelle sommable

et de mesure spectrale : Y (d) = | (ei )|2 X (d) o` u (ei ) =

k eik est la transform ee de Fourier ` a temps discret de la suite {k }kZ .

monstration Voir le paragraphe 4.3 ` De a la n de ce chapitre. 40

Yt = T 1 (ft ) On obtient de plus par isom etrie de T 1 que cov (Yt , Ys ) =

ei(ts) |f0 ()|2 (d) ,

pour 0 |h| q sinon

Figure 4.1 Trajectoires de longueur 500 dun processus AR(1)) gaussien.

qui peut encore s ecrire :

est stationnaire au second ordre, le processus