Fchap 17

Chapitre 17 La M ethode des Moments G en eralis ee
finitions 17.1 Introduction et De

Nous avons vu au cours du chapitre pr ec edent que si un mod` ele est correctement sp eci e, certains moments conditionnels seront nuls. Lid ee fondamentale de la m ethode des moments g en eralis ee, ou GMM, est que les conditions qui portent sur les moments peuvent etre exploit ees non seulement pour tester la sp ecication dun mod` ele mais aussi pour d enir les param` etres du mod` ele, dans le sens o` u elles fournissent une application d enissante des param` etres pour un mod` ele. Lexemple de base qui illustre cette id ee est celui dun mod` ele pour lequel le seul param` etre qui nous int eresse est lesp erance de la variable d ependante. Ceci est un cas particulier de ce que lon appelle un mod` ele de localisation. Si chaque observation sur une variable d ependante y est un tirage issu dune loi de distribution desp erance m, alors le moment E (y m) doit etre nul. Cette propri et e permet de d enir le param` etre m, puisque si m = m, E (y m ) = 0. Autrement dit, la condition portant sur le moment nest satisfaite que pour la v eritable valeur du param` etre. En accord avec la m ethode des moments (ordinaire), si lon dispose dun echantillon de tirages ind ependants issus dune quelconque loi de distribution, il est possible destimer nimporte quel moment de la distribution par le moment empirique correspondant. Cette proc edure se justie tr` es facilement en invoquant la loi des grands nombres sous sa forme la plus simple. Ainsi, pour le mod` ele de localisation, si lon note les observations yt , t = 1, . . . , n, lestimateur de la m ethode des moments de m correspond pr ecis ement ` a la moyenne empirique
1 m = n
n
yt .
t=1
(17.01)
Lorsque lon evoque la m ethode des moments g en eralis ee, cela implique en r ealit e de nombreuses g en eralisations. Certaines nimpliquent pas plus que labandon de conditions de r egularit e, par exemple lhypoth` ese dobservations i.i.d. Puisque de nombreuses lois des grands nombres di erentes peuvent etre d emontr ees (souvenons-nous de la liste donn ee dans la Section 4.7), il ny a aucune raison de se limiter aux cas o` u les observations sont i.i.d. Mais les g en eralisations fondamentales proviennent de deux el ements. Le premier est 583
584
thode des Moments Ge ne ralise e La Me
que les moments conditionnels peuvent etre utilis es egalement comme des moments non conditionnels, et le second est que les moments peuvent d ependre de param` etres inconnus. Cest la seconde g en eralisation que nous utilisons ` a pr esent pour obtenir lestimateur de la m ethode des moments g en eralis ee, ou estimateur GMM, de m dans le mod` ele de localisation. Nous oublions pour linstant que m est lui-m eme un moment et utilisons la condition portant sur le moment E (y m) = 0 (17.02)
pour d enir m. Lessence de la m ethode des moments, quelle soit ordinaire ou g en eralis ee, consiste ` a remplacer les moments th eoriques de la population par les moments empiriques. Nous rempla cons par cons equent lesp erance dans (17.02) par la moyenne empirique et d enissons m de fa con implicite par
1 n
n
(yt m ) = 0,
t=1
que nous r esolvons imm ediatement pour obtenir le m eme estimateur que dans (17.01). Lestimateur le plus fr equemment utilis e en econom etrie, ` a savoir lestimateur OLS, peut etre consid er e comme un estimateur GMM. Nous mettrons ` a jour plusieurs caract eristiques g en erales de lestimateur GMM en lexaminant sous cet angle. Lorsque lon ecrit y = X + u, linterpr etation habituelle que lon donne est E (yt | t ) = Xt pour t = 1, . . . , n, (17.04) (17.03)
o` u t d esigne un ensemble dinformation quelconque. Ceci implique l egalit e E (ut | t ) = 0. Bien souvent, nous formulons des hypoth` eses suppl ementaires sur u, telles que lind ependance en s erie, lhomosc edasticit e, ou m eme la normalit e. Pour nos pr eoccupations actuelles, aucune de ces hypoth` eses nest n ecessaire. Si, comme dhabitude, k d esigne le nombre de param` etres dans (17.03), il est clair que nous avons besoin dau moins k conditions portant sur les moments pour d enir un ensemble complet destimations param etriques. Mais (17.04) ne semble pas en fournir plus dune. La fa con de r esoudre ce dilemme constitue lune des caract eristiques majeures de la GMM. Puisque (17.04) fournit une condition portant sur le moment conditionnel E (ut | t ) = 0, il sensuit que, pour tout vecteur w tel que wt t , les moments non conditionnels E wt (yt Xt ) sont nuls. De fa con minimale, les r egresseurs Xt appartiennent ` a lensemble dinformations t , et il y en a pr ecis ement k . Nous
finitions 17.1 Introduction et De
585
pouvons donc utiliser les k r egresseurs pour d enir les k conditions portant sur les moments non conditionnels. La contrepartie empirique de ces conditions est donn ee par le vecteur colonne n
1
n
Xt (yt Xt ).
t=1
Il est clair que lon obtient les conditions du premier ordre (1.03) utiles ` a la d enition de lestimateur OLS en annulant ces conditions portant sur les moments empiriques. Il appara t, par la suite, que lestimateur OLS, en tant questimateur GMM, devrait etre applicable sans aucune des hypoth` eses que lon formule g en eralement sur les moments dordre deux des al eas, telles que lind ependance en s erie ou lhomosc edasticit e, et qui inuencent la structure de leur matrice de variance-covariance. En r ealit e, la convergence de lestimateur OLS ne provient que du fait que cet estimateur satisfait certaines conditions portant sur les moments. Cela viendra de la d emonstration de la convergence de lestimateur GMM que nous d evelopperons dans section suivante, bien que cela paraisse naturel. On peut d eriver lestimateur simple des variables instrumentales (7.25) de la m eme mani` ere que lestimateur OLS. L eventuelle endog en eit e des r egresseurs X dans (17.03) peut signier que nous ne voulons pas imposer la condition E (ut | t ) = 0. Cependant, nous r eclamons, soit par une connaissance a priori soit par hypoth` ese, quil existe une matrice W de dimension n k dinstruments valables, avec une ligne type Wt t . Ceci implique que nous pouvons utiliser les k conditions portant sur les moments E (Wt ut ) = 0. Les contreparties empiriques de ces conditions sont n
1
n
Wt (yt Xt ) = 0
t=1
ou, en omettant le facteur n1 et en utilisant une notation matricielle, W (y X ) = 0. (17.05)
Ces equations correspondent aux conditions du premier ordre qui d enissent un estimateur IV simple. Les deux exemples pr ec edents montrent que les variables instrumentales, et parmi elles les r egresseurs utilis es comme instruments, g en` erent des conditions sur les moments comme celles employ ees dans les tests de sp ecication du moment conditionnel de la Section 16.8. De m eme que les conditions sur les moments peuvent avoir de nombreuses sources, les variables instrumentales de nombreuses sortes peuvent se sugg erer delles-m emes dans le contexte dun quelconque mod` ele econom etrique donn e. Il en r esulte quil y a habituellement beaucoup plus dinstruments disponibles que nous nen avons besoin
586
pour identier les param` etres du mod` ele. Souvenons-nous que, dans le contexte de la r egression lin eaire (17.03), tout vecteur w tel que wt t peut etre employ e. Ces instruments gratuits, comme nous allons le voir dans peu de temps, peuvent etre exploit es dans le contexte de la GMM, tout comme ils le sont dans le contexte des IV, pour g en erer des contraintes de suridentication qui peuvent avoir un double r ole: am eliorer lecacit e des estimations des param` etres et tester la sp ecicication du mod` ele. Lestimation GMM nest bien evidemment pas limit ee aux mod` eles de r egression lin eaire. Nous allons ` a pr esent etablir certaines d enitions dans un contexte non lin eaire plus g en eral, mais qui reste encore relativement simple. Nous nous limitons par cons equent temporairement au cas des mod` eles juste identi es. Le cas plus r ealiste des mod` eles suridenti es sera lobjet de la section suivante. Notre premi` ere t ache consiste ` a caract eriser dune mani` ere quelconque des mod` eles que lon esp` ere estimer par GMM. Dans le Chapitre 5, nous d enissions un mod` ele econom etrique comme un ensemble de DGP. Un mod` ele param etrique etait d eni comme un mod` ele associ e` a une application d enissante des param` etres, qui associe un vecteur de param` etres appartenant a un espace param ` etrique quelconque ` a chaque DGP du mod` ele. Dans le contexte de la GMM, il existe de nombreuses fa cons possibles de choisir le mod` ele, cest-` a-dire lensemble des DGP. Lun des avantages de la GMM en tant que m ethode destimation est quelle permet la manipulation de mod` eles compos es dun tr` es grand nombre de DGP. En nette opposition avec lestimation ML, o` u le mod` ele doit etre sp eci e totalement, tout DGP est admissible sil satisfait un petit nombre de contraintes ou de conditions de r egularit e. Quelquefois, seule lexistence des moments utilis es pour d enir les param` etres est requise pour quun mod` ele soit bien d eni. Quelquefois, le chercheur souhaitera imposer une structure plus compl` ete au mod` ele, eliminant des DGP qui auraient sinon et e contenus dans le mod` ele. Cela pourra se faire en formulant des hypoth` eses telles que lhomosc edasticit e ou lind ependance en s erie, ou encore lexistence de moments autres que ceux qui d enissent les param` etres. Notre pr eoccupation imm ediate consiste ` a d etailler simplement la sp ecication du mod` ele, aussi supposons-nous simplement quun ensemble de DGP M a et e choisi pour repr esenter le mod` ele. Lexigence suivante concerne lapplication d enissante des param` etres. Ce sont les conditions portant sur les moments qui y pourvoient, puisquelles fournissent une d enition implicite de lapplication. Notons fti (yt , ), i = 1, . . . , k , une fonction de la variable d ependante ou dun vecteur de variables d ependantes yt . Nous supposons que cette fonction poss` ede une esp erance nulle pour tout DGP du mod` ele caract eris e par le vecteur des param` etres de dimension k . En g en eral, parce que toute la th eorie de ce chapitre est asymptotique, t, qui est lindice des observations, peut prendre nimporte quelle valeurenti` ere positive. Dans la pratique, les fonctions fti d ependront fr equemment des variables exog` enes et pr ed etermin ees ainsi que de la (des)
finitions 17.1 Introduction et De variable(s) d ependante(s). Ainsi les conditions sur les moments E fti (yt , ) = 0, i = 1, . . . , k,
587
(17.06)
fournissent une application d enissante des param` etres sous des conditions de r egularit e ad equates. Ces conditions assurent que, pour chaque DGP appartenant au mod` ele M, il nexiste quun seul vecteur de param` etres dun espace param etrique quelconque qui annule les esp erances (17.06). Il est g en eralement commode dexiger en plus que, pour tous les DGP dans le mod` ele, et pour tout vecteur , les esp erances dans (17.06) existent. Comme cest le cas avec tous les autres mod` eles param etriques consid er es jusqu` a pr esent, lexistence dune application d enissante des param` etres bien d enie garantit lidentication asymptotique des param` etres du mod` ele. Leur identication par un echantillon donn e d epend de lexistence dune unique solution ` a ce que lon pourrait appeler des equations d enissantes des param` etres qui sont les contreparties empiriques des conditions portant sur les moments (17.06). Ces equations d enissantes de lestimateur, qui annulent les moments empiriques, sont n
1
n
fti (yt , ) = 0,
t=1
i = 1, . . . , k.
(17.07)
qui satisfait (17.07), alors le mod` Sil existe un unique vecteur ele est identi e est, par d par les donn ees et enition, lestimateur GMM de . La m ethode des moments g en eralis ee fut sugg er ee sous cette appellation par Hansen (1982), mais lid ee de base remonte au moins ` a Sargan (1958). Un cas particulier de la GMM appel e doubles moindres carr es en deux etapes fut propos e par Cumby, Huizinga, et Obstfeld (1983). Lune des motivations au d eveloppement de la m ethode etait lint er et croissant durant le d ebut des ann ees 80 pour les mod` eles danticipations rationnelles. Un principe fondamental de ces mod` eles est que les erreurs danticipations doivent etre ind ependantes de toutes les variables des ensembles dinformation des agents qui formulent ces anticipations. Par cons equent, les erreurs de pr evision, les echecs ` a atteindre un optimum, et dautres cons equences (mesurables) de pr evision imparfaite doivent etre, si les anticipations sont v eritablement formul ees de fa con rationnelle, ind ependantes des variables appartenant aux ensembles dinformation individuels au moment o` u les anticipations se forment. Cette ind ependance fait appara tre des conditions vari ees sur les moments conditionnels, qui donnent lieu par la suite ` a des conditions sur les moments (non conditionnels) sur lesquels on peut fonder lestimation GMM. La premi` ere application importante de cette id ee appara t chez Hansen et Singleton (1982), qui utilisent les conditions stochastiques dEuler associ ees aux probl` emes doptimisation intertemporelle des agents en tant que source de leurs conditions sur les moments conditionnels. Dautres applications de
588
la GMM se trouvent chez Dunn et Singleton (1986), Eichenbaum, Hansen, et Singleton (1988), et Epstein et Zin (1991). Nous avons esquiss e` a pr esent la plupart des r esultats importants relatifs a lestimation GMM. Il reste ` ` a consid erer la mani` ere de traiter les conditions de suridentication, dexhiber les propri et es th eoriques des estimateurs GMM, de savoir comment calculer au mieux les estimations GMM dans la pratique, et de trouver des proc edures de test comparables aux tests du moment conditionnel dans un contexte GMM. Dans la section qui suit, nous discutons de la th eorie asymptotique de ce que lon appelle les M-estimateurs, cest-` a-dire des estimateurs d enis par la maximisation ou la minimisation dune fonction crit` ere quelconque. Nous etablissons le lien entre ces estimateurs et les estimations GMM et etudions bri` evement les conditions de r egularit e. Puis, dans la Section 17.3, nous portons notre attention sur les questions decacit e et dinf erence, dans un traitement simultan e puisque toutes deux d ependent de la matrice de covariance asymptotique des estimations des param` etres. Ces th` emes sont egalement discut es dans la Section 17.4, dont le th` eme principal est le choix des instruments et des conditions sur les moments. La Section 17.5 nous donnera loccasion de discuter du probl` eme pratique de lestimation de la matrice de covariance. Cette discussion est plus d elicate pour la GMM que pour de nombreuses autres techniques, parce que la GMM aecte la matrice de pond eration que lon utilise dans la fonction crit` ere. Enn, dans la Section 17.6, nous discutons des tests de sp ecication dans le contexte de lestimation GMM.
`re et M-Estimateurs 17.2 Fonctions Crite

Dans le Chapitre 7, lestimateur IV pour le mod` ele de r egression lin eaire a et e d eni par la minimisation de la fonction crit` ere (y X ) PW (y X ); (17.08) voir l equation (7.15). Notons k le nombre des r egresseurs et l k le nombre des instruments. Dans le cas juste identi e, pour lequel l = k , la valeur de la fonction crit` ere minimis ee est nulle. Cette valeur de la fonction est atteinte lorsque la valeur est donn ee par lestimateur IV simple, d eni par les k conditions (17.05). Lorsque l > k , la valeur minimis ee est en g en eral strictement positive, puisquil nest pas possible en g en eral de r esoudre ce qui est d esormais un ensemble de l conditions (17.05) pour k inconnues. Le cas suridenti e dans le contexte de la GMM est similaire. Il y a l equations d enissantes de lestimateur (17.07) mais seulement k inconnues. Au lieu de r esoudre un ensemble d equations, nous allons utiliser les membres de gauche de ces equations pour d enir une fonction crit` ere qui est par cons equent minimis ee pour fournir les estimations des param` etres. Consid erons ` a nouveau (17.08). Si nous l ecrivons sous la forme (y X ) W W W
1
W (y X ),
(17.09)
589
nous observons que lexpression est une forme quadratique compos ee des moments empiriques W (y X ) et de linverse de la matrice d enie positive W W. Cette matrice d enie positive est, sous les hypoth` eses dhomosc edasticit e et dind ependance en s erie, proportionnelle ` a la matrice de covariance du vecteur des moments, le facteur de proportionnalit e etant la variance des al eas. Lomission de ce facteur de proportionnalit e importe peu, parce que la valeur de qui minimise (17.09) est inchang ee si (17.09) est multipli ee par nimporte quelle valeur scalaire positive. Il nest pas utile demployer la matrice de covariance des moments empiriques W (y X ) si lon veut seulement obtenir des estimations convergentes, plut ot quecaces, de par la minimisation de la fonction crit` ere. Si 1 nous rempla cons (W W ) dans (17.09) par nimporte quelle matrice A(y ) asymptotiquement d eterministe, sym etrique, d enie positive et de dimension l l, la fonction crit` ere devient (y X ) WA(y )W (y X ), et nous voyons ais ement que lestimateur qui en d ecoule est = X WA(y )W X
1
(17.10)
X WA(y )W y .
Si l = k et si la matrice W X est carr ee et non singuli` ere, cette expression se r eduit ` a lestimateur IV simple (W X )1 W y , quel que soit le choix de A. Le choix de A est sans cons equence dans ce cas parce que le nombre des conditions sur les moments est egal au nombre des param` etres, ce qui implique que (17.10) atteint toujours un minimum egal ` a z ero pour toute matrice A. sera un esEn g en eral, si W est une matrice dinstruments valables, timateur convergent de , comme nous le constatons ` a laide darguments standards. Sous les hypoth` eses dhomosc edasticit e et dind ependance en s erie des al eas, lestimateur est malgr e tout moins ecace que lestimateur IV (X PW X )1X PW y , ` habituel a moins que A ne soit proportionnelle ` a 1 (W W ) . La d emonstration de ce r esultat est similaire aux d emonstrations du Th eor` eme de Gauss-Markov (Th eor` eme 5.3) et de la borne inf erieure de Cram er-Rao dans la Section 8.8. Nous d emontrons que la di erence . Cela implique que la matrice de coest asymptotiquement non corr el ee ` a est la somme des matrices de covariance asympvariance asymptotique de totique de et de la di erence entre les deux estimateurs. Par cons equent, . La di doit etre au moins aussi ecace que erence entre les deux estimateurs est = X WAW X = X WAW X
1 1
X WAW y X PW X
X PW y (17.11)
W X WAW MX y,
W o` u la matrice de projection oblique MX est d enie par W MX = I X X PW X 1
X PW .
590
La construction de (17.11) na pas et e d etaill ee totalement, parce quelle est essentiellement la m eme que les nombreuses pr ec edentes; voir, par exemple, (7.59).
W Puisque MX X = 0, nous pouvons remplacer y dans lexpression (17.11) par u si y = X0 + u pour un quelconque vecteur 0 . Il est d esormais possible de voir que est asymptotiquement non corr el e` a (17.11). La partie al eatoire W est X PW u, et la partie al de eatoire de (17.11) est W MX u. Lorsque les al eas sont homosc edastiques, ind ependants en s erie et ont une variance egale a 2, la matrice des covariances asymptotiques de ces parties al ` eatoires est
1 2 W plim X PW (MX ) W . n
Or cette matrice est nulle, comme nous le d emontrons, puisque

W ) W = X W X PW X X PW X X PW (MX 1
X W = 0.
Dans la prochaine section, nous discuterons ce r esultat plus nement. Il conf` ere simplement une sorte doptimalit e ou decacit e ` a lestimateur IV habituel, et il sera int eressant d etudier la nature exacte de cette optimalit e. Dans le contexte plus g en eral de la GMM, nous pouvons construire une fonction crit` ere ` a des ns destimation en utilisant une matrice A(y ) arbitrairement sym etrique, d enie positive, eventuellement d ependante des donn ees, et O(1). Nous appellerons A matrice de pond eration et exigerons que, pour chaque DGP appartenant au mod` ele M, plim A(y ) n = A0 (), (17.12)
o` u A0 () est une matrice nie, d eterministe, sym etrique et d enie positive. Notons F (y , ) la matrice dont l el ement type est fti (yt , ) o` u, comme pour eme moment. (17.07), fti (yt , ) d esigne la contribution de lobservation t au i i` Nous supposons que Rk et que 1 i l, avec l > k . Alors, si , comme dhabitude, d esigne le vecteur de dimension n dont chaque composante est egale ` a 1, les conditions sur les moments empiriques sont donn ees par F ( y , ) = 0, et une fonction crit` ere admissible pour estimer est F (y , )A(y )F (y , ) . (17.13)
Nous etablissons ` a pr esent le r esultat fondamental pour montrer que issu de la minimisation de (17.13) est convergent sous cerlestimateur taines conditions de r egularit e. Ce r esultat indique que si un echantillon est
591
g en er e par le DGP M, le v eritable vecteur de param` etres () minimise la limite en probabilit e de n2 fois la fonction crit` ere (17.13): () = argmin plim n2 F (y , )A(y )F (y , ) .
n
(17.14)
La notation plim implique que le DGP utilis e pour calculer la limite en probabilit e est , et (17.14) implique que cette limite en probabilit e est d eterministe. 2 Le facteur inhabituel n appara t parce que nous avons suppos e que la matrice de pond eration limite A0 () est O(1). Puisque nous nous attendons ` a 1 ce que F soit O(n), nous avons besoin de deux facteurs de n pour que (17.14) soit O(1) lorsque n . Pour que le r esultat (17.14) soit vrai, nous devons etre capables dapplin 1 1 eme quer une loi des grands nombres ` an F =n u Ft est la t i` t=1 Ft , o` ligne de F . Puisque F d epend de param` etres, la loi des grands nombres doit sappliquer de fa con uniforme par rapport ` a ces param` etres, aussi supposeronsnous simplement que la condition WULLN donn ee dans la D enition 4.17 sapplique ` a chaque composante de la s erie {Ft ( )} au moins en un voisinage quelconque du v eritable vecteur de param` etres 0 (). Cela nous permet de poser la d enition suivante: m(, ) = plim F ( ) = lim n n
n n
E Ft ( ) .
t=1
(17.15)
Les conditions sur les moments empiriques (17.06) en jonction avec lexigence que ces conditions identient les param` etres garantissent que m(, 0 ) = 0 et m(, ) = 0 si = 0 . (17.16)
Puisque plim A(y ) = A0 (), il sensuit que plim n n2 F (y , )A(y )F (y , ) = m (, )A0 () m(, ).
Puisque A0 () est d enie positive, cette expression est nulle pour = 0 et (strictement) positive sinon. Cela etablit (17.14). Le r esultat (17.14) implique que lestimateur de obtenu en minimisant la fonction crit` ere (17.13) est convergent, en vertu des m emes arguments utilis es dans les Chapitres 5 et 8 pour montrer la convergence des estimateurs NLS et ML. Comme dans le Chapitre 8, pour quun mod` ele GMM soit asymptotiquement identi e sur un espace param etrique non compact, nous devons supposer quil nexiste aucune s erie de vecteurs de param` etres sans point limite telle que (17.13) evalu ee en des points de la s erie tende sup erieurement vers la valeur de (17.13) au v eritable vecteur de param` etres 0 ; souvenons-nous de la D enition 8.1.
592
Il est pratique ` a cette etape dabandonner un cas sp ecique de la GMM et de traiter le probl` eme plus g en eral des M-estimateurs. Cette terminologie naquit dans la litt erature de lestimation robuste voir Huber (1972, 1981) mais en econom etrie elle est souvent utilis ee pour faire r ef erence ` a nimporte quel estimateur associ e` a la maximisation ou la minimisation dune fonction crit` ere. Ces derni` eres les ann ees, un eort substanciel sest port e sur le d eveloppement dune th eorie uni ee de tous les estimateurs de ce type. Larticle qui marque une etape d ecisive est celui de Burguete, Gallant, et Souza (1982). Notre traitement sera relativement el ementaire; pour compl eter les notions, les lecteurs devraient consulter Bates et White (1985), Gallant (1987), ou Gallant et White (1988). Il nous faut tout dabord poser certaines d enitions. Supposons que nous travaillons avec un mod` ele param etrique (M, ). Lespace darriv ee de lapplication d enissante des param` etres sera lespace param etrique Rk. Soit Qn (y n, ) la valeur dune fonction crit` ere, o` u y n est un echantillon comportant n observations sur une ou plusieurs variables d ependantes, et o` u . Notons que, par un l eger abus de notation, d esigne ` a la fois lapplication d enissante des param` etres et les valeurs de lapplication. A proprement parler, nous devrions faire r ef erence ` a () pour le vecteur de param` etres associ e au DGP M, mais il est inutile en g en eral de sp ecier explicitement. Habituellement, Qn d ependra autant des variables exog` enes n et pr ed etermin ees que de la (des) variable(s) d ependante(s) y . Alors, pour que la s erie Q {Qn } soit appropri ee ` a lestimation des param` etres , nous exigeons que Q identie ces param` etres, dans le sens de la D enition 17.1: D enition 17.1. Une s erie de fonctions crit` ere Q identie asymptotiquement un mod` ele param etrique (M, ) si, pour tout M et pour tout , (, ) plim Qn (y n, ) Q
n
, () < Q (, ) pour tout vecteur existe et satisfait lin egalit eQ de param` etres = (). En plus de cela, si est non compact, il nexiste aucune s erie { m } sans point limite telle que
m
(, m ) = Q , () . lim Q
Alors, bien que nous pr esentions une d emonstration peu rigoureuse, nous n } d voyons intuitivement que lestimateur Q { eni par Q n = argmin Qn (y n, ) Q

(17.17)
devrait converger vers , cest-` a-dire,

n
n = (). plim Q
(17.18)
593
Une d emonstration peu rigoureuse de (17.18) emploie exactement les m emes arguments que ceux employ es dans la Section 8.4, et qui menaient ` a l equation (8.31). Le r esultat formel peut s enoncer ainsi: Th eor` eme 17.1. Convergence des M-Estimateurs Le M-estimateur d eni par la minimisation de la s erie des fonctions crit` ere Q converge vers les param` etres dun mod` ele param etrique (M, ) si la s erie Q identie le mod` ele au sens de la D enition 17.1. La fait que Qn ( ) = O(1) lorsque n est implicite dans la D enition 17.1. Ainsi la plupart des fonctions crit` ere qui sont en r ealit e utilis ees devront etre multipli ees par des puissances de n avant de savoir si elles v erient la D enition 17.1. La fonction somme-des-carr es utilis ee dans lestimation NLS et la fonction de logvraisemblance utilis ee dans lestimation ML, par exemple, sont toutes deux O(n) et doivent dont etre divis ees par n, comme dans les equations (5.10) et (8.31). Puisque nous avons suppos e dans (17.12) que A est O(1), la fonction crit` ere (17.13) doit etre divis ee par n2, comme nous lavons d ej` a mentionn e dans (17.14). La convergence du M-estimateur (17.17) etant etablie, il est temps de passer ` a la normalit e asymptotique. Comme toujours, cette propri et e n ecessite que des conditions de r egularit e suppl ementaires soient satisfaites. Jusquici, nous navons pos e aucune hypoth` ese particuli` ere sur la forme de la fonction n crit` ere Q . La fonction somme-des-carr es et la fonction de logvraisemblance peuvent toutes deux sexprimer comme la somme de n contributions, une pour chaque observation de l echantillon. La fonction crit` ere de la GMM (17.13) adopte une structure l eg` erement plus compliqu ee: cest une forme quadratique compos ee dune matrice d enie positive et dun vecteur F dont chaque composante est une somme de contributions. La premi` ere exigence suppl ementaire est que le M-estimateur que lon etudie soit, selon la terminologie du Chapitre 8, de Type 2, cest-` a-dire quil soit une solution aux conditions de premier ordre pour un minimum int erieur de la fonction crit` ere Q. En faisant abstraction de la d ependance explicite de ` a n et Q et de celle de Q ` a n, nous pouvons ecrire les conditions de premier ordre sous la forme Q ( ) = 0 j pour j = 1, . . . , k . (17.19)
est convergent si Q identie , il est naturel de calculer un Puisque d eveloppement en s erie de Taylor des conditions (17.19) autour de = 0 . Cela donne Q 2Q 0 (0 ) + (j ) i i = 0, j j i i=1
k
pour j = 1, . . . , k ,
(17.20)
. Alors, ` o` u j est une combinaison convexe de 0 et de a condition que la ma2 trice Hessienne H( ), dont l el ement type est Q( )/j i , soit inversible
594
au voisinage de 0 , nous obtenons 0 = (H )1 g (0 ), (17.21)
o` u g ( ) d esigne le gradient de Q, cest-` a-dire le vecteur de dimension k dont la composante type est Q( )/j . Comme dhabitude, H d esigne la matrice dont les el ements sont evalu es avec le vecteur appropri e j . Si nous voulons etre capables de d eduire la normalit e asymptotique de a partir de (17.21), il doit ` etre possible dappliquer une loi des grands nombres a H et un th ` eor` eme de la limite centrale ` a n1/2 g (0 ). Nous obtiendrons alors le r esultat suivant:
a 0 ) = n 1 /2 ( plim H0 n 1
n1/2 g (0 ).
(17.22)
De quelles conditions de r egularit e avons-nous besoin pour (17.22)? Il faut tout dabord, an de justier le d eveloppement en s erie de Taylor dans (17.20), que Q soit au moins deux fois contin ument di erentiable par rapport ` a . Si cest le cas, alors la matrice Hessienne de Q est O(1) lorsque n . A cause de cela, nous la notons H0 plut ot que H ; voir la Section 8.2. Ensuite nous avons besoin de conditions qui permettent lapplication dune loi des grands nombres et dun th eor` eme de la limite centrale. De fa con assez formelle, nous pouvons enoncer un th eor` eme bas e sur le Th eor` eme 8.3 comme suit: Th eor` eme 17.2. Normalit e Asymptotique des M-Estimateurs Le M-estimateur issu de la s erie des fonctions crit` ere Q est asymptotiquement normal sil satisfait les conditions du Th eor` eme 17.1 et si de plus (i) pour tout n et tout , Qn (y n, ) est deux fois contin ument di erentiable par rapport ` a pour presque tout y , et la fonction (, ) est deux fois contin limite Q ument di erentiable par rapport ` a pour tout et pour tout M; (ii) pour tout DGP M et pour toute s erie { n } qui tend en probabilit e vers () lorsque n , la matrice Hessienne Hn (y n, n ) de Qn par rapport ` a tend uniform ement en probabilit e vers une matrice H() d enie positive, nie et d eterministe; et (iii) pour tout DGP M, n1/2 fois le gradient de Qn (y n, ), ou n1/2 g y n, () , converge en distribution lorsque n vers une distribution normale multivari ee desp erance nulle et de matrice de covariance V (). () tend vers Sous ces conditions, la distribution de n1/2 N 0, H()1 V () H()1 . Il est inutile de sattarder sur la d emonstration du Th eor` eme 17.2. Au lieu de cela, nous devrions nous ramener au cas de la GMM et chercher les conditions sous lesquelles la fonction crit` ere (17.13), pr ealablement divis ee par n2,
595
satisfait les exigences du th eor` eme. Sans plus de c er emonie, nous supposons que toutes les contributions fti (yt , ) sont au moins deux fois contin ument di erentiables par rapport ` a pour tout , pour tout yt , et pour toutes les valeurs admissibles de nimporte quelle variable pr ed etermin ee et exog` ene dont elles peuvent d ependre. Puis, nous supposons que les s eries
1 n
n t=1
fti (yt , ) et j
1 n
n t=1
2 fti (yt , ) j m
pour i = 1, . . . , l et j, m = 1, . . . , k satisfont toutes deux les conditions WULLN. Cela nous permet de d enir les fonctions limites comme suit: dij (, ) plim n
n
n t=1
fti (yt , ) . j
(17.23)
Nous noterons D la matrice de dimension l k dont l el ement type est dij . En rappelant la d enition de m dans (17.15), nous pouvons ` a pr esent armer que la fonction crit` ere limite Q empirique Qn (y n, ) n2 F (y n, )A(y n )F (y n, ) est donn ee par (, ) = m (, )A0 () m(, ). Q (17.24)
(17.25)
Bien que nous ayons suppos e que les contributions fti etaient deux fois contin ument di erentiables, il est en g en eral n ecessaire de supposer est deux fois contin s epar ement que Q ument di erentiable. Nous formulons donc cette hypoth` ese suppl ementaire, qui nous permet de conclure que eme composante de m(, ), par rapdij (, ) est la d eriv ee de mi (, ), la i i` port ` a j . La matrice A(y ) et la matrice limite A0 () ne d ependent pas du vecteur param etrique , et nous trouvons par cons equent que le gradient de par rapport ` Q a est donn e par le vecteur 2D A0 m. (17.26)
A premi` ere vue, il semble quil ny ait pas dexpression matricielle pratique , puisque D est elle-m pour la matrice Hessienne de Q eme une matrice. Cependant, lorsque = 0 , nous savons ` a partir de (17.16) que m(, 0 ) = 0. Il en r esulte que la matrice Hessienne limite evalu ee avec le v eritable vecteur de param` etres est H() = 2D (, 0 )A0 ()D (, 0 ). (17.27) Nous pouvons exploiter davantage les hypoth` eses pour garantir que les fonctions crit` ere (17.24) et la fonction limite (17.25) satisfont les conditions (i) et (ii) du Th eor` eme 17.2. En particulier, nous pouvons assurer que H() est
596
d enie positive du fait que D (, 0 ) devrait etre de plein rang, cest-` a-dire de rang k . Cette exigence est lanalogue de lexigence dune identication asymptotique forte discut ee dans le Chapitre 5 (voir le Th eor` eme 5.2 et la discussion qui le suit), et nous adopterons une terminologie comparable dans le nouveau contexte. Cela signie simplement que, comme les k composantes de varient au voisinage de 0 , les l composantes de m(, ) varient egalement dans k directions ind ependantes de Rl . La condition (iii) est l eg` erement plus d elicate, puisquelle implique un th eor` eme de la limite centrale. Remarquons premi` erement que le gradient de Q, evalu e avec = 0 , est nul, ce qui d ecoule de (17.26). Ceci nest quun reet de la convergence de lestimateur. Il nous faut donc remonter dans le raisonnement et consid erer n1/2 fois le gradient de Qn avec plus de pr ecision. A partir de (17.24), nous obtenons, en abandonnant la d ependance explicite a la taille de l ` echantillon n
1 /2
gj n
1 /2
Q Ft 1 =2 A n1/2 Fs , n j j t=1 s=1
(17.28)
u, comme pr ec edemment, o` u toutes les quantit es sont evalu ees en (y , 0 ) et o` i` e me Ft est la t ligne de F . A l evidence, notre attention doit se porter exn clusivement sur le dernier facteur de lexpression, n1/2 s=1 Fs , si nous voulons obtenir la distribution asymptotique, puisque tous les autres facteurs ont de bonnes propri et es, sont d eterministes, et tendent vers une limite en probabilit e. Notre but nest pas dans ce chapitre de collectionner les DGP, aussi sera-t-il sufsant pour linstant de supposer que, pour chaque M, la s erie vectorielle {Ft (yt , 0 )} ob eit ` a la condition CLT de la D enition 4.16. Cen est assez pour la condition (iii) du Th eor` eme 17.2, aussi pouvons-nous , lestimateur GMM obtenu en maximisant (17.13), est asympconclure que totiquement normal. Remarquons que la condition CLT peut se r ev eler plus contraignante que ce que nous voudrions, puisquelle elimine certaines formes de corr elation en s erie; se reporter ` a la Section 17.5. 0 ). Il reste ` a calculer la matrice de covariance asymptotique de n1/2 ( Nous commen cons par consid erer la matrice de covariance asymptotique de (17.28), V (). Soit () une matrice de dimension l l d enie de mani` ere ` a ce que son el ement type soit ij () plim n
n
fti (yt , 0 )ftj (yt , 0 ) .

t=1
(17.29)
Gr ace au CLT, elle correspond ` a la matrice de covariance asymptotique de n n1/2 t=1 Ft (yt , 0 ). Puis, etant donn ee la d enition (17.23), la matrice de covariance asymptotique de (17.28) est V () = 4D (, 0 )A0 () ()A0 ()D (, 0 ). (17.30)
597
Par la suite, souvenons-nous qu` a partir du Th eor` eme 17.2, la matrice de 0 ) est H1 V0 H1 , et que, ` covariance asymptotique de n1/2 ( a partir de 0 0 (17.27), H0 = 2D A0 D . Nous obtenons donc le r esultat suivant: 0 ) = D A0 D V n1/2 (
1
D A0 A0 D D A0 D
(17.31)
Cette expression nest pas particuli` erement commode, bien quelle puisse se simplier quelquefois, comme nous le verrons dans la section qui suit. Lesti 0 ) nest pas dicile; il sut destimer mation convergente de V n1/2 ( dij par n fti 1 ), (y , (17.32) n j t=1 A0 par A(y ), et ij par lexpression (17.29) sans la limite en probabilit e. Bien que cela fournisse une estimation convergente de (17.30), cest souvent une estimation tr` es parasit ee. Nous parlerons de ce r esultat plus en d etail dans la Section 17.5, mais il est loin d etre totalement r esolu. Il est int eressant dillustrer (17.31) dans le cas de lestimateur IV d eni par (17.08). Le r esultat permettra de construire une estimation robuste ` a lh et erosc edasticit e de la matrice de covariance de ce dernier. Nous avons simplement besoin d etablir quelques equivalences dordre notationnel entre le cas IV et le cas plus g en eral envisag e pr ec edemment. Dans le cas IV, les el ements de la matrice F deviennent fti = Wti (yt Xt ). Par cons equent,
1 D = plim W X n
n
(17.33)
et
1 A0 = plim W W n n
(17.34)
La matrice est obtenue ` a partir de (17.29): = plim n n

1
n t=1
1 yt Xt Wt Wt = plim W W , n n
(17.35)
o` u est la matrice diagonale dont l el ement type est E (yt Xt )2. Si nous substituons (17.33), (17.34), et (17.35) dans (17.31), nous obtenons lexpression suivante pour la matrice de covariance asymptotique de lestimateur IV: plim
1 X PW X n
1
1 1 X PW PW X X PW X n n
(17.36)
La matrice (17.36) est clairement lanalogue pour lestimateur IV de (16.08) pour lestimation NLS: elle fournit la matrice de covariance asymptotique
598
robuste ` a une h et erosc edasticit e dont la forme est inconnue. Ainsi nous voyons que les matrices HCCME du type de celles etudi ees dans la Section 16.3 sont disponibles pour lestimateur IV. Nous pouvons alors employer nimporte aper quel estimateur non convergent cu ` a cette occasion pour obtenir un 1 estimateur convergent de plim n X PW PW X . Les lecteurs peuvent se demander ` a juste titre pourquoi la matrice obtenue est robuste ` a lh et erosc edasticit e seulement et non pas aussi ` a la corr elation en s erie des al eas. La r eponse est que la matrice de covariance V de (17.30) nest valable que si la condition CLT est satisfaite par les contributions des moments empiriques. Celle-ci ne sera pas satisfaite si les al eas adoptent un sch ema particulier de corr elation entre eux. Dans la Section 17.5, nous discuterons des m ethodes qui permettent de traiter la corr elation en s erie, mais elles nous entraineront au-del` a des limites de la structure asymptotique avec laquelle nous avons travaill e jusqu` a pr esent.
17.3 Estimateurs GMM Efficaces

La question de savoir si les estimateurs GMM sont asymptotiquement ecaces nest pas compl` etement directe compte tenu du fait quil existe de nombreux r esultats distincts. Le premier r esultat etait d evoil e au d ebut de la section pr ec edente, en connexion avec lestimation par variables instrumentales. Nous y avions vu que, pour un ensemble donn e de moments empiriques W (y X ), il etait possible de g en erer toute une famille destimateurs selon les choix di erents de la matrice de pond eration A(y ) utilis ee pour construire la forme quadratique ` a partir des moments. Asymptotiquement, le plus ecace de ces estimateurs est obtenu en choisissant A(y ) telle quelle tende vers une limite en probabilit e d eterministe proportionnelle ` a linverse de la matrice de covariance limite des moments empiriques, pr ealablement pond er ee par une puissance appropri ee de la taille de l echantillon n. Ce r esultat rev et un caract` ere assez g en eral, ainsi que nous allons le montrer. Th eor` eme 17.3. Une Condition N ecessaire ` a lEcacit e Une condition n ecessaire ` a lecacit e de lestimateur issu de la minimisation de la forme quadratique (17.13) est que, asymptotiquement, il soit egal ` a lestimateur donn e par la minimisation de (17.13) o` u A( y ) est ind ependant de y et egale linverse de la matrice de covariance des moments empiriques n1/2 F ( ) . Remarquons que, lorsque la condition n ecessaire est v eri ee, la forme de la se simplie conmatrice de covariance asymptotique de lestimateur GMM sid erablement. Pour une matrice de pond eration limite arbitraire A0 , cette matrice etait donn ee par (17.31). Si la condition est remplie, alors on peut remplacer A0 dans (17.31) par linverse de , qui, selon sa d enition (17.29), correspond ` a la matrice de covariance asymptotique des moments empiriques. Substituant A0 = 1 dans (17.31), nous obtenons le r esultat simple selon
17.3 Estimateurs GMM Efficaces lequel 0 ) = D 1 D V n 1 /2 (

1
599
Nous pourrons d emontrer le Th eor` eme 17.3 si nous pouvons montrer que, pour toute matrice sym etrique, d enie positive A0 , la di erence D A0 D
1
D A0 A0 D D A0 D
D 1 D
(17.37)
est semi-d enie positive. Pour le montrer, nous r ecrivons (17.37) sous la forme D A0 D
1
D A0 D D 1D
A0 D D A0 D
(17.38)
Puisque la matrice D A0 D est non singuli` ere, (17.38) est d enie positive si la matrice que lon trouve au centre de (17.38), dans le bloc entre parenth` eses, lest. Puisque est d enie positive, sym etrique et de dimension l l, il est possible de trouver une autre matrice d enie positive, sym etrique et de 2 1 dimension l l telle que = . En termes de , la matrice ` a lint erieur des parenth` eses les plus grandes devient 1 I PD 1 = 1MD 1, (17.39)
o` u PD et MD sont, ainsi que le sugg` erent les notations, les matrices de projection orthogonale sur lespace engendr e par les colonnes de la matrice D de dimension l k et sur son compl ement orthogonal. Nous voyons que (17.39) est bien une matrice semi-d enie positive, ce qui d emontre le Th eor` eme 17.3. Le Th eor` eme 17.3 peut souvent sinterpr eter en termes dinstruments optimaux ou poids optimaux, parce que les conditions du premier ordre pour un minimum de la fonction crit` ere construite avec une matrice de pond eration optimale ressemblent fort aux conditions sur les moments empiriques. Sil faut estimer k param` etres, il y aura pr ecis ement k conditions du premier ordre. Ainsi un mod` ele qui etait ` a lorigine suridenti e peut etre rendu comparable ` a un mod` ele juste identi e. Consid erons la fonction crit` ere asymptotique 1 m ( ) m( ) construite ` a laide de la matrice de pond eration asymptotique optimale 1. Les conditions du premier ordre pour un minimum sont donn ees par les k composantes de l equation D ( ) 1 m( ) = 0. (17.40)
tel que Supposons que lon puisse trouver un estimateur convergent plim n = ().
Si Dt (y , ) d esigne la matrice de dimension l k dont l el ement type est fti (yt , )/j , (17.23) implique que
1 plim n
n
Dt (y , ) = D ( ).
t=1
600
Par cons equent, ` a laide de ces deux equations et de (17.15), la contrepartie empirique ` a (17.40) est n
1
n t=1
1 1 Dt (y , ) n
Ft (y , ) .
t=1
(17.41)
Les moments empiriques (17.41) constituent un ensemble de k comn binaisons lin eaires des moments dorigine n1 t=1 Ft . En annulant ces equations, nous obtenons k equations ` a k inconnues, et la solution ` a ces equations est pr ecis ement lestimateur GMM obtenu en minimisant la forme quadratique des moments empiriques elabor ee ` a laide dune matrice de pond eration optimale. On peut donner le nom de moments optimaux associ es a lensemble dorigine aux moments (17.41). A laide de quelques exemples, ` nous verrons comment ces moments optimaux peuvent dans bien des cas servir a d ` enir les instruments ou les poids optimaux. Consid erons tout dabord le cas de lestimateur IV lorsquil y a plus dinstruments que de r egresseurs. Les conditions du premier ordre pour la minimisation de la fonction crit` ere (17.08) sont X PW (y X ) = 0. Leur r esolution conduit ` a lestimateur IV (ou estimateur 2SLS) X PW X
1
(17.42)
X PW y ,
(17.43)
qui est identique ` a lestimateur IV simple obtenu ` a laide des variables instrumentales PW X. Ainsi lutilisation optimale de la matrice compl` ete des l instruments W equivaut ` a lutilisation des k instruments que sont les colonnes de la matrice PW X. Lestimateur IV en pr esence dune h et erosc edasticit e de forme inconnue fournit un exemple encore plus int eressant. Dans la section pr ec edente, nous montrions comment construire une HCCME pour lestimateur IV (17.43) bas ee sur (17.36). En pr esence dh et erosc edasticit e cependant, lestimateur (17.03) ne satisfait plus du tout la condition n ecessaire pour lecacit e asymptotique. Il est possible de construire un estimateur qui satisfait pleinement cette condition en partant des conditions sur les moments (17.05). Soit une matrice diagonale de dimension n n dont l el ement type est tt = E (u2 t ), o` u ut = yt Xt . Alors la matrice de covariance des moments empiriques dans (17.05) est simplement W W. Ainsiune fonction crit` ere qui satisfait la condition n ecessaire ` a lecacit e est (y X ) W W W
1
W (y X ).
Les conditions du premier ordre pour un minimum de cette fonction sont X W W W

1
W (y X ) = 0,
17.3 Estimateurs GMM Efficaces et elles conduisent ` a lestimateur = X W (W W )1 W X

1
601
X W (W W )1 W y .
(17.44)
Les instruments optimaux qui produisent cet estimateur sont les colonnes de la matrice W (W W )1 W X. Nous avons ici suppos e implicitement que est connue. Dans le cas plus r ealiste o` u elle est inconnue, nous pouvons estimer W W de mani` ere convergente de plusieurs fa cons, par lusage des estimateurs non convergents de dont nous avons discut e dans la Section 16.3. Les versions op erationnelles de lestimateur (17.44) furent propos ees ` a lorigine par Cragg (1983), dans le cas o` u les r egresseurs X peuvent etre trait es comme instruments, et par Cumby, Huizinga, et Obstfeld (1983) dans un cas plus g en eral. Ces derniers consid` erent en r ealit e un estimateur plus compliqu e qui permettrait de g erer autant lh et erosc edasticit e que lautocorr elation, et lappel` erent estimateur des doubles moindres carr es en deux etapes; nous discuterons de cet estimateur dans la Section 17.5. Nous nous r ef ererons ` a (17.44) avec remplac ee par une matrice diagonale de dimension n n dont les el ements diagonaux sont les carr es des r esidus 2SLS sous le nom de H2SLS, parce quil sagit dune version modi ee de lestimateur 2SLS conventionnel qui atteint une ecacit e sup erieure en pr esence dune h et erosc edasticit e de forme inconnue. Pareillement, nous appellerons lestimateur de Cragg, qui emploie les r esidus OLS pour estimer , estimateur HOLS. Il est r ev elateur dexaminer plus attentivement ces estimateurs. Si les seuls instruments disponibles sont les r egresseurs, alors remplacer W par X dans (17.44) napporte rien de plus et lon retrouve lestimateur des OLS. Cragg sugg` ere alors demployer des puissances ou des produits crois es des r egresseurs en tant quinstruments suppl ementaires. Si tous les r egresseurs ne peuvent pas servir en tant quinstruments pour que le mod` ele soit juste identi e, alors W X est une matrice carr ee non singuli` ere et (17.44) se r eduit a lestimateur IV simple. Dans les deux cas, bien ` evidemment, (17.44) peut ne pas etre ecace. Cela nous permet de constater que la condition n ecessaire decacit e donn ee par le Th eor` eme 17.3 nest pas susante. Dans le contexte suridenti e, lestimateur HOLS sera plus ecace que lestimateur OLS, et lestimateur H2SLS sera plus ecace que lestimateur IV usuel, mais ni lun ni lautre ne sera plus ecace dans labsolu. On peut trouver une exception ` a cette remarque, lorsquil ny a pas de ph enom` ene dh et erosc edasticit e et que correspond ` a une matrice identit e multipli ee 2 par un scalaire. Si lon pose = I dans (17.44), on obtient lestimateur IV ordinaire (17.43). Lorsque (17.44) est calcul ee ` a laide dune matrice ad equate quelconque , lexpression di erera num eriquement de (17.43) lorsque les al eas sont homosc edastiques bien que cette di erence sestompe asymptotiquement. Lorsquil y a h et erosc edasticit e, nous voyons que si les r egresseurs peuvent etre trait es en tant quinstruments, lexistence dautres instruments valides peut mener ` a une am elioration de lecacit e. M eme si tous les
602
r egresseurs ne peuvent pas etre utilis es comme instruments, il est possible dobtenir un gain decacit e en utilisant (17.44) au lieu de (17.43). Nous examinerons plus tard la source de ce gain decacit e, au cours de la section suivante, lorsque nous consid ererons les conditions portant sur les moments conditionnels. Il nous faut faire quelques remarques ` a propos des cas o` u les estimateurs GMM ne sont pas ecaces m eme si lon utilise une matrice de pond eration optimale. Il sav` ere que lecacit e ou la non ecacit e de lestimateur GMM d epend du mod` ele sous-jacent M pour lequel il est employ e. Tout en restant assez vagues, disons que lestimateur GMM est dautant plus ecace que le mod` ele M est contraignant. Autrement dit, la probabilit e de trouver un estimateur plus ecace que lestimateur GMM est dautant plus forte que lon impose un grand nombre de contraintes dans la sp ecication de M. Un exemple peut aider ` a la compr ehension de ce point de lexpos e. Consid erons un mod` ele param etris e (M1 , ) que lon peut estimer par maximum de vraisemblance, avec une application d enissante des param` etres bi-univoque : M1 Rk. Lestimateur ML peut etre trait e comme un estimateur GMM pour lequel les moments empiriques sont les composantes du vecteur score g ( ). Lecacit e asymptotique de lestimateur du maximum de vraisemblance implique par cons equent celle de lestimateur GMM. Supposons maintenant que soit contraint ` a satisfaire l egalit e vectorielle 2 = 0, o` u 2 est un sous-vecteur de dimension r de . Ces contraintes d enissent un nouveau mod` ele, contraint, que lon peut noter M0 , tel que M0 M1 . Gr ace au maximum de vraisemblance, le mod` ele contraint M0 peut etre estim e exactement de la m eme mani` ere que le mod` ele non contraint M1 , et lestimateur ML du premier est en g en eral plus ecace que lestimateur ML du second. Dans la structure GMM, les choses peuvent sexprimer de mani` ere assez di erente. Les k composantes du vecteur score g ( ) fournissent k conditions sur les moments qui devraient etre statisfaites par tout DGP de M1 , et en particulier par ceux compris dans M0 . Si lon trouve des motivations dans le choix de M0 , alors il faudrait sans doute evaluer ces conditions sur les moments en posant le sous-vecteur 2 egal ` a z ero, mais m eme ainsi on dispose de k conditions pour seulement k r param` etres; autrement dit, il y a des contraintes de suridentication. La proc edure ML les ignore tout simplement et s electionne juste k r de ces conditions, et plus pr ecis ement celles fournies par les d eriv ees partielles de la fonction de logvraisemblance par rapport ` a 1 . La th eorie de lestimation par maximum de vraisemblance nous enseigne que ce choix est asymptotiquement ecace, et par cons equent, si ces conditions etaient pr ecis ement utilis ees dans une procdure GMM juste identi ee, celle-ci serait egalement ecace. Malgr e tout, la proc edure GMM usuelle consisterait ` a construire une forme quadratique ` a partir de toutes les composantes du gradient et dune estimation de sa matrice de covariance, qui pourrait etre nimporte quelle estimation ad equate de la matrice dinformation. Notons I cette estimation,
` lAide des Moments Conditionnels 17.4 Estimation a et nous obtenons g (1 , 0) I1 g (1 , 0).
603
(17.45)
La minimisation de cette expression par rapport ` a 1 conduira, en g en eral, a un ensemble destimations di ` erent de celui produit par la maximisation de la fonction de logvraisemblance contrainte, mais on peut voir que les deux ensembles sont asymptotiquement equivalents (Cela serait un bon exercice que de le montrer). Cela signie que lestimateur GMM est asymptotiquement ecace ` a condition que les contraintes de suridentication soient utilis ees. Les param` etres peuvent etre identi es dans de nombreux cas par dautres ensembles de k conditions portant sur les moments que celles fournies par les d eriv ees de la fonction de logvraisemblance par rapport ` a 1 . De fa con g en erale, on peut s electionner nimporte quel ensemble de k r conditions et les r esoudre pour obtenir des estimations GMM di erentes, qui ne seront pas asymptotiquement ecaces. (Le montrer serait un bon exercice) Il est m eme envisageable de s electionner un nombre de conditions compris entre k r et k , de construire une forme quadratique gr ace ` a linverse de la matrice dinformation, et de minimiser cette forme quadratique an dobtenir encore un autre ensemble destimations GMM non ecaces. La conclusion que lon peut tirer de tout ceci est quil existe de multiples possibilit es pour un ensemble de conditions sur les moments didentier les param` etres dun mod` ele M0 , avec ou sans contrainte de suridentication. Seul un petit nombre de possibilit es conduit ` a des estimations asymptotiquement ecaces. Une discussion d etaill ee de ces cons equences nous conduirait beaucoup trop loin. Bien quil nexiste pas dobstacle majeur ` a la compr ehension du ph enom` ene dans le contexte ML, un traitement rigoureux dans le cas plus g en eral semble manquer, bien quun nombre de cas particuliers soient bien compris. Les lecteurs int eress es peuvent consulter Chamberlain (1986, 1987), Hansen (1985), et Hansen, Heaton, et Ogaki (1988). Heureusement, les choses sont plus simples dans le cas des mod` eles d enis par des conditions portant sur les moments conditionnels, dont nous allons parler dans la prochaine section.
` lAide des Moments Conditionnels 17.4 Estimation a

Les conditions portant sur les moments employ ees jusqu` a pr esent etaient toutes non conditionnelles. Dans la pratique cependant, le fait quun mod` ele econom etrique soit sp eci e uniquement en termes de moments non conditionnels est lexception plut ot que la r` egle. Dans la litt erature consacr ee aux mod` eles danticipations rationnelles par exemple, la th eorie economique requiert que les erreurs de pr evision commises par les agents soient ind ependantes de toutes les variables de leurs ensembles dinformations ` a linstant o` u les pr evisions sont etablies. Dans le contexte simple du mod` ele de r egression lin eaire y = X + u, il est habituel de supposer non seulement que lal ea ut
604
est non corr el e aux r egresseurs X mais aussi que son esp erance conditionelle aux r egresseurs est nulle, ce qui implique ` a nouveau quil est non corr el e avec une fonction quelconque des r egresseurs. Dans un contexte de donn ees temporelles, il est tr` es fr equent de supposer que lerreur ut a une esp erance nulle conditionnellement ` a toutes les valeurs pass ees des r egresseurs aussi bien qu` a leurs valeurs courantes. De fa con formelle, il est ais e d ecrire un ensemble d equations d enissantes des param` etres en termes des moments conditionnels. Il ny a souvent quune seule equation de ce genre, que lon peut ecrire E ft (yt , ) | t = 0 pour tout t = 1, . . . , n, (17.46)
o` u t est lensemble dinformations pour lobservation t. Nous ferons lhypoth` ese simplicatrice que t s pour t < s. Dans (17.46) nous interpr etons ft (yt , ) comme une sorte derreur, telle quune erreur de pr evision commise par les agents economiques. Le cas dune estimation IV dun mod` ele de r egression lin eaire ore un exemple simple. Dans ce cas pr ecis, (17.46) nous indique que les erreurs, une par observation, sont orthogonales ` a lensemble dinformations d eni par lensemble des instruments. Il serait possible davoir plusieurs equations d enissantes des param` etres telles que (17.46), comme dans le cas dun mod` ele de r egression multivari ee, mais pour simplier nous supposerons dans cette section quil nen existe quune seule. En th eorie, aucun probl` eme didentication ne se pose du fait quil nexiste quune seule equation d enissante des param` etres, parce quil existe un nombre inni dinstruments possibles dans le genre densemble dinformations que nous consid erons. Dans la pratique, bien evidemment, il faut choisir un nombre ni dinstruments, an d etablir une fonction crit` ere pour lestimation GMM. La plus grande partie de cette section consistera ` a etablir les quelques r esultats qui aectent ce choix. Nous montrerons que la pr ecision de lestimateur GMM est reli ee positivement au nombre des instruments. Puis, nous montrons que, malgr e ce premier r esultat, les matrices de covariance asymptotique des estimateurs GMM construits ` a partir des instruments compris dans les ensembles dinformations t sont born ees inf erieurement. La borne inf erieure, qui sapparente ` a la borne inf erieure de Cram er-Rao introduite dans le Chapitre 8, est souvent appel ee borne GMM. En th eorie, tout au moins, il existe un ensemble optimal dinstruments qui permet datteindre la borne GMM, et les instruments optimaux peuvent dans certains cas etre calcul es ou estim es. Nous construisons un ensemble de l instruments w1 , . . . , wl que lon peut grouper dans une matrice W de dimension n l telle que Wti t pour tout t = 1, . . . , n et i = 1, . . . , l. Nous r eclamons bien evidemment que l k , . On peut o` u k est le nombre de composantes du vecteur de param` etres exprimer les conditions portant sur les moments conditionnels que lon utilise pour lestimation comme suit: W f ( ) = 0, (17.47)
605
o` u f est un vecteur ` a n composantes, et dont la composante type est ft . Si est obtenu en r l = k , lestimateur esolvant les k equations (17.47). Si l > k , cet estimateur est obtenu en minimisant la forme quadratique elabor ee ` a partir des composantes du membre de gauche de (17.47) et dune estimation de leur matrice de covariance. Notons la matrice de covariance des ft . Ainsi, si nous notons le DGP et 0 le v eritable vecteur de param` etres, ts = E ft (0 )fs (0 ) | t pour tout t s.
Alors la matrice de covariance conditionnelle des moments empiriques dans (17.47) est W W. Dans le cas habituel, o` u l > k , la fonction crit` ere utilis ee pour obtenir les estimations des param` etres est f ( ) W W W
1
W f ( ).
La matrice de covariance asymptotique de cet estimateur est donn ee par la 1 1 limite en probabilit e de (D D ) , o` u
1 Dij = plim n n
n
Wti
t=1
ft . j
(17.48)
Soit J (y , ) la matrice de dimension n k d el ement type ft (yt , )/j .1 Alors le membre de droite de (17.48) est la limite de n1 W J. Par cons equent, 0 ) se r la matrice de covariance asymptotique de n1/2 ( esume ` a la limite de
1 J W n 1 W W n
1
1 W J n
(17.49)
Le premier r esultat relatif au choix optimal des instruments W est simple et intuitif. Il indique que si nous augmentons le nombre des instruments, la matrice de covariance limite (17.49) ne peut pas augmenter. Imaginons quau lieu des conditions portant sur les moments empiriques (17.47) nous utilisions un ensemble de combinaisons lin eaires de ces conditions. Cela correspond ` a B W f ( ) = 0, ` la place de (17.47), pour une matrice B de dimension l p quelconque, o` a u p l. Il est ais e de voir que cela correspond au remplacement de D par B D et de par B B . Consid erons la di erence D 1 D D B B B
1 1
B D
La notation J fut choisie parce que la matrice est la matrice Jacobienne de f par rapport ` a et parce que F etait d ej` a r eserv ee ` a un autre usage.
606
entre les inverses des matrices de covariance asymptotique de dimension k k correspondant aux instruments W et WB , respectivement. Si, comme pr ec edemment, nous notons une matrice sym etrique de dimension l l telle que 2 = 1, cette di erence devient D I 1 B B 2 B
1
B 1 D .
(17.50)
Cette matrice est ` a l evidence semi-d enie positive, parce que la matrice entre les deux grandes parenth` eses est la matrice de projection orthogonale sur le compl ement orthogonal de lespace engendr e par les colonnes de 1B . Pour deux matrices quelconques P et Q, sym etriques, d enies positives et de m eme dimension, P Q est semi-d enie positive si et seulement si Q1 P 1 est semi-d enie positive (consulter lAnnexe A). Ainsi le fait que (17.50) soit semi-d enie positive etablit notre premier r esultat. Ce r esultat semble sugg erer quil faudrait utiliser autant dinstruments que possible an dobtenir des estimations aussi ecaces que possible. Malgr e tout, une telle conclusion est g en eralement fausse. Souvenons-nous de la discussion de la Section 7.5, illustr ee par la Figure 7.1. Nous avions vu que, dans le contexte IV ordinaire, il y a un equilibre ` a r ealiser entre lecacit e asymptotique et le biais avec des echantillons nis. Le m eme equilibre doit egalement etre recherch e dans le cas GMM. Lusage dun nombre important de contraintes de suridentication peut mener ` a une matrice de covariance asymptotique plus petite, mais les estimations peuvent se r ev eler tr` es s ev` erement biais ees. Un autre argument allant ` a lencontre de lusage dun trop grand nombre dinstruments est simplement que les cons equences positives sont d ecroissantes, compte tenu de lexistence de la borne GMM. Le second r esultat montre comment choisir les instruments W de fa con optimale. Il indique que si nous posons W = 1J dans (17.47), la matrice de covariance asymptotique qui en r esulte est plus petite que celle donn ee par nimporte quel autre choix. A partir de (17.49) il sensuit que la borne GMM pour la matrice de covariance asymptotique est plim (n1J 1J )1. H elas, comme nous le verrons, ce r esultat nest pas toujours op erationnel dans la pratique. La d emonstration est tr` es simple. Comme pour le premier r esultat, il est tr` es facile de manipuler des inverses de matrices de covariance pertinentes. D enissons par la matrice sym etrique de dimension n n telle que 2 . Alors, la suppression des limites et des facteurs de n pour linstant nous montre que 1 J 1J J W W W W J (17.51) 1 = J 1 I W W 2 W W 1J . Puisque la matrice dans les grandes parenth` eses est la projection orthogonale sur le compl ement de lespace engendr e par les colonnes de W, cette expression est semi-d enie positive, et le second r esultat est etabli.
607
eme ligne J de la matrice J nappartienIl est tout ` a fait possible que la t i` t ne pas ` a lensemble dinformations t . Dans ce cas, il ne faut surtout pas ignorer les limites et les facteurs de n dans (17.51). Chaque expression matricielle tend alors vers une limite en probabilit e d eterministe, qui en vertu de la loi des grands nombres, est la limite des esp erances (conditionnelles) des matrices. Par cons equent, Jt devrait etre remplac ee par E (Jt | t ) lorsque cela est n ecessaire.
Remarquons que 1J est une matrice qui poss` ede k instruments. Nous avons donc montr e que, dans le contexte dun mod` ele avec des conditions portant sur les moments conditionnels, il est possibe de choisir des instruments tels que, bien quil ny ait aucune contrainte de suridentication, on obtienne un estimateur asymptotiquement ecace. La matrice de covariance asymptotique associ ee ` a cet estimateur est plim(n1J 1J ). Dans la pratique, il peut etre plus ou moins facile de calculer ou destimer les instruments optimaux. Clairement, la matrice J ( ) peut se calculer directement comme une fonction de en d erivant les moments empiriques. Mais il faut ensuite une estimation de , ` a moins que les moments ne soient lin eaires par rapport ` a . Une attitude ` a adopter consiste ` a obtenir en premier lieu une estimation convergente mais non ecace et de lutiliser pour d enir de fa con approximative les instruments optimaux, qui nous conduiront ensuite ` a des estimations asymptotiquement ecaces. Si les estimations de d epart ne sont pas tr` es pr ecises, il serait grandement souhaitable demployer une proc edure it erative au cours de laquelle des estimations successives d enissent des approximations successives de plus en plus proches des instruments optimaux. An dobtenir des instruments optimaux, il est egalement n ecessaire destimer la matrice de fa con convergente, au moins ` a un facteur multiplicatif pr` es. Si les ft sont homosc edastiques et ind ependants en s erie, on peut bien s ur employer simplement une matrice identit e pour . Si elles suivent une structure connue dh et erosc edasticit e et/ou dautocorr elation, avec des param` etres que lon peut estimer de fa con convergente, alors il est envisageable demployer une proc edure it erative ou une proc edure en deux etapes. Mais sil peut y avoir une structure dh et erosc edasticit e ou dautocorr elation arbitraire, cela devient un sujet, sinon d esesp er e, du moins extr emement d elicat ` a traiter. Habituellement, les instruments optimaux ne peuvent plus etre calcul es et il faut se contenter des instruments disponibles. Voyons ` a pr esent comment appliquer les r esultats de cette section ` a un cas simple. Consid erons le mod` ele de r egression lin eaire pour lequel les ensembles dinformations t sont connus pour chaque observation. La condition sur le moment qui d enit le vecteur de param` etres est E (yt Xt | t ) = 0. En termes de notre notation g en erale, ft = yt Xt , et la matrice J est simplement egale ` a X. De fa con comparable, la matrice correspond simplement ` a la matrice de covariance des ft , cest-` a-dire celle des al eas. Ainsi, ` a condition que Xt t , les instruments optimaux sont donn es par les colonnes
608
de 1X. Les conditions portant sur les moments empiriques deviennent X 1 (y X ) = 0, et nous voyons que, comme nous aurions pu nous y attendre, lestimateur ecace est celui des GLS. Cet exemple devrait montrer au moins certains aspects des dicult es qui peuvent entacher le calcul des instruments optimaux. Comme nous lavons vu dans la Section 9.5, si la forme de la matrice est connue et d epend dun vecteur de param` etres que lon peut estimer de fa con convergente ` a partir dune proc edure auxiliaire, les GLS faisables produisent des estimations asymptotiquement equivalentes ` a celles dune v eritable proc edure GLS. De fa con similaire, dans un contexte de GMM, si la forme de est connue, il est envisageable destimer les instruments optimaux et dobtenir des estimations GMM asymptotiquement ecaces. Cependant, il nest pas rare que soit inconnue et ne puisse pas etre estim ee de fa con convergente. Nous verrons comment g erer de telles circonstances dans la section qui suit. Il est relativement ais e d etendre la proc edure des GLS discut ee plus haut au cas o` u certains el ements de Xt nappartiennent pas ` a lensemble t et o` u des variables instrumentales doivent etre utilis ees. Comme nous lavons vu, Jt doit etre remplac ee dans ce cas par son esp erance conditionnelle ` a t dans la d enition des instruments optimaux, qui correspondent alors aux colonnes de 1E (Xt | t ). Dans le cas particulier derreurs homosc edastiques et non autocorr el ees, ce r esultat nous apprend que les meilleures variables instrumentales ` a utiliser sont les esp erances des r egresseurs conditionnellement ` a toutes les variables qui sont orthogonales aux al eas. Dans la pratique, ces esp erances conditionnelles peuvent ne pas etre disponibles, et il faut alors se contenter des instruments dont on dispose. Si est connue ou peut etre estim ee par une proc edure faisable, on peut choisir un ensemble disponible dinstruments W et former les conditions sur les moments empiriques W 1 (y X ) = 0. (17.52)
Il devrait normalement y avoir plus dinstruments que de param` etres, puisque les instruments optimaux ne sont pas disponibles et que les contraintes de suridentication am elioreront par cons equent lecacit e. An de satisfaire la condition n ecessaire du Th eor` eme 17.3, la fonction crit` ere doit utiliser la matrice de covariance du membre de gauche de (17.52). Celle-ci est, asymptotiquement,
n
1 plim W 1 y X y X 1 W n
1 = plim W 1 W . n n
La fonction crit` ere pertinente est par cons equent (y X ) 1 W W 1 W

1
W 1 (y X ),
` lAide des Moments Conditionnels 17.4 Estimation a qui conduit aux conditions du premier ordre X 1 W W 1 W
1
609
W 1 (y X ) = 0.
(17.53)
Cette equation d enit un estimateur apparemment bien compliqu e. En v erit e, on peut linterpr eter assez simplement, tout comme lestimateur GLS, en termes dune matrice de transformation telle que = 1. Soit y y , X X , et Z W. Alors (17.53) devient X Z Z Z
1
Z y X = X PZ y X = 0.
Cette equation d enit un estimateur IV ordinaire en termes des variables transform ees y et X et des transformations des instruments Z. Ainsi, lestimateur d eni par (17.53) peut etre calcul e sans plus de dicult e que lestimateur GLS. Cet estimateur est pertinent chaque fois que les GLS ou les GLS faisables auraient et e appropri es sauf sil y a une eventuelle corr elation entre les al eas et les r egresseurs. Lestimateur d eni par (17.53) porte en lui une lourde ressemblance avec lestimateur H2SLS (17.44) d eni dans la section pr ec edente. En r ealit e, la 1 substitution de W ` a W permet de passer du premier au second. La th eorie d evelopp ee dans cette section montre que sil est possible de choisir W comme les esp erances conditionnelles des r egresseurs X (ou des combinaisons lin eaires de ceux-ci), alors lestimateur d eni par (17.53) est asymptotiquement ecace, et lestimateur H2SLS ne lest pas. Lavantage de lestimateur H2SLS est quil peut etre calcul e en pr esence dune h et erosc edasticit e dont la forme est inconnue, puisque n1 W W peut etre estim ee de fa con convergente en employant des estimateurs non convergents de . Par contre, (17.53) ne peut etre formul e qu` a condition que soit elle-m eme estim ee 1 1 de fa con convergente, parce que des expressions telles que n W W et n1 W 1 y ne peuvent pas etre estim ees de fa con convergente sans une estimation elle-m eme convergente de . Ainsi les deux estimateurs se r ev` elent utiles, mais dans des circonstances di erentes. Le concept de borne GMM fut introduit, non pas sous ce nom, par Hansen (1985), qui donna egalement les conditions pour les instruments optimaux. Cependant, les arguments utilis es pour d eriver la borne ont une longue histoire, et Hansen date la recherche des instruments ecaces ` a Basmann (1957) et Sargan (1958).
610
17.5 Estimation de la Matrice de Covariance

Dans les sections pr ec edentes, nous avons fait allusion aux dicult es que lon peut rencontrer lors de lestimation des matrices de covariance dans le contexte de la GMM. En v erit e, les probl` emes surviennent de deux sources di erentes: la premi` ere pour le choix de la matrice de pond eration ` a utiliser lors de la construction de la fonction crit` ere et la seconde pour lestimation proprement dite de la matrice de covariance des estimations. Par chance, des consid erations semblables sappliquent aux deux probl` emes, de sorte que lon peut les traiter simultan ement. Souvenons-nous ` a partir de (17.31) que la matrice de covariance asymptotique dun estimateur GMM calcul e` a laide de la matrice de pond eration A0 est 1 1 D A0 D D A0 A0 D D A0 D , en conservant la notation de la Section 17.2. Si la condition n ecessaire ` a a 1 lecacit e donn ee par le Th eor` eme 17.3 est satisfaite, on doit avoir A0 = , o` u est la matrice de covariance asymptotique de dimension l l des moments empiriques n1/2 F ( ) dont l el ement type est
n
n1/2
t=1
fti (yt , ).
de . Si cela Ainsi le probl` eme consiste ` a trouver un estimateur convergent est possible, alors nous pouvons minimiser la fonction crit` ere 1F ( ) . F ( ) (17.54)
est d Si un el ement type de D eni par (17.32), la matrice de covariance asymptotique de peut etre estim ee par
1 1 D D n
1
(17.55)
Il est clair quil nous faut proc eder en au moins deux etapes, parce que doit etre une estimation de la matrice de covariance des moments em piriques evalu ee avec les v eritables valeurs des param` etres . Ainsi avant que ne puisse etre calcul ee, il est n ecessaire de disposer au pr ealable dun estimateur convergent des param` etres . Puisque lon peut employer une matrice de pond eration A0 arbitraire sans perte de convergence, il y a plusieurs fa con peut dobtenir cette estimation pr eliminaire. Ensuite, etre calcul ee, et, en minimisant (17.54), fournir un nouvel ensemble destimations des param` etres. Il est possible de r ep eter ces op erations successives une ou plusieurs fois si cela sav` ere utile. En th eorie, une seule it eration sut ` a obtenir lecacit e asymptotique mais, dans la pratique, les estimations initiales peuvent se r ev eler assez mauvaises et cela justie la multiplication des it erations.
611
Notre d enition pr ec edente de , (17.29), se basait sur lhypoth` ese que les moments empiriques fti etaient ind ependants entre eux. Puisque nous souhaitons rel acher cette hypoth` ese dans cette section, il est n ecessaire dadopter une nouvelle d enition de , de fa con ` a ce quelle reste toujours la matrice de covariance asymptotique des moments empiriques. Nous posons donc la d enition:
1 lim n
n n n
E Ft (yt , 0 )Fs (yt , 0 ) ,

t=1 s=1
(17.56)
eme ligne de la matrice F de dimension n l. Puisque cest o` u Ft est la t i` au DGP que nous faisons r ef erence dans ce qui suit, nous lenlevons de la notation. Lexpression (17.56) di` ere de (17.29) en ce quelle permet nimporte quel sch ema de corr elation entre les contributions Ft aux moments empiriques et quelle reste valable m eme si aucun th eorr` eme de la limite centrale ne lest. Il est n ecessaire, bien s ur, de supposer que la limite dans (17.56) existe. Notre but est d esormais de trouver un estimateur convergent de (17.56).
La premi` ere etape consiste ` a d enir les autocovariances des moments empiriques n 1 E Ft (0 )Ftj (0 ) n t=j +1 1 n
n
pour j 0 (17.57) pour j < 0.
(j ) =
E Ft+j (0 )Ft (0 )
t=j +1
En termes des matrices de dimension l l (j ), le membre de droite de (17.56) sans la limite devient
n1
(j ).
j =n+1
(17.58)
Sil ny avait pas de corr elation entre les observations successives, alors seule (0) serait di erente de la matrice nulle, et nous aurions
1 n = (0) = n
n
E Ft (0 )Ft (0 ) .
t=1
(17.59)
Puisque le cas de lind ependance en s erie est souvent evoqu e, il est utile dexaminer deux exemples concrets. Consid erons le mod` ele de r egression lin eaire y = X + u, o` u X est une matrice de dimension n k et o` u W est une matrice dinstruments de dimension n k . Pour ce mod` ele, qui est juste identi e, Ft ( ) = Wt (yt Xt ). (17.60)
612
Ainsi, ` a partir de (17.59), nous obtenons = n

n
E (u2 t ) Wt Wt ,
t=1
ut yt Xt 0 .
(17.61)
Si la v eritable matrice de covariance des al eas u est la matrice diagonale , alors nous avons vu dans la Section 16.3 que nous pouvons estimer con convergente par (17.61) sans lesp erance et en remlim n1 W W de fa pla cant 0 par un quelconque estimateur convergent . Lestimateur d eni par les moments empiriques (17.60) correspond ` a lestimateur IV habituel (W X )1 W y , et donc, en utilisant (17.33) et (17.31), nous voyons que sa matrice de covariance asymptotique peut etre estim ee par
1 W X n
1
1 W W n
1 X W n
(17.62)
est la matrice diagonale de dimension n n dont l o` u el ement type est u 2 t , le i` e me carr e du t r esidu IV. Cette expression a la forme dune HCCME standard (voir la Section 16.3). Si le nombre dinstruments dans W est sup erieur au nombre de r egresseurs dans X, nous pouvons, tout comme dans (17.43), remplacer simplement W par PWX. Apr` es cette substitution, la limite de (17.62) devient identique ` a (17.36). Nous avions not e plus t ot quun estimateur de peut etre utilis e pour deux raisons bien distinctes: estimer la matrice de covariance de nimporte quel ensemble destimations GMM et estimer la matrice de pond eration optimale. Nous venons juste de fournir un exemple du premier usage, en reconstituant la HCCME dans le cadre dune estimation par IV. Nous examinons a pr ` esent un exemple du second usage, en reconstruisant lestimateur H2SLS de la Section 17.3. Souvenons-nous que cet estimateur est en g en eral plus ecace que celui des OLS ou des IV en pr esence dh et erosc edasticit e de forme inconnue. Les moments empiriques sont les l composantes de W (y X ), o` u l > k , et notre estimation de leur matrice de covariance asymptotique est . Linverse de cette estimation peut W W etre employ ee en tant que matrice de pond eration dans la fonction crit` ere (y X ) W W W
1
W (y X ).
Les conditions du premier ordre pour un minimum de cette fonction crit` ere sont donn ees par X W W W
1
W (y X ) = 0,
et leur r esolution conduit ` a lestimateur H2SLS (17.44), o` u lestimateur remplace .
613
Il est assez tentant de supposer que, tout comme dans le cas des HCCME, nous pouvons estimer les autocovariances (17.57) simplement en ne calculant pas les esp erances dans cette expression, en evaluant les Ft avec une estima, et en substituant les (j ) ainsi obtenus dans tion pr eliminaire convergente (17.58) an daboutir ` a une estimation ad equate de . H elas, tout nest pas (0), aussi simple. La matrice dautocovariance empirique ` a lordre z ero, . Il sagit dun estimacorrespond ` a (17.59) sans lesp erance et evalu ee en teur convergent de la v eritable matrice dautocovariance ` a lordre z ero (0). Mais la matrice de covariance empirique (j ) ` a lordre j ne converge pas vers la v eritable matrice dautocovariance ` a lordre j pour un j arbitraire tel que n + 1 j n 1. La raison nest pas dicile ` a comprendre. Supposons par exemple que j = n 2. Alors, ` a partir de (17.57), nous voyons que (j ), et (j ), ne poss` donc aussi ede que deux termes. Aucune loi des grands nombres (j ) tend vers z ne peut raisonnablement sappliquer ` a deux termes, et ero 1 lorsque n ` a cause du terme n de la d enition. Cette observation sugg` ere un moyen de contourner la dicult e. Nous pourrions par exemple limiter notre attention aux mod` eles pour lesquels lautocovariance dordre j tend eectivement vers z ero lorsque j . Si les processus al eatoires qui d enissent un DGP poss` edent la propri et e d etre mixants telle que dans la D enition 4.13, nous pouvons montrer que les autocovariances tendent eectivement vers z ero. (Consulter la discussion qui fait suite ` a la D enition 4.13) Alors il semblerait raisonnable de tronquer la somme dans (17.58) en eliminant les termes pour lesquels |j | est sup erieur ` a une borne choisie. Si nous notons p cette borne, nous aurons lestimateur suivant pour :
p
= (0) +
j =1
(j ) + (j )
(17.63)
o` u nous avons utilis e la propri et e (j ) = (j ) , qui provient directement de la d enition (17.57). Il est possible de modier (17.63) en introduisant une correction sur les degr es de libert e sous la forme du facteur n/(n k ) etant donn e que k param` etres ont et e estim es. Mais la pertinence dune telle proc edure avec de petits echantillons m erite d etre encore approfondie. Lestimateur (17.63) fut propos e par Hansen (1982) et White et Domowitz (1984), et fut employ e dans les premi` eres publications qui utilisaient lestimation par GMM, telles que celle de Hansen et Singleton (1982). Dun point de vue th eorique, il est n ecessaire de laisser le param` etre de troncature p, auquel on fait souvent r ef erence en tant que param` etre de troncature des retards, diverger ` a un taux bien pr ecis. Un tel taux serait n1/4, au quel cas 1 /4 p = o (n ). Cela garantit que, pour un n susamment grand, toutes les (j ) non nulles sont estim ees de mani` ere convergente. Malheureusement, ce genre de r esultat nest pas transposable dans la pratique, o` u lon dispose dun echantillon de taille n donn ee. Nous reviendrons sur ce point un peu plus tard,
614
mais nous supposons pour linstant que nous sommes capables de s electionner une valeur de p appropri ee. Une dicult e beaucoup plus s erieuse associ ee ` a (17.63) est que, avec des echantillons nis, elle peut tr` es bien ne pas etre d enie positive ni m eme semi-d enie positive. Si lon est vraiment malchanceux en disposant dun non d ensemble de donn ees qui produit une matrice enie, alors (17.63) est inutilisable. Il existe de nombreux moyens de contourner la dicult e. Le plus largement r epandu est celui sugg er e par Newey et West (1987a). Il consiste (j ) par une s simplement ` a multiplier erie de poids qui d ecroissent avec |j |. Typiquement, lestimateur quils proposent est
p
= (0) +
j =1
j p+1
(j ) + (j )
(17.64)
On peut montrer que les poids 1 j/(p + 1) diminuent lin eairement avec j dune valeur de 1 pour (0) par incr ements de 1/(p + 1) jusqu` a atteindre la valeur 1/(p +1) pour |j | = p. Lusage de cet ensemble de poids est ` a l evidence compatible avec lid ee que leet de lautocovariance dordre j diminue avec |j |. Nous nessaierons pas desquisser une d emonstration de la convergence des estimateurs comparables ` a celui de Newey-West. Nous avons fait allusion a la nature des conditions de r ` egularit e requises pour la convergence: les matrices dautocovariance des moments empiriques doivent tendre vers z ero sufsamment vite lorsque p augmente. La justication th eorique de lestimateur de Newey-West va egalement bien au-del` a du but recherch e dans cet ouvrage. Elle repose sur des consid erations de ce que lon appelle repr esentation dans le domaine des fr equences des Ft ainsi que sur un nombre de proc edures destimation non param etriques associ ees. Les lecteurs int eress es sont orient es vers Andrews (1991b) pour un traitement assez complet des nombreuses conclusions. Cet article sugg` ere des alternatives ` a lestimateur de Newey-West, et montre quils sont pr ef erables dans certaines circonstances. Malgr e tout, les performances de lestimateur de Newey-West ne sont jamais nettement inf erieures ` a celles des estimateurs propos es. Par cons equent, sa simplicit e plaide en sa faveur. Retournons ` a pr esent au mod` ele IV dont les moments empiriques sont donn es par W (y X ). An d etre capable dutiliser (17.64), nous supposons que le v eritable al ea ut yt Xt 0 satisfait une condition de (j ) pour mixit e ad equate. Alors les matrices dautocovariance empiriques j = 0, . . . , p, pour p donn e, se calculent comme suit. Une proc edure IV ordinaire permet dobtenir une estimation pr eliminaire 0 convergente. Puis u W. les r esidus u t sont combin es aux instruments par produit direct V 1 Alors (j ) est n fois la matrice de dimension l l des produits scalaires avec ces m des colonnes de V emes colonnes retard ees j fois, en rempla cant les el ements non observ es par des z eros. Comme nous lavons vu pr ec edemment,
615
(0) correspond ` , o` = diag( a n1 W W u u2 a t ). Enn, est construite ` laide de (17.64). ainsi obtenue peut servir dans Comme pr ec edemment, la matrice deux directions. La premi` ere consiste ` a construire ce que lon appelle lestimateur de la matrice de covariance de lestimateur IV ordinaire robuste ` a lh et erosc edasticit e et ` a lautocorr elation, ou estimateur HAC. Puisque lestimateur IV est bas e sur les moments empiriques W (y X ) et sur la matrice de pond eration (W W )1 , comme on peut le voir dans (17.09), lestimateur de la matrice de covariance HAC est obtenu en appliquant la formule (17.31) dans ce contexte et en utilisant (17.33) et (17.34). Le r esultat est X PW X
1
X W W W
W W n
W X X PW X
. (17.65)
Dans le cas simple o` u W = X, cette formule relativement lourde devient X X

1
X X n
= W W , nous Lorsquil ny a pas dautocorr elation, ce qui implique que n retrouvons la HCCME (16.15) typique dun mod` ele de r egression lin eaire. Cela serait un bon exercice de voir ce que devient (17.65) en labscence de corr elation en s erie lorsque W = X. Lestimateur analogue ` a lestimateur H2SLS, (17.44), est encore plus int eressant que lestimateur de la matrice de covariance HAC. Pour cela, nous nutilisons plus (W W )1 comme matrice de pond eration, mais linverse de , calcul ee selon la proc edure pr ec edente ` a laide dun estimateur IV ordinaire en tant questimateur pr eliminaire convergent. La fonction crit` ere devient 1 W (y X ), (y X ) W et lestimateur, que lon appelle quelquefois estimateur des doubles moindres carr es en deux etapes, est par cons equent = X W 1 W X
1
1 W y . X W
(17.66)
Cet estimateur est tr` es similaire ` a (17.44). Dans le cas de ce dernier, la matrice est remplac , qui correspond v ee par W W eritablement ` a lestimation ad equate de en labscence dautocorr elation. Il est plus facile dobtenir une estimation de la matrice de covariance asymptotique de (17.66) plut ot que celle de lestimateur IV ordinaire. Cest ) = X W ( 1 W X V
1
Il y a eu jusqu` a pr esent tr` es peu dexp erimentations pratiques sur lestimateur (17.66). Lune des raisons de ce manque dint er et est que les
616
econom` etres pr ef` erent mod eliser les dynamiques de fa con explicite (voir le Chapitre 19) plut ot que les conserver dans lal ea et utiliser un estimateur robuste ` a la sp ecication. M eme si ce dernier fournit des estimations convergentes de certains param` etres, il peut passer sous silence les plus int eressants et provoquer une mauvaise sp ecication des al eas sans quelle soit d etect ee. Une autre raison est que lon conna t mal ses propri et es avec des echantillons nis. Les r esultats de Cragg (1983) et Tauchen (1986) pour les estimateurs comparables sugg` erent quelles sont quelquefois pauvres. Un probl` eme pratique important concerne le choix du param` etre de troncature p. La th eorie est manifestement muette ` a ce sujet. Ainsi que nous lavons mentionn e, il existe des r esultats qui etablissent le taux auquel p doit tendre vers linni lorsque n tend vers linni. Mais si lon dispose dun echantillon qui contient pr ecis ement 136 observations, quelle valeur de p choisir? Andrews (1991b) sattaque de front ` a ce probl` eme et fournit des m ethodes de choix pour p bas ees sur les donn ees et sur lestimation dune valeur optimale dun param` etre quil d enit. Il est juste de dire quaucune de ses m ethodes nest el ementaire, et nous ne pouvons pas les exposer ici. Le r esultat vraisemblablement le plus encourageant de ses recherches est que, au voisinage de la valeur optimale de p, les variations de p ont peu dinuence sur les performances de lestimateur HAC. Andrews (1991b) fournit egalement une conclusion appr eciable sur les estimateurs des matrices de covariance HAC, (17.64) ainsi que dautres, ` a partir dexp eriences Monte-Carlo. Le r esultat sans doute le plus important est quaucun des estimateurs HAC quil consid` ere nest able pour des tailles d echantillon inf erieures ` a 250 ou si les al eas ob eissent ` a un processus AR(1) dont le param` etre dautocorr elation est sup erieur ` a 0.9. Ce r esultat d ecourageant provient du fait que les processus AR(1) avec des param` etres proches de 1 sont comparables ` a ceux qui poss` edent une racine unitaire. Ce ph enom` ene est trait e dans le Chapitre 20, et nous verrons que les racines unitaires jettent un trouble dans la th eorie econom etrique traditionnelle. Si nous nous eloignons des racines unitaires tout en en restant proches, les choses sont plus r eguli` eres. Nous avons vu au cours du Chapitre 16 quil est possible demployer des HCCME m eme en pr esence dhomosc edasticit e sans grande perte de pr ecision, ` a condition dutiliser lune des meilleures HCCME. Il appara t que lon peut proc eder de la m eme mani` ere pour les HAC. Dans le cas dun mod` ele de r egression ordinaire avec des al eas ind ependants en s erie et homosc edastiques, la perte de pr ecision due ` a lusage de lestimateur de Newey-West en comparaison de lestimateur OLS habituel 2 (X X )1, par exemple, est faible. Avec quelques uns des autres estimateurs HAC consid er es par Andrews, la perte est encore plus faible, ce qui implique que lestimateur de Newey-West nest en g en eral pas le meilleur disponible. De fa con similaire, si les al eas sont h et erosc edastiques mais ind ependants en s erie, une HCCME est bien meilleure que lestimateur OLS mais seulement un peu meilleure que lestimateur HAC.
rence dans les Mode `les GMM 17.6 Infe
617
Si les al eas sont autocorr el es ` a lordre un mais homosc edastiques, aussi bien lestimateur OLS que la HCCME sont domin es non seulement par lestimateur HAC, ainsi que lon pouvait sy attendre, mais aussi par lestimateur imm ediat calcul e en estimant le param` etre dautocorr elation et en utilisant lestimateur de la matrice de covariance dune proc edure de GLS faisables. Ce dernier estimateur est dans ces circonstances pr ef erable aux estimateurs HAC. En r ealit e, cest seulement lorsque les al eas sont h et erosc edastiques et autocorr el es que les estimateurs HAC arment leur sup eriorit e. M eme dans de telles circonstances, il est possible, avec certains sch emas dh et erosc edasticit e, que lestimateur GLS, qui ne prend pas en compte une possible h et erosc edasticit e, soit pr ef erables aux estimateurs HAC. Mais cest probablement lexception plut ot que la r` egle, puisquAndrews trouve dautres sch emas dh et erosc edasticit e qui, combin es ` a de lautocorr elation, n ecessitent lusage des estimateurs HAC pour produire une inf erence susamment pr ecise. A l evidence le d ebat sur les estimateurs HAC nest pas enti` erement clos. Par exemple, dans les ex ecutions habituelles de lestimateur de Newey (0) correspond ` , o` u West pour les mod` eles IV lin eaires, a n1 W W est lestimateur relativement pauvre associ e` a la forme HC0 de lHCCME. Il semble raisonnable de penser quil serait plus protable demployer dautres formes de dans lestimateur de Newey-West, comme dans les HCCME, et (j ) pour j = 0. de trouver des moyens similaires dam eliorer les estimateurs Cependant, ` a linstant o` u nous ecrivons, rien ne permet de croire que ces conjectures sont justi ees. Un approche assez di erente, dont nous ne discuterons pas, a et e propos ee r ecemment par Andrews et Monahan (1992). Au cours de la prochaine section, nous abandonnerons les d etails polluants de lestimation de la matrice de covariance, en supposant que lon dispose dun estimateur ad equat, et reporterons notre attention sur les tests asymptotiques des contraintes de suridentication ainsi que sur dautres aspects des tests de sp ecication pour les mod` eles GMM.

Dans cette section, nous proposons une etude des tests dhypoth` eses dans un contexte de mod` eles GMM. Nous d ebutons par lexamen des tests de contraintes de suridentication, puis d eveloppons des proc edures qui sapparentent aux tests classiques etudi es lors du Chapitre 13 pour les mod` eles estim es par maximum de vraisembance. Les similitudes avec les proc edures d ej` a etudi ees sont frappantes. Il existe une di erence importante malgr e tout: nous ne pourrons pas faire un usage important des r egressions articielles dans le but dex ecuter les tests dont nous discutons. La raison est simplement que de telles r egressions articielles nont pas et e d evelopp ees de fa con satisfaisante. Elles existent uniquement dans quelques cas particuliers, et leurs propri et es avec des echantillons de taille nie sont pratiquement inconnues. Cependant, il y a toute raison de croire et desp erer que dans quelques ann ees, il sera
618
possible de r ealiser des inf erences ` a partir des mod` eles GMM aux moyens de r egressions articielles quil reste ` a inventer. En attendant, il existe de nombreuses proc edures de tests pour les mod` eles GMM faciles ` a ex ecuter. La plus importante est le test des contraintes de suridentication que lon impose habituellement. Supposons que lon ait estim e un vecteur de k param` etres en minimisant la fonction crit` ere 1F ( ) , F ( ) (17.67)
dans laquelle la matrice des moments empiriques F ( ) poss` ede l > k colonnes. 1 qui satisfait la Observons que lon a employ e une matrice de pond eration condition n ecessaire du Th eor` eme 17.3 pour lecacit e de lestimateur GMM. Seules k conditions sur les moments sont n ecessaires pour identier les k param` etres, de sorte quil y a l k contraintes de suridentication implicites dans lestimation que nous avons ex ecut ee. Comme nous lavons soulign e lors du Chapitre 7, o` u nous avons rencontr e pour la premi` ere fois des contraintes de suridentication, il faudrait toujours tester dans la pratique ces contraintes avant de faire un usage quelconque des r esultats de lestimation. Un moyen de le faire, et qui fut sugg er e par Hansen (1982), consiste ` a employer comme statistique de test la valeur de la fonction crit` ere minimis ee. et divis La statistique de test est (17.67) evalu ee en = ee par la taille de l echantillon n: 1 1F , F (17.68) n ). Le facteur n1 est n d o` u, comme dhabitude, F esigne F ( ecessaire pour 1 compenser le facteur n dans , qui appara t du fait que est d enie dans 1/2 (17.29) comme la matrice de covariance de n F0 . La d enition (17.29) implique par cons equent que si les contraintes de suridentication sont exactes, la distribution asymptotique de n1/2 F0 est N (0, ). Cependant, pour des raisons qui doivent maintenant nous para tre fami li` eres, la distribution asymptotique de F nest pas la m eme que la distribution asymptotique de F0 . An dobtenir une matrice de covariance correcte pour le vecteur en question, nous ex ecuterons un d eveloppement de Taylor en s erie comme suit:
1 = n1/2 F0 + n1/2 F n
a k n
j =1 t=1
Ft 0 ) j (0 ) n1/2 ( j
=n
1/2
0 . F0 + D (, 0 ) n1/2
Posons D = D (, 0 ), et il suit que de (17.22), (17.27), et (17.28),

a 0 = n 1 /2 D 1D 1
D 1 n1/2 F0 .
Par cons equent = I D D 1D n1/2 F

a 1
D 1 n1/2 F0 .
(17.69)
619
une matrice de dimension l l sym Soit etrique et d enie positive telle 2 1. Alors la fonction crit` que = ere minimis ee (17.68) devient une norme F . De (17.69), ce vecteur est asymptotiquement au carr e du vecteur n1/2 equivalent ` a I D D 2D = I D D 2D = MD n1/2 F0 , o` u 2 = 1, et o` u MD est la matrice de dimension l l qui projette orthogonalement sur le compl ement orthogonal de lespace engendr e par les k colonnes de D . Par construction, le vecteur n1/2 F0 de dimension l poss` ede la distribution N (0, I). Il sensuit que (17.68) est asymptotiquement distribu ee suivant une loi du chi carr e dont le nombre de degr es de libert e est egal au rang de MD , soit l k , le nombre des contraintes de suridentication. Le test des contraintes de suridentication de Hansen est totalement analogue, dans le contexte plus g en eral actuel, au test pour lestimation IV dont nous avons discut e dans la Section 7.8, bas e sur la fonction crit` ere (7.56). Cest un bon exercice que de faire la d erivation donn ee pr ec edemment dans le cas dun mod` ele de r egression lin eaire o` u les al eas sont homosc edastiques et ind ependants en s erie, an de voir ` a quel point le cas g en eral est comparable au cas simple.2 Le test des contraintes de suridentication de Hansen est tr` es comparable ` a ce que lon conna t en econom etrie sous le nom de test de sp ecication portmanteau. Parce que les mod` eles estim es par GMM sont soumis ` a si peu de contraintes, leur sp ecication ne demande pas trop deorts. En particulier, si lon ne r eclame pas plus que lexistence des moments employ es pour lidentication des param` etres, seuls deux el ements peuvent faire lobjet dun test. Le premier est lensemble de toutes les contraintes de suridentication utilis ees, et le second est la constance des param` etres. 3 Parce que le test des contraintes de suridentication de Hansen poss` ede autant de degr es de libert e quil y a de contraintes de suridentication, il peut etre possible dobtenir davantage de puissance en diminuant le nombre des degr es de libert e. Cependant, si la statistique de test de Hansen est num eriquement assez faible, un tel test ne rejettera jamais lhypoth` ese nulle, pour la simple raison que la statistique de Hansen fournit une borne sup erieure ` a toutes les statistiques de test pour lesquelles lhypoth` ese nulle correspond au mod` ele estim e. Cela provient
2 1 1
D 2 n1/2 F0 D n1/2 F0
La statistique de test de Hansen, (17.68), est quelquefois appel ee statistique J . Pour des raisons evidentes (voir le Chapitre 11), nous pr ef erons ne pas lui donner ce nom. Des tests de constance des param` etres dans des mod` eles estim es par GMM sont abord es par Homan et Pagan (1989) et Ghysels et Hall (1990).
620
du fait quaucune fonction crit` ere du type (17.67) ne peut prendre de valeur n egative. Les tests pour lesquels lhypoth` ese nulle nest pas le mod` ele estim e ne sont pas soumis ` a la borne donn ee par la statistique de Hansen. Dans le cas contraire, bien evidemment, il deviendrait absolument impossible de rejeter un mod` ele juste identi e. Un test de constance des param` etres nest pas soumis non plus ` a la borne, bien que lhypoth` ese nulle semble correspondre a premi` ` ere vue au mod` ele estim e. La raison fut expos ee dans la Section 11.2 en connexion avec les tests de constance des param` etres dans les mod` eles de r egression non lin eaire estim es par variables instrumentales. Fondamentalement, an d eviter des probl` emes didentication, il est n ecessaire de doubler le nombre des instruments employ es, en scindant les instruments originaux comme dans (11.09). Les m emes consid erations sappliquent aux mod` eles GMM, bien evidemment, et en particulier ` a ceux qui sont juste identi es ou qui ont peu de contraintes de suridentication. Mais si lon emploie deux fois plus dinstruments, le mod` ele qui correspond ` a lhypoth` ese nulle a et e eectivement modi e, et pour cette raison la statistique de Hansen ne donne plus du tout une borne pour les statistiques utilis ees lors des tests de constance des param` etres. Il peut etre judicieux de tester dautres aspects dun mod` ele GMM. Dans ces circonstances, ce qui est test e nest pas tellement la sp ecication du mod` ele mais plut ot si des contraintes suppl ementaires sur le mod` ele sont r ealistes. Cela sugg` ere lemploi de tests bas es sur le principe de Wald. Supposons donc que nous d esirons tester un ensemble de r contraintes de la forme r ( ) = 0, o` u r : Rr ; (17.70)
souvenons-nous de (13.02). Le vecteur de param` etres de dimension k est d eni dans le contexte dun mod` ele ad equat, estim e sous sa forme non contrainte par la minimisation de la fonction crit` ere (17.67). Le mod` ele peut etre soit suridenti e, soit juste identi e. Comme dhabitude, nous posons R( ) D r ( ). Alors, par analogie avec (8.78) et (13.05), nous pouvons construire une statistique de Wald de la fa con suivante: (D 1D )1R R W = nr
1
. r
(17.71)
La justication est exactement la m eme que celle pour les statistiques Wald et pseudo-Wald vues pr ec edemment: la matrice de covariance asymptotique ) est R (D 1D )1R . Les dicult de n1/2 r ( es relatives ` a ce test sont egalement les m emes que celles associ ees aux autres tests de Wald, ` a savoir que la statistique nest pas invariante ` a une reparam etrisation des contraintes. Par cons equent, la statistique (17.71) est g en eralement peu recommand ee et devrait etre employ ee avec pr ecaution si lon est absolument contraint dy avoir recours.
621
Il est aussi envisageable de baser des tests de mod` eles estim es par GMM sur les principes LM et LR. Pour un test LM, nous ex ecuterons seulement une estimation contrainte, en minimisant (17.67) sous les contraintes (17.70), . Le test LM classique se base sur pour obtenir les estimations contraintes le gradient de la fonction de logvraisemblance, evalu e avec les estimations contraintes. La fonction de logvraisembance est une fonction crit` ere, il est donc naturel de baser un test LM dans ce contexte sur le gradient de la fonction crit` ere (17.67). Il est ais e de voir que ce gradient est asymptotiquement proportionnel au vecteur al eatoire de dimension k n1/2 D 1F . Ce vecteur est asymptotiquement normal lorsquil est evalu e en 0 , son esp erance est nulle et sa matrice de covariance est
n
1 lim D 1D , n
ce qui sugg` ere quune statistique de test appropri ee serait

1 1D D 1D LM = F n
1
1F , D
(17.72)
` , F ), et o` est d F ( est un o` uD eni par (17.32) avec a la place de u estimateur ad equat de ; ` a la n de la section pr ec edente, nous promettions de ne pas d etailler le calcul de . Il est assez facile de montrer que, sous lhypoth` ese nulle, la statistique LM donn ee par (17.72) est distribu ee suivant une loi du chi carr e` a r degr es de libert e. Il est plus int eressant de montrer que, lorsque le mod` ele non contraint est juste identi e, (17.72) est num eriquement identique ` a la statistique (17.68) asymptotiquement distribu ee selon une chi carr e pour les contraintes de suridentication, ` a condition que le m eme estimateur de soit employ e dans les deux statistiques. En r ealit e, cela provient du fait que la matrice D est carr ee et non singuli` ere pour des mod` eles juste identi es. Puisque D 1 existe, on peut simplier l ecriture de (17.72) et obtenir
1 1F . F n
(17.73)
employ Cette statistique est identique ` a (17.68), puisque le vecteur e est ici une estimation contrainte , issue de lestimation soumise aux contraintes de suridentication. Notons que (17.72) ne peut pas etre num eriquement plus grande que (17.73) et sera en g en eral plus faible. Ceci est un exemple suppl ementaire de la borne dont nous avons parl e. Nous pouvons voir cela ais ement en ecrivant (17.72) sous la forme
1 D D D F n
1
F D
622 et (17.73) sous la forme

1 F . F n
F , et Ainsi (17.73) est assimilable ` a la norme au carr e du vecteur n1/2 (17.72) est assimilable ` a la norme au carr e de ce m eme vecteur apr` es quil ait D . et e projet e sur le sous-espace engendr e par les colonnes de La statistique LR pour les mod` eles GMM a la m eme simplicit e que pour les mod` eles estim es par maximum de vraisemblance. Elle correspond simplement ` a la di erence entre les valeurs de la fonction crit` ere (17.68) evalu ee avec les estimations contraintes et non contraintes:
1 1F F 1F . LR = F n
(17.74)
Ce r esultat semble a priori trop beau pour etre valable. Apr` es tout, m eme dans un contexte classique, un facteur de 2 est n ecessaire pour la forme LR du test. La cl e de ce r esultat est lhypoth` ese cruciale que la matrice de pond eration employ ee dans la fonction crit` ere satisfait la condition decacit e du Th eor` eme 17.3. Sans cette hypoth` ese, comme nous le verrons bri` evement a la n de cette section, les choses peuvent se compliquer. Remarquons que ` seront souvent identiques ` et a (17.74), parce que sil est dicile destimer , il est judicieux de ne lestimer quune seule fois. Nous ne d emontrerons pas la validit e de (17.74). Cependant, au moins un cas particulier montre que cette statistique LR est plausible. Lorsquun mod` ele est juste identi e, la fonction crit` ere a valeur nulle: les k conditions portant sur les moments empiriques peuvent etre satisfaites exactement avec k param` etres. La di erence des fonctions crit` ere est simplement la fonction contrainte, et cela correspond, ainsi que nous lavons vu, ` a la statistique de Hansen et ` a la statistique LM dans ces circonstrances. un vecteur de param` Enn, consid erons les tests C (). Soit etres satis) = 0. Alors la statistique de test peut faisant les contraintes r ( etre elabor ee comme sil sagissait de la di erence de deux statistiques LM , lune correspondant au mod` ele contraint et lautre au mod` ele non contraint, evalu ees toutes deux en . Supposons, pour simplier, que le vecteur de param` etres . . . puisse etre partitionn e en [1 . 2 ] et que lon puisse ecrire les contraintes sous la forme 2 = 0. Le premier terme de la statistique C () est de la forme plut de (17.72) mais il est evalu e avec ot quavec le v eritable estimateur . Le second terme devrait avoir la forme dune statistique LM apcontraint propri ee au mod` ele contraint, pour lequel seul 1 peut varier. Cela correspond dans (17.72) par D 1 , o` au remplacement de la matrice D u la partition de D . . en [D1 . a la partition de . Par cons equent, la statistique . D2 ] correspond ` C () est
1 1D 1D D C ( ) = F n
1
1F D
1
1 1 1D 1 D 1 1D F n
. 1F D1
(17.75)
623
est une estimation ad Ici, comme auparavant, equate de . An de montrer que (17.75) est asymptotiquement equivalente ` a la v eritable statistique LM , il sut de modier les d etails de d emonstration de l equivalence asymptotique correspondante dans la Section 13.7. Dans le cas g en eral o` u les contraintes sexpriment sous la forme r ( ) = 0, une autre forme du test C () peut se r ev eler plus pratique, puisque la construction dune matrice correspondant ` a D1 peut etre compliqu ee. Cette forme est 1D D 1D F
1
D 1D R R
D 1D R
1F . D
Pour que cette statistique soit pertinente, la dicult e de calcul des estima tions contraintes doit lemporter sur la dicult e de la formule pr ec edente. La formule elle-m eme peut etre etablie, au prix de quelques manipulations alg ebriques ennuyeuses, en adoptant les m ethodes de la Section 8.9. Nous laissons tous ces d etails au lecteur int eress e. Le traitement que nous avons donn e des tests LM, LR et Wald suit assez d` element celui de Newey et West (1987b). Cet article peut etre int eressant a consulter pour davantage de d ` etails sur les conditions de r egularit e sufsant pour que les r esultats soient valables. Larticle de Newey (1985b) est egalement consacr e aux tests de mod` eles estim es par GMM. Les tests dhypoth` eses non embo t ees pour les mod` eles estim es par GMM sont abord es par Smith (1992). Cependant, ces articles ne discutent pas des tests C (). Une question int eressante est de savoir si les tests de moments conditionnels discut es dans le chapitre pr ec edent dans un contexte de mod` eles estim es par maximum de vraisemblance ont un equivalent quelconque pour les mod` eles estim es par GMM. Pour simplier, supposons quil ny ait quun seul moment conditionnel dont lesp erance est nulle si le mod` ele est correctement sp eci e. Si le moment empirique correspondant est employ e comme contrainte, alors il peut etre test e de la m eme mani` ere que nimporte quelle autre contrainte, par lune des proc edures d ecrites pr ec edemment. Une autre possibilit e consiste en un moment rest e inemploy e pour lidentication ou la suridentication des param` etres du mod` ele, tel quun moment g en er e par un instrument qui, bien quappartenant ` a lensemble dinformations ad equat, nest pas employ e en tant quinstrument dans la proc edure destimation. Il est ais e en principe de voir comment construire un test de moment conditionnel dans ce cas. Le mod` ele doit etre estim e` a nouveau en utilisant le moment conditionnel qui doit etre test e comme contrainte de suridentication. Dans la pratique, cela est plus facile ` a dire qu` a faire, parce que la matrice doit etre augment ee dune ligne et dune colonne pour ce nouveau moment. La di erence entre les deux fonctions crit` eres minimis ees, avec et sans le moment suppl ementaire, g en` ere la statistique de test LR. La raison sous-jacente pour laquelle les tests de moments conditionnels sont, du moins potentiellement, plus d elicats ` a ex ecuter dans un contexte
624
GMM que dans un contexte de maximum de vraisemblance est labscence de m ethode bas ee sur une r egression articielle. Cela est reli e` a la dicult e dobtenir des estimations de la matrice si nous voulons imposer aussi peu de structure que possible ` a nos mod` eles. Pour ces cas o` u nous imposons susamment de contraintes pour constater avec joie que lestimation de est ais ee, les tests de moment conditionnel ne sont pas plus diciles ` a mettre en oeuvre que dans un contexte de sp ecication compl` ete du maximum de vraisemblance. Nous avons limit e notre attention dans cette section aux mod` eles estim es par la minimisation de fonctions crit` ere avec des matrices de pond eration satisfaisant la condition decacit e du Th eor` eme 17.3. La principale justication de ce choix est que, m eme si une matrice de pond eration non ecace peut quelquefois etre ad equate pour des besoins destimation, les proc edures de test ne peuvent pas etre mises en oeuvre sans une estimation de la matrice de covariance des moments empiriques, quelle que soit la matrice de pond eration utilis ee. Il est par cons equent peu pertinent de baser des inf erences sur des estimations non ecaces lorsque le travail dicile destimation ecace de a et e r ealis e. Une autre raison est que, tout simplement, la th eorie des tests bas es sur des estimations non ecaces des param` etres est substanciellement plus dicile que la th eorie pr esent ee ici.
17.7 Conclusion
La th eorie asymptotique sous-jacente ` a la m ethode des moments g en eralis ee est en r ealit e assez g en erale. Elle poss` ede lattrait des th eories qui manipulent des el ements apparemment tr` es vari es et qui fournissent un traitement uni e. Nous avons vu au cours de ce chapitre comment chaque estimateur consid er e jusqu` a pr esent peut etre compris comme un estimateur GMM, et dans bien des cas, nous avons donn e une extension des proc edures destimation en adoptant un point de vue GMM, les rendant robustes ` a une plus grande vari et e de sp ecications. Par souci de simplicit e, tous les exemples destimateurs GMM pr esent es dans ce chapitre ont et e consid er es dans un contexte de mod` eles lin eaires. Il est important de souligner que cela ne constitue en rien une limitation de la m ethode. Lextension de nos simples exemples ` a des cas de r egressions non lin eaires est enti` erement imm ediate, du moins th eoriquement. Dans la pratique, evidemment, tout, except e lestimation GMM la plus simple, doit etre mis en oeuvre dans la minimisation num erique de la fonction crit` ere, avec toutes les dicult es habituelles que cela implique. Malgr e ces dicult es, lapplication majeure des GMM est lobjet de mod` eles non lin eaires. Jusquici, il est impossible de pr evoir dans quelle mesure les GMM modieront la pratique de l econom etrie. Les tests sont, comme nous lavons vu, souvent plus diciles dans une mod elisation GMM que dans nimporte
Termes et Concepts
625
quelle autre cat egorie de mod` ele etudi e. Un autre point sur lequel nous restons relativement muets concerne les propri et es des estimateurs GMM et des statistiques de test lorsque l echantillon a une taille comparable ` a celle des echantillons concrets. Il est incontestable que des recherches ult erieures clarieront un grand nombre de ces questions. Nous trouverons une application de la GMM dans le chapitre suivant qui traite des mod` eles d equations simultan ees.
Termes et Concepts
application d enissante des param` etres autocovariances (des moments empiriques) borne GMM condition sur le moment doubles moindres carr es en deux etapes equation d enissante de lestimateur estimateur de la matrice de covariance robuste ` a lh et erosc edasticit e et ` a lautocorr elation (HAC) estimateur GMM estimateur H2SLS (doubles moindres carr es en deux etapes) estimateur HOLS fonction crit` ere identiabilit e asymptotique forte instruments optimaux M-estimateur de Type 2 M-estimateurs matrice dautocovariance empirique matrice de pond eration m ethode des moments g en eralis ee (GMM) m ethode des moments (ordinaire) mod` ele de localisation moments empiriques param` etre de troncature des retards poids optimaux tests C () pour mod` eles GMM tests de Wald pour les mod` eles GMM tests des contraintes de suridentication de Hansen tests LM pour les mod` eles GMM tests LR pour les mod` eles GMM

Fchap 17

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Fchap 17

Încărcat de

Drepturi de autor:

Formate disponibile

Chapitre 17 La M ethode des Moments G en eralis ee

finitions 17.1 Introduction et De

thode des Moments Ge ne ralise e La Me

finitions 17.1 Introduction et De

ou, en omettant le facteur n1 et en utilisant une notation matricielle, W (y X ) = 0. (17.05)

thode des Moments Ge ne ralise e La Me

thode des Moments Ge ne ralise e La Me

`re et M-Estimateurs 17.2 Fonctions Crite

`re et M-Estimateurs 17.2 Fonctions Crite

W o` u la matrice de projection oblique MX est d enie par W MX = I X X PW X 1

thode des Moments Ge ne ralise e La Me

Or cette matrice est nulle, comme nous le d emontrons, puisque

`re et M-Estimateurs 17.2 Fonctions Crite

thode des Moments Ge ne ralise e La Me

devrait converger vers , cest-` a-dire,

`re et M-Estimateurs 17.2 Fonctions Crite

thode des Moments Ge ne ralise e La Me

au voisinage de 0 , nous obtenons 0 = (H )1 g (0 ), (17.21)

`re et M-Estimateurs 17.2 Fonctions Crite

thode des Moments Ge ne ralise e La Me

Q Ft 1 =2 A n1/2 Fs , n j j t=1 s=1

fti (yt , 0 )ftj (yt , 0 ) .

`re et M-Estimateurs 17.2 Fonctions Crite

La matrice est obtenue ` a partir de (17.29): = plim n n

thode des Moments Ge ne ralise e La Me

17.3 Estimateurs GMM Efficaces

17.3 Estimateurs GMM Efficaces lequel 0 ) = D 1 D V n 1 /2 (

thode des Moments Ge ne ralise e La Me

Les conditions du premier ordre pour un minimum de cette fonction sont X W W W

17.3 Estimateurs GMM Efficaces et elles conduisent ` a lestimateur = X W (W W )1 W X

thode des Moments Ge ne ralise e La Me

` lAide des Moments Conditionnels 17.4 Estimation a et nous obtenons g (1 , 0) I1 g (1 , 0).

` lAide des Moments Conditionnels 17.4 Estimation a

thode des Moments Ge ne ralise e La Me

` lAide des Moments Conditionnels 17.4 Estimation a

thode des Moments Ge ne ralise e La Me

` lAide des Moments Conditionnels 17.4 Estimation a

thode des Moments Ge ne ralise e La Me

La fonction crit` ere pertinente est par cons equent (y X ) 1 W W 1 W

thode des Moments Ge ne ralise e La Me

17.5 Estimation de la Matrice de Covariance

17.5 Estimation de la Matrice de Covariance

E Ft (yt , 0 )Fs (yt , 0 ) ,

pour j 0 (17.57) pour j < 0.

thode des Moments Ge ne ralise e La Me

Ainsi, ` a partir de (17.59), nous obtenons = n

et leur r esolution conduit ` a lestimateur H2SLS (17.44), o` u lestimateur remplace .

17.5 Estimation de la Matrice de Covariance

thode des Moments Ge ne ralise e La Me

17.5 Estimation de la Matrice de Covariance

Dans le cas simple o` u W = X, cette formule relativement lourde devient X X

thode des Moments Ge ne ralise e La Me

rence dans les Mode `les GMM 17.6 Infe

rence dans les Mode `les GMM 17.6 Infe

thode des Moments Ge ne ralise e La Me

Posons D = D (, 0 ), et il suit que de (17.22), (17.27), et (17.28),

Par cons equent = I D D 1D n1/2 F

rence dans les Mode `les GMM 17.6 Infe

thode des Moments Ge ne ralise e La Me

rence dans les Mode `les GMM 17.6 Infe

ce qui sugg` ere quune statistique de test appropri ee serait

622 et (17.73) sous la forme

thode des Moments Ge ne ralise e La Me