Documente Academic
Documente Profesional
Documente Cultură
Rappels
Au cours pr ec edent, nous avions introduit la notion destimation. Il sagissait dapprocher les param` etres dune distribution (ou une fonction de ces param` etres) ` a laide dun jeu de donn ees issu de variables al eatoires suivant cette distribution. A chaque param` etre ou fonction est associ e un estimateur, le statisticien devra alors attribuer ` a cet estimateur un indicateur statistique d eriv e de ses donn ees. Il y a potentiellement un grand nombre dindicateurs possibles pour une m eme quantit e, nous avons vu quil en existait au moins deux pour la variance th eorique, qui paraissent tous les deux plausibles et intuitifs. La question qui se pose alors, et que nous allons essayer de r esoudre dans ce chapitre, est de savoir lequel de ces indicateurs il faudra choisir pour minimiser les risques de nous tromper dans cette estimation.
Comme est un param` etre, donc une constante, il ne change pas lorsque n varie : il est ind ependant de lexp erience. On peut donc ecrire plus simplement : E[Tn ] = E[Tn ] = 0 Si cette condition est v eri ee, on dit que lestimateur est sans biais . Cela signie quon voudrait que lesp erance de lestimateur soit le param` etre en question. Si ce nest pas le cas, le biais repr esente une erreur syst ematique destimation : pour plusieurs echantillons issus de v.a. similaires, la moyenne de notre calcul de Tn sera sup erieure ou inf erieure ` a la vraie valeur . Nos calculs seront donc en g en eral distribu es trop en dessous ou trop au-dessus de . Vu ce que lon vient de dire, on pourrait vouloir imposer egalement une condition ` a la variance de Tn 1 , de sorte ` a ce que pour plusieurs echantillons similaires,
1. Rappelons que la variance est une quantit e qui informe sur la dispersion dune loi.
se retrouvent tr` les estimations es pr` es de lesp erance de Tn , cest ` a dire de si lestimateur est sans biais. Il nest pas r ealiste dexiger quelle soit nulle, mais on peut demander que ce soit la plus petite variance parmi tous les estimateurs possibles. Un tel estimateur est appel e estimateur sans biais et de variance minimale (ESBVM, en anglais MVUE, minimum-variance unbiased estimator), et il nest pas toujours possible den trouver un. n ] = E[X ], et donc que la Par exemple, il est simple de montrer que E[X moyenne empirique est un estimateur sans biais de lesp erance. Similairement, n ] = Var[X ] , qui tend vers 0 lorsque n tend vers linni 2 . Par contre, Var[X n 2 lorsquon examine Sn la variance empirique de l echantillon, on obtient que n1 2 E[Sn ] = n Var[X ]. La variance empirique estime bien la variance, mais son biais est non nul. Cest la raison pour laquelle on pr ef` ere en g en eral utiliser n 2 2 S qui est sans biais. On appelle cette quantit e la variance estim ee Sn = n 1 n de l echantillon ; cest elle, et non la variance empirique, qui est calcul ee par d efaut dans R par la commande var. Remarque 1. On remarque que pour de tr` es grandes valeurs de n, le coecient 1 2 est asympde biais n est ` a peu pr` e s e gal ` a 1. On peut dire que lestimateur Sn n totiquement sans biais. De fa con g en erale, si on ne trouve pas dESBVM, on tentera dobtenir des estimateurs dont le biais et la variance tendent vers 0 ` a 2 linni. Il d ecoule de cette observation que limportance du choix de Sn par 2 est surtout important pour les petites valeurs de n, cest ` a rapport ` a Sn dire pour les petits echantillons. Remarque 2. Attention, ce que nous avons dit pour la variance nest pas vrai 2 = S et pour l ecart-type. Nous ne pouvons rien dire sur la qualit e de Sn n Sn = Sn en tant questimateurs de l ecart-type de la loi de X . L ecart-type empirique sera donc toujours un simple indicateur, non un estimateur. En g en eral, il faut avoir la plus grande m eance lorsquon transforme des indicateurs par des fonctions, ils perdent souvent leur qualit e destimateur m eme si on applique la m eme transformation ` a la donn ee estim ee.
2 n que comme estimateurs de la Remarque 3. Nous navons consid er e Sn et X variance et de lesp erance, il est egalement possible de montrer quil sagit aussi des ESBVM des param` etres (, 2 ) de la loi normale.
Nous avons vu que dans la grande majorit e des cas, on ne dispose que destimateurs pour les moments, et non pas pour les param` etres dune loi (` a lexception de la loi normale). Il arrive pourtant fr equemment que lon sache quelle loi soustend nos donn ees, et lon voudrait pouvoir rapidement et simplement obtenir la valeur des param` etres de cette loi ` a travers nos echantillons. Nous pouvons d ej` a deviner quil est possible, si lon conna t les estimateurs id eaux des moments, de retrouver facilement de bons estimateurs des param` etres. 0.0.1 M ethode des moments
Dans le cas de la loi normale, nous avions vu que = m1 = mc1 Ce m eme processus didentication peut etre fait pour toute loi de probabilit e a partir de lexpression de ses moments. Par exemple, si X suit une loi gamma ` G(a, ), les deux param` etres ` a estimer sont a et . En calculant son esp erance (` a a . De partir de la formule int egrale que nous avons donn ee), on obtient E[X ] = a m eme son moment dordre 2 est egal ` a Var[X ] = esolvant le syst` eme, 2 . En r on trouve : E[X ] = Var[ X] a =
E[X ]2 Var[X ]
Ce processus didentication est appel e m ethode des moments , cest la mani` ere historique destimer des param` etres. Cependant, on peut montrer par le calcul quil ne r ealise pas toujours une estimation sans biais. Pour pallier cette d efaillance, la statistique moderne a introduit lestimation par maximum de vraisemblance . Remarque 4. Un exemple o` u lestimateur des moments est biais e est evidemment 2 de la variance. celui de lestimateur Sn Remarque 5. Si lon observe lexpression des deux param` etres et , on remarque quils font tous les deux intervenir les deux premiers moments dans leur calcul. Cela signie dune part quun moment seul nest pas capable de donner lun des param` etres, mais quil contient de linformation transport ee par les deux. Dautre part, cela nous dit que les deux moments sont corr el es : ils contiennent des informations redondantes. On comprend que la seule occasion o` u le calcul des moments atteint son maximum de d ecorr elation (donc dinformation), est le cas de la loi normale, o` u les param` etres sont egaux aux deux premiers moments. 0.0.2 M ethode du maximum de vraisemblance
Pour cette m ethode, on va chercher ` a quantier la vraisemblance de notre estimateur, puis on tentera dajuster la formule jusqu` a ce que la vraisemblance soit maximale. La fonction de vraisemblance est d esign ee par la lettre L dapr` es son nom anglais de likelihood et se d enit ainsi : L()x1 ,...,xn = P (X1 = x1 , . . . , Xn = xn | ) dans le cas discret f (x1 , . . . , xn | ) dans le cas continu 3
Elle est simple ` a interpr eter, il sagit de la probabilit e dobserver les donn ees dont on dispose sachant que le param` etre est egal ` a une valeur particuli` ere 3 . L() est une fonction de au m eme titre que f (x) est une fonction de x. On fait lhypoth` ese que la valeur la plus vraisemblable pour le param` etre est celle pour laquelle la fonction de vraisemblance L()x1 ,...,xn est maximale. Autrement dit, on cherche le param` etre pour lequel les donn ees que lon poss` ede correspondent ` a l eventualit e la plus probable. Ce type de calcul rel` eve dune discipline appel ee loptimisation, nous nentrerons pas dans les d etails pour ne pas alourdir le cours 4 . Cette proc edure conduit ` a lobtention dun estimateur du maximum de vraisemblance (EMV)] nomm e maximum likelikood estimator (MLE) en anglais. Souvent, la m ethode du maximum de vraisemblance produit un estimateur di erent de celui de la m ethode des moments. Pour les lois les plus simples cependant, ils peuvent etre egaux : cest le cas de la moyenne et de la variance empiriques pour la loi normale, qui correspondent bien aux param` etres et 2 . Remarque 6. Nous avons bien dit 2 . LEMV est donc egal ` a lestimateur des moments, qui comme on la vu, est biais e. Bien se rappeler donc que lEMV nest pas forc ement un ESBVM. Cela illustre le fait que souvent, les qualit es dun EMV sont plut ot asymptotiques, et quil faudra donc les calculer sur de larges echantillons. Remarque 7. On entend fr equemment dans la litt erature et les documentations de R lexpression log-vraisemblance ou log-likelihood en anglais. Cette quantit e d esigne simplement le logarithme de la fonction de vraisemblance. On la pr ef` ere ` a la vraisemblance simplement par ce quelle ore certaines facilit es de calcul 5 , intrins` equement elle repr esente la m eme chose. Nous reviendrons sur la notion de log-vraisemblance lorsque nous traiterons les tests statistiques, et en particulier lad equation ` a un mod` ele. Autres m ethodes Ces deux m ethodes destimation sont les plus connues, la m ethode des moments par ce quelle est ancienne et facile ` a comprendre, la m ethode du maximum de vraisemblance par ce que cest la plus couramment utilis ee. Il existe cependant de nombreuses autres m ethodes destimation, mais toutes ne sont pas bas ees sur le calcul formel comme les deux pr ec edentes, certaines utilisent en eet des m ethodes num eriques et des simulations (comme la m ethode de Monte-Carlo). Il est dicile cependant den faire un compte rendu exhaustif, car il nest pas rare que ces proc edures soient sp eciquement adapt ees ` a un type de donn ees (par exemple les ltres statistiques, con cus pour traiter des mesures successives de ph enom` enes constants ou variants au cours du temps).
3. En r ealit e, cette valeur particuli` ere est bien entendu la r ealisation de notre estimateur. 4. Le lecteur curieux pourra cependant consulter le chapitre 3.2.3 du cours de r ef erence de M. Gaudoin. Les calculs nexigent pas de connaissances particuli` eres ` a part une connaissance de base des logarithmes. 5. En eet la vraisemblance, comme probabilit e jointe de variables ind ependantes, sexprime comme un produit de probabilit es. Or, il sagit de la maximiser, ce qui est dicile pour un produit. Le logarithme permet de passer dun produit a ` une somme, rendant plus facile le travail doptimisation.
contiendra la v eritable moyenne de l el` eve dans 90% des cas 6 . Remarque 9. Enfon cons le clou : au vu de lexp erience que nous venons de d ecrire, il aurait et e erron e de dire nous avons 90% de chances que notre moyenne se situe dans lintervalle [11.5, 13.5]. En eet, le m eme calcul nous donne [11.9, 13.9] apr` es une simple r ep etition. La quantit e al eatoire sous-jacente est toujours la moyenne empirique, sa distribution na pas pu changer entre les deux exp eriences. Nous ne pouvons donc pas avoir la m eme chance de nous retrouver dans [11.9, 13.9] et dans [11.5, 13.5]. Il est par contre juste de dire 90% des intervalles de conance de niveau 10% contiennent la moyenne r eelle. Nous ne d etaillerons pas ici la mani` ere dont on obtient les intervalles de conance. La m ethode g en erale est de cr eer une statistique de loi simple et connue ` a partir des estimateurs, ce qui va permettre den donner simplement les quantiles. Par exemple, les probabilit es nous disent que la moyenne empirique dun echantillon issu de lois normalement distribu ees suit elle-m eme une r epartition normale de param` etres connus. Quelques intervalles connus Intervalle de conance pour la moyenne Lintervalle de conance de seuil pour la moyenne de la loi normale N (, 2 ) est : n + n u , X u X n n u d esigne la fonction r eciproque de la fonction de r epartition de la loi normale pour la valeur 1 . On lappelle souvent valeur critique ou z-value en anglais, elle repr esente la taille de lintervalle dont la probabilit e cumul ee est 1 . Les fonctions de ce type existent pour toutes les lois et sont donn ees par ce quon appelle des tables de lois al eatoires . Historiquement, il sagissait de v eritables tableaux comme celui de la gure 1, de nos jours il sut de faire appel a R par une commande telle que pnorm pour la loi normale. Plus g ` en eralement, les logiciels du type R/SAS r ealisent tous les calculs et donnent les intervalles de conance directement.
Remarque 10. Dans lexpression de lintervalle de conance, on peut remarquer que sa taille d epend essentiellement de trois facteurs : la taille d echantillon n, qui le resserre ; la variance, qui l elargit ; et le niveau de risque, qui ` a travers la valeur critique le r etr ecit egalement. Cela correspond ` a des notions intuitives : plus l echantillon sera grand, plus on poss` edera de valeurs et plus
6. Cet exemple illustre bien la di erence avec ce que nous faisions jusqualors. Lorsquon analysait au chapitre pr ec edent lesp erance et la variance de lestimateur pour calculer lESBVM, on traitait avec la distribution th eorique de lestimateur. Avec les intervalles de conance, on calcule en r ealit e les ensembles de valeurs qui contiennent % de nos moyennes empiriques. Ce type de calcul sera d eni plus pr ecis ement au chapitre suivant, il sagit des quantiles.
Figure 1 Z-table de la loi normale centr ee r eduite. Pour obtenir u , chercher la valeur 1 dans le tableau et lire le z correspondant. Par exemple 2 pour 10% on cherche 0.45 dans le tableau et on obtient 1.65 pour u . notre conance dans notre estimation sera grande ; par contre la variance aura leet oppos e : plus nos donn ees sont dispers ees, plus lintervalle de conance sera long ` a appara tre. Leet du risque est evident : si on est pr et ` a prendre plus de risque, on peut sans crainte r etr ecir lintervalle autour de notre estimation, nous nous tromperons simplement plus souvent. Le lecteur attentif aura sans doute remarqu e quil y a un probl` eme de taille dans la formule pr ec edente : nous y utilisons , or est un param` etre, forc ement inconnu pour nous, et qui poss` ede son propre intervalle de conance. A la rigueur, nous pouvons en poss eder un estimateur Sn , mais gu` ere plus. Un intervalle de conance existe pour la moyenne empirique, cependant celle-ci ne suit plus une loi normale (elle est perturb ee par lestimation de ) : Sn Sn n n X tn1, , X tn1, n n
Le tn1, d esigne la valeur critique au niveau de la loi de Student ` a n1 degr es de libert e, ` a lire dans la table de Student. Remarque 11. On notera que si lintervalle de conance pour connu etait de taille constante, le pr ec edent ne lest pas. Intervalle de conance pour la variance Le param` etre 2 de la loi normale suit une loi du chi-deux 2 , un intervalle de conance de seuil n pour ce param` etre est :
2 2 (n 1)Sn (n 1)Sn , zn1,/2 zn1,1/2
On lira la valeur z dans la table de la loi du chi-deux ` a n 1 degr es de libert e. etrique, les deux quantit es zn1,1/2 et Remarque 12. La loi du 2 est asym zn1,/2 ne sont donc pas egales et lintervalle de conance nest pas centr e sur 2 lestimateur Sn . Application ` a la taille d echantillon On a vu que les bornes des intervalles de conance d ependent souvent de n, la taille de l echantillon. Cest un comportement attendu : plus lon a de mesures, plus on sattend ` a ce que notre estimation soit s ure. Un probl` eme fr equent en statistiques, et qui rel` eve plut ot du plan dexp erience, consiste ` a se demander combien de mesures (quelle valeur de n) il est n ecessaire de pr evoir pour obtenir des r esultats probants : on cherche ` a d eterminer la taille minimale de l echantillon. Un moyen de lobtenir est dutiliser les intervalles de conance. On le devine de ce qui pr ec` ede, ce nombre va d ependre du risque que lon est pr et ` a accepter. Mettons que lon estime la moyenne de la loi normale. On sait que lintervalle S de conance aura pour taille 2 n t . Si on xe cette taille et quon lui assigne n n1, la lettre W , on peut exprimer n en fonction de W , ce qui donne n=
2 2 4Sn tn1, W2
Nous tombons sur un probl` eme, ` a savoir que tn1, d epend de n. Il existe plusieurs fa cons de rem edier ` a cela. La premi` ere solution est it erative, on va calculer W pour des n croissants jusqu` a ce quon tombe en dessous de la valeur que lon juge acceptable pour W . Cependant, il est courant de dire que pour des tailles d echantillon sup erieures ` a 5, tn1,0.05 est proche de 2 quel que soit n. On pourra donc exiger un echantillon de taille 2 16Sn n= W2 pour un niveau de conance de 95%.
Une autre fa con de faire est de supposer que est connu, m eme si on ne dispose que dun estimateur. Dans ce cas, on peut utiliser le premier intervalle de conance, qui utilise la loi normale et ne fait pas intervenir n : n= u W
2
Pour un seuil de 95% on lira u = 1.96. Cela revient toutefois ` a se poser la m eme question pour : ` a quelle condition peut-on remplacer par Sn dans la formule pr ec edente ? En utilisant une proc edure it erative similaire ` a ce qui a et e mentionn e plus haut, on d etermine quil faut une taille d echantillon n 30 pour obtenir une conance susante dans la variance estim ee. Cependant, lusage montre quil est possible dutiliser la formule n = tailles d echantillon inf erieures.
Sn u W 2
Exemple r ecapitulatif Reprenons lexemple de l el` eve dont on veut appr ecier le niveau dans une mati` ere. On rappelle quon suppose que ses notes sont distribu ees normalement autour de sa moyenne, et que sa moyenne est une bonne mesure de son niveau. Soient ses notes dans le trimestre {x1 = 11, x2 = 14, x3 = 5}. n = 10 et S = 4.6. On a n = 3, et on calcule X n 4.6 2.353 = Prenons = 10%. Lintervalle de conance pour la moyenne est 10 3 [10 6.2] = [3.7; 16.2]. Si nous exigeons une certitude de 90% dans la moyenne de notre el` eve, nous obtenons un intervalle de taille 12. Autrement dit, ` a ce niveau de certitude, 6.2/10 = 62% de la moyenne empirique est potentiellement expliqu ee par le hasard. Tentons de d eterminer le nombre minimal de notes pour obtenir un intervalle de conance acceptable. Mettons que lon exige W = 4, cest ` a dire une incertitude de 2 sur la moyenne de l el` eve. Dautre part, consid erons que est toujours egal ` a 10%. En utilisant la m ethode it erative, on trouve W = 4.03 pour n = 16. 2 16Sn En utilisant la formule W 2 on obtient n = 22. Enn, en faisant la supposition = Sn , on obtient n = 6. Dans tous les cas, trois notes par trimestre constituent un echantillon beaucoup trop r eduit pour estimer la moyenne de l el` eve. Lin egalit e entre les di erents calculs de taille d echantillon sugg` ere de plus que la variance est tr` es probablement surestim ee. Remarque 13. Attention, laugmentation de n na pas dinuence sur la repr esentativit e de l echantillon. Un echantillon est repr esentatif si et seulement si il est choisi de mani` ere enti` erement al eatoire dans une population. Un echantillon de taille 1000 nest donc pas plus repr esentatif quun echantillon de taille 10, il permet simplement dobtenir des intervalles de conance plus etroits, donc une plus grande pr ecision des r esultats. Remarque 14. Des calculs similaires existent pour presque tous les calculs statistiques. En particulier, la simple estimation dune probabilit e` a laide dune proportion est soumise ` a une condition de ce type 7 . Un autre domaine o` u ces interrogations sont de mise sont bien entendu les tests, qui requi` erent souvent des conditions encore plus drastiques quune simple estimation de moyenne.
7. Cela signie quon ne peut pas dire par exemple quun g` ene est pr esent avec la probabilit e 30% dans une population si on na pas fait cette mesure avec un n susamment grand. Des calculs existent qui donnent avec pr ecision n en fonction du niveau de conance d esir e.
10