Documente Academic
Documente Profesional
Documente Cultură
Ajustement et corrlation
1 - Principe de l'ajustement 2 - Principe de la mthode des moindres carrs 3 - Ajustement linaire 4 - Exemple d'ajustement 5 - Corrlation linaire de 2 variables 6 - Retour sur la covariance et la corrlation 7 - Corrlation linaire multiple 8 - Exemple de recherche de corrlation 9 - Modles non linaires 10 - Ajustement polynomial 11 - Test du 2
Exercices
1 - Principe de l'ajustement
Une srie statistique est une collection de couples (xi, ni) o xi est la valeur du caractre (ou le centre d'une classe) et ni l'effectif correspondant. A chaque couple (xi, ni) on peut faire correspondre un point dans un repre cartsien de sorte que la reprsentation graphique d'une srie statistique est un nuage de points :
trouver la courbe qui passe "au mieux" au milieu de ces points trouver l'quation de cette courbe
d'exprimer les rsultats d'une tude statistique par une loi simple d'liminer les erreurs ou fluctuations accidentelles
Les figures suivantes dcrivent des ajustements des sries statistiques des exemples A et B :
Dans ce qui suit, nous considrerons que les donnes statistiques sont des couples (xi, yi) correspondant chacun un point. Dans le cas d'une srie statistique simple, xi reprsentera une valeur du caractre, yi (appel prcdemment ni) l'effectif (ou la frquence) correspondant.
l'ajustement graphique, amlior par la mthode des points moyens l'ajustement mcanique : mthode des moyennes chelonnes, mthode des moyennes mobiles Ces deux types d'ajustement permettent d'obtenir la forme de la courbe cherche.
l'ajustement analytique : mthode des moindres carrs Cet ajustement permet, en principe, d'obtenir l'quation de la courbe.
Pour dterminer les paramtres inconnus de la fonction f, on crit la condition d'optimisation : M doit tre minimum
ce qui se traduit, en gnral, par des quations mathmatiques plus ou moins complexes.
3 - Ajustement linaire
Dans ce qui suit, on se limite au cas o la courbe d'ajustement est une droite d'quation y = ax + b. Il faudra donc dterminer les paramtres a (coefficient directeur) et b (ordonne l'origine). C'est l'objet de l'ajustement linaire.
Considrons la srie statistique reprsente par les couples de nombres : x x1 x2 ------------------------ xi ------------------------ xn y y1 y2 ------------------------ yi ------------------------ yn Pour effectuer l'ajustement linaire de cette srie, procdons par tapes successives : a) changement de variable Effectuons le calcul des moyennes arithmtiques simples des xi et des yi :
ce qui quivaut un changement d'axes. La nouvelle srie est la collection (Xi, Yi) : X X1 X2 ------------------------ Xi ------------------------ Xn Y2 ------------------------ Yi ------------------------ Yn
Y Y1
b) expression de la quantit M M = i(Yi - Y'i)2 avec Y'i = AXi + B Yi - Y'i = Yi - AXi - B = (Yi - AXi) - B
(Yi - Y'i)2 = (Yi - AXi)2 - 2B(Yi - AXi) + B2 d'o M = i(Yi - AXi)2 - 2B(iYi - AiXi) + nB2 Mais
iYi = i(yi - my) = iyi - nmy = nmy - nmy = 0 et de mme iXi = i(xi - mx) = ixi - nmx = nmx - nmx = 0
c) minimisation de M Il est clair, d'aprs l'expression prcdente, que l'on rendra M le plus petit possible en prenant :
On obtient alors :
Puisque M est une quantit positive (dans sa dfinition, c'est un carr), on remarque que :
d) dtermination de la droite d'ajustement Dans les nouveaux axes, l'quation de la droite d'ajustement est Y = AX Cette droite passe donc par l'origine des nouveaux axes, c'est dire par le point dont les coordonnes, dans les anciens axes sont (mx, my). Dans les anciens axes, la droite d'ajustement a pour quation gnrale y = ax + b Or Y = AX entrane que d'o a = A et b = my - Amx y - my = A(x - mx) ou encore y = Ax + my - Amx
e) relation pratique pour a Exprimons a en fonction des donnes initiales (xi, yi).
4 - Exemple d'ajustement
exemple 11 : salaires moyens d'un ouvrier professionnel dans les industries des mtaux de la rgion parisienne anne salaire (F) 1950 1,15 1952 1,82 1954 1,99 1956 2,36 1958 2,83 1960 3,20 1962 3,75 1964 4,40
La rpartition des points suggre que l'ajustement peut tre fait par une droite d'quation y = ax + b. Pour dterminer a et b, on utilise une disposition en tableau comme suit. Il est, par ailleurs, commode de remplacer les annes par des nombres plus simples xi.
my = 21,50/8 = 2,69
a = [27,20 - 8x0,5x2,69]/[44 - 8x0,25] = 0,39 b = my - amx = 2,69 - 0,39x0,5 = 2,49 L'quation de la droite est donc y = 0,39x + 2,49. Cette quation exprime approximativement la variation du salaire horaire moyen au cours du temps. Elle permet de faire
q
des interpolations : salaire horaire moyen en 1955 : 0,39x0,5 + 2,49 = 2,30 des extrapolations : salaire horaire moyen en 1966 : 0,39x5 + 2,49 = 4,44
La corrlation linaire se reconnat au fait que les points reprsentatifs sont voisins d'une droite. L'quation de cette droite peut tre obtenue par l'ajustement linaire :
Cette droite est appele droite de rgression de y en x. Nous la noterons Dy/x. On peut aussi faire jouer x et y des rles symtriques et considrer la droite de rgression de x en y : Dx/y dfinie par :
Les deux droites de rgression sont en gnral distinctes. Cependant elles passent toutes deux par le "point moyen" (mx, my). Une bonne corrlation linaire signifie que les droites de rgression sont presque confondues. Au contraire, une trs mauvaise corrlation linaire correspond deux droites de rgression presque perpendiculaires.
La droite Dy/x a pour quation y = ax + b et son coefficient directeur est a. La droite Dx/y a pour quation x = a'y + b' ou y = x/a' - b'/a' et son coefficient directeur est 1/a'. La corrlation maximum correspond la situation o les droites Dy/x et Dx/y sont confondues, soit a = 1/a' ou encore aa' = 1
Or
On crit souvent r sous une autre forme que nous allons dterminer et qui fait intervenir les carts-types. n reprsentant le nombre de couples (xi, yi),
la variance de x est
la variance de y est
Transformons xi en x'i = xi + et yi en y'i = yi + . Alors mx est transform en mx' = mx + et my en my' = my + . Par suite Xi est transform en X'i = x'i- mx' = (xi + ) - (mx + ) = xi - mx = Xi et Yi est transform en Y'i = y'i - my' = (yi + ) - (my + ) = yi - my = Yi En dfinitive, r est inchang.
q
Transformons xi en x'i = xi et yi en y'i = yi. Alors mx est transform en mx' = mx et my en my' = my. Par suite Xi est transform en X'i = x'i - mx' = xi - mx = (xi - mx) = Xi et Yi est transform en Y'i = y'i - my' = yi - bmy = (yi - my) = Yi
domaine de variation de r
d'o
donc
Terminons ce paragraphe par une mise en garde. La corrlation a une interprtation trs dlicate. En gnral, elle correspond une relation cause-effet mais il faut faire trs attention. En effet : a) de x et y, on ne peut savoir (sauf si c'est vident) qui est la cause et qui est l'effet. b) x et y peuvent tre en relation avec un troisime phnomne ; par exemple, on pourra trouver une bonne corrlation entre le chiffre de vente de lunettes de soleil et le chiffre de vente de crme glace ; le troisime phnomne est videmment la temprature. c) Il peut y avoir des corrlations accidentelles. On a pu monter, par exemple, une corrlation importante dans les cas suivants :
q
mortalit britannique et population des mariages anglicans ; nombre d'abonns au tlphone dans le dpartement de la Seine et nombre d'tudiants inscrits la Facult de Droit de Paris ; taux de nuptialit et activit conomique
Les paramtres k sont, a priori inconnus, sont les coefficients de saturation. X(0) est la variable expliquer et X(k) pour k = 1,N sont les variables explicatives. Pour simplifier l'expos, on admettra que l'on a effectu n observations ce qui a conduit n valeurs Xi(k) pour chaque variable X(k). On affectera chacune de ces valeurs d'un poids statistique de 1 de sorte que les dfinitions usuelles s'crivent :
q
moyennes : mX(k) =(iXi(k))/n variances : v(X(k)) = (i(Xi(k) - mX(k))2 covariances : cov(X(k), X(l)) = [i(Xi(k) - mX(k))(Xi(l) - mX(l))
dfinition conforme ce que l'on a dj vu. Pour minimiser E et donc trouver les coefficients k, on crira que les drives partielles de E par rapport aux coefficients k sont nulles :
0 = mX(0) - kkmX
(k)
M est appele matrice des covariances. Pour rsoudre ce systme, il faut calculer la matrice inverse M-1 : B = M-1V
relation qui fournit les coefficients de saturation k pour k = 1, N. On est amen poser, pour mesurer la corrlation globale
Ce coefficient est quelquefois appel coefficient de corrlation multiple (mais d'autres dfinitions existent).
exemple1 On donne les deux sries chronologiques suivantes, relatives la Grande Bretagne : Rcepteurs de radio en service (en centaines de milliers) : x 13 20 23 25 27 31 36 46 55 63 70 76 81 85 Nombre de maladies mentales dclares (pour 1000 habitants) : y 8 8 9 10 11 11 12 16 18 19 20 21 22 23
annes
1924 1925 1926 1927 1928 1929 1930 1931 1932 1933 1934 1935 1937 1937
Recherchons s'il y a une corrlation entre x et y. Calculons tout d'abord le coefficient de corrlation.
Le coefficient de corrlation est r = 0,99 . Il est donc trs lev ce qui indique une forte corrlation entre x et y. Les droites de rgression, qui figurent cidessous (Dy/x en rouge et Dx/y en jaune) ont pour quations : Dy/x : y = 0,22x + 4,55 Dx/y : x = 4,44y - 19,48
Bien entendu, la corrlation observe ne permet pas de dire si la radio rend fou ou si seulement les fous utilisent la radio !
exemple 2 Le bassin versant du Danube hongrois se situe en Bavire et en Autriche. Si par l, la quantit de condensations atmosphriques devient leve, une vague de crue se produit tout au long du Danube dont le plafond Budapest on veut prdire. Le problme ncessite une approche mathmatique assez complexe mais pour le moment nous nous contentons de prsenter une illustration bien simplifie sur la rgression plusieurs variables. On introduit les trois variables suivantes :
q
X(0) le plafond du Danube Budapest. On ne considre que les cas les plus importants. X(1) la quantit de condensations atmosphriques dans le bassin versant du Danube hongrois. La moyenne mathmatique des donnes mesur par 15 station dobservation en Bavire et en Autriche. X(2) le niveau du Danube Budapest juste avant les grandes eaux causant des vagues de crue.
Le tableau suivant donne les trois donnes de 26 vagues de crue du Danube Budapest.
Numro dordre 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 temps X(0) (cm) X(1) (mm) X(2) (cm)
1896.08.14 1896.08.20 1897.08.08 1899.09.22 1903.07.15 1906.07.20 1907.05.02 1907.06.29 1907.07.21 1912.05.31 1912.07.27 1912.08.04 1912.09.16 1912.09.21 1914.07.14
590 660 780 770 710 640 670 520 660 690 500 460 610 710 620
58 52 133 179 98 72 72 43 62 67 64 33 57 62 54
405 450 350 285 330 400 550 480 450 610 380 460 425 560 420
16 17 18 19 20 21 22 23 24 25 26
1914.07.24 1918.07.01 1918.08.15 1926.06.26 1926.07.01 1926.07.17 1926.08.06 1926.08.14 1954.07.18 1955.06.26 1955.07.16
660 620 590 740 730 720 720 640 805 510 673
48 86 74 95 44 53 77 46 123 26 62
620 390 350 570 710 700 580 700 560 370 430
On tente d'expliquer X(0) en fonction de X(1) et X(2) suivant le modle linaire : X(0) = 0 + 1X(1) + 2X(2) Calculons la matrice M et le vecteur V :
Le modle linaire donne X(0) = 274,89 + 2,35X(1) + 0,44X(2). Les valeurs thoriques sont donnes ci-dessus. On peut, avec le graphique suivant comparer le modle la ralit :
soit on se ramne par transformation au modle linaire lorsque cela est possible
r
ajustement exponentiel Y = a eX transformation par logarithme : Ln(Y) = Ln(a) + X do ajustement linaire entre Ln(Y) et X ajustement puissance Y = a Xb = a eb Ln(X) transformation par logarithme : Ln(Y) = Ln(a) + b Ln(X) do ajustement linaire entre Ln(Y) et Ln(X)
soit on cherche un modle non linaire simple ; le cas courant est lajustement polynomial Y=a0+a1 X+a2 X2+............+aN XN =
10 - Ajustement polynmial
Examinons plus en dtail ce type de modle en supposant n observations (xj,yj) . On dfinira alors Lcart par rapport au modle par:
Pour minimiser, annulons les drives partielles de E par rapport aux coefficients ak :
soit
Posons
alors ou matriciellement
Toutefois, la mthode prcdente qui donne des rsultats acceptables pour linterpolation, est peu satisfaisante pour lextrapolation. On utilisera de prfrence la mthode des polynmes orthogonaux, par exemple la mthode de Lagrange que nous explicitons ci-dessous. On utilise des polynmes de base Li(x) (polynmes de Lagrange) et on cherche un ajustement de la forme
ij
le polynme Lj(X) s'annule pour X = x0, x1, ....,xj-1, xj+1, ........., xn , on peut donc lcrire sous la forme Lj(X) = k (X-x0)(X-x1).... (X- xj-1)(X- xj+1) .... (X-xn) Lj(X) = k (X-xi)
(xj -xi) = 1 et
exemple 6 : : 3 points x0 = 0, x1 = 1, x2 = 2
11 - Test du 2
La loi du 2 Donnons sans dmonstration quelques rsultats importants : Soit n variables normales centres (c'est dire suivant une loi de probabilit normale rduite) x1, x2, .............., xr. Alors la quantit x1+ x2+ ..............+ xr suit une loi de probabilit du suit une loi de probabilit du 2 (ou de Pearson) = r degrs de libert.
Loi du 2
q q
La loi du 2 est donne par des tables qui procurent la probabilit P de dpasser une valeur donne xl
TABLE DE DISTRIBUTION DU (*) 0,995 0,990 0,975 p
2
0,950
0,900
0,750
0,500
0,010025
0,0201
10,341
13 3,565042
4,1069
5,008738 5,891861
7,0415
9,299063 12,33975
14,562
18,33765
60
35,5344
100 67,32753
70,065
0,025
0,010
0,005
0,001
7,8794
10,82736
13,815
12
60 66,98147
74,397
* Valeurs de 2 ayant la probabilit p dtre dpasses (S. Aivazian, op.cit., PP- 188-189).
Les tables du 2 permettent de donner , connaissant n, la probabilit (seuil habituel choisi 5%) de dpasser une valeur 21 ce qui permet de savoir si le modle est acceptable. Si les r variables sont lies par p relations, le nombre de degrs de libert est = r p et la loi du 2 est toujours valable. Ces rsultats permettent de mesurer la validit d'un modle. En effet, soit une exprience procurant des rsultats que lon peut regrouper en classes statistiques : ni : effectif observ de la classe i ; pi : probabilit ( a priori inconnue) de la classe i ; npi : effectif thorique On pose alors et
On notera que, pour utiliser ces rsultats, leffectif minimum d'une classe doit tre de 10 et que r = nombre de classes - nombre de relations entre les ni.
Hypothse dajustement pur Quand on connat a priori la rpartition thorique dune loi alatoire, on parle le test dhypothse dajustement pur. Donc, si lon connat la distribution de probabilit des r classes, le degr de libert est = r p = r 1 puisque p1+ p2+ ... + pr = 1 est une relation qui relie les r variables. Aprs
Sur la loterie nationale hongroise o il faut choisir 5 chiffres sur 90 pendant 225 semaines, on a observ le tableau de frquences suivant :
chiffres 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
frquences 18 8 14 13 18 14 18 14 17 10 11 13 17 16 17 chiffres 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
frquences 9 10 12 15 14 10 11 16 15 12 17 13 11 17 7 chiffres 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 9 15 9 12 16
frquences 10 9 12 16 13 12 17 14 10 8 chiffres
46 47 48 49 50 51 52 53 54 55 56 57 58 59 60
frquences 14 9 12 21 6 19 9 13 13 10 10 10 9 10 9 chiffres 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 8 11 12 10 17 8 12 12 20 6 15 15 19
frquences 11 8 chiffres
76 77 78 79 80 81 82 83 84 85 86 87 88 89 90
frquences 9 17 14 10 14 12 13 15 10 10 11 12 9 12 10
Vrifions lhypothse, que chaque nombre entre 1 et 90 est quiprobable cest--dire 1/90. Puisque chaque semaine on a tir 5 chiffres on a au total n = 1125 donnes ce qui savre satisfaisant pour faire le test car la frquence thorique pour chaque case :
La valeur du
Le degr de libert est = 90-1 = 89. Dans le tableau du 2 on trouve que pour p = 0,71 on a la valeur de 2 = 81,16. Cela veut dire que pour nimporte quel niveau traditionnel, par exemple pour p = 0,05 la valeur de 20,05(89) = 112 ne contredit pas notre hypothse selon laquelle notre tableau de frquences observes devient dun tirage au sort au hasard est que la frquence thorique .
Hypothse dajustement s paramtres estims Quand on connat a priori le type de la rpartition thorique, on parle le test dhypothse dajustement s paramtres estims. Lhypothse dajustement pur est bien rare dans la pratique car mme si lon connat le type de la loi alatoire thorique il faut souvent estimer quelques paramtres de lchantillon. Donc si lon connat la distribution de probabilit des r classes, le degr de libert de test du 2 a la forme de = r s 1 puisque on possde s relations sur les s paramtres estims de la loi alatoire plus la relation p1+ p2+ ... + pr = 1 dj discut. Aprs tout cela on fait le test 2() comme avant sur le degr de libert = r s 1. Exemple 7 On dnombre le nombre des -particules mis par un radiolment pendant dune priode t sur une certaine superficie. On fait au total n = 800 dnombrements, chaque fois pendant 7 secondes. Le tableau suivant montre la frquence des valeurs k et les probabilits thoriques dune loi Poisson frquence observe k 0 frquence thorique k*nk 0 n*pk 16,875
2
18
0,074934
1 2 3 4 5 6 7 8 9 10 Total :
65,118 125,638 161,601 155,895 120,312 77,376 42,653 20,574 8,821 5,138 800
0,000215 0,171182 0,015867 0,239098 0,04442 0,276391 0,129117 1,016703 0,076395 0,00369 2,048012
On veut tester si les diffrences entre les frquences observes et les frquences thoriques de la loi Poisson peuvent tre considres comme purement alatoires, cest--dire si le nombre des -particules suit vraiment la loi Poisson. On emploie pour cela le test du 2,048
2
Puisque le nombre des classes est de 11 et on a estim un paramtre de lchantillon, il faut travailler avec 2(10). Sur la dixime ligne du tableau du 2 on peut constater que pour nimporte quel niveau traditionnel il ny a pas de contradiction avec lhypothse selon laquelle lmission des -particules suit la loi de Poisson. Par exemple pour p = 0,05 la valeur de 20,05(10) = 18,3 > 2,48.
Hypothse dhomognit Quand on veut tester sur deux ou plusieurs chantillons indpendants sils suivent la mme loi alatoire (en dautres termes sont de la mme population) ou pas on parle de hypothse dhomognit. On ne traite ici que le cas de deux chantillons indpendants. Il faut former les mmes classes de regroupements pour les valeurs de toutes les deux variables alatoires. Si lon dsigne par r le nombres de classes. Les tailles des deux chantillons peuvent se diffrer, soit m et n les deux tailles et m1, m2, ... mr et n1, n2, ... nr les frquences empiriques des deux chantillons, respectivement comme vous trouvez dans le tableau qui suit : m1 n m2 n 1 m1 + n m2 + n 1
On veut tester si les deux distributions des femmes qui sont avec ou sans travail sont significativement diffrentes selon leur nombre denfants. Pour cela on choisit au hasard 220 mnages et on trouve que parmi eux 120 femmes sont avec et 100 sont sans travail. Les frquences selon les nombres denfants sont donnes dans le tableau suivant : Nombre Avec Sans Ensemble denfants travail
0 1 2 3 4 5 ou plus
36 41 28 11 3 1 120
28 36 22 8 4 2 100
64 77 50 19 7 3 220
= 1,186 .
Cette valeur est comparer avec la valeur du 2 de degr de libert = r 1 = 5. De la cinquime ligne du tableau 2 on peut constater que pour nimporte quel niveau traditionnel il ny a pas de contradiction avec lhypothse selon laquelle les deux distributions sont identiques. Par exemple pour p = 0,05 la valeur de 0,05(5) = 11,07 > 1,186.
2
Hypothse dindpendance Puisque on peut parler non seulement de lindpendance des caractristiques quantitatives mais aussi de celle des caractristiques qualitatives on approche le problme de la manire suivante : Soit A1, A2, ... , Ar ; et B1, B2, ... , Bs ; deux systmes dvnements complets et on veut tester lhypothse que les deux systmes dvnement sont indpendants c.--d. P(AiBj) = P(Ai)P(Bj) i = 1, ... , r; j = 1, ... , s;
Dans le cas de vrification dindpendance des deux variables alatoires les vnements Ai et Bj marquent que les valeurs des variables appartiennent la classe correspondantes. Considrons un chantillon de taille n et introduisons les notations suivantes : la frquence de lvnement AiBj ;
la frquence de lvnement Ai ;
la frquence de lvnement Bj ;
dans le tableau de contingence suivant : Variables 1 2 . . . r Total . . . . . . 1 2 ... ... ... . . . ... ... n . . . . . . s Total
Il y a deux cas possibles : 1. pi et pj sont connus ; 2. pi et pj ne sont pas connus. Dans le premier cas il ne sagit quune hypothse dajustement pur qui consiste tester si P(AiBj) = pipj donc il faut construire la formule pour i = 1, ... , r; j = 1, ... , s,
qui suit la loi 2 de degr de libert = rs 1 tandis que n tend vers l'infini. Il faut avouer que ce cas l est rare. Le cas 2. est beaucoup de plus frquent. On forme de manire similaire
qui suit la loi 2 de degr de libert = ( r 1)(s 1) tandis que n tend vers l'infini, car ce test l peut tre considr comme une hypothse dajustement (r+s 2) paramtres estims do = rs (r+s 2) 1 = ( r 1)(s 1) . On sappelle contingence carre de deux systmes dvnements la quantit :
dont lestimation empirique est la n-ime partie de 2 c.--d. 2 = 2/n . On peut facilement voir que o q = min (r,s).
Le quotient
est considr comme la mesure de dpendance entre deux systmes . Cette mesure de dpendance a la
dvnements dont lestimation empirique est proprit quelle est gale 0 si et seulement si P(AiBj) = P(Ai)P(Bj)
i = 1, ... , r;
j = 1, ... , s;
et est gale 1 si et seulement si les deux variables alatoires sont lies par une fonction.
Exemple 8 On veut tester les diamtres externes et internes des coussinets. Selon leur taille des deux diamtres ils sont classs en trois catgories : bien, passable, refus. Pour tester un lot on choisit au hasard 200 coussinets en les mesurant et on les range en 9 catgories possibles. On veut tester lhypothse que les tailles internes et externes sont indpendantes ou pas. Pour cette raison on fait le test du 2. Les frquences du tableau de contingence taient les suivantes : Diamtre externe Bien Diamtre interne Bien Passable Refus Total 169 9 1 179 Passable Refus Total 8 4 3 15 1 1 4 6 178 14 8 200
On calcule
= 90,15 .
Puisque r = s = 3, on a comme degr de libert du 2 : = ( r 1)(s 1) = 4. Confrontons la valeur ainsi obtenue avec la quatrime ligne du tableau 2 et on constate que pour nimporte quel niveau traditionnel il faut rejeter lhypothse selon laquelle les deux distributions sont indpendantes. Quand on veut caractriser la mesure de dpendance entre les deux tailles on calcule le quotient : = = = 0,2254 . Cela montre bien que les prcisions des deux
Exemple 9 Considrons le tableau de contingence r lignes et s colonnes obtenu en ventilant une population de n = 592 femmes suivant leurs couleurs des yeux et des cheveux Tableau de contingence, rpartition des 592 femmes suivant leurs couleurs des yeux et des cheveux. couleur des cheveux brun marron couleur des yeux noisette vert bleu Total 68 15 5 20 108 chtain 119 54 29 84 286 roux 26 14 14 17 71 blond 7 10 16 94 127 Total 220 93 64 215 592
En lignes est prsente la variable "couleur des yeux" r = 4 modalits (ou catgories) et en colonnes est donn la variable "couleur des cheveux" s = 4 modalits. Mme si lon a appris des tudes biologiques que entre les deux caractristiques doit avoir lieu quelque corrlation, il vaut la peine quand mme de tester lhypothse de lindpendance entre elles. Pour cela on calcule
= 138,29 .
Puisque r = s = 4, on a comme degr de libert du 2 : = ( r 1)(s 1) = 9. En confrontant la valeur ainsi obtenue avec la neuvime ligne du tableau 2 et on constate que pour nimporte quel niveau traditionnel il faut rejeter lhypothse selon laquelle les deux types de couleur sont indpendants. La mesure de dpendance entre les deux caractres : = = =
0,0779 . Cela montre que les deux types de couleur sont de beaucoup de plus faible relation que la moyenne.
Ch2 - Exercices
Exercice 1
Le tableau ci-dessous donne les rsultats obtenus partir de 10 essais de laboratoire concernant la charge de rupture y d'un acier en fonction de sa teneur x en carbone :
teneur en carbone x pour 10000
72 60 68 66 64 62 64 70 62 74
n essai
1 2 3 4 5 6 7 8 9 10
charge de rupture y en kg
90 70 72 70 75 75 80 85 70 100
1) Reprsenter graphiquement les donnes de ce tableau 2) Calculer la moyenne de x et la moyenne de y, la variance de x, la variance de y, la covariance de x et y. 3) Est-il possible d'envisager une relation linaire entre x et y ? 4) Dans l'affirmative, calculer, par la mthode des moindres carrs, l'quation des droites d'ajustement. 5) En utilisant le rsultat prcdent, quelle pourrait tre la charge de rupture d'un acier ayant une teneur en carbone de 65 pour 10000.
Exercice 2
Dans le dpartement franais du Marne-et-Garonne, on constate les faits reports dans le tableau ci-dessous : rcepteurs de tlvision en service (en milliers)
13 20 23 25 27 31 36 46 55 63 70 76 81 85
annes
1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998
Exercice 3
Dans un pays fictif dont la monnaie est le jeton, le tableau suivant indique par tranche de revenus en jetons le nombre de contribuables en milliers : Nombre de Revenu en contribuables en milliers de jetons milliers
10-20 20-30 30-40 40-50 50-100 100-300 300-1000 1000 et plus 1286,0 824 329,0 135,9 167,2 53,4 6,2 0,5
1) Reprsenter graphiquement, en coordonnes doublement logarithmiques, le nombre N de contribuables ayant un revenu suprieur x. 2) En dduire entre x et N une relation de la forme N=A/(xp) qui est une loi de Pareto o A et p sont deux constantes que l'on dterminera par ajustement d'une droite aux points obtenus dans le reprsentation graphique prcdente. On ngligera le point pour lequel x = 10. 3) En utilisant cette loi, calculer le revenu moyen thorique dans l'intervalle (200-100).
Exercice 4
Le tableau suivant donne les cours de quelques valeurs allemandes la Bourse de Paris la fin de 1965 (colonne x) et le 13 juillet 1966 (colonne y).
Exercice 5
On donne la srie statistique x y x y 1 20 19 35 2 26 20 20 3 32 21 27 4 27 22 33 5 20 23 30 6 30 24 33 7 31 25 35 8 15 26 34 9 22 27 43 10 28 28 40 11 29 29 39 12 27 30 43 13 28 31 41 14 25 32 22 15 30 33 31 16 31 34 41 17 32 35 37 18 31 36 40
Exercice 6
Le tourisme en Europe en 1959 est dcrit dans le tableau suivant : pays Nombre total de touristes arrivant (en millions) : x 4,9 4,1 5,5 8,6 4,6 Recette totale (millions de F) : y 450 70 400 500 250
1) Reprsenter graphiquement la recette y en fonction du nombre total x de touristes. Y a-t-il des possibilits dajustement linaire ? 2) 3) Calculer la moyenne de x et la moyenne de y Donner lquation de la droite dajustement y = ax + b
Exercice 7
La direction commerciale dune entreprise industrielle a augment rgulirement ses dpenses publicitaires pendant plusieurs annes et voudrait y comparer la progression de son chiffre daffaires. Elle dispose des donnes suivantes : anne Dpenses publicitaires en F : x 73200 74700 76200 77700 79200 80700 82200 Chiffre daffaires en milliers de F : y 35261 35771 36791 37301 37556 38066 38831
1)
4) En se basant sur le modle linaire, quel sera le chiffre daffaires de 1967 si la dpense publicitaire correspondante est 85000 F ?
Exercice 8
On relve pour plusieurs annes successives le chiffre daffaires national de vente de parapluies et le nombre de jours de pluie dans lanne :
1) 2) 3) 4)
Reprsenter graphiquement la srie statistique Dterminer les moyennes de x et de y Dterminer la droite dajustement y = ax + b Sil pleuvait tous les jours quelle serait la prdiction de vente de parapluies ?
Exercice 9
On relve par rgion franaise, pour lanne 1999 le chiffre daffaires de vente de caramels et le nombre de personnes stant fait soigner pour des maux de dents :
nombre de personnes tant soignes pour des maux de dents : y 94500 140000 150000 110000 70000 90000 210000
1) 2)
Reprsenter graphiquement la srie ; un ajustement linaire parat-il possible ? Dterminer la droite dajustement y = ax + b
3) Dans une rgion donne le chiffre daffaires annuel de vente de caramels est 300000 ; quelle est la prdiction relative aux personnes se faisant soigner pour des maux de dents ?
Exercice 10
On donne le tableau double entre relatif l'tude de la srie double suivante : voitures de petites cylindres circulant dans Paris classes sous les deux caractres suivants : puissance de la voiture et dure moyenne des pneumatiques. x dsigne la puissance en CV, y dsigne la dure des pneumatiques en milliers de kilomtres. y\x 20 25 30 2 0 3 4 total 38 32 30
8 30 7 2
5 20 25 3
total 30
31 39
100
1) Reprsenter graphiquement cette srie par un nuage de points 2) Calculer l'quation des deux droites de rgression et le coefficient de corrlation. 3) Construire les droites de rgression sur le graphique reprsentatif de la srie
Exercice 11
On donne le tableau double entre relatif l'tude de la srie double suivante : individus classs en pourcentage sous les deux caractres poids et taille. x dsigne le poids en kilogrammes et y dsigne la taille en centimtres. 40 45 20 45 50 9 50 55 1 55 60 0
y\x 150 155 155 160 160 165 165 170 On demande
18
12
14
1) de reprsenter graphiquement cette srie par un nuage de points. 2) de calculer l'quation des deux droites de rgression 3) de calculer le coefficient de corrlation
Exercice 12
Dans les "Tableaux de l'conomie franaise", l'INSEE a publi, en 1968, la rpartition en pourcentages de la population active de quelques pays dans les secteurs primaire, secondaire et tertiaire : pays Allemagne de l'Ouest USA France Grande Bretagne Italie URSS primaire secondaire tertiaire 24 13 28 5 42 43 44 36 37 49 32 31 32 51 35 46 26 26
On tente de trouver un modle visant exprimer linairement le secteur tertiaire en fonction du secteur primaire et du secteur secondaire (en nombre d'actifs). Proposer un modle et donner vos conclusions.
Exercice 13
Une entreprise commerciale consacre une certaine somme des oprations publicitaires au dbut de chaque mois. Dans le tableau ci-dessous sont rcapituls pour l'anne 1956 les sommes consacres ces oprations, les montants des ventes.
mois
ventes (en milliers de francs) 3800 4200 4200 3900 4000 4500 3500 2400 3800 4000 4400 5300 48000
frais de publicit (en milliers de francs) 240 300 300 250 320 350 200 180 300 320 380 460 3600
janvier fvrier mars avril mai juin juillet aot septembre octobre novembre dcembre total
Exercice 14
Considrons, pour l'anne 1954 :
q q
d'une part, les variations de l'indice de production industrielle franaise d'autre part, la nombre de chmeurs secourus en France
mois
Nombre indices de de la chmeurs production secourus industrielle (en (base 100 milliers) : en 1938) : x y 144 143 151 155 159 157 147 122 72 78 76 73 69 61 56 54 48 49 53 57
Reprsenter graphiquement ces variations ; Calculer le coefficient de corrlation entre x et y ; Tracer les droites de rgression.
Solution de l'exercice 4
Solution de l'exercice 5
1) Reprsentation graphique
2) On peut utiliser tout d'abord la mthode des moyennes chelonnes qui permet un certain lissage du nuage des points :
Solution de l'exercice 6
La droite y = ax + b (en rouge sur la reprsentation graphique) a pour paramtres : a = 69,92 et b = 53,35
Solution de l'exercice 7
Les paramtres de la droite d'ajustement sont a = 0,38 et b = 7362,18. Pour la valeur x = 85000, on obtient avec le modle linaire : y = 39874,68.
Solution de l'exercice 8
Solution de l'exercice 9
Les paramtres de la droite d'ajustement sont a = 1,08 et b = -15 487,35. Pour la valeur x = 300 000, on obtient y = 308 816,46.
Solution de l'exercice 10
A partir des donnes de l'nonc, on peut dresser le tableau suivant. On prendra attention au fait que les moyennes calcules sont pondres.
Le schma ci-dessous donne une reprsentation graphique (la grosseur des points est proportionnelle leur poids statistique) :
Solution de l'exercice 11
Solution de l'exercice 12
Solution de l'exercice 13
Solution de l'exercice 14