Documente Academic
Documente Profesional
Documente Cultură
S. Robin
robin@inapg.inra.fr
5 décembre 2007
1
Étude du lien entre 2 caractères
Y
ontinue Y dis
rete
Différentes natures de X et Y Des
ription graphique Des
ription graphique
X en abs
isse et Y en ordonnee
X en abs
isse et Y en ordonn
On peut s’intéresser à des caractère qualitatifs ou quantitatifs :
b
bb b b
b
ee
b
b b b bbb b
b b b bb b b b
b b
Nature X X
ontinue
Y
bb b bb bb
bb
b
b b
b b b bbb
b
bb b b b b b bb b b b
X
ontinue
X
ontinue
b b 4 b
X dis
rete
X dis
rete b b b b bbb
b
bb b b
quanti.×quanti. diamètre d’un arbre hauteur de l’arbre b b b
b b
b
bb b b b
X
ontinue 2
Deux objectifs distincts
3
Coefficient de corrélation
Définition. Pour deux variables aléatoire X et Y , le coefficient de corrélation
linéaire ρ(X, Y ) vaut :
σXY
ρ(X, Y ) = ∈ [−1; +1]
σX σY
Propriétés.
1. Si X et Y sont indépendants, alors ρ(X, Y ) = 0.
2. Si X et Y sont gaussiennes, il y a équivalence entre indépendance et corrélation
nulle.
4
Exemple : Taille et poids des étudiants de l’agro
100
F M
80
Poids
70
n 375 356
60
σ
bX 5.76 cm 6.70 cm
50
σ
bY 6.26 kg 8.18 kg
40
σ
bXY 20.8 cm kg 32.0 cm kg 30
150 160 170 180 190 200 210
Taille
ρbXY 0.576 0.584
• = F, • = M
2 1 X 1 X
avec σ
bX = (xi − x)2, σ
bXY = (xi − x)(yi − y).
n−1 i n−1 i
5
Régression linéaire simple
Objectif. On souhaite expliquer les variations de la variable Y à partir des valeurs
observées pour la variable x.
Le problème n’est donc pas symétrique : les deux variable n’ont pas le même
statut.
Vocabulaire.
Y = variable à expliquer ou réponse, supposée aléatoire.
x = variable explicative ou covariable ou régresseur, supposé fixe.
Y = f (x) + E
6
Modèle statistique
Données. On observe n individus (i = 1..n) et on note xi et Yi les mesures
correspondantes.
Yi ∼ N (a + bxi , σ 2).
Hypothèses.
1. L’espérance de la réponse dépend linéairement de la covariable : E (Yi ) = a+bxi .
2. Les réponses (et les termes résiduels) sont indépendantes.
3. La variance des réponses est constante (homoscédasticité) : pour tout i,
V (Yi ) = V (Ei ) = σ 2.
4. Les réponses (et les termes résiduels) sont gaussiennes.
7
Estimation des paramètres
Paramètres. Les paramètres à estimer sont l’ordonnée à l’origine a, la pente b et la
variance σ 2 .
Maximum de vraisemblance
Vraisemblance La densité de la réponse Yi est
2
1 (yi − a − bxi )
f (yi; a, b, σ 2) = √ exp − 2
.
σ 2π 2σ
2 n n 2 1 X
L({Yi}; a, b, σ ) = − log(2π) − log(σ ) − 2 (Yi − a − bxi)2.
2 2 2σ i
8
Moindres carrés (MC)
On cherche les valeurs de a et b qui minimisent la somme des carrés des résidus,
i.e. des écarts entre les observations (Yi) et les prédictions selon le modèle (a + bxi.
X
SCR(a, b) = (Yi − a − bxi)2, (AM C , BM C ) = arg min SCR(a, b).
i a,b
9
Estimateurs de a et b
On obtient A et B en calculant les dérivées de SCR(a, b) :
∂SCR X ∂SCR X X
= 2na − 2 (Yi − bxi), = 2b xi − 2 xi(Yi − a)
∂a i
∂b i i
Estimation de la variance σ 2
Le maximum de vraisemblance fournit un estimateur biaisé de σ 2 :
2 1X n−2 2
SM V = (Yi − A − Bxi)2, 2
E (SM V ) = σ .
n i n
2 n 2 1 X
Sn−2 = SM V = (Yi − A − Bxi)2.
n−2 n−2 i 10
Propriétés des estimateurs
Moments. A et B sont des estimateurs sans biais : E (A) = a, E (B) = b de
variances respectives
2 1 x σ2
V (A) = σ +P , V (B) = P .
i (xi − x) i (xi − x)
n 2 2
Lois.
– A et B sont des combinaisons linéaires de variables gaussiennes indépendantes
(les Yi), ils sont donc tous les deux gaussiens :
2
– Sn−2 est proportionnel à un Khi-2 :
2
(n − 2)Sn−2 2
2
∼ χ n−2 .
σ 11
Exemple : Régression de la hauteur de pins (blancs) sur leur diamètre
140
Modèle. 130
120
Yi = a + bxi + Ei
Hauteur
110
100
avec {Ei} i.i.d. N (0, σ 2).
90
80
Résultats. q 70
a = 41.3 ft,
b b (A) = 6.8 ft
V 60
50
q 5 10 15 20 25 30
σ
b = 11.3 ft
12
Théorème de Gauss-Markov
Résultats sur l’optimalité des estimateurs A et B.
13
Tests
Tests sur les paramètres
Hypothèse. On veut tester
Loi de B. On a
B−b B−b
B ∼ N (b, V (B)) ⇒ p ∼ N (0, 1) ⇒ q ∼ Tn−2.
V (B) Vb (B)
Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
15
Prédiction et ajustement
Estimation de l’espérance
On peut estimer l’espérance de la réponse calculer la réponse Y0 pour une
valeur x0 de la covariable :
T0 = A + Bx0.
T0 est une variable gaussienne telle que
2
1 (x0 − x)
E (T0 ) = a + bx0, V (T0 ) = σ 2 +P
i(xi − x)
n 2
Prédiction
On peut vouloir prédire la réponse Y0 pour une valeur x0 de la covariable :
16
Exemple des pins
a + bbx0
Prediction : t0 = b
180
Intervalle
de confiance :
q 160
t0 ± tn−2,1−α/2 Vb (T0)
140
Hauteur
q 100
t0 ± tn−2,1−α/2 b (Yb0)
V
80
60
20
IC = [74.1 ft; 88.0 ft] 5 10 15 20 25 30
Diamètre
IP = [57.5 ft; 104.7 ft]
17
Coefficient d’ajustement : R2
Sommes de carrés.
P
Somme de carrés totale SCT = i (Yi − Y )2 variabilité totale à expliquer
P
Somme de carrés due au SCM = i(Ti − Y )2 variabilité expliquée par le
modèle modèle
P 2
Somme de carrés résiduelle SCR = i (Yi − T i ) variabilité non expliquée par
le modèle
20
Fi = Yi − Ti.
15
Residu
ser l’ajustement du 5
modèle.
0
−10
SCT = 15672
−15
SCM = 13253
SCR = 2419 −20
5 10 15 20 25 30
R2 = 84.6%
Diamètre
19
Extensions
Régression quadratique
150
Hauteur
Exemple. 110
100
Yi = a + bxi + cx2i + Ei 90
80
60
a = −2.71,
b bb = 10.6,
50
c = −0.21,
b σ
b = 7.9 5 10 15 20 25 30
Diamètre
20
Comparaison de régression
160
140
Hauteur
pulations différentes. 100
80
Exemple. On compare 2 variétés
de pins : jaunes et blancs. 60
Diamètre
= blancs, ∇ = jaunes
21
Pour conclure : Interprétation ?
Nb de TV Nb malades 24
Nb malades mentaux
1970 13 8 20
1971 20 8 18
1972 23 9
1973 25 10 16
1974 27 11 14
1975 31 11
1976 36 12 12
1977 46 16 10
1978 55 18
1979 63 19 8
1980 70 20 6
10 20 30 40 50 60 70 80 90
1981 76 21
Nb téléviseurs
1982 81 22
1983 85 23
R2 = 0.984 a = 4.55
b
Source : Grande-Bretagne. s = 0.73 bb = 0.22
22