Sunteți pe pagina 1din 22

Régression linéaire simple

S. Robin
robin@inapg.inra.fr

INA PG, dépt. MMIP

5 décembre 2007

A lire : Chapitre 6 “Liaison entre deux variables”

du livre “Statistique Inférentielle”, Daudin, R., Vuillet (2001)

1
Étude du lien entre 2 caractères
Y ontinue Y dis rete
Différentes natures de X et Y Des ription graphique Des ription graphique
X en abs isse et Y en ordonnee
X en abs isse et Y en ordonn
On peut s’intéresser à des caractère qualitatifs ou quantitatifs :
b

bb b b
b
ee
b
b b b bbb b

b b b bb b b b
b b

Nature X X ontinue
Y

Y ontinue Y dis re


b b b h

quali.×quali. port de la ceinture gravité des bles-


b

Y ontinue Y dis rete


b bb
bb bb b h
de sécurite sures bb

Des ription graphique


X dis rete
X en abs isse et Y en ordonnee
b
b

bb b bb bb
bb
b
b b
b b b bbb

b
bb b b b b b bb b b b

quanti.×quali. taille couleur des cheveux


b b b
b b
b b b
bb b b b

X ontinue
X ontinue
b b 4 b

quali.×quanti. traitement pharma- taux de globules b

Y ontinue Y dis re


b b b b b
b h
b b b
b b b
cologique blancs b
bb
bb
bb
bb
b
b
b h

X dis rete
X dis rete b b b b bbb
b
bb b b
quanti.×quanti. diamètre d’un arbre hauteur de l’arbre b b b
b b
b
bb b b b

X ontinue 2
Deux objectifs distincts

1. On cherche à savoir s’il existe un lien entre X et Y .


2. On cherche à savoir si X a une influence sur Y et éventuellement à prédire Y
à partir de X.

1. Liaison entre X et Y . On définit un indice de liaison (coefficient de corrélation,


statistique du Khi-2).
Estimation : mesure de l’intensité de la liaison.
Test : existence du lien.

2. Influence de x sur Y . On modélise l’influence de x sur Y (régression logistique,


analyse de la variance, régression linéaire).
Estimation : description de l’influence et prédiction.
Test : validation d’hypothèse particulière (absence d’influence, influence linéaire /
influence quadratique, etc.)

3
Coefficient de corrélation
Définition. Pour deux variables aléatoire X et Y , le coefficient de corrélation
linéaire ρ(X, Y ) vaut :

σXY
ρ(X, Y ) = ∈ [−1; +1]
σX σY

ρ est une mesure symétrique qui mesure le lien linéaire entre X et Y :


ρ = −1 : X et Y sont proportionnels et varient en sens opposé.
ρ = +1 : X et Y sont proportionnels et varient dans le même sens/
ρ = 0 : X et Y ne sont pas corrélés.
La corrélation n’indique aucune causalité.

Propriétés.
1. Si X et Y sont indépendants, alors ρ(X, Y ) = 0.
2. Si X et Y sont gaussiennes, il y a équivalence entre indépendance et corrélation
nulle.

4
Exemple : Taille et poids des étudiants de l’agro
100

X = Taille (cm), Y = Poids (kg)


90

F M
80

Poids
70
n 375 356
60

σ
bX 5.76 cm 6.70 cm
50

σ
bY 6.26 kg 8.18 kg
40

σ
bXY 20.8 cm kg 32.0 cm kg 30
150 160 170 180 190 200 210

Taille
ρbXY 0.576 0.584
• = F, • = M

2 1 X 1 X
avec σ
bX = (xi − x)2, σ
bXY = (xi − x)(yi − y).
n−1 i n−1 i
5
Régression linéaire simple
Objectif. On souhaite expliquer les variations de la variable Y à partir des valeurs
observées pour la variable x.

Le problème n’est donc pas symétrique : les deux variable n’ont pas le même
statut.

Vocabulaire.
Y = variable à expliquer ou réponse, supposée aléatoire.
x = variable explicative ou covariable ou régresseur, supposé fixe.

Modèle. On cherche à établir une relation de la forme :

Y = f (x) + E

où E est un terme résiduel aléatoire.

6
Modèle statistique
Données. On observe n individus (i = 1..n) et on note xi et Yi les mesures
correspondantes.

Régression linéaire. On suppose que pour tout i,

Yi = a + bxi + Ei, avec {Ei} i.i.d. N (0, σ 2).

Formulation équivalente. Les réponses {Yi} sont indépendantes de lois respectives

Yi ∼ N (a + bxi , σ 2).

Hypothèses.
1. L’espérance de la réponse dépend linéairement de la covariable : E (Yi ) = a+bxi .
2. Les réponses (et les termes résiduels) sont indépendantes.
3. La variance des réponses est constante (homoscédasticité) : pour tout i,
V (Yi ) = V (Ei ) = σ 2.
4. Les réponses (et les termes résiduels) sont gaussiennes.
7
Estimation des paramètres
Paramètres. Les paramètres à estimer sont l’ordonnée à l’origine a, la pente b et la
variance σ 2 .
Maximum de vraisemblance
Vraisemblance La densité de la réponse Yi est
 2

1 (yi − a − bxi )
f (yi; a, b, σ 2) = √ exp − 2
.
σ 2π 2σ

Comme les données sont indépendantes, la log-vraisemblance vaut

2 n n 2 1 X
L({Yi}; a, b, σ ) = − log(2π) − log(σ ) − 2 (Yi − a − bxi)2.
2 2 2σ i

Les estimateurs de maximum de vraisemblance de a, b et σ 2 sont les valeurs qui


maximisent L({Yi}; a, b, σ 2) :
2 2
(AM V , BM V , SM V ) = arg max L({Yi }; a, b, σ ).
a,b,σ 2

8
Moindres carrés (MC)
On cherche les valeurs de a et b qui minimisent la somme des carrés des résidus,
i.e. des écarts entre les observations (Yi) et les prédictions selon le modèle (a + bxi.
X
SCR(a, b) = (Yi − a − bxi)2, (AM C , BM C ) = arg min SCR(a, b).
i a,b

Propriété. Les méthodes MV et MC donnent les même estimateurs A et B :

(A, B) = arg max L({Yi}; a, b, σ 2) = arg min SCR(a, b).


a,b a,b

9
Estimateurs de a et b
On obtient A et B en calculant les dérivées de SCR(a, b) :

∂SCR X ∂SCR X X
= 2na − 2 (Yi − bxi), = 2b xi − 2 xi(Yi − a)
∂a i
∂b i i

et en cherchant les valeurs pour lesquelles elles s’annulent :


P
(Yi − Y )(xi − x)
A = Y − Bx, B= iP .
i (xi − x)
2

Estimation de la variance σ 2
Le maximum de vraisemblance fournit un estimateur biaisé de σ 2 :
2 1X n−2 2
SM V = (Yi − A − Bxi)2, 2
E (SM V ) = σ .
n i n

On définit l’estimateur sans biais (par construction) :

2 n 2 1 X
Sn−2 = SM V = (Yi − A − Bxi)2.
n−2 n−2 i 10
Propriétés des estimateurs
Moments. A et B sont des estimateurs sans biais : E (A) = a, E (B) = b de
variances respectives
 
2 1 x σ2
V (A) = σ +P , V (B) = P .
i (xi − x) i (xi − x)
n 2 2

On obtient des estimateurs Vb (A) et Vb (B) de ces variances en remplaçant σ 2 par


2
Sn−2 .

Lois.
– A et B sont des combinaisons linéaires de variables gaussiennes indépendantes
(les Yi), ils sont donc tous les deux gaussiens :

A ∼ N (a, V (A)), B ∼ N (b, V (B)).

2
– Sn−2 est proportionnel à un Khi-2 :

2
(n − 2)Sn−2 2
2
∼ χ n−2 .
σ 11
Exemple : Régression de la hauteur de pins (blancs) sur leur diamètre

Données. On mesure le diamètre


x (pouces=in) et la hauteur Y
(pieds=ft) de n = 21 pins blancs. 150

140

Modèle. 130

120
Yi = a + bxi + Ei

Hauteur
110

100
avec {Ei} i.i.d. N (0, σ 2).
90

80

Résultats. q 70

a = 41.3 ft,
b b (A) = 6.8 ft
V 60

50
q 5 10 15 20 25 30

bb = 3.98 ft/in, b (B) = 0.39 ft/in


V
Diamètre

σ
b = 11.3 ft
12
Théorème de Gauss-Markov
Résultats sur l’optimalité des estimateurs A et B.

Cas gaussien. Pour le modèle

Yi = a + bxi + Ei, {Ei} i.i.d. ∼ N (0, σ 2)

les estimateurs A et B sont les meilleurs (i.e. de variance minimale) estimateurs


sans biais de a et b.

Cas général. Pour le modèle

Yi = a + bxi + Ei, {Ei} indépendants, E (Ei ) = 0, V (Ei ) = σ 2

les estimateurs A et B sont les meilleurs estimateurs linéaires sans biais de a et b.

13
Tests
Tests sur les paramètres
Hypothèse. On veut tester

H0 = {b = b0} contre H1 = {b 6= b0}.

Loi de B. On a
B−b B−b
B ∼ N (b, V (B)) ⇒ p ∼ N (0, 1) ⇒ q ∼ Tn−2.
V (B) Vb (B)

Statistique de test. Sous H0, on connaı̂t donc la loi de


B − b0
T =q ∼ Tn−2.
H
b (B) 0
V

Règle de décision. On rejette H0 si

T ∈ R = (−∞; tn−2,α/2 [ ∪ ]tn−2,1−α/2 , ∞). 14


Exemple des pins
Test de H0 = {b = 0}.
)
bb = 3.98 bb
q ⇒ t=q = 10.2, Pr{|Tn−2| > 10.2} < 10−4 .
b (B)
V = 0.39 b (B)
V

Exemple de sortie de logiciel (SAS).


Parameter Estimates

Parameter Standard
Variable DF Estimate Error t Value Pr > |t|

Intercept 1 41.27473 6.77886 6.09 <.0001


Diametre 1 3.97892 0.38998 10.20 <.0001

15
Prédiction et ajustement
Estimation de l’espérance
On peut estimer l’espérance de la réponse calculer la réponse Y0 pour une
valeur x0 de la covariable :
T0 = A + Bx0.
T0 est une variable gaussienne telle que
 2

1 (x0 − x)
E (T0 ) = a + bx0, V (T0 ) = σ 2 +P
i(xi − x)
n 2

Prédiction
On peut vouloir prédire la réponse Y0 pour une valeur x0 de la covariable :

Yb0 = A + Bx0 + E0.

Yb0 est également une variable gaussienne telle que


 2

b0 ) = a + bx0, b0 ) = V (T0 ) + σ 2 = σ 2 1 (x0 − x)
E (Y V (Y +P +1
i (xi − x)
n 2

16
Exemple des pins

a + bbx0
Prediction : t0 = b
180

Intervalle
 de confiance : 
q 160

t0 ± tn−2,1−α/2 Vb (T0)
140

Intervalle de prédiction : 120

Hauteur
 q  100

t0 ± tn−2,1−α/2 b (Yb0)
V
80

60

Exemple pour x0 = 10 in.


t0 = 81.1 ft 40

20
IC = [74.1 ft; 88.0 ft] 5 10 15 20 25 30

Diamètre
IP = [57.5 ft; 104.7 ft]

17
Coefficient d’ajustement : R2
Sommes de carrés.
P
Somme de carrés totale SCT = i (Yi − Y )2 variabilité totale à expliquer
P
Somme de carrés due au SCM = i(Ti − Y )2 variabilité expliquée par le
modèle modèle
P 2
Somme de carrés résiduelle SCR = i (Yi − T i ) variabilité non expliquée par
le modèle

Formule d’analyse de la variance. On a

SCT = SCM + SCR.

Coefficient d’ajustement R2. Le R2 mesure la part de variabilité expliquée par le


modèle :
R2 = SCM/SCT
18
Analyse des résidus
Résidus. On estime
l’erreur de prédiction
par le résidu 25

20
Fi = Yi − Ti.
15

Le tracé des résidus 10


permet de visuali-

Residu
ser l’ajustement du 5

modèle.
0

Exemple des pins. −5

−10
SCT = 15672
−15
SCM = 13253
SCR = 2419 −20
5 10 15 20 25 30

R2 = 84.6%
Diamètre
19
Extensions
Régression quadratique
150

On peut supposer que la réponse 140

dépend de la covariable selon une 130


fonction plus complexe.
120

Hauteur
Exemple. 110

100

Yi = a + bxi + cx2i + Ei 90

80

avec {Ei} i.i.d N (0, σ 2). 70

60

a = −2.71,
b bb = 10.6,
50
c = −0.21,
b σ
b = 7.9 5 10 15 20 25 30

Diamètre

Remarque. Ce modèle est encore un modèle linéaire en les paramètres a, b et c.

20
Comparaison de régression
160

140

On peut vouloir comparer des 120

modèle de régression dans 2 po-

Hauteur
pulations différentes. 100

80
Exemple. On compare 2 variétés
de pins : jaunes et blancs. 60

Questions. Les pentes des deux 40

droites de régression sont elles


significativement différentes ? 20
5 10 15 20 25 30

Diamètre

= blancs, ∇ = jaunes

Remarque. Ce modèle est toujours un modèle linéaire.

21
Pour conclure : Interprétation ?
Nb de TV Nb malades 24

Année (×10000) mentaux 22


/ 1000 ha.

Nb malades mentaux
1970 13 8 20

1971 20 8 18

1972 23 9
1973 25 10 16

1974 27 11 14

1975 31 11
1976 36 12 12

1977 46 16 10

1978 55 18
1979 63 19 8

1980 70 20 6
10 20 30 40 50 60 70 80 90
1981 76 21
Nb téléviseurs
1982 81 22
1983 85 23
R2 = 0.984 a = 4.55
b
Source : Grande-Bretagne. s = 0.73 bb = 0.22

22

S-ar putea să vă placă și