Regression

Régression linéaire simple
S. Robin
robin@inapg.inra.fr
INA PG, dépt. MMIP
5 décembre 2007
A lire : Chapitre 6 “Liaison entre deux variables”
du livre “Statistique Inférentielle”, Daudin, R., Vuillet (2001)
1
Étude du lien entre 2 caractères
Y ontinue Y dis rete
Différentes natures de X et Y Des ription graphique Des ription graphique
X en abs isse et Y en ordonnee
X en abs isse et Y en ordonn
On peut s’intéresser à des caractère qualitatifs ou quantitatifs :
b
bb b b
b
ee
b
b b b bbb b
b b b bb b b b
b b
Nature X X ontinue
Y
Y ontinue Y dis re

b b b h
quali.×quali. port de la ceinture gravité des bles-

b
Y ontinue Y dis rete

b bb
bb bb b h
de sécurite sures bb
Des ription graphique

X dis rete
X en abs isse et Y en ordonnee
b
b
bb b bb bb
bb
b
b b
b b b bbb
b
bb b b b b b bb b b b
quanti.×quali. taille couleur des cheveux

b b b
b b
b b b
bb b b b
X ontinue
X ontinue
b b 4 b
quali.×quanti. traitement pharma- taux de globules b
Y ontinue Y dis re

b b b b b
b h
b b b
b b b
cologique blancs b
bb
bb
bb
bb
b
b
b h
X dis rete
X dis rete b b b b bbb
b
bb b b
quanti.×quanti. diamètre d’un arbre hauteur de l’arbre b b b
b b
b
bb b b b
X ontinue 2
Deux objectifs distincts
1. On cherche à savoir s’il existe un lien entre X et Y .

2. On cherche à savoir si X a une influence sur Y et éventuellement à prédire Y
à partir de X.
1. Liaison entre X et Y . On définit un indice de liaison (coefficient de corrélation,

statistique du Khi-2).
Estimation : mesure de l’intensité de la liaison.
Test : existence du lien.
2. Influence de x sur Y . On modélise l’influence de x sur Y (régression logistique,

analyse de la variance, régression linéaire).
Estimation : description de l’influence et prédiction.
Test : validation d’hypothèse particulière (absence d’influence, influence linéaire /
influence quadratique, etc.)
3
Coefficient de corrélation
Définition. Pour deux variables aléatoire X et Y , le coefficient de corrélation
linéaire ρ(X, Y ) vaut :
σXY
ρ(X, Y ) = ∈ [−1; +1]
σX σY
ρ est une mesure symétrique qui mesure le lien linéaire entre X et Y :

ρ = −1 : X et Y sont proportionnels et varient en sens opposé.
ρ = +1 : X et Y sont proportionnels et varient dans le même sens/
ρ = 0 : X et Y ne sont pas corrélés.
La corrélation n’indique aucune causalité.
Propriétés.
1. Si X et Y sont indépendants, alors ρ(X, Y ) = 0.
2. Si X et Y sont gaussiennes, il y a équivalence entre indépendance et corrélation
nulle.
4
Exemple : Taille et poids des étudiants de l’agro
100
X = Taille (cm), Y = Poids (kg)

90
F M
80
Poids
70
n 375 356
60
σ
bX 5.76 cm 6.70 cm
50
σ
bY 6.26 kg 8.18 kg
40
σ
bXY 20.8 cm kg 32.0 cm kg 30
150 160 170 180 190 200 210
Taille
ρbXY 0.576 0.584
• = F, • = M
2 1 X 1 X
avec σ
bX = (xi − x)2, σ
bXY = (xi − x)(yi − y).
n−1 i n−1 i
5
Régression linéaire simple
Objectif. On souhaite expliquer les variations de la variable Y à partir des valeurs
observées pour la variable x.
Le problème n’est donc pas symétrique : les deux variable n’ont pas le même
statut.
Vocabulaire.
Y = variable à expliquer ou réponse, supposée aléatoire.
x = variable explicative ou covariable ou régresseur, supposé fixe.
Modèle. On cherche à établir une relation de la forme :
Y = f (x) + E
où E est un terme résiduel aléatoire.
6
Modèle statistique
Données. On observe n individus (i = 1..n) et on note xi et Yi les mesures
correspondantes.
Régression linéaire. On suppose que pour tout i,
Yi = a + bxi + Ei, avec {Ei} i.i.d. N (0, σ 2).
Formulation équivalente. Les réponses {Yi} sont indépendantes de lois respectives
Yi ∼ N (a + bxi , σ 2).
Hypothèses.
1. L’espérance de la réponse dépend linéairement de la covariable : E (Yi ) = a+bxi .
2. Les réponses (et les termes résiduels) sont indépendantes.
3. La variance des réponses est constante (homoscédasticité) : pour tout i,
V (Yi ) = V (Ei ) = σ 2.
4. Les réponses (et les termes résiduels) sont gaussiennes.
7
Estimation des paramètres
Paramètres. Les paramètres à estimer sont l’ordonnée à l’origine a, la pente b et la
variance σ 2 .
Maximum de vraisemblance
Vraisemblance La densité de la réponse Yi est
2

1 (yi − a − bxi )
f (yi; a, b, σ 2) = √ exp − 2
.
σ 2π 2σ
Comme les données sont indépendantes, la log-vraisemblance vaut
2 n n 2 1 X
L({Yi}; a, b, σ ) = − log(2π) − log(σ ) − 2 (Yi − a − bxi)2.
2 2 2σ i
Les estimateurs de maximum de vraisemblance de a, b et σ 2 sont les valeurs qui

maximisent L({Yi}; a, b, σ 2) :
2 2
(AM V , BM V , SM V ) = arg max L({Yi }; a, b, σ ).
a,b,σ 2
8
Moindres carrés (MC)
On cherche les valeurs de a et b qui minimisent la somme des carrés des résidus,
i.e. des écarts entre les observations (Yi) et les prédictions selon le modèle (a + bxi.
X
SCR(a, b) = (Yi − a − bxi)2, (AM C , BM C ) = arg min SCR(a, b).
i a,b
Propriété. Les méthodes MV et MC donnent les même estimateurs A et B :
(A, B) = arg max L({Yi}; a, b, σ 2) = arg min SCR(a, b).

a,b a,b
9
Estimateurs de a et b
On obtient A et B en calculant les dérivées de SCR(a, b) :
∂SCR X ∂SCR X X
= 2na − 2 (Yi − bxi), = 2b xi − 2 xi(Yi − a)
∂a i
∂b i i
et en cherchant les valeurs pour lesquelles elles s’annulent :

P
(Yi − Y )(xi − x)
A = Y − Bx, B= iP .
i (xi − x)
2
Estimation de la variance σ 2
Le maximum de vraisemblance fournit un estimateur biaisé de σ 2 :
2 1X n−2 2
SM V = (Yi − A − Bxi)2, 2
E (SM V ) = σ .
n i n
On définit l’estimateur sans biais (par construction) :
2 n 2 1 X
Sn−2 = SM V = (Yi − A − Bxi)2.
n−2 n−2 i 10
Propriétés des estimateurs
Moments. A et B sont des estimateurs sans biais : E (A) = a, E (B) = b de
variances respectives

2 1 x σ2
V (A) = σ +P , V (B) = P .
i (xi − x) i (xi − x)
n 2 2
On obtient des estimateurs Vb (A) et Vb (B) de ces variances en remplaçant σ 2 par

2
Sn−2 .
Lois.
– A et B sont des combinaisons linéaires de variables gaussiennes indépendantes
(les Yi), ils sont donc tous les deux gaussiens :
A ∼ N (a, V (A)), B ∼ N (b, V (B)).
2
– Sn−2 est proportionnel à un Khi-2 :
2
(n − 2)Sn−2 2
2
∼ χ n−2 .
σ 11
Exemple : Régression de la hauteur de pins (blancs) sur leur diamètre
Données. On mesure le diamètre

x (pouces=in) et la hauteur Y
(pieds=ft) de n = 21 pins blancs. 150
140
Modèle. 130
120
Yi = a + bxi + Ei
Hauteur
110
100
avec {Ei} i.i.d. N (0, σ 2).
90
80
Résultats. q 70
a = 41.3 ft,
b b (A) = 6.8 ft
V 60
50
q 5 10 15 20 25 30
bb = 3.98 ft/in, b (B) = 0.39 ft/in

V
Diamètre
σ
b = 11.3 ft
12
Théorème de Gauss-Markov
Résultats sur l’optimalité des estimateurs A et B.
Cas gaussien. Pour le modèle
Yi = a + bxi + Ei, {Ei} i.i.d. ∼ N (0, σ 2)
les estimateurs A et B sont les meilleurs (i.e. de variance minimale) estimateurs

sans biais de a et b.
Cas général. Pour le modèle
Yi = a + bxi + Ei, {Ei} indépendants, E (Ei ) = 0, V (Ei ) = σ 2
les estimateurs A et B sont les meilleurs estimateurs linéaires sans biais de a et b.
13
Tests
Tests sur les paramètres
Hypothèse. On veut tester
H0 = {b = b0} contre H1 = {b 6= b0}.
Loi de B. On a
B−b B−b
B ∼ N (b, V (B)) ⇒ p ∼ N (0, 1) ⇒ q ∼ Tn−2.
V (B) Vb (B)
Statistique de test. Sous H0, on connaı̂t donc la loi de

B − b0
T =q ∼ Tn−2.
H
b (B) 0
V
Règle de décision. On rejette H0 si
T ∈ R = (−∞; tn−2,α/2 [ ∪ ]tn−2,1−α/2 , ∞). 14

Exemple des pins
Test de H0 = {b = 0}.
)
bb = 3.98 bb
q ⇒ t=q = 10.2, Pr{|Tn−2| > 10.2} < 10−4 .
b (B)
V = 0.39 b (B)
V
Exemple de sortie de logiciel (SAS).

Parameter Estimates
Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
Intercept 1 41.27473 6.77886 6.09 <.0001

Diametre 1 3.97892 0.38998 10.20 <.0001
15
Prédiction et ajustement
Estimation de l’espérance
On peut estimer l’espérance de la réponse calculer la réponse Y0 pour une
valeur x0 de la covariable :
T0 = A + Bx0.
T0 est une variable gaussienne telle que
2

1 (x0 − x)
E (T0 ) = a + bx0, V (T0 ) = σ 2 +P
i(xi − x)
n 2
Prédiction
On peut vouloir prédire la réponse Y0 pour une valeur x0 de la covariable :
Yb0 = A + Bx0 + E0.
Yb0 est également une variable gaussienne telle que

2

b0 ) = a + bx0, b0 ) = V (T0 ) + σ 2 = σ 2 1 (x0 − x)
E (Y V (Y +P +1
i (xi − x)
n 2
16
Exemple des pins
a + bbx0
Prediction : t0 = b
180
Intervalle
de confiance :
q 160
t0 ± tn−2,1−α/2 Vb (T0)
140
Intervalle de prédiction : 120
Hauteur
q 100
t0 ± tn−2,1−α/2 b (Yb0)
V
80
60
Exemple pour x0 = 10 in.

t0 = 81.1 ft 40
20
IC = [74.1 ft; 88.0 ft] 5 10 15 20 25 30
Diamètre
IP = [57.5 ft; 104.7 ft]
17
Coefficient d’ajustement : R2
Sommes de carrés.
P
Somme de carrés totale SCT = i (Yi − Y )2 variabilité totale à expliquer
P
Somme de carrés due au SCM = i(Ti − Y )2 variabilité expliquée par le
modèle modèle
P 2
Somme de carrés résiduelle SCR = i (Yi − T i ) variabilité non expliquée par
le modèle
Formule d’analyse de la variance. On a
SCT = SCM + SCR.
Coefficient d’ajustement R2. Le R2 mesure la part de variabilité expliquée par le

modèle :
R2 = SCM/SCT
18
Analyse des résidus
Résidus. On estime
l’erreur de prédiction
par le résidu 25
20
Fi = Yi − Ti.
15
Le tracé des résidus 10

permet de visuali-
Residu
ser l’ajustement du 5
modèle.
0
Exemple des pins. −5
−10
SCT = 15672
−15
SCM = 13253
SCR = 2419 −20
5 10 15 20 25 30
R2 = 84.6%
Diamètre
19
Extensions
Régression quadratique
150
On peut supposer que la réponse 140
dépend de la covariable selon une 130

fonction plus complexe.
120
Hauteur
Exemple. 110
100
Yi = a + bxi + cx2i + Ei 90
80
avec {Ei} i.i.d N (0, σ 2). 70
60
a = −2.71,
b bb = 10.6,
50
c = −0.21,
b σ
b = 7.9 5 10 15 20 25 30
Diamètre
Remarque. Ce modèle est encore un modèle linéaire en les paramètres a, b et c.
20
Comparaison de régression
160
140
On peut vouloir comparer des 120
modèle de régression dans 2 po-
Hauteur
pulations différentes. 100
80
Exemple. On compare 2 variétés
de pins : jaunes et blancs. 60
Questions. Les pentes des deux 40
droites de régression sont elles

significativement différentes ? 20
5 10 15 20 25 30
Diamètre
= blancs, ∇ = jaunes
Remarque. Ce modèle est toujours un modèle linéaire.
21
Pour conclure : Interprétation ?
Nb de TV Nb malades 24
Année (×10000) mentaux 22

/ 1000 ha.
Nb malades mentaux
1970 13 8 20
1971 20 8 18
1972 23 9
1973 25 10 16
1974 27 11 14
1975 31 11
1976 36 12 12
1977 46 16 10
1978 55 18
1979 63 19 8
1980 70 20 6
10 20 30 40 50 60 70 80 90
1981 76 21
Nb téléviseurs
1982 81 22
1983 85 23
R2 = 0.984 a = 4.55
b
Source : Grande-Bretagne. s = 0.73 bb = 0.22
22

Regression

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Regression

Încărcat de

Drepturi de autor:

Formate disponibile

Régression linéaire simple

INA PG, dépt. MMIP

A lire : Chapitre 6 “Liaison entre deux variables”

du livre “Statistique Inférentielle”, Daudin, R., Vuillet (2001)

Y ontinue Y dis re

quali.×quali. port de la ceinture gravité des bles-

Y ontinue Y dis rete

Des ription graphique

quanti.×quali. taille couleur des cheveux

quali.×quanti. traitement pharma- taux de globules b

Y ontinue Y dis re

1. On cherche à savoir s’il existe un lien entre X et Y .

1. Liaison entre X et Y . On définit un indice de liaison (coefficient de corrélation,

2. Influence de x sur Y . On modélise l’influence de x sur Y (régression logistique,

ρ est une mesure symétrique qui mesure le lien linéaire entre X et Y :

X = Taille (cm), Y = Poids (kg)

Modèle. On cherche à établir une relation de la forme :

où E est un terme résiduel aléatoire.

Régression linéaire. On suppose que pour tout i,

Yi = a + bxi + Ei, avec {Ei} i.i.d. N (0, σ 2).

Formulation équivalente. Les réponses {Yi} sont indépendantes de lois respectives

Comme les données sont indépendantes, la log-vraisemblance vaut

Les estimateurs de maximum de vraisemblance de a, b et σ 2 sont les valeurs qui

Propriété. Les méthodes MV et MC donnent les même estimateurs A et B :

(A, B) = arg max L({Yi}; a, b, σ 2) = arg min SCR(a, b).

et en cherchant les valeurs pour lesquelles elles s’annulent :

On définit l’estimateur sans biais (par construction) :

On obtient des estimateurs Vb (A) et Vb (B) de ces variances en remplaçant σ 2 par

A ∼ N (a, V (A)), B ∼ N (b, V (B)).

Données. On mesure le diamètre

bb = 3.98 ft/in, b (B) = 0.39 ft/in

Cas gaussien. Pour le modèle

Yi = a + bxi + Ei, {Ei} i.i.d. ∼ N (0, σ 2)

les estimateurs A et B sont les meilleurs (i.e. de variance minimale) estimateurs

Cas général. Pour le modèle

Yi = a + bxi + Ei, {Ei} indépendants, E (Ei ) = 0, V (Ei ) = σ 2

les estimateurs A et B sont les meilleurs estimateurs linéaires sans biais de a et b.

H0 = {b = b0} contre H1 = {b 6= b0}.

Statistique de test. Sous H0, on connaı̂t donc la loi de

Règle de décision. On rejette H0 si

T ∈ R = (−∞; tn−2,α/2 [ ∪ ]tn−2,1−α/2 , ∞). 14

Exemple de sortie de logiciel (SAS).

Intercept 1 41.27473 6.77886 6.09 <.0001

Yb0 = A + Bx0 + E0.

Yb0 est également une variable gaussienne telle que

Intervalle de prédiction : 120

Exemple pour x0 = 10 in.

Formule d’analyse de la variance. On a

SCT = SCM + SCR.

Coefficient d’ajustement R2. Le R2 mesure la part de variabilité expliquée par le

Le tracé des résidus 10

Exemple des pins. −5

On peut supposer que la réponse 140

dépend de la covariable selon une 130

avec {Ei} i.i.d N (0, σ 2). 70

Remarque. Ce modèle est encore un modèle linéaire en les paramètres a, b et c.

On peut vouloir comparer des 120

modèle de régression dans 2 po-

Questions. Les pentes des deux 40

droites de régression sont elles

Remarque. Ce modèle est toujours un modèle linéaire.

Année (×10000) mentaux 22

S-ar putea să vă placă și

Y ontinue Y dis re

Y ontinue Y dis rete

Y ontinue Y dis re