Cours m1 Econometrie Appliquee Slide2

Séance 2
Le modèle de régression simple
Emmanuel Flachaire Économétrie Appliquée

Le modèle de régression
I Le modèle de régression est l'outil principal de l'économètre
Qu'est ce que l'analyse de régression ?
I L'analyse de régression est l'étude de la relation entre une

y
variable dépendante ( ) et une ou plusieurs autres variables
explicatives (x1 , x2 , ..., x k )
I Dans le cas d'une régression simple, nous nous limitons au cas

x
d'une seule variable explicative ( ). Il est alors possible de
représenter graphiquement le nuage de points des données
observées.

Le modèle de régression : un exemple
La relation entre les 2 variables peut être exprimée par une droite

Le modèle de régression : un exemple
I Dans cet exemple, l'équation d'une droite permet d'exprimer la

relation entre les deux variables :
y =α+βx
I Néanmoins, tous les points ne passent pas par cette droite
I On introduit un terme d'erreur dans la relation :
y =α+βx +ε
I ε est un terme aléatoire ayant des propriétés statistiques
I La relation n'est plus déterministe, elle devient stochastique,

les coecients α et β ne sont plus calculés, ils sont estimés

Le modèle de régression : problématique
Soit le modèle de régression linéaire
y =α+βx +ε
L'analyse de régression comporte deux aspects essentiels :
I Estimation : l'estimation consiste à trouver les valeurs des

paramètres α et β de telle sorte que la droite passe au mieux
dans le nuage de points
I Inférence : l'inférence consiste à déterminer dans quelle mesure

les valeurs estimées de α et β sont des approximations plus ou
moins précises des vraies valeurs et à tester si le modèle est
adéquat

Estimation des paramètres
Comment choisir les valeurs de α et β ?
On veut la droite qui passe au mieux dans le nuage de points

→ α̂ et β̂ t.q. les distances des points à la droite soient minimisées

Estimation des paramètres: les MCO
I La méthode des Moindres Carrés Ordinaires (MCO) est la plus

couramment employées pour trouver la droite qui passe au
mieux dans un nuage de points
I On mesure les écarts de chaque points à la droite (en vertical),

que l'on élève au carré pour obtenir une distance. La méthode
des MCO consiste à minimiser la somme de ces distances
I Notation:
I ème
yi est la i observation de la variable dépendante
I ŷi est la valeur ajustée/prédite de yi sur la droite de régression
I ε̂ i est le résidu, ŷi −y i

Estimation des paramètres

Estimation des paramètres : principe
I Pour un échantillon de n observations, on minimise donc

ε̂21 + ε̂22 + ε̂23 + ε̂24 + ε̂25 + · · · + ε̂2 , n 2
P
n
ou encore i =1 ε̂i , la
somme des carrés des résidus (SCR)
I Qu'est ce que ε̂ i ? C'est la diérence entre le valeur observée

yi et sa valeur correspondante sur la droite de régression ŷ
i
I Autrement dit:
n
− y )2
P
Minimiser i =1 (ŷ i i
est équivalent à
P n 2
Minimiser i =1 ε̂i
ou encore
Minimiser SCR
par rapport à α et β

Estimation des paramètres : calculs
On cherche les valeurs de α et β qui minimisent la SCR :
1. on écrit SCR en fonction des paramètres α et β

2. on pose la dérivée de cette fonction p/r à α égale à 0
3. on pose la dérivée de cette fonction p/r à β égale à 0
4. on résoud ce système de 2 équations à 2 inconnues
Les valeurs qui résolvent ce système de 2 équations à 2 inconnues,

notés α̂ et β̂ , sont appelés les paramètres estimées des MCO

1. Sachant que y
i = ŷ + ε̂ = α̂ + β̂ x + ε̂
i i i i , on a :
SCR (y − α̂ − β̂ x )2
X
= i i
i =1
2. La dérivée de SCR par rapport à α̂ est égale à :
∂ SCR
n
(y − α̂ − β̂ x ) = 0
X
= −2 i i
∂ α̂
i =1
3. La dérivée de SCR par rapport à β̂ est égale à :
∂ SCR
n
x (y − α̂ − β̂ x ) = 0
X
= −2 i i i
∂ β̂ i =1

4. On résoud le système de 2 équations à 2 inconnues suivant :
∂ SCR /∂ α̂ = 0 y − α̂ n − β̂ x = 0
( (P P
i i
⇐⇒
∂ SCR /∂ β̂ = 0 x y − α̂ x − β̂ x 2 = 0
P P P
i i i i
y = nȳ x = nx̄ ,
P P
Comme i et i la 1ère équation se réécrit:
ȳ − α̂ − β̂ x̄ = 0 ⇐⇒ α̂ = ȳ − β̂ x̄
On peut ensuite remplacer α̂ dans la 2ème équation par ȳ − β̂ x̄ :
xy (ȳ − β̂ x̄ ) nx̄ x2 = 0
X h i X
i i − − β̂ i
C'est une équation à une seule inconnue. En la réarrangeant, on

peut identier β̂ en fonction des seules valeurs observées de y et x.

4. (suite)
xy (ȳ − β̂ x̄ ) nx̄
x2 = 0
X h X i
i i − − β̂ i
x y − nȳ x̄ + β̂ nx̄ 2 − β̂ x 2 = 0
X X
i i i
x 2 − nx̄ 2 = x y − nȳ x̄
X X
β̂ i i i
x 2 − nx̄ = nVar (x ) et xy − nȳ x̄ = nCov (x , y ).1

P P
On montre i i i
Par conséquent, on a :
β̂ [nVar (x )] = nCov (x , y )
β̂ = Cov (x , y )/Var (x )
P nVar (x ) = (2x −P x̄ )2 = (x 2 − 2x x̄ + x̄ 2 ) =P x 2 − 2x̄ x + nx̄ 2 =

1 P P P P
i i i i i
P x − 2x̄nx̄ + nx̄ = x −Pnx̄ et nCov (x , y ) = [(x −Px̄ )(y − ȳ )] =

2
i i i i
[x y − x ȳ − y x̄ + x̄ ȳ ] =
i i i i x y − nx̄ ȳ − nȳ x̄ + nx̄ ȳ = x y − nȳ x̄
i i i i

Estimation des paramètres : MCO
Soit le modèle de régression linéaire :
y =α+βx +ε
Les estimateurs MCO des paramètres sont :
Cov (x , y )
β̂ = et α̂ = ȳ − β̂ x̄ (1)
Var (x )
Sur la base d'un échantillon de valeurs observées, les paramètres

estimés par MCO de la droite de régression sont obtenus en
appliquant ces formules.

Estimation des paramètres : interprétation
Soit le modèle de régression
y =α+βx +ε
L'estimation par MCO fournit les résultats suivants :
ŷ = α̂ + β̂ x
1. Le coecient β̂ est la pente de la droite : si x augmente de 1

unité, ŷ augmente de β̂ unités
2. Le coecient α̂ est l'ordonnée à l'origine : si x est égal à 0, ŷ

est égal à α̂

La valeur ajustée ŷ est une estimation de la moyenne de y sachant

x , c'est-à-dire de la moyenne de y conditionnelle à x , notée E (y |x ).
Soit le modèle de régression linéaire :
y =α+βx +ε (2)
Si on applique une espérance conditionnelle à x aux 2 termes, on a :
E (y |x ) = E (α + β x + ε|x ) = α + β x + E (ε|x )
Si E (ε|x ) = 0, la régression linéaire (2) est équivalente à :
E (y |x ) = α + β x (3)
Pour des valeurs estimées des paramètres, on a :
E\
(y |x ) = α̂ + β̂ x = ŷ

y =α+βx +ε ⇔ E (y |x ) = α + β x
L'estimation par MCO fournit les résultats suivants :
ŷ = α̂ + β̂ x ⇔ E\
(y |x ) = α̂ + β̂ x
1. Si x augmente de 1 unité, ŷ augmente de β̂ unités ⇐⇒

Si x augmente de 1 unité, y augmente en moyenne de β̂ unités
Si x augmente de 1 unité, l'augmentation esperée de y est β̂
2. Si x est égal à zéro, la valeur de ŷ est égale à α̂ ⇐⇒

Si x est égal à zéro, la valeur moyenne de y est estimée à α̂

Le modèle de régression : interprétation
Attention : mieux vaut ne pas interpréter α̂ s'il n'y a pas de valeurs

de x proches de 0 dans l'échantillon

Estimation des paramètres : exemple 1
Soit un échantillon sur le salaire horaire en euros ( ) et le nombrey

x
d'année d'études au delà du baccalauréat ( ) d'un grand nombre de
personnes ayant le bac. Les résultats de l'estimation par MCO d'un
modèle de régression linéaire sont les suivants :
ŷ = 9.74 + 1.25 x
1. β̂ : pour 1 année d'étude supplémentaire, le salaire horaire

augmente en moyenne de 1.25 euros
2. α̂ : le salaire horaire moyen des individus ayant juste le bac est

estimé à 9.74 euros

Estimation des paramètres : exemple 2
Soit un échantillon sur les taux de rendement excédentaires du titre

IBM y x
2 ( ) et du CAC40 ( ), pour lequel on obtient les résultats
suivants :
ŷ = −0.24 + 1.64 x
1. β̂ : lorsque le taux de rendement excédentaire du CAC40
augmente de 1 unités, celui du titre IBM augmente en
moyenne de 1.64 unités
2. α̂ : lorsque le taux de rendement excédentaire du CAC40 est

nul, celui du titre IBM est en moyenne de -0.24.
Si un analyste nancier s'attend à ce que l'an prochain le marché

donne un rendement 20% plus élevé que pour un placement sans
risque, vous pouvez lui dire que le rendement espéré du titre IBM
serait pour sa part 32.8% plus élevé (=100*[1.64*0.2]) .
2
c'est la diérence entre le taux de rendement du titre IBM et celui obtenu
avec un placement sans risque
Modèle de régression et PGD
Lorsqu'on considère le modèle de régression linéaire suivant :
y =α+βx +ε
On suppose que le processus qui a généré les données (PGD) est
y = α0 + β0 x + ε
où α0 et β0 sont des valeurs inconnues.
Avec un échantillon, on obtient une estimation du modèle :
y = α̂ + β̂ x + ε̂
Autrement dit, α̂ et β̂ sont des estimations de α0 et β0
Question: dans quelle mesure α̂ et β̂ sont-elles de bonnes

approximations des vraies valeurs α0 et β0 ?

Qualité des estimateurs MCO
Question: dans quelle mesure α̂ et β̂ sont-elles de bonnes

approximations des vraies valeurs α0 et β0 ?
Pour répondre à cette question, il faut étudier
1. les propriétés des estimateurs MCO → théorème de

Gauss-Markov
2. la précision des estimateurs MCO → écarts-type
3. laabilité des estimateurs MCO → inférence statistique

Propriétes des estimateurs : les hypothèses du modèle
yi =α+βx +εi i
Le terme d'erreur ε i est aléatoire et a des propriétés statistiques.
Les hypothèses classiques sur le terme d'erreur du modèle sont :
1. E (ε ) = 0 : la moyenne des erreurs est nulle

i
2. Var (ε ) = σ : la variance des erreurs est constante

i
3. Cov (ε , ε ) = 0 : les erreurs sont satistiquement indépendantes

i j
4. Cov (ε , x ) = 0 : pas de relation entre l'erreur et le régresseur3

i i
3
Cette hypothèse est vériée si x est supposé non-stochastique, déterministe
Propriétes des estimateurs : Théorème de Gauss-Markov
Théorème de Gauss-Markov : sous les hypothèses classiques du

modèle de régression, les estimateurs α̂ β̂ des MCO sont
et les
meilleurs estimateurs linéaires sans biais → ils sont BLUE.
Best : ce sont les estimateurs qui ont la plus petite variance,

parmi la classe des estimateurs sans biais
Linear : ils sont linéaires par rapport à y

Unbiased : en moyenne, les valeurs de α̂ et β̂ sont égales à leurs
vraies valeurs α0 et β0
Estimator : α̂ et β̂ sont des approximations des vraies valeurs α0
et β0
Autrement dit, il n'existe pas d'autres estimateurs sans biais qui

soient plus précis que ceux des MCO → ce sont les meilleurs.

Propriétes des estimateurs
1. Convergents : les valeurs estimées se rapprochent des vraies

valeurs lorsque n augmente à l'inni
h i
lim Pr |β̂ − β0 | > δ = 0 ∀δ > 0
n →∞
C'est une hypothèse de validité, sinon l'estimateur est inutile
2. Sans biais : β̂ = β0 , c'est une hypothèse plus forte que la

convergence
3. Ecients : un estimateur est ecient s'il est sans biais et de

variance minimale → la probabilité d'obtenir une valeur
estimée β̂ éloignée de la vraie valeur β0 est minimisée

Précision des estimateurs : les écarts-types
1. Les valeurs estimées α̂ et β̂ sont spéciques à un échantillon :

avec un échantillon diérent on obtient des valeurs diérentes
2. Une mesure de leur précision est indispensable : sans elle,

aucune conclusion ne peut etre tirée
3. La précision d'une valeur estimée est donnée par son écart-type
4. L'écart-type indique quelle est, en moyenne, la distance entre

les valeurs estimées β̂ et la vraie valeur β0

y =α+βx +ε ε ∼ IID (0, σ 2 )
Les estimateurs MCO des paramètres sont :
Cov (x , y )
β̂ = et α̂ = ȳ − β̂ x̄
Var (x )
Leurs variances sont égales à :
x2
P
2 2 1
σβ̂ = σ i
et σα̂2 = σ 2
n2 Var (x ) nVar (x )
σ2 est un paramètre inconnu. Il faut le remplacer par une valeur
estimée pour pouvoir utiliser ces mesures en pratique.

1. La variance du terme d'erreur est égale à
σ 2 = Var (ε) = E (ε − E (ε))2 = E ε2

h i
Elle peut etre estimée par la moyenne des ε2

i
2. La moyenne des carrés des résidus est un estimateur

convergent de cette variance :
4
1 SCR
σ̂ 2 = ε̂2 =
X
n i
n
mais il est biaisé. Un estimateur sans biais est :
1 SCR
σ̂ 2 = ε̂2 =
X
n−2 i
n−2
4
ε̂ est un estimateur convergent de ε qui lui, est inobservable
i i

y =α+βx +ε ε ∼ IID (0, σ 2 ) (4)
Sous les hypothèses classiques, les estimateurs MCO des

paramètres sont
Cov (x , y )
β̂ = et α̂ = ȳ − β̂ x̄
Var (x )
Leurs écarts-types sont :
x2
s P s
i
1
σ̂β̂ = σ̂ et σ̂α̂ = σ̂

Précision des estimateurs : Commentaires
Les écarts-types sont :
x2
s P s
i
1
σ̂β̂ = σ̂ et σ̂α̂ = σ̂
Ces estimateurs sont d'autant plus précis que :
1. n est grand → la taille de l'échantillon est élevée

2. Var (x ) est grand → les valeurs de x sont dispersées
3. σ̂ est petit → les résidus sont peu dispersés

L'estimateur est d'autant plus précis que Var (x ) est grand,

autrement dit les valeurs de x sont dispersées

L'estimateur est d'autant plus précis que σ̂ est petit, autrement dit
les résidus sont peu dispersées

Les résultats de l'estimation d'un modèle de régression linéaire
y =α+βx +ε
sont habituellement présentés comme suit :
ŷ = −0.5912 + 0.35 x
(0.034) (0.011)
ou encore
y = −0.5912 + 0.35 x + ε̂
(0.034) (0.011)
Les écarts-type sont indiqués entre parenthèses.

L'inférence statistique
Voir les transparents de Brooks à partir de :
An Introduction to Statistical Inference

Cours m1 Econometrie Appliquee Slide2

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Cours m1 Econometrie Appliquee Slide2

Încărcat de

Drepturi de autor:

Formate disponibile

Séance 2

Le modèle de régression simple

Emmanuel Flachaire Économétrie Appliquée

I Le modèle de régression est l'outil principal de l'économètre

Qu'est ce que l'analyse de régression ?

I L'analyse de régression est l'étude de la relation entre une

I Dans le cas d'une régression simple, nous nous limitons au cas

Emmanuel Flachaire Économétrie Appliquée

Emmanuel Flachaire Économétrie Appliquée

I Dans cet exemple, l'équation d'une droite permet d'exprimer la

I On introduit un terme d'erreur dans la relation :

I La relation n'est plus déterministe, elle devient stochastique,

Emmanuel Flachaire Économétrie Appliquée

Soit le modèle de régression linéaire

I Estimation : l'estimation consiste à trouver les valeurs des

I Inférence : l'inférence consiste à déterminer dans quelle mesure

Emmanuel Flachaire Économétrie Appliquée

Comment choisir les valeurs de α et β ?

On veut la droite qui passe au mieux dans le nuage de points

Emmanuel Flachaire Économétrie Appliquée

I La méthode des Moindres Carrés Ordinaires (MCO) est la plus

I On mesure les écarts de chaque points à la droite (en vertical),

I ε̂ i est le résidu, ŷi −y i

Emmanuel Flachaire Économétrie Appliquée

Emmanuel Flachaire Économétrie Appliquée

I Pour un échantillon de n observations, on minimise donc

I Qu'est ce que ε̂ i ? C'est la diérence entre le valeur observée

Emmanuel Flachaire Économétrie Appliquée

On cherche les valeurs de α et β qui minimisent la SCR :

1. on écrit SCR en fonction des paramètres α et β

3. on pose la dérivée de cette fonction p/r à β égale à 0

4. on résoud ce système de 2 équations à 2 inconnues

Les valeurs qui résolvent ce système de 2 équations à 2 inconnues,

Emmanuel Flachaire Économétrie Appliquée

2. La dérivée de SCR par rapport à α̂ est égale à :

3. La dérivée de SCR par rapport à β̂ est égale à :

Emmanuel Flachaire Économétrie Appliquée

4. On résoud le système de 2 équations à 2 inconnues suivant :

On peut ensuite remplacer α̂ dans la 2ème équation par ȳ − β̂ x̄ :

C'est une équation à une seule inconnue. En la réarrangeant, on

Emmanuel Flachaire Économétrie Appliquée

x 2 − nx̄ = nVar (x ) et xy − nȳ x̄ = nCov (x , y ).1

P nVar (x ) = (2x −P x̄ )2 = (x 2 − 2x x̄ + x̄ 2 ) =P x 2 − 2x̄ x + nx̄ 2 =

P x − 2x̄nx̄ + nx̄ = x −Pnx̄ et nCov (x , y ) = [(x −Px̄ )(y − ȳ )] =

Emmanuel Flachaire Économétrie Appliquée

Soit le modèle de régression linéaire :

Les estimateurs MCO des paramètres sont :

Sur la base d'un échantillon de valeurs observées, les paramètres

Emmanuel Flachaire Économétrie Appliquée

Soit le modèle de régression

1. Le coecient β̂ est la pente de la droite : si x augmente de 1

2. Le coecient α̂ est l'ordonnée à l'origine : si x est égal à 0, ŷ

Emmanuel Flachaire Économétrie Appliquée

La valeur ajustée ŷ est une estimation de la moyenne de y sachant

Si on applique une espérance conditionnelle à x aux 2 termes, on a :

Pour des valeurs estimées des paramètres, on a :

Emmanuel Flachaire Économétrie Appliquée

Soit le modèle de régression

1. Si x augmente de 1 unité, ŷ augmente de β̂ unités ⇐⇒

2. Si x est égal à zéro, la valeur de ŷ est égale à α̂ ⇐⇒

Emmanuel Flachaire Économétrie Appliquée

Attention : mieux vaut ne pas interpréter α̂ s'il n'y a pas de valeurs

Emmanuel Flachaire Économétrie Appliquée

Soit un échantillon sur le salaire horaire en euros ( ) et le nombrey

I Qu'est ce que ε̂ i ? C'est la diérence entre le valeur observée

1. Le coecient β̂ est la pente de la droite : si x augmente de 1

2. Le coecient α̂ est l'ordonnée à l'origine : si x est égal à 0, ŷ

Si un analyste nancier s'attend à ce que l'an prochain le marché

Question: dans quelle mesure α̂ et β̂ sont-elles de bonnes

Question: dans quelle mesure α̂ et β̂ sont-elles de bonnes

3. laabilité des estimateurs MCO → inférence statistique

3. Ecients : un estimateur est ecient s'il est sans biais et de

1. Les valeurs estimées α̂ et β̂ sont spéciques à un échantillon :