Sunteți pe pagina 1din 34

Séance 2

Le modèle de régression simple

Emmanuel Flachaire Économétrie Appliquée


Le modèle de régression

I Le modèle de régression est l'outil principal de l'économètre

Qu'est ce que l'analyse de régression ?

I L'analyse de régression est l'étude de la relation entre une


y
variable dépendante ( ) et une ou plusieurs autres variables
explicatives (x1 , x2 , ..., x k )

I Dans le cas d'une régression simple, nous nous limitons au cas


x
d'une seule variable explicative ( ). Il est alors possible de
représenter graphiquement le nuage de points des données
observées.

Emmanuel Flachaire Économétrie Appliquée


Le modèle de régression : un exemple

La relation entre les 2 variables peut être exprimée par une droite

Emmanuel Flachaire Économétrie Appliquée


Le modèle de régression : un exemple

I Dans cet exemple, l'équation d'une droite permet d'exprimer la


relation entre les deux variables :

y =α+βx
I Néanmoins, tous les points ne passent pas par cette droite

I On introduit un terme d'erreur dans la relation :

y =α+βx +ε
I ε est un terme aléatoire ayant des propriétés statistiques

I La relation n'est plus déterministe, elle devient stochastique,


les coecients α et β ne sont plus calculés, ils sont estimés

Emmanuel Flachaire Économétrie Appliquée


Le modèle de régression : problématique

Soit le modèle de régression linéaire

y =α+βx +ε
L'analyse de régression comporte deux aspects essentiels :

I Estimation : l'estimation consiste à trouver les valeurs des


paramètres α et β de telle sorte que la droite passe au mieux
dans le nuage de points

I Inférence : l'inférence consiste à déterminer dans quelle mesure


les valeurs estimées de α et β sont des approximations plus ou
moins précises des vraies valeurs et à tester si le modèle est
adéquat

Emmanuel Flachaire Économétrie Appliquée


Estimation des paramètres

Comment choisir les valeurs de α et β ?

On veut la droite qui passe au mieux dans le nuage de points


→ α̂ et β̂ t.q. les distances des points à la droite soient minimisées

Emmanuel Flachaire Économétrie Appliquée


Estimation des paramètres: les MCO

I La méthode des Moindres Carrés Ordinaires (MCO) est la plus


couramment employées pour trouver la droite qui passe au
mieux dans un nuage de points

I On mesure les écarts de chaque points à la droite (en vertical),


que l'on élève au carré pour obtenir une distance. La méthode
des MCO consiste à minimiser la somme de ces distances

I Notation:
I ème
yi est la i observation de la variable dépendante
I ŷi est la valeur ajustée/prédite de yi sur la droite de régression

I ε̂ i est le résidu, ŷi −y i

Emmanuel Flachaire Économétrie Appliquée


Estimation des paramètres

Emmanuel Flachaire Économétrie Appliquée


Estimation des paramètres : principe

I Pour un échantillon de n observations, on minimise donc


ε̂21 + ε̂22 + ε̂23 + ε̂24 + ε̂25 + · · · + ε̂2 , n 2
P
n
ou encore i =1 ε̂i , la
somme des carrés des résidus (SCR)

I Qu'est ce que ε̂ i ? C'est la diérence entre le valeur observée


yi et sa valeur correspondante sur la droite de régression ŷ
i

I Autrement dit:
n
− y )2
P
Minimiser i =1 (ŷ i i

est équivalent à
P n 2
Minimiser i =1 ε̂i
ou encore

Minimiser SCR

par rapport à α et β

Emmanuel Flachaire Économétrie Appliquée


Estimation des paramètres : calculs

On cherche les valeurs de α et β qui minimisent la SCR :

1. on écrit SCR en fonction des paramètres α et β


2. on pose la dérivée de cette fonction p/r à α égale à 0

3. on pose la dérivée de cette fonction p/r à β égale à 0

4. on résoud ce système de 2 équations à 2 inconnues

Les valeurs qui résolvent ce système de 2 équations à 2 inconnues,


notés α̂ et β̂ , sont appelés les paramètres estimées des MCO

Emmanuel Flachaire Économétrie Appliquée


Estimation des paramètres : calculs

1. Sachant que y
i = ŷ + ε̂ = α̂ + β̂ x + ε̂
i i i i , on a :

SCR (y − α̂ − β̂ x )2
X
= i i

i =1

2. La dérivée de SCR par rapport à α̂ est égale à :

∂ SCR
n

(y − α̂ − β̂ x ) = 0
X
= −2 i i
∂ α̂
i =1

3. La dérivée de SCR par rapport à β̂ est égale à :

∂ SCR
n

x (y − α̂ − β̂ x ) = 0
X
= −2 i i i
∂ β̂ i =1

Emmanuel Flachaire Économétrie Appliquée


Estimation des paramètres : calculs

4. On résoud le système de 2 équations à 2 inconnues suivant :

∂ SCR /∂ α̂ = 0 y − α̂ n − β̂ x = 0
( (P P
i i
⇐⇒
∂ SCR /∂ β̂ = 0 x y − α̂ x − β̂ x 2 = 0
P P P
i i i i

y = nȳ x = nx̄ ,
P P
Comme i et i la 1ère équation se réécrit:

ȳ − α̂ − β̂ x̄ = 0 ⇐⇒ α̂ = ȳ − β̂ x̄

On peut ensuite remplacer α̂ dans la 2ème équation par ȳ − β̂ x̄ :

xy (ȳ − β̂ x̄ ) nx̄ x2 = 0
X h i X
i i − − β̂ i

C'est une équation à une seule inconnue. En la réarrangeant, on


peut identier β̂ en fonction des seules valeurs observées de y et x.

Emmanuel Flachaire Économétrie Appliquée


Estimation des paramètres : calculs

4. (suite)

xy (ȳ − β̂ x̄ ) nx̄
x2 = 0
X h X i
i i − − β̂ i

x y − nȳ x̄ + β̂ nx̄ 2 − β̂ x 2 = 0
X X
i i i

x 2 − nx̄ 2 = x y − nȳ x̄
X  X
β̂ i i i

x 2 − nx̄ = nVar (x ) et xy − nȳ x̄ = nCov (x , y ).1


P P
On montre i i i

Par conséquent, on a :

β̂ [nVar (x )] = nCov (x , y )
β̂ = Cov (x , y )/Var (x )

P nVar (x ) = (2x −P x̄ )2 = (x 2 − 2x x̄ + x̄ 2 ) =P x 2 − 2x̄ x + nx̄ 2 =


1 P P P P
i i i i i

P x − 2x̄nx̄ + nx̄ = x −Pnx̄ et nCov (x , y ) = [(x −Px̄ )(y − ȳ )] =


2
i i i i

[x y − x ȳ − y x̄ + x̄ ȳ ] =
i i i i x y − nx̄ ȳ − nȳ x̄ + nx̄ ȳ = x y − nȳ x̄
i i i i

Emmanuel Flachaire Économétrie Appliquée


Estimation des paramètres : MCO

Soit le modèle de régression linéaire :

y =α+βx +ε

Les estimateurs MCO des paramètres sont :

Cov (x , y )
β̂ = et α̂ = ȳ − β̂ x̄ (1)
Var (x )

Sur la base d'un échantillon de valeurs observées, les paramètres


estimés par MCO de la droite de régression sont obtenus en
appliquant ces formules.

Emmanuel Flachaire Économétrie Appliquée


Estimation des paramètres : interprétation

Soit le modèle de régression

y =α+βx +ε
L'estimation par MCO fournit les résultats suivants :

ŷ = α̂ + β̂ x

1. Le coecient β̂ est la pente de la droite : si x augmente de 1


unité, ŷ augmente de β̂ unités

2. Le coecient α̂ est l'ordonnée à l'origine : si x est égal à 0, ŷ


est égal à α̂

Emmanuel Flachaire Économétrie Appliquée


Estimation des paramètres : interprétation

La valeur ajustée ŷ est une estimation de la moyenne de y sachant


x , c'est-à-dire de la moyenne de y conditionnelle à x , notée E (y |x ).
Soit le modèle de régression linéaire :

y =α+βx +ε (2)

Si on applique une espérance conditionnelle à x aux 2 termes, on a :

E (y |x ) = E (α + β x + ε|x ) = α + β x + E (ε|x )
Si E (ε|x ) = 0, la régression linéaire (2) est équivalente à :
E (y |x ) = α + β x (3)

Pour des valeurs estimées des paramètres, on a :

E\
(y |x ) = α̂ + β̂ x = ŷ

Emmanuel Flachaire Économétrie Appliquée


Estimation des paramètres : interprétation

Soit le modèle de régression

y =α+βx +ε ⇔ E (y |x ) = α + β x
L'estimation par MCO fournit les résultats suivants :

ŷ = α̂ + β̂ x ⇔ E\
(y |x ) = α̂ + β̂ x

1. Si x augmente de 1 unité, ŷ augmente de β̂ unités ⇐⇒


Si x augmente de 1 unité, y augmente en moyenne de β̂ unités
Si x augmente de 1 unité, l'augmentation esperée de y est β̂

2. Si x est égal à zéro, la valeur de ŷ est égale à α̂ ⇐⇒


Si x est égal à zéro, la valeur moyenne de y est estimée à α̂

Emmanuel Flachaire Économétrie Appliquée


Le modèle de régression : interprétation

Attention : mieux vaut ne pas interpréter α̂ s'il n'y a pas de valeurs


de x proches de 0 dans l'échantillon

Emmanuel Flachaire Économétrie Appliquée


Estimation des paramètres : exemple 1

Soit un échantillon sur le salaire horaire en euros ( ) et le nombrey


x
d'année d'études au delà du baccalauréat ( ) d'un grand nombre de
personnes ayant le bac. Les résultats de l'estimation par MCO d'un
modèle de régression linéaire sont les suivants :

ŷ = 9.74 + 1.25 x

1. β̂ : pour 1 année d'étude supplémentaire, le salaire horaire


augmente en moyenne de 1.25 euros

2. α̂ : le salaire horaire moyen des individus ayant juste le bac est


estimé à 9.74 euros

Emmanuel Flachaire Économétrie Appliquée


Estimation des paramètres : exemple 2

Soit un échantillon sur les taux de rendement excédentaires du titre


IBM y x
2 ( ) et du CAC40 ( ), pour lequel on obtient les résultats

suivants :
ŷ = −0.24 + 1.64 x
1. β̂ : lorsque le taux de rendement excédentaire du CAC40
augmente de 1 unités, celui du titre IBM augmente en
moyenne de 1.64 unités

2. α̂ : lorsque le taux de rendement excédentaire du CAC40 est


nul, celui du titre IBM est en moyenne de -0.24.

Si un analyste nancier s'attend à ce que l'an prochain le marché


donne un rendement 20% plus élevé que pour un placement sans
risque, vous pouvez lui dire que le rendement espéré du titre IBM
serait pour sa part 32.8% plus élevé (=100*[1.64*0.2]) .

2
c'est la diérence entre le taux de rendement du titre IBM et celui obtenu
avec un placement sans risque
Emmanuel Flachaire Économétrie Appliquée
Modèle de régression et PGD

Lorsqu'on considère le modèle de régression linéaire suivant :

y =α+βx +ε
On suppose que le processus qui a généré les données (PGD) est

y = α0 + β0 x + ε
où α0 et β0 sont des valeurs inconnues.

Avec un échantillon, on obtient une estimation du modèle :

y = α̂ + β̂ x + ε̂
Autrement dit, α̂ et β̂ sont des estimations de α0 et β0

Question: dans quelle mesure α̂ et β̂ sont-elles de bonnes


approximations des vraies valeurs α0 et β0 ?

Emmanuel Flachaire Économétrie Appliquée


Qualité des estimateurs MCO

Question: dans quelle mesure α̂ et β̂ sont-elles de bonnes


approximations des vraies valeurs α0 et β0 ?

Pour répondre à cette question, il faut étudier

1. les propriétés des estimateurs MCO → théorème de


Gauss-Markov

2. la précision des estimateurs MCO → écarts-type

3. laabilité des estimateurs MCO → inférence statistique

Emmanuel Flachaire Économétrie Appliquée


Propriétes des estimateurs : les hypothèses du modèle

Soit le modèle de régression

yi =α+βx +εi i

Le terme d'erreur ε i est aléatoire et a des propriétés statistiques.

Les hypothèses classiques sur le terme d'erreur du modèle sont :

1. E (ε ) = 0 : la moyenne des erreurs est nulle


i

2. Var (ε ) = σ : la variance des erreurs est constante


i

3. Cov (ε , ε ) = 0 : les erreurs sont satistiquement indépendantes


i j

4. Cov (ε , x ) = 0 : pas de relation entre l'erreur et le régresseur3


i i

3
Cette hypothèse est vériée si x est supposé non-stochastique, déterministe
Emmanuel Flachaire Économétrie Appliquée
Propriétes des estimateurs : Théorème de Gauss-Markov

Théorème de Gauss-Markov : sous les hypothèses classiques du


modèle de régression, les estimateurs α̂ β̂ des MCO sont
et les
meilleurs estimateurs linéaires sans biais → ils sont BLUE.

Best : ce sont les estimateurs qui ont la plus petite variance,


parmi la classe des estimateurs sans biais

Linear : ils sont linéaires par rapport à y


Unbiased : en moyenne, les valeurs de α̂ et β̂ sont égales à leurs
vraies valeurs α0 et β0
Estimator : α̂ et β̂ sont des approximations des vraies valeurs α0
et β0

Autrement dit, il n'existe pas d'autres estimateurs sans biais qui


soient plus précis que ceux des MCO → ce sont les meilleurs.

Emmanuel Flachaire Économétrie Appliquée


Propriétes des estimateurs

1. Convergents : les valeurs estimées se rapprochent des vraies


valeurs lorsque n augmente à l'inni
h i
lim Pr |β̂ − β0 | > δ = 0 ∀δ > 0
n →∞

C'est une hypothèse de validité, sinon l'estimateur est inutile

2. Sans biais : β̂ = β0 , c'est une hypothèse plus forte que la


convergence

3. Ecients : un estimateur est ecient s'il est sans biais et de


variance minimale → la probabilité d'obtenir une valeur
estimée β̂ éloignée de la vraie valeur β0 est minimisée

Emmanuel Flachaire Économétrie Appliquée


Précision des estimateurs : les écarts-types

1. Les valeurs estimées α̂ et β̂ sont spéciques à un échantillon :


avec un échantillon diérent on obtient des valeurs diérentes

2. Une mesure de leur précision est indispensable : sans elle,


aucune conclusion ne peut etre tirée

3. La précision d'une valeur estimée est donnée par son écart-type

4. L'écart-type indique quelle est, en moyenne, la distance entre


les valeurs estimées β̂ et la vraie valeur β0

Emmanuel Flachaire Économétrie Appliquée


Précision des estimateurs : les écarts-types

Soit le modèle de régression

y =α+βx +ε ε ∼ IID (0, σ 2 )

Les estimateurs MCO des paramètres sont :

Cov (x , y )
β̂ = et α̂ = ȳ − β̂ x̄
Var (x )
Leurs variances sont égales à :

x2
P
2 2 1
σβ̂ = σ i
et σα̂2 = σ 2
n2 Var (x ) nVar (x )
σ2 est un paramètre inconnu. Il faut le remplacer par une valeur
estimée pour pouvoir utiliser ces mesures en pratique.

Emmanuel Flachaire Économétrie Appliquée


Précision des estimateurs : les écarts-types

1. La variance du terme d'erreur est égale à

σ 2 = Var (ε) = E (ε − E (ε))2 = E ε2


h i  

Elle peut etre estimée par la moyenne des ε2


i

2. La moyenne des carrés des résidus est un estimateur


convergent de cette variance :
4

1 SCR
σ̂ 2 = ε̂2 =
X
n i
n
mais il est biaisé. Un estimateur sans biais est :

1 SCR
σ̂ 2 = ε̂2 =
X
n−2 i
n−2
4
ε̂ est un estimateur convergent de ε qui lui, est inobservable
i i

Emmanuel Flachaire Économétrie Appliquée


Précision des estimateurs : les écarts-types

Soit le modèle de régression

y =α+βx +ε ε ∼ IID (0, σ 2 ) (4)

Sous les hypothèses classiques, les estimateurs MCO des


paramètres sont

Cov (x , y )
β̂ = et α̂ = ȳ − β̂ x̄
Var (x )
Leurs écarts-types sont :

x2
s P s
i
1
σ̂β̂ = σ̂ et σ̂α̂ = σ̂
n2 Var (x ) nVar (x )

Emmanuel Flachaire Économétrie Appliquée


Précision des estimateurs : Commentaires

Les écarts-types sont :

x2
s P s
i
1
σ̂β̂ = σ̂ et σ̂α̂ = σ̂
n2 Var (x ) nVar (x )

Ces estimateurs sont d'autant plus précis que :

1. n est grand → la taille de l'échantillon est élevée


2. Var (x ) est grand → les valeurs de x sont dispersées

3. σ̂ est petit → les résidus sont peu dispersés

Emmanuel Flachaire Économétrie Appliquée


Précision des estimateurs : Commentaires

L'estimateur est d'autant plus précis que Var (x ) est grand,


autrement dit les valeurs de x sont dispersées

Emmanuel Flachaire Économétrie Appliquée


Précision des estimateurs : Commentaires

L'estimateur est d'autant plus précis que σ̂ est petit, autrement dit
les résidus sont peu dispersées

Emmanuel Flachaire Économétrie Appliquée


Précision des estimateurs : Commentaires

Les résultats de l'estimation d'un modèle de régression linéaire

y =α+βx +ε
sont habituellement présentés comme suit :

ŷ = −0.5912 + 0.35 x
(0.034) (0.011)

ou encore
y = −0.5912 + 0.35 x + ε̂
(0.034) (0.011)

Les écarts-type sont indiqués entre parenthèses.

Emmanuel Flachaire Économétrie Appliquée


L'inférence statistique

Voir les transparents de Brooks à partir de :

An Introduction to Statistical Inference

Emmanuel Flachaire Économétrie Appliquée

S-ar putea să vă placă și