Documente Academic
Documente Profesional
Documente Cultură
qualitatives
Plan du cours : premire
partie
Les modles variables qualitative dpendante
1. Le modle de probabilit linaire
3. La rgression logistique
Plan du cours : deuxime
partie
La rgression logistique multinomiale
3.
1. Simple
2. Ordinale
Y 0 1x1 2 x 2 u
Y ne prend que 2 valeurs (0;1). Comment interprter j? Si E(u|X)=0
alors:
E(Y | X) 0 1x1 2 x 2
Le modle de probabilit
linaire
Y suit une distribution de Bernoulli desprance P. Ce modle est
donc dit MPL car son esprance conditionnelle E(Y|X) peut tre
interprte comme la probabilit conditionnelle que lvnement se
produise compte tenu des valeurs de X :
E(Y | X) Pr(Y 1| X)
1 E(Y | X) Pr(Y 0 | X)
mesure de combien est modifi la probabilit de succs quand X
change dune unit (X=1)
E(Y | X) Pr(Y 1| X)
Pr(Y 1| X)
X X
Les limites du modle de prob.
linaire (1) Labsence de normalit des erreurs
OLS6 : Le terme d'erreur est indpendant des variables indpendantes et suit une loi Normale de moyenne nulle et de variance
2
Les erreurs tant le complmentaire par rapport 1 de la probabilit conditionnelle, elles suivent une distribution de Bernoulli,
et non normale.
u : Normal(0, ) 2
Les limites du modle de prob.
linaireLabsence
(1) de normalit des erreurs
2.5
2 1.5
Density
1
.5
0
-1 -.5 0 .5
Residuals
Les limites du modle de prob.
linaire (2) Lhtroscdasticit des erreurs
OLS5 : La variance du terme d'erreur est la mme, quelle que soiet les valeurs des variables indpendantes
Var u x1 , x 2 ,K , x k 2
.4 .6 .8 1 1.2
Fitted values
Les limites du modle de prob.
linaire (3)
Par dfinition, une probabilit est toujours comprise entre 0 et 1, si bien que :
0 E Y | X 1
Les limites du modle de prob.
linaire (3)
Des prdictions aberrantes
3
2
Mauvaises
Density
prdictions
1
0
.4 .6 .8 1 1.2
Fitted values
Les limites du modle de prob.
linaire (4) Un coefficient de dtermination faible
Les valeurs observes de Y sont gales 1 ou 0, alors que les valeurs prdites appartiennent lensemble des
rels compris enter 0 et 1 : [0;1].
Si on confronte graphiquement les valeurs prdites avec les valeurs observes, lajustement linaire apparat
systmatiquement faible.
Les limites du modle de prob.
linaire (3)
Des prdictions aberrantes
1
.8
Dummy innovation
Mauvaises
.6
prdictions qui
baissent le R2
.4 .2
0
.4 .6 .8 1 1.2
Fitted values
Les limites du modle de
probabilit linaire
1. Labsence de normalit des erreurs u : Normal(0, 2 )
Var u x1 , x 2 ,K , x k 2
3. Les prdictions aberrantes
2. Parce quil marche plutt bien pour les valeurs des variables
indpendantes qui sont proches de la moyenne des donnes.
eZ 1
P
1 e Z
1 e Z
1 1
1 P 1 Z
1 e 1 e Z
avec z 0 i x i u i
Le modle Logit (2)
Ecrivons le ratio de chance (odds ratio) et prenons son log:
P 1 eZ
Z
e Z
1 P 1 e
P
ln z 0 1x1 2 x 2 u
1 P
Notons deux caractristiques importantes et dsires du modle :
Probabilitinnover
Chanceinnover (odds ratio)innover
Probabilit ne pas innover
Ou plus gnralement
P(Y 1)
odds ratio =
1 P (Y 1)
Plutt que dexpliquer Y (=1 ou =0), on va tenter
dexpliquer le ratio de chance (ou odds ratio)
Probabilits, chances et logit
p(y=1)
P(Y=1) Odds Ln (odds)
1-p(y=1)
0.01 1/99 0,01 -4,60
0.03 3/97 0,03 -3,48
0.05 5/95 0,05 -2,94
0.20 20/80 0,25 -1,39
0.30 30/70 0,43 -0,85
0.40 40/60 0,67 -0,41
0.50 50/50 1,00 0,00
0.60 60/40 1,50 0,41
0.70 70/30 2,33 0,85
0.80 80/20 4,00 1,39
0.95 95/5 19,0 2,94
0.97 97/3 32,3 3,48
0.99 99/1 99,0 4,60
La transformation logit
Le prcdent tableau fait correspondre une liste de
probabilit entre 0 et 1 et son quivalent en termes de
chance au logarithme des chances.
Si la probabilit varie de 0 1, la chance varie de 0
linfini. Le log de la chance varie de + .
Remarquez que la distribution des chances et des log
est symtrique.
La distribution logistique
.25
.2 .15
Density
.1 .05
0
-10 -5 0 5 10
Log (Odds ratio)
La mthode du maximum de
vraisemblance
Le problme est que nous nobservons pas le ratio de chance.
Encore une fois, le modle MCO ne convient pas.
Pour estimer le modle LOGIT, on a recours la mthode du
maximum de vraisemblance.
La mthode MV est une mthode destimation alternative la
mthode des moindres carrs.
Elle consiste trouver la valeur des paramtres qui maximisent la
vraisemblance des donnes.
La vraisemblance en conomtrie est dfinie comme la probabilit
jointe dobserver un chantillon, tant donn les paramtres du
processus ayant gnr les donnes.
La mthode du maximum de
vraisemblance
Supposons que nous disposons dun chantillon de n observations
alatoires. Soit f(Y) la probabilit que Y=1 ou 0. La probabilit jointe
dobserver les n variables de Y est donne par la fonction de
vraisemblance :
n
f y1 , y2 ,..., yn f ( yi )
i 1
f ( yi ) p yi (1 p)1 yi
La fonction de vraisemblance
En dfinitive, la fonction de vraisemblance scrit:
n n
L y f (yi ) p 1 p
yi 1 yi
i 1 i 1
yi 1 yi
n n
e z
1
L y, z f (yi , z) z 1 e z
i 1 i 1 1 e
yi 1 yi
n n
e x i
1
L y, x, f (yi , x i , ) x i 1 e xi
i 1 i 1 1 e
La fonction de vraisemblance
Parce quelle est difficile manipuler, on utilise gnralement le log.
Aprs manipulation, la fonction log de la vraisemblance scrit :
n n
LL y, z yi z ln 1 e z
i 1 i 1
n n
LL y, x, yi x i ln 1 e xi
i 1 i 1
n
LL y, x, ln 1 e xi yi x i
i 1
La mthode du maximum de
vraisemblance
Le problme est le suivant: tant donn la forme
fonctionnelle de f(.) et les N observations, quelles valeurs
des paramtres rendent lobservation de lchantillon la
plus vraisemblable?
La maximisation de la
vraisemblance
Les estimateurs obtenus en maximisant la vraisemblance
sont efficaces. Ou encore en maximisant le log de la
vraisemblance.
LL n
yi i x i 0
i 1 ez
where i
LL n
1 e z
i 1 i x i x i
i 1
e i
x
P x i
1 e
Interprtation des coefficients
(2)
Tapons un modle sans variable explicative et
seulement une constante:
Tapons logit inno et nous trouvons
e1,491
P 0,81
1 e 1,491
Une des difficults dans linterprtation des probabilits est leur non
linarit: elles ne varient pas identiquement selon le niveau des
variables indpendantes.
e1.9228238
P 0,8724
1 e1.9228238
Les effets marginaux (1)
Il est souvent utile de connatre leffet marginal dune variable explicative sur
la probabilit de succs dun vnement.
Puisque la probabilit est une fonction non linaire des variables
explicatives, la variation de la probabilit due un changement dune
variable explicative (ou son effet marginal) ne sera pas identique selon que
les autres variables sont maintenues leur niveau moyen, ou mdian, ou au
premier quartile, etc.
prvalue produit les probabilit prdites aprs un modle logit (ou autre
modle)
prvalue
prvalue , x(size=10) rest(mean) renvoie pour p(Y=1) : 0.1177
prvalue , x(size=11) rest(mean) renvoie pour p(Y=1) : 0.2622
prvalue , x(size=12) rest(mean) renvoie pour p(Y=1) : 0.4862
prvalue , x(size=10) rest(median) renvoie pour p(Y=1) : 0.0309
prvalue , x(size=11) rest(median) renvoie pour p(Y=1) : 0.0781
prvalue , x(size=12) rest(median) renvoie pour p(Y=1) : 0.1841
Les effets marginaux (2)
La commande prchange est bien utile. Elle produit
leffet marginal de chacune des variables explicatives
pour la plupart des variations de valeurs dsires.
prchange
prchange, fromto
prchange , fromto x(size=10.5) rest(mean)
Qualit de lestimation
Il nexiste pas de mesure comparable au R 2 de la rgression linaire.
Cest en comparant deux LL que lon value la qualit dun ajustement, avec
toujours un modle contraint et un modle non contraint.
Le McFadden Pseudo R2
On utilise le McFadden Pseudo R2 (1973) en premire analyse pour
voir la qualit de lajustement. Il sinterprte de manire analogue au
R2. Toutefois, parce quil reste gnralement faible, son utilisation
reste limite.
Pseudo R 2
ln L c ln L nc
1
ln L nc
MF
ln L nc ln Lc
Le rapport de vraisemblance
(LR test)
Le ratio de vraisemblance dpend aussi des maxima de vraisemblance
et suit une loi de 2. La probabilit que les variables indpendantes ne
sont pas explicatives (H0) est donne par le test du 2.
Le rapport de vraisemblance compare une spcification contrainte
une autre non contrainte:
LR 2 ln L nc ln L c
Une grande valeur indique que le modle non contraint apporte une
information significative lvnement que le modle veut expliquer.
Autre utilisation du LR test
Comme output, STATA prsente toujours le LR test, comparant le
modle spcifi avec un modle sans variable explicative et
seulement une constante.
Il faut alors faire une hypothse: quand la probabilit prdite est suprieure
0,5, alors la prdiction est que lvnement a lieu.
n n
Probit : L( y, x, ) f ( yi , xi , ) ( X
) 1 (X )
yi 1 yi
i 1 i 1
n n
Log-log comp : L( y, x, ) f ( yi , xi , ) 1 exp( exp( X
)) exp( exp( X ))
yi 1 yi
i 1 i 1
Exemple
-4 -2 0 2 4
x
Pour les modles logit, probit et cloglog, les effets marginaux ont t valus par une variation dun point
autour de la moyenne, en utilisant les valeurs moyennes des autres variables.
Le modle LOGIT
multinomial
Le modle multinomial
Envisageons maintenant le cas o la variable dpendante est
multinomial. Par exemple, dans la cadre des activits dinnovation de
la firme:
Collabore avec universit (modalit 1)
Collabore avec grande firme (modalit 2)
Collabore avec PME (modalit 3)
Ne collabore pas (modalit 4)
1 P(Y 1| X)
P(Y 2 | X)
ln (2)
0 1 x1 K m x m
(2) (2)
1 P(Y 2 | X)
P(Y 3 | X)
ln (3)
0 1 x1 K m x m
(3) (3)
1 P(Y 3 | X)
O 1 = survie, 2 = banqueroute, 3 = rachat.
1. Ouvrez le fichier mlogit.dta
2. Pour chaque modalit, estimez la probabilit au point moyen de
lchantillon, conditionnelle :
- temps (log_time)
- la taille (log labour)
- lge (entry_age)
- lindicatrice spinout (spin_out)
- lindicatrice cohorte (cohort_*)
Introduction au modle
multinomial
ln
P(Y 1| X)
x K x
(1) (1) (1)
1 P(Y 1| X) 0 1 1 m m
P(Y 2 | X)
ln (2)
0 (2)
1 x 1 K (2)
m xm
1 P(Y 2 | X)
P(Y 3 | X)
ln (3)
0 1
(3)
x 1 K (3)
m xm
1 P(Y 3 | X)
P(Y 1| X) 0.8771
P(Y 2 | X) 0.0398 P(Y k | X)
k
0.9848 1
P(Y 3 | X) 0.0679
Le modle multinomial
P Y j| X 1
j0
P(Y 1| X)
ln (1|0)
0 1
(1|0)
x 1 K (1|0)
m xm
P(Y 0 | X)
P(Y 2 | X)
ln (2|0)
0 1
(2|0)
x 1 K (2|0)
m xm
P(Y 0 | X)
P(Y 1| X)
ln (1|2)
0 1
(1|2)
x 1 K (1|2)
m xm
P(Y 2 | X)
Le modle logit multinomial
Remarquons quil y a redondance dinformation dans les trois modles
prcdents. En effet :
P Y 1| X P Y 2 | X P Y 1| X
ln ln ln
P Y 0 | X P Y 0 | X P Y 2 | X
P Y 1| X 1|0 P Y 2 | X
2|0 P Y 1| X
ln x ;ln x ;ln x 1|2
P Y 0 | X P Y 0 | X P Y 2 | X
x
1|0
x
2|0
x
1|2
e
x
( j|0 )
P Y j| X jk
( j|0 )
x
e
j0
e
x
( j|0 )
P Y j| X jk
( j|0 )
x
e
j0
e
x
( j|0 )
1
P Y j | X P Y 0 | X jk
j k
x x
1 e
( j|0 )
1 e
( j|0 )
j1 j1
Le modle Logit binomial
comme un cas particulier du
logit multinomial
Rcrivons la probabilit de lvnement Y=1
e
x
P Y 1| X
1 e x
e
x
(1|0 )
e
x
(1|0 )
e
x (1|0 )
P Y 1| X
x x e x x
(1|0 ) ( 0|0 ) (1|0 ) ( k|0 )
1 e e e
k 0,1
jK
La fonction de vraisemblance
En dfinitive, la fonction de vraisemblance scrit:
n n k
dYij
L(y) f y i p j
i 1 i 1 j 1
dYi0
dYij
x
( j|0 )
n n
1 k
e
L(y) f yi , x i , ( j|0) j k
j k
i 1 x j 1 x
1 e
( j|0 ) ( j|0 )
i 1
1 e
j1 j1
La fonction de vraisemblance
Aprs manipulation, la fonction log de la vraisemblance scrit
n
k xi ( j|0)
1 e
LL(y, x, ( j|0) ) dyi0 ln dy ij ln
j k
x i ( j|0) j k
x i ( j|0 )
i 1
1 e
j1
1 e
j 0 j 0
n x
k
j k
j k
x
) ln 1 e dy i x i ln 1 e
( j|0 ) ( j|0)
LL(y, x,
( j|0) j ( j|0)
i i
i 1 j 0 j1 j 0
n k k j k
x
) dy x i
ln 1
( j|0)
LL(y, x, k 1
( j|0) j ( j|0)
e
i
i
i 1 j1 j1 j 0
Le modle de logit
multinomial
Instruction Stata : mlogit
Non!!
Linterprtation correcte est:
relativement la survie, la probabilit
de rachat dcroit avec le temps
Interprtation des
coefficients
Linterprtation des coefficients seffectue toujours en rfrence la
catgorie de base.
Non!!
Linterprtation correcte est:
relativement la survie, La probabilit
de rachat est moins forte pour les
spinoffs
Interprtation des
coefficients
1|0 2|0 1|2 2|0 1|0 2|1
Relativement la banqueroute, la
probabilit de rachat est plus forte
pour les spinoffs
Rachat relativement la
banqueroute
Relativement la banqueroute, la
probabilit de rachat est plus forte
pour les spinoffs
Croiser les rfrences
mcross fait le travail pour nous !
Dun point de vue statistique, cela revient faire lhypothse dindpendance des termes
derreur entres les diffrentes modalits (do le nom IIA: Independence of irrelevant
alternatives)
Une faon simple de tester la proprit IIA est alors destimer le modle en retirant une
modalit (pour retreindre les choix), et de comparer les nouveaux paramtres avec ceux du
modle complet
Si IIA est valide, les paramtres ne changent pas significativement
Si IIA nest pas valide, les paramtres changent significativement
Lhypothse dindpendances
des tats non pertinents (IIA)
H0: La proprit IIA est valide
H1: La proprit IIA nest pas valide
1
H R *C var R var *C R *C
mlogtest, hausman
Variable omise
Application de IIA
H0: La proprit IIA est valide
H1: La proprit IIA nest pas valide
mlogtest, hausman
Donc on compare les paramtres du modle
avec
mlogtest, hausman
y 1 si y*n 1
y 2 si 1 y*n 2
y 3 si 2 y*n 3
M
y k si 3 y*k
y*i x i u i
o ui admet une fonction de rpartition F(.). Les probabilits
associes aux ralisations de y (y y*) sont alors lies la fonction
de rpartition de F(.). Regardons la probabilit que y = 1 :
P(y 1) P y*i 1
P(y 1) P x i u i 1
P(y 1) P u i 1 x i
e1 xi
P(y 1) 1 x i
1 e1 xi
La structure ordonne
Regardons la probabilit que y = 2 :
P(y 2) P y*i 2 P y*i 1
e 2 x i e1 xi
P(y 2) 2 x i 1 x i
1 e2 xi 1 e1 xi
P(Y 1) 1 x i
P(Y 2) 2 x i 1 x i
P(Y 3) 3 x i 2 x i
M
P(Y k) 1 k 1 x i
Probabilit dans le modle
ordonn 1 x i 2 x i 3 x i k 1 x i
ui
La fonction de vraisemblance
En dfinitive, la fonction de vraisemblance scrit:
n k dy j
L(y, x, , ) = F( j x i) F( j-1 x i)
i=1 j=1
avec
F( 0 - x n ) 0
F( k - x n ) 1
La fonction de vraisemblance
Dans le cas o ui suit une fonction logistique, la fonction log de
la vraisemblance scrit :
dy j
n k
j xi
j-1 x i
e
e
L(y, x, , ) =
j xi
j-1 x i
i=1 j=1
1 e
1 e
et donc
n k j x i j-1 xi
e e
LL(y, x, , ) = dy ln j
i j xi
j-1 xi
i 1 j1 1 e 1 e
Le logit multinomial
ordonne
Instruction Stata : ologit
Qualit de
lajustement
Paramtres
estims
Points seuils
Interprtation des
coefficients
Un signe positif signifie une relation positive entre la variable explicative et le rang (ou lordre)
Une des difficults dans linterprtation est le rle des variables de seuil. Notre modle est :
P(y 1) P x i u i 1
e 1.95
P(y 1) P 270.5 u i 268.6 1.95
.1245
1 e
P(y 1) P u i 1.9
Interprtation des
coefficients
Quelle est la probabilit que Y = 2 : P( Y = 2) ?
P(y 1) P x i u i 1
e 1.95
P(y 1) P 270.5 u i 268.6 1.95
.1245
1 e
P(y 1) P u i 1.9 P(Y 2) F 2 x i F 1 x i
P(Y 2) .2321 .1245
P(y 1) P x i u i 2
P(Y 2) .1076
e 1.95
P(y 1) P 270.5 u i 269.3 .2321
1.95
1 e
P(y 1) P u i 1.2
Obtenir les probabilit
prdites
prvalue fait le travail pour nous !