CONTEXTE DE LETUDE ................................................................................................................................. 3 1. PRESENTATION DE LA BASE ................................................................................................................ 4 1.1. STATISTIQUES DESCRIPTIVES SUR LES VARIALES SENSIBLES DOPINION ....................... 6 1.2. STATISTIQUES DESCRIPTIVES SUR LES VARIALES SENSIBLES DE CONTEXTE ................. 9 2. DETERMINATION DU MEILLEUR MODELE CONTENANT 3 VARIABLES DE CONTEXTE EXPLICATIVES ET 3 VARIABLES DOPINION EXPLICATIVES .......................................................... 11 2.1. ANALYSE DES LIAISONS ENTRE LES VARIABLES EXPLICATIVES ET LA VARIABLE Q46D ....................... 11 2.2. TOUS LES MODELES POSSIBLES A SIX VARIABLES EXPLICATIVES .......................................................... 15 3. AJUSTEMENT DU MODELE DECOMPOSABLE LE PLUS ADAPTE AUX DONNEES. ............. 16 ANNEXES ........................................................................................................................................................... 20
3 | P a g e
CONTEXTE DE LETUDE
Notre tude est base sur une enqute ralise lors du tour de llection prsidentielle de 2007.Par cette enqute, 5650 personnes ont t choisies selon une mthode de quotas. Nous disposons de 236 variables dans cette base.
Tableau numero1 : Prsentation gnrale de la table
Nous nous intresserons dans ce devoir au choix de vote des lecteurs que nous chercherons expliquer grce aux variables suivantes :
VARIABLES DOPINION
Opinion sur les immigrs (Q17E) Problmes en France (Q12A et Q12B) Chmage (Q14) Dlinquance (Q15) Homosexualit (Q17B) France en dclin (Q18) TV (Q37 et Q38) Mondialisation (Q44) Peine de mort (Q17D)
4 | P a g e
VARIABLES DE CONTEXTE
Diplme le plus lev (RCRS2) Profession (RCRS7) Origine Parents (RCRS13) Tranche dge (RAGE) Sexe (SEXE) Grande rgion (GR) Situation professionnelle (RRS8) Situation familiale (Q48) Religion (RCRS15)
Afin dexpliquer le choix de vote des lecteurs, nous allons en premier lieu slectionner le meilleur modle avec 6 variables explicatives (3 variables de contexte et 3 variables explicatives dopinion) pour ensuite ajuster le modle dcomposable le plus adapt aux donnes. Enfin nous en dduirons une description de la motivation du vote.
1. PRESENTATION DE LA BASE
Notre base contient 5650 observations et a 236 variables. Nous nous intresserons 20 dentre elles (9 variables de contexte et 11 variables dopinion) dans un premier temps, pour ensuite en retenir 6 variables, 3 de chaque cte. Elles seront choisies de faon expliquer le mieux possible le choix de vote des lecteurs. Dfinissant tout dabord les modalits de chaque variable et leur ventuel regroupement ainsi que leur recodage. Notre variable expliquer est le rsultat des votes des lections prsidentielles de 2007 pour le candidat Buffet(Q46D).
5 | P a g e
La rpartition des modalits de vote de cette variable se rpartissent de la faon suivante :
Tableau numro 2 : Rpartition des modalits de vote
Graphique numro 1 : Proportions sur la rpartition des modalits de vote
On nobserve que notre candidat a une majorit de 67% dtre pas probable du tout tre propos pour le vote. Au contraire, juste 3% des votants sont tout fait probable de la designer aux lections prsidentielle En regardant la reparution binaire de notre variable, Y=1 si vote tout a fait probable ou plutt probable Y=0 sinon 3% 11% 19% 67% 0% 0% Rpartition des modalits de vote pour la candidate Buffet Tout fait probable Plutt probable Plutt pas probable Pas probable du tout Ne connat pas Nsp
6 | P a g e
Graphique numro 2 : Proportions sur la rpartition de la variable expliquer En analysant notre variable binaire, on constate que juste 14.00 % des lecteurs sont susceptibles voter pour la candidate Buffet. Avant de passer la rgression logistique on va tudier en sortant des statistiques descriptives les variables sensibles dopinion et aussi du contexte. Apres cette section on va passer la rgression logistique pour slectionner en utilisant les critres AIC, BIC les 3 variables du contexte et les 3 variables dopinion ayant comme but la construction du rseau baysien. 1.1. STATISTIQUES DESCRIPTIVES SUR LES VARIALES SENSIBLES DOPINION
La variable dfinissant lopinion sur le fait quil y ait trop dimmigrs en France se prsente de la faon suivante (Q17E) Variable Opinion sur les immigrs (Q17E) :
Graphique numro 3 : Proportions sur la rpartition de lopinion sur les immigrs
14% 86% Rpartition de la varibale expliquer (Q46D) pour la candidate Buffet y=1 Y=0 21% 28% 25% 25% 1% Trop d'immigrs en France? Tout fait d'accord Plutt d'accord Plutt pas d'accord Pas du tout d'accord Nsp
7 | P a g e
Nous remarquons que lopinion sur le fait quil y a trop dimmigrs en France reste partage. Cependant, juste 21% des lecteurs sont tout fait daccord . Le recodage est de la faon suivante : Pas du tout daccord Plutt pas daccord -Plutt daccord , Tout fait daccord La variable dfinissant une opinion sur lhomosexualit (Q17B), savoir, sils sont daccord ou non :
Variable Homosexualit (Q17B) :
Graphique numro 4 : Proportions sur la rpartition de lopinion sur les immigrs Les lecteurs pensent en gnral que lhomosexualit est tout fait normale dans une proportion de 44%. De plus, 34% dentre eux pensent que cela est plutt normal. La variable dfinissant le risque des lecteurs dtre au chmage (Q14) se rpartie de la faon suivante : Variable Chmage (Q14) :
Graphique numro 5 : Proportions sur la rpartition de lopinion sur le chmage 30% des lecteurs sont daccord avec le fait davoir un taux de chmage qui reste stable, 28% considrent que le taux de chmage est un peu augment. Plus ou moins dans la mme 44% 34% 8% 13% 1% Homosexualit : acceptable? Tout fait d'accord Plutt d'accord 18% 28% 30% 22% 1% 1% Chmage ces derniers mois : a augment? Beaucoup augment Un peu augment Rest stable Un peu diminu
8 | P a g e
proportion, 22% des lecteurs considrent que le chmage a diminu lentement. A l extrme, on a 21% des lecteurs qui disent que le chmage a beaucoup augment.
Variable Mondialisation (Q44) : La variable dfinissant lattitude face la mondialisation (Q44) se rpartie de la faon suivante :
Graphique numro 5 : Proportions sur la rpartition de lopinion sur le chmage
44% des lecteurs sont dopinion que la mondialisation porte un danger pour le pays. Ceux qui la considre comme une chance et ceux qui ne lui donnent pas beaucoup dimportance sont relativement moins importants avec une proportion respective de 25% et de 31%.
25% 44% 31% 0% Opinion sur la mondialisation Une chance Un danger Ni l'un, ni l'autre Nsp
9 | P a g e
1.2. STATISTIQUES DESCRIPTIVES SUR LES VARIALES SENSIBLES DE CONTEXTE
Variable Diplme le plus lev : La variable se rfrant au diplme le plus lev (RCRS) se rpartie de la faon suivante :
Graphique numro 6 : Proportions sur la rpartition du niveau de diplme Tous les diplmes semblent tre bien reprsents dans notre base. Les lecteurs qui favorisent notre candidat ont un diplme de BEPC, CAP, BEP avec une proportion de 37% de la population totale ; 28% dentre eux nont pas de diplme ou juste un certificat dtudes, par contre 11% des lecteurs probables pour la candidate Buffet disposent dun diplme de lenseignement suprieur. La variable tranche dges La variable reprsentant les ges des lecteurs (age4) se rpartie de la faon suivante :
Graphique numro 7 : Rpartition des ges des votants
28% 37% 15% 9% 11% Niveau de diplme (recodage) Sans diplme, certificat d'tudes BEPC, CAP, BEP Baccalaurat Niveau Bac+2 Diplme de l'enseignement suprieur 11% 18% 28% 21% 22% Tranche d'ge 18-24 ans 25-34 ans 35-49 ans 50-64 ans 65 ans et plus
10 | P a g e
Toutes les tranches dge sont bien reprsentes dans notre base. La population 35-49 ans est majoritaire avec une proportion de 28% de tous nos lecteurs. La variable SEXE La variable dfinissant le sexe de llecteur (SEXE) se rpartie de la faon suivante :
Graphique numro 8 : Rpartition de sexes La proportion entre les hommes et les femmes est assez bien rpartie. Ainsi 52% des femmes et 48% dlecteurs hommes ont une prfrence pour la candidate Buffet La variable Situation familiale La variable dsignant la situation familiale des individus (Q48) se rpartie de la faon suivante :
Graphique numro 6 : Rpartition de statut situation familiale Dans 50% des cas, les lecteurs sont maris ou vivent maritalement. Nous regrouperons cette variable en 8 modalits comme reprsent dans le tableau ci-dessus. 48% 52% Sexe HOMME FEMME 20% 50% 13% 1% 5% 1% 9% 1% 0% Situation familiale Clibataire Mari(e) Vivant en couple sans tre mari(e) Pacs(e) Divorc(e) ne vivant pas en couple Divorc(e) vivant en couple
11 | P a g e
2. Dtermination du meilleur modle contenant 3 variables de contexte explicatives et 3 variables dopinion explicatives
Notre variable expliquer est de nature polytomique car elle est qualitative avec plus de 2 modalits. De plus, elle est ordonne. Ainsi, nous allons utiliser la procdure LOGISTIC ou CATMOD de SAS afin de dterminer le meilleur modle contenant 6 variables explicatives parmi les variables dfinies prcdemment. Cependant, avant de commencer une quelconque analyse, nous allons vrifier grce la PROC FREQ de SAS et son option du Chi2 si les variables ont une liaison avec notre variable expliquer. Le programme est le suivant proc freq data=enl.data; table Q46D *(RCRS2 RCRS7 RCRS13 RAGE SEXE GR RRS8 Q48 RCRS15) / chisq noprint; run;
2.1. Analyse des liaisons entre les variables explicatives et la variable Q46D
Avant de passer la modlisation, nous vrifions dabord par un test dindpendance de KHI2, et voir si les variables explicatives sont lies ou pas avec la variable explique VOTE=1 ou 0 ( qui est recod travers la variable Q46D).
Nous testons lhypothse :
H0 : il y a indpendance entre les variables
contre lhypothse alternative
H1 : les variables ne sont pas indpendantes
12 | P a g e
Voici les rsultats du test :
VARIABLE DE CONTEXT PROB chi deux Indpendance Diplme le plus lev (RCRS2)
<0.001 NON Profession ( RCRS7)
<0.001 NON Origine Parents ( RCRS13)
0.217 OUI Tranche dge ( RAGE)
<0.001 NON Sexe (SEXE)
0.0111 NON Grande rgion (GR)
<0.3241 OUI Situation professionnelle (RRS8)
<0.001 NON Situation familiale (Q48)
<0.001 NON Religion (RCRS15)
<0.001 NON Tableau numro 3 : Exclusion de variables de contexte VARIABLE DOPINION Valeur chi deux Indpendance Opinion sur les immigrs (Q17E)
<0.001 NON Problmes en France (Q12A et Q12B)
<0.001 <0.001 NON Chmage (Q14)
<0.001 NON Dlinquance (Q15)
0.1827 OUI Homosexualit (Q17B)
<0.001 NON France en dclin (Q18)
0,6773 OUI TV (Q37 et Q38)
0.0002
<0.0001 NON Mondialisation (Q44)
<0.001 NON Peine de mort (Q17D)
<0.001 NON Tableau numro 4 : Exclusion de variables dopinion
13 | P a g e
Nous remarquons que les variables qui nont pas de lien avec notre variable expliquer sont : origine parents, grande rgion, dlinquance et France en dclin. Afin de dterminer les variables qui expliquent le plus le vote, nous allons effectuer une procdure LOGISTIC avec loption BACKWARD, qui va permettre dliminer automatiquement les variables qui ne semblent pas influencer le choix de vote. Le programme est le suivant : proc logistic data=enl.data1; class y RCRS2 RCRS7 RAGE SEXE RRS8 Q48 RCRS15 Q17E Q12A Q12B Q14 Q17B Q37 Q38 Q44 Q17D ; model y=RCRS2 RCRS7 RAGE SEXE RRS8 Q48 RCRS15 Q17E Q12A Q12B Q14 Q17B Q37 Q38 Q44 Q17D / ctable selection=backward; run;
Les rsultats du test sont les suivants: Tableau numro 5 : Les variables retenues aprs avoir fait la PROC LOGISTIC, option BACKWARD Ainsi, il reste 7 variables explicatives (4 variables de contexte) et 3 variables dopinion dans notre tude soit diplme le plus lev, sexe , situation professionnelle , situation familiale , TV et homosexualit , peine de mort . On garde dj les variables dopinion , TV et homosexualit , peine de mort .
Afin de dterminer le meilleur modle avec 3 variables explicatives de contexte, nous allons comparer les diffrents modles possibles grce aux critres AIC et SBC. Le meilleur
14 | P a g e
modle est celui qui a ces critres les plus faibles. La macro suivante nous permet de dfinir les 4 modles possibles : %macro logist(var1,var2,var3,var4,var5,var6);
proc logistic data=enl.data1;
class y &var1 &var2 &var3 &var4 &var5 &var6;
model y=&var1 &var2 &var3 &var4 &var5 &var6 / ctable;
run;
quit;
%mend;
Modle1 : %logist( diplme, sexe, profession, TV homosexualit peine de mort );
Modle2 : %logist( diplme, sexe, famille, TV , homosexualit , peine de mort );
Modle3 : %logist(diplme, profession, famille, TV ,homosexualit, peine de mort );
Modle4 : %logist(sexe, profession, famille, TV ,homosexualit, peine de mort );
Nous allons tenter une autre mthode pour dterminer clairement le meilleur modle six variables explicatives.
15 | P a g e
2.2. Tous les modles possibles six variables explicatives
Comparaison des modles en utilisant les critres AIC et SBC :
Modle AIC SC -2log 1 4463.36 4642.768 4409.542 2 4467.010 4659.512 4409.010 3 4469.728 4695.440 4401.728 4 4478.741 4684.519 4416.741 Tableau numro 6 : Comparaison des modles Le modle 1 a les critres les plus faibles. Nous le retiendrons donc comme le modle qui a les 6 variables qui expliquent le mieux le vote pour la candidat Buffet, soit diplme, sexe, profession, TV homosexualit peine de mort . Le modle 1 retenu :
Tableau numro 7 : Significativit de variables
Tableau numro 7: Test de nullit global des coefficients
16 | P a g e
3. Ajustement du modle dcomposable le plus adapt aux donnes.
Les modles dcomposables sont des modles graphiques (sous-ensemble des modles hirarchiques, dtermins uniquement par lannulation dinteraction dordre 2) ne contenant pas de cycle suprieur ou gal quatre, non triangularisable. Le principe est que nous partons dun modle satur, cest dire, un modle qui contient toutes les interactions possibles, et nous enlevons au fur et mesure toutes les interactions qui ne sont pas significatives au seuil de 5% pour lesquelles aucune interaction dordre suprieure les contenant nest significative au mme seuil. Ensuite, il faut vrifier que le modle obtenu est mieux que le modle satur laide du ratio de la vraisemblance. Grce la macro suivante, nous allons pouvoir estimer les modles dcomposables : %let a=y; %let b=RCRS2; %let c=SEXE ; %let d=RRS8 ;
%macro decomposable (m,n,o,p,q,r,s,t); proc catmod data=enl.data1; model y*RCRS2*SEXE*RRS8=_response_ / noresponse noparm itprint; loglin &m|&n|&o &p|&q|&r; title ''&m*&n*&o &p*&q*&r sans &s*&t''; run; quit; %mend decomposable;
Les rsultats des significativits des modles sont rsums dans le tableau suivant grce au Likehood Ratio :
17 | P a g e
Modle dcomposable avec les variables de contexte Interaction non prise en compte DF Chi-2 P-Value y*SEXE 1 0.02 0.8874 Y*Diplme le plus lev 4 7.14 0.1288 Y*Situation professionnelle 5 13.18 0.0217 Diplme le plus lev *SEXE 4 12.65 0.0131 SEXE* Situation professionnelle 6 71.65 <.0001 Situation professionnelle * Diplme le plus lev 20 831.66 <.0001 Tableau numro 9: significativit des modles pour les variables de contexte
Quatre modles sont globalement significatifs 5%. Afin de choisir le meilleur modle dcomposable, nous allons comparer les critres la log vraisemblance des quatre modles avec les interactions significatives sachant quils ont tous les deux le mme nombre dobservations et le mme nombre de paramtres. Le meilleur modle est celui qui a la log vraisemblance la plus leve.
Modles -2*log-vraisemblance Sans Y*Situation professionnelle 52908.083 Sans Diplme le plus lev *SEXE 44497.343 Sans SEXE* Situation professionnelle 42731.53 Sans Situation professionnelle * Diplme le plus lev 42575.329
Daprs le tableau ci-dessus on gardera le modle sans linteraction (Y*Situation professionnelle).
18 | P a g e
Modle dcomposable avec les variables dopinion Interaction non prise en compte DF Chi-2 P-Value Y*Homosexualit 4 4.46 0.3473 Y*TV 7 7.99 0.3334 Y*Peine de mort 4 2.57 0.6318 Homosexualit*TV 27 48.52 0.0067 Homosexualit*peine de mort 16 159.39 <.0001 TV*Peine de mort 26 72.11 <.0001 Tableau numro 10: significativit des modles pour les variables dopinion
Trois modles sont globalement significatifs 5%. Afin de choisir le meilleur modle dcomposable, nous allons comparer les critres la log vraisemblance des trois modles avec les interactions significatives sachant quils ont tous les deux le mme nombre dobservations et le mme nombre de paramtres. Le meilleur modle est celui qui a la log vraisemblance la plus leve Modles -2*log-vraisemblance Sans Homosexualit*TV 62438.767 Sans Homosexualit*peine de mort 53608.295 Sans TV*Peine de mort 50395.186
Daprs le tableau ci-dessus on gardera le modle sans linteraction (Homosexualit*TV).
19 | P a g e
Ainsi nous considrerons que la reprsentation graphique du meilleure modle dcomposable ajustable est le suivant.
VARIABLES DE CONTEXTE
VARIABLES DOPINION
Diplme Sexe Situation familiale Vote Homosexualit TV Peine de mort Vote
20 | P a g e
ANNEXES
libname ENL 'C:\Users\e0g411l028o\Desktop\ENL';
proc contents data=enl.data; run;
proc freq data=enl.data; table Q46D; run;
data enl.data1; set enl.data; vote=put(Q46D,best12.); run;
proc sql; select distinct vote, Q46D from enl.data1; quit;
/*la variable binaire expliquer (Y)*/ data enl.data1; set enl.data1; if vote in (1,2) then y=1; else y=0; run;
/* la variable expliquer*/ proc freq data=enl.data1; table y; run;