Documente Academic
Documente Profesional
Documente Cultură
S(X) 0 alors
Y = 0, ie que lemprunteur est non risqu, il est donc considr comme
bon.
S(X) 0 alors
Y = 1, ie que lemprunteur est risqu, il est mauvais client.
La construction de ce scoring a gnr un seuil s= 80.3. En supposant que la politique cono-
mique de la First Bank est de ne pas prendre de risque ie on est au seuil de 80.3, alors on a la
rgle de dcision suivante :
Si
S(X) 80.3, alors le client est considr comme non risqu ie bon.
Si
S(X) 80.3, alors le client est peut-tre risqu car ici on rencotre les bons et les
mauvais clients.
Il est possible de faire encore varier ce seuil, cela signie quon accrot le risque et lerreur.
Lexamen statistique de la situation conomique et nancire des entreprises (emprunteurs),
en vue de la dtection prcoce des difcults de la clientle, est extrmement fructueux. Par
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
12
lanalyse multicritres, il permet la construction dun scoring qui fournit une image synthtique
du prol de lentreprise empreunteuse. Celui-ci est, dans la trs grande majorit des cas, rv-
lateur de la sant de lentreprise. Si un tel outil ne peut se substituer au jugement de lexpert,
il peut contribuer linformer rapidement sur le niveau de risque de lentreprise et concourir
au diagnostic, grce aux aides linterprtation qui laccompagnent. Lanalyste pourra alors se
concentrer sur des aspects plus dlicats et moins quantiables de lvaluation, en particulier les
aspects qualitatifs. Ainsi, expertise et utilisation dun scoring ne sont pas contradictoires ; au
contraire, elles se compltent et permettent dafner lanalyse du risque de crdit. De mme,
lorsque plusieurs outils dvaluation du risque sont disponibles, gnralement fonds sur des
systmes dinformation diffrents, il est trs fructueux de les examiner tous. En effet, les rensei-
gnements quils apportent relativisent les points de vue, accroissent la abilit de la prvision
et renforcent le diagnostic.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
INTRODUCTION
Contexte et problmatique
Le risque de crdit[6] est le risque (vu comme une probabilit) que lemprunteur ne rem-
bourse pas sa dette en partie ou en totalit, lchance xe. De nos jours, sa matrise est
lune des principales proccupations pour la plupart des organismes bancaires, notamment via
les crances quelles accordent leurs clients, qui sont pour la plupart des formes de prt court
terme, et pour cette raison, de nombreuses banques sont aujourdhui amenes lintgrer dans
leur gestion an de le minimiser. Ce risque est en effet lourd de consquences pour la banque,
car toute dette non rembourse est conomiquement une perte sche que supporte le crancier.
Comptablement parlant, les crances et emprunts accords des tiers constituent ainsi un poste
spcique dans le bilan de lentreprise et toute volution ngative obre dautant la survie de
lentreprise moyen ou long terme. Trs tt, les tablissements bancaires ont donc cherch
simmuniser contre ce risque de crdit. En amont, ce risque peut faire lobjet dune valuation
grce diffrents critres et des techniques mlant calcul et intuition. Suite cette valuation,
les banques disposent ensuite de diffrents moyens de protection pour minimiser, voire annuler
ce risque conomique.
Dans le cadre de leur fonction dintermdiation nancire, les banques sexposent au risque
de ne pas recouvrir la totalit des fonds engags dans les dlais impartis. La First Bank, 4
me
banque en total du bilan au Cameroun en 2006, a d constituer FCFA 4 milliards de provisions
pour faire face aux mauvaises crances au titre du mme exercice, pour un rsultat net(RN) dex-
ploitation de FCFA 1 milliard[3]. Ce qui reprsente un taux moyen de crances en souffrance
ou taux dimpays denviron 17% (taux suprieur la moyenne nationale qui est de 12%). Les
crances douteuses ont ainsi pes assez lourd sur ce rsultat net qua connu la First Bank. Il
savre ds lors indispensable de mettre en place des moyens efcaces qui puissent permettre
autant quil est possible de rduire les risques lis aux crdits accords par la First Bank, faute
de pouvoir les viter compltement. Cest la raison pour laquelle lun des ds conomiques
majeurs pour la First Bank en 2007 est rduire de manire considrable ces impays.
Le march du crdit bancaire mettant en relation le banquier et le client emprunteur est
caractris par une imperfection dinformation, source de rationnement du crdit aux yeux de
Christophe Godlewski[11]. Le banquier se doit ainsi de chercher les moyens efcaces qui lui
permettent de bien faire la slection de ses clients. La pratique de cette slection ncessite que
le banquier dispose dau moins deux choses : linformation sur les clients, et une technique
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
14
objective de slection elle-mme. Pour dtenir cette information, il y a une source ofcielle
reprsente par les documents comptables et sociaux, et une source prive ncessitant que le
banquier soit effectivement en relation avec lemprunteur. Pour analyser linformation quun
banquier dtient sur ses clients, on dispose la First Bank dune mthode subjective dont
les exigences majeures sont le jugement et le bon sens, ce qui ne permet pas la First Bank de
dceler judicieusement les clients susceptibles de ne pas honorer leurs engagements avec la
banque. Ainsi, Pour analyser linformation que le banquier dtient sur son client, il faut trouver
une autre approche complmentaire pour ltude des dossiers de crdit, amlioratrice du taux
dimpays. Ceci passe objectivement par la mise sur pied dun modle statistique dvaluation
du risque de non remboursement (risque de crdit) des emprunteurs de la First Bank.
Lutilisation de la statistique pour tudier les dossiers de demande de crdit passe par un travail
de synthse dune grande masse dinformations collecte dans le pass. En effet, les techniques
statistiques permettent de retracer le prol des bons clients et des mauvais clients travers leur
pass partir duquel il est possible de pronostiquer le risque de dfaut dun nouveau client.
Si un modle dvaluation est utilis, les variables discriminantes contenues dans ce modle
doivent tre statistiquement reprsentatives. La abilit du modle et ses paramtres doivent
tre contrls priori (mesure de la performance prdictive) et posteriori (back-testing).
Enjeu :
La mesure du risque de crdit sur les emprunteurs est un enjeu important, surtout lorsquil
sagit des besoins traditionnels tel que le crdit bancaire. La ncessit pour les banques de dis-
poser doutils ables est encore plus forte dans la priode actuelle de monte du risque de crdit
et de doutes sur les comptes de la clientle. La ralisation dun modle de notation statistique
doctroi de crdit par le scoring (credit scoring) est dune grande importance en ce sens que
sa capacit de pronostiquer facilite lvaluation des risques des candidats aux microcrdits. Le
credit scoring est objectif, cohrent et explicite, il permet de quantier le risque comme proba-
bilit et suppose quune bonne partie des risques est lie aux caractristiques quanties dans
la base de donnes.
Plan de travail :
Notre travail est divis en cinq principaux chapitres. Le squelette se prsente comme suit :
dans un premier temps, nous prsentons la banque Afriland First Bank, sa Direction des Etudes
et du Corporate Banking(DECB) et les diffrents risques auxquelles font face la plupart des
banques en mettant un accent particulier sur le risque de crdit. La description de nos donnes
fait lobjet du chapitre deux. Le chapitre trois est consacr un expos sur quelques applications
statistiques version paramtrique du credit scoring savoir la rgression logistique et la discri-
mination linaire-quadratique au sens de Fisher, ensuite un quatrime chapitre est consacr
la technique pratique de construction et reprsentation dun scoring, on fait varier le seuil s de
discrimination et on propose un algorithme pour estimer les mal classs lors de la prdiction,
il sagit des erreurs de premire et deuxime espce. Le chapitre cinq enn, est essentiellement
port sur les applications informatiques via le logiciel R des diffrentes mthodes annonces
aux chapitres trois et quatre, en essayant dinterprter les sorties obtenues. Un paragraphe pour
les recommandations y est insr la n pour conclure ce travail.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
CHAPITRE PREMIER
PRESENTATION DE LA
STRUCTURE DACCUEIL ET
CONCEPT DE RISQUE BANCAIRE
Ce premier chapitre de notre travail est dune part consacr une prsentation sommaire de
la structure dans lequel nous avons effectu notre stage acadmique. Dautre part, on y prsente
dans sa gnralit le concept de risque bancaire en y mettant un accent particulier sur le risque
de crdit, la raison dtre de notre travail.
1.1 Prsentation de la structure daccueil
1.1.1 Afriland First Bank
Afriland First Bank est un tablissement bancaire de 6 500 000 000 FCFA de capital social.
Cest une Socit Anonyme (SA) dont lhistoire remonte au 4 octobre 1987, date de cration
de la Caisse Commune dpargne et dInvestissement (CCEI) qui allait tre rebaptise Afriland
First Bank en abrg First Bank 15 annes plus tard. Son sige social est Yaound. Le tableau
1.1 prsente les principales caractristiques de la First Bank.
Notre stage sest droul au sige social de la First Bank Yaound, prcisment au sein
de la Direction des tudes et du Corporate Banking (DECB) dont les missions et lorganisation
sont sommairement prsentes dans les lignes qui suivent :
1.1.2 La Direction des Etudes et du Corporate Banking(DECB)
a- Les missions de la DECB
Plusieurs missions sont assignes la DECB, notamment :
ltude de faisabilits des projets ;
lvaluation des entreprises ;
ltude de la restructuration des entreprises ;
llaboration dune banque de donnes conomiques et statistiques ;
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
PRESENTATION DE LA STRUCTURE DACCUEIL ET CONCEPT DE
RISQUE BANCAIRE 16
TAB. 1.1 Fiche didentication de Afriland First Bank
Raison sociale : Afriland First Bank
Forme juridique : S.A
Sige social : Yaound, Hippodrome, Place de lindpendance,
B.P : 11834
Tel. : 22 23 30 68 / 22 22 37 34/22 23 63 27
Fax : 22 22 17 85
Telex : 8907 KN
Web : www.afrilandrstbank.com
Capital social : 6 500 000 000 F CFA
Vocation : La volont dtre et de rester une banque africaine
Ambitions :
- rester le partenaire de lentreprise gagnante ;
- entretenir la amme de linnovation;
- rester la banque de proximit ;
- nourrir la croissance par une bonne liquidit.
Source :www.afrilandrstbank.com
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
PRESENTATION DE LA STRUCTURE DACCUEIL ET CONCEPT DE
RISQUE BANCAIRE 17
lanalyse des lires conomiques ;
lalimentation permanente de la banque des projets ;
lorganisation / le conseil / le suivi des entreprises ;
la gestion des lignes de nancement ;
la promotion des entreprises ;
la promotion des fonds de garanties mutuelles ;
la recherche des solutions aux problmes spciques de nancement des entreprises ;
la recherche des subventions pour le nancement du suivi/conseil des entrepreneurs ;
la recherche des lignes de nancement moyen et long terme ;
la recherche des partenaires trangers ainsi que lassistance technique pour les projets ;
le dveloppement des diverses relations avec les bailleurs de fonds ;
la promotion et le suivi des microstructures ;
la gestion du portefeuille des participations locales.
b- Lorganisation de la DECB
La DECB est dirige par un directeur qui en assure le suivi et la gestion. Elle comprend trois
Dpartements :
Le Dpartement Micro banque organis en cinq divisions :
la Division Micro banque Ouest et Nord-ouest ;
la Division Micro banque Grand Nord ;
la Division Micro banque Littoral, Est et Sud-Ouest ;
la Division Micro banque Sud-Centre ;
la Division Audit
Le Dpartement des tudes, des Projets et des Investissements avec trois divisions :
la Division des tudes ;
la Division des Projets et Investissements ;
la Division Documentation et Archivage.
Le Dpartement du Corporate Banking et des Marchs Financiers qui comprend trois
divisions :
la Division des Marchs Financiers ;
la Division Asset Management / Gestion Actif ;
la Division du Corporate Banking
1.1.3 Contexte de ltude
Le dispositif actuel dtude des dossiers de crdit la First Bank
Le remploi des ressources collectes au titre des crdits accords aux agents conomiques
besoin de nancement est la raison dtre de la First Bank. En effet, plusieurs types de clients,
personnes physiques ou morales peuvent, au besoin, solliciter le concours de la First Bank pour
le nancement de leurs projets ou diverses activits conomiques.
Cependant, la First Bank ne rpond pas favorablement toutes les demandes exprimes
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
PRESENTATION DE LA STRUCTURE DACCUEIL ET CONCEPT DE
RISQUE BANCAIRE 18
par ses clients potentiels. Seuls les clients jugs aptes retourner les fonds reus aux condi-
tions convenues peuvent tre nancs. Cette aptitude respecter ses engagements vis--vis de
la banque svalue travers ltude des dossiers de demande de crdit introduits par les clients
auprs de la banque. Cette tude est conduite respectivement par les analystes, les contre ana-
lystes des dossiers de crdit et les comits de crdit.
a. Les analystes et les contre analystes des dossiers de crdit
Les analystes des dossiers de crdit dbutent lanalyse de tout dossier de crdit introduit auprs
de la First Bank par les clients. Mais, paralllement cette analyse des dossiers de demande de
crdit, les analystes assurent le conseil et lorientation du client an de lui permettre de bien
circonscrire lobjet de sa demande.
Ce dbut danalyse consiste notamment :
faire une description des caractristiques du client et de son besoin exprim ;
faire ltat de la situation des engagements en cours du client vis--vis du systme ban-
caire en gnral, et en particulier ses engagements vis--vis de la First Bank ;
dcrire le projet objet de la demande, et en analyser les risques, la rentabilit et la solva-
bilit ;
recenser les types de garanties que le client propose pour la couverture dventuels enga-
gements de la banque ;
rsumer les points forts et les points faibles susceptibles dorienter une apprciation du
dossier en traitement ;
faire une proposition de dcision vis--vis du nancement sollicit par le client, ainsi que
les conditions de banque que sont lchance, les garanties, le mode damortissement du
crdit et le taux dintrt.
Ce travail des analystes est par la suite prsent un contre analyste pour des critiques en vue
de son amlioration. Le dossier tudi par lanalyste et le contre analyste est alors prt tre
prsent aux comits de crdit pour son apprciation.
b. Les comits de crdit
Ce sont les seules instances mme de valider dnitivement un dossier de crdit devant bn-
cier du concours de la banque dans les limites de leurs comptences. Il y a cet effet 5 comits
de crdit chacun habilet valider les dossiers de crdit portant des montants compris dans un
intervalle donn. Un autre critre distinctif de ces comits est la qualit des membres.
Le comit 1 commence lanalyse de tout dossier tudi par lanalyste et le contre analyste.
Les membres dbattent du dossier de crdit sur la base dune che danalyse rdige par lana-
lyste. Il valide la demande de nancement en reprcisant les conditions de banque (chance,
garanties et taux), ou la rejette, si le montant se trouve dans les limites de ses comptences. Si
non, il donne son avis, favorable ou non, pour le nancement du besoin du client, puis transmet
le dossier au comit 2 qui suit le mme processus. Cette dmarche se poursuit jusquau comit
5 pour les montants des crdits pour lesquels les 4 premiers comits ne peuvent se prononcer
dnitivement. Enn, notons que la dcision de chaque comit est motive, et accompagne
dun procs verbal.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
PRESENTATION DE LA STRUCTURE DACCUEIL ET CONCEPT DE
RISQUE BANCAIRE 19
1.2 Concept de risque bancaire :
Dans cette partie, nous abordons sommairement le concept de risque bancaire et nous nous
articulons essentiellement sur la zoologie du risque nancier.
La principale mission des banques est dassurer la fonction dintermdiaire nancier. Lors-
quune banque combine des ressources dorigines diverses pour nancer plusieurs emplois dis-
tincts, cette fonction est qualie dallocation. Cette fonction dintermdiation dans un environ-
nement instable fait ainsi supporter ltablissement nancier quatre types de risques [7] :
1.Les risques commerciaux : ce sont les risques rsultant de linsolvabilit dun acheteur
priv dans le cadre dune vente de marchandises ou dune prestation de service, ou dun four-
nisseur priv dans le cadre dune opration de prnancement. La couverture de ce risque peut
tre limite linsolvabilit juridiquement constate ou largie linsolvabilit de fait (prsu-
me) ou la carence pure et simple (dfaut).
2.Les risques de positionnement concurrentiel : Cest un type de risque principalement ca-
ractris par la situation dun produit ou une entreprise produit unique par rapport la concur-
rence et de pouvoir tirer les enseignements qui simposent quant la position concurrentielle
de la rme et lattrait du march.
3.Les risques oprationnels : Ce sont les risques que lorganisation, ses acteurs et lenviron-
nement externe font courir la banque. Ils se dcomposent en 4 sous-ensembles :
Le risque li au systme dinformation : dfaillance matrielle, bogue logiciel, obsoles-
cence des technologies (matriel, langages de programmation, SGBD,..).
Le risque li aux processus (saisies errones, non respect des procdures,. . . ) ;
Le risque li aux personnes (absentisme, fraude, mouvements sociaux,. . . mais aussi
capacit de lentreprise assurer la relve sur les postes cls) ;
Le risque li aux vnements extrieurs (terrorisme, catastrophe naturelle) .
4. Les risques nanciers : Ce sont les plus importants, ces risques, pouvant entraner des pertes
srieuses pour la banque, doivent tre pris en compte dans sa gestion interne. On en distingue
six principaux types :
Le risque de liquidit, pour une banque, reprsente lventualit de ne pas pouvoir faire
face, un moment donn, ses engagements ou ses chances.
Le risque de tauxdun tablissement nancier est celui de voir sa rentabilit ou la valeur de
ses fonds propres affectes par lvolution des taux dintrt,
Le risque de march est le risque de pertes sur les positions du bilan et du hors bilan la
suite de variations des prix de march.
Le risque de change traduit le fait quune baisse des cours de change peut entraner une
perte de valeur libelle en de vises trangres.
Le risque de solvabilit est lventualit de ne pas disposer de fonds propres sufsants pour
absorber les pertes ventuelles.
Le risque de crdit ou de contrepartie : cest le risque pour un crancier de perdre d-
nitivement sa crance dans la mesure o le dbiteur ne peut pas, mme en liquidant lensemble
de ses avoirs, rembourser la totalit de ses engagements.
Ce dernier est la principale typologie de risque laquelle sont confronts les tablissements
de crdit (banque) de nos jours. Le crdit comporte toujours un certain degr de risques. La
banque ne peut les liminer totalement, mais plutt en les mesurant correctement, elle doit
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
PRESENTATION DE LA STRUCTURE DACCUEIL ET CONCEPT DE
RISQUE BANCAIRE 20
pouvoir les grer, par exemple les couvrir sils sont importants. Lorsque la banque octroie un
crdit, elle pose un acte de conance vis--vis du dbiteur. Faire crdit, cest essentiellement
faire conance : la banque croit au remboursement ultrieur de la somme emprunte. Mais il
ny a jamais de certitude absolue que le dbiteur remboursera dans les dlais convenus. Cest
la raison pour laquelle la gestion du risque de crdit requiert une attention de grande envergure
car le contraire pourrait entraner la faillite de la banque.
1.2.1 Le risque de crdit : veiller aux dfauts de paiement[13]
Lvnement risqu est le non-respect par un client ou par une contrepartie de ses obli-
gations nancires ou, de manire plus gnrale, la dtrioration de la qualit crdit de cette
contrepartie. Tout produit bancaire pour lequel un dfaut de paiement du client entranerait une
perte pour la banque doit donc faire lobjet dun calcul de risque crdit. Lhorizon de temps per-
tinent pour le risque de crdit stale donc jusqu lexpiration des contrats, mais il est souvent
ramen un an, priode de recapitalisation de la banque.
1.2.2 Le risque de crdit : niveaux de gestion[7]
Le risque de crdit est gr plusieurs niveaux :
1- Les systmes de gestion des limites permettent de diversier le risque et dviter la
concentration des encours crdit sur un pays (risque gogure), un secteur conomique, un
groupe international, etc.
2-Les systmes de scoring valuent la probabilit de dfaut de paiement pour un client ex-
ante (avant mme de lui octroyer le crdit) ; ces systmes sont souvent bass sur des statistiques
de dfaillances et permettent de segmenter les clients suivant le risque.
3- Un systme de gestion de portefeuille, au-del des systmes utiliss pour loctroi du
crdit, permet doptimiser les transactions. La notion de pertes moyennes intervient nouveau,
mais couple la notion de capital conomique, pour driver un Risk Adjusted Return On
Capital (RAROC). Ce RAROC sera disponible plusieurs niveaux : par transaction, par client
et par entit de la banque. Ce systme permet galement, grce aux investisseurs et aux marchs
nanciers, de redistribuer le portefeuille des crdits pour un rapport rendement / risque optimal.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
CHAPITRE DEUX
DESCRIPTION STATISTIQUE DE
LA BASE DE DONNEES
Introduction :
Les outils de la Statistique descriptive fournissent des rsums synthtiques de sries
de valeurs adaptes leur type (qualitatives ou quantitatives), et observes sur une population
ou un chantillon. Ce chapitre se propose de prsenter quelques moyens permettant de rsu-
mer les caractristiques (tendance centrale, dispersion, bote moustaches, histogramme, tests
statistiques) dune variable statistique ou les relations entre variables de mme type quantita-
tif (coefcient de corrlation, nuage de points) ou qualitatif. De types diffrents (rapport de
corrlation, diagrammes en botes parallles). Les notions prsentes sont illustres sur un jeu
de donnes typique dun credit scoring en marketing bancaire. Cest ensuite la recherche de
prtraitements des donnes an de les rendre conformes aux techniques de modlisation ou
dapprentissage quil sera ncessaire de mettre en oeuvre an datteindre les objectifs xs :
Codage en classe ou recodage de classes,
Imputations ou non des donnes manquantes,
Classication supervise et premier choix de variables.
Dans le cas dune seule variable, Les notions les plus classiques sont celles de mdiane,
quantile, moyenne, frquence, variance, cart-type dnies paralllement des reprsentations
gures : diagramme en bton, histogramme, diagramme-bote, gures cumulatifs, diagrammes
en colonnes, en barre ou en secteurs. Dans le cas de deux variables, on sintressera la corr-
lation, au rapport de corrlation ou encore la statistique dun test du khi deux associ une
table de contingence. Ces notions sont associes diffrentes gures comme le nuage de points
(scatterplot), les diagrammes-botes parallles.
Dans ce qui suit, nous prsentons la mthodologie de collecte des donnes et nous nous
proposons simplement de produire via certains outils moins classiques mais efcaces et prsents
dans la plupart des logiciels statistiques comme le logiciel R. Cela nous permettra galement
dillustrer les premires tapes exploratoires raliser sur notre jeu de donnes.
2.1 Mthodologie de collecte des donnes
La constitution dun chantillon pour notre tude savre trs coteuse en temps du point
de vue de la collecte des donnes, pour des raisons techniques lies lharmonisation des pra-
tiques comptables de la First Bank ; mais galement en raison des rgles strictes de condentia-
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 22
lit imposes par la nature des informations comptables et nancires. Les donnes nancires
et comptables sont issues de la DECB - division des projets et investissements de la First Bank.
La slection sest effectue sur la base de donnes physiques comptables, disponibles et ables
pour des exercices datant jusquen n 2006
1
.
Pour notre tude, nous avons considr comme unit statistique un dossier de crdit. A
la First Bank, un dossier de crdit est un chier physique dans lequel on retrouve toutes les
informations comptables et nancires sur un client. Les dossiers de crdit quon a pu consulter
taient essentiellement les dossiers sur les projets dinvestissements pour lesquels la First Bank
stait sengage en mettant la disposition du promoteur le crdit (en totalit ou en partialit
suivant les recommandations des diffrents comits de crdit) dont il avait besoin pour le -
nancement de son affaire. Dans la conduite dune analyse statistique des dossiers de crdit, le
premier travail a consist constituer un chier qui contient des informations compltes sur des
dossiers de prts. La constitution de la base de donnes sous forme dun tableau deux entres
individus-variables ncessaire cette lanalyse a commenc avec la dnition des variables de
natures diverses collecter partir des dossiers de crdit dj octroys par la First Bank et qui
taient arrivs chance. Ltape de la collecte sera suivie par celle de la saisie an de disposer
dune base de donnes sous forme de chier lectronique pour les besoins danalyse. Malgr
la difcult de collecte de donnes laquelle nous avons t confronts pour des raisons de
secret bancaire mis par la banque, nous avons tout de mme recueilli pendant une dure de
trois semaines un total de 130 dossiers de crdit, bien videmment peu satisfaisant en nombre,
mais aussi, sufsant pour mener terme notre travail. A lissue de cette collecte, des 130 dos-
siers de crdit obtenus, on en dnombre 19 dont le crdit octroy par la First Bank ntait pas
rembours totalement ,en partie ou mme pas rembours aprs la date de lchance convenue
avec la banque.
2.2 Description des variables danalyse
Le choix des variables danalyse se doit dobir la seule logique de couverture maximale,
autant que faire se peut, de linformation susceptible daider distinguer les bons dossiers de
crdit des mauvais dossiers, ou les mauvais clients des bons clients. Les variables retenir
doivent donc contenir lessentiel de linformation sur le client. La batterie de critres cono-
miques et nanciers comporte 25 variables explicatives et une variable qualitative Y expliquer
dont les slections sont faites selon les thmes dcrits dans le tableau 2.1 .
Remarque
Dans le tableau 2.1, les variables FORJU, NACTI, SISO et Y sont qualitatives et les 22
autres sont quantitatives. Il est noter la variable Y = statut dun client est la variable qualitative
binaire prdire dont les modalits sont 0 = bon client ou client non risqu et 1 = mauvais
client ou client risqu. Nous dclarons un client bon lorsquil a rembours la totalit de son
emprunt lchance xe avec la banque, sinon il est considr comme mauvais client.
1
Etant donn quun crdit mis sur pied en 2007 ne pouvait pas encore tre son terme au moment de notre
tude, en effet la plupart des dossiers de crdit avait une dure de remboursement suprieure 12 mois.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 23
TAB. 2.1 codage des variables dtude
NOM VARIABLE CODAGE
FORJU forme juridique 1= SARL; 2= Ets ; 3=SA; 4=particulier ;
5= autres(association et GIC)
CAP montant du capital en FCFA
NACTI nature de lactivit 1= commerce gnral ; 2=BTP; 3= industrie ;
4=sant publique ; 5=agriculture ;
6=commerce spcialis ; 7=autres
SISO sige social 1=Yaound ; 2=Douala ; 3=bafoussan ;
4=batouri ; 5=autres
CREDIT montant du crdit octroy en FCFA
EFF effectif de lentreprise en nombre de personnes
DUREMB dure du remboursement en mois
GAR montant des garanties en FCFA
AGE ge du promoteur en annes
EXP exprience du promoteur en annes
THT taux dintrt hors taxes en %
INVEST montant des investissements en FCFA
CHDI charges directes et indirectes en FCFA
MASA masse salariale ou frais du personnel en FCFA
CAF cash ow en FCFA
VA valeur ajoute en FCFA
CA chiffre daffaire en FCFA
RN rsultat net en FCFA
R1 ratio 1 de rentabilit=CA/VA numrique
R2 ratio 2 de rentabilit=RN/CA numrique
=taux de marge nette
R3 ratio 3 de rentabilit numrique
=RN/capitaux propres
R4 ratio 1 dautonomie nancire numrique
=capital/dettes
R5 ratio 2 dautonomie nancire numrique
=SN/dettes
R6 ratio 3 dautonomie nancire numrique
=SN/total passif
R7 ratio de solvabilit numrique
=actif total/dettes
Y statut dun client 0=<< bon client >>; 1=<< mauvais client >>
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 24
TAB. 2.2 Rpartition des dossiers de crdit suivant la forme juridique des entreprises.
Forme juridique(FORJU) effectif (%)
Socit responsabilit limit(SARL) 53 40.77
Etablissement(Ets) 24 18,46
Socit Anonyme(SA) 23 17,69
particulier 21 16.15
autres 9 6,92
Total 130 100,00
FIG. 2.1 Rpartition des dossiers selon la forme juridique.
Dans ce qui suit, nous dcrivons dabord les variables endognes qualitatives, ensuite la
description est porte sur certaines variables quantitatives endognes en privilgiant les gures
et en recherchant les ventuelles liaisons entre elles.
La forme juridique(FORJU)
Le tableau 2.2 donne la rpartition des dossiers de crdit enregistrs dans notre tude suivant
la forme juridique des entreprises ayant initi ces dossiers. Le plus gros lot de dossiers (40,77
%) est issu des SARL. Les Ets suivent avec 18,46% de ces dossiers, les SA occupent 17,69%,
les particuliers avec un peu plus de 16,15% des dossiers dans chaque cas. Environ 6,92 % des
dossiers proviennent des autres i.e des groupements et associations.
Cette rpartition des dossiers de crdit suivant la forme juridique peut tre explique par
des facteurs tels que le nombre de demandes exprimes, la qualit des projets prsents, ou le
pass des entreprises auprs de la banque. Nous associons au tableau 2.2 un histogramme de la
variable FORJU.(Cf. gure 2.1)
Nature de lactivit (NACTI)
Une riche gamme dactivits est couverte par les entreprises ayant sollicit avec succs le
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 25
TAB. 2.3 Rpartion des dossiers par activits principales des entreprises.
Activit principale des entreprises Effectif
commerce gnral 28
BTP 26
industrie 14
sant publique 9
agriculture 8
enseignement 7
commerce spcialis 7
import-export 6
htellerie 4
mdecine et chirugie 2
restauration 4
prestations de services 4
services de transport 2
tlcommunications 2
gestion immobilire 1
distribution des hydrocarbures 1
social 1
services nanciers 1
pharmacie 1
imprimerie 1
communication audiovisuelle 1
Total 130
concours de la First Bank. La liste des domaines dactivits principales des entreprises dont les
dossiers de crdit sont valids est donne dans le tableau 2.3.
Les commerants, les entreprises de btiment et travaux publics (54 dossiers) ont enregistr
prs de la moiti des dossiers valids. Les autres activits sont trs peu reprsentes dans notre
base de donnes. Nous illustrons ces propos par une reprsentation de la variable NACTI.(Cf
gure 2.2)
Le sige social ou le lieu dimplantation des entreprises nances (SISO)
Nous avons utilis 5 modalits pour cette variable lors de la collecte. Ces modalits sont no-
tamment : Yaound, Douala, Bafoussam, Batouri et les autres villes. Sur le plan national, cette
rpartition suit la logique de concentration des entreprises et dintensit de lactivit cono-
mique, comme le montre la gure 2.3 .
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 26
FIG. 2.2 Diagramme en btons de NACTI.
1=commerce gnral | 2=BTP | 3=industrie | 4=sant publique | 5=agriculture| 6=commerce
spcialis | 7=autres.
FIG. 2.3 Rpartition des dossiers par lieu dimplantation des clients (%)
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 27
TAB. 2.4 Rpartition des dossiers de crdit par les montants des besoins exprims.
Classe de besoin Nombre de clients
10 M et moins 8
]10M;25M] 30
]25M;50M] 20
]50M;500M] 62
]500M;900M] 6
suprieur 900M 4
Total 130
Daprs la gure 2.3, On observe que la plus grande part de dossiers valids proviennent
des entreprises bases Yaound (59,23 %). Les dossiers provenant des entreprises implantes
Douala, o la concentration des entreprises est la plus grande lchelle nationale nest que
denviron 20 %. Les autres villes et les zones rurales camerounaises sont reprsentes hauteur
de 8,46 % environ des avis de nancement.
Crdit octroy (CREDIT)
La rpartition des dossiers de crdit par montant de besoin exprim du Tableau 2.4 montre que
prs de la moiti des emprunteurs de la First Bank sont ceux qui se sont vus accords un crdit
dont le besoin est compris entre 50 millions et 500 millions. Par contre, peu de clients ont eu un
avis favorable leur demande de crdit lorsque le besoin du nancement est lev (suprieur
900 millions). La rticence de la First Bank ce type de crdit provient peut-tre du fait quelle
ne veut pas nancer les projets cot trop lev cause du grand risque encouru pouvant
engendrer des pertes normes pour la banque. Par ailleurs, il est remarquer aussi que la First
Bank nest pas intresse par les clients dont la demande de crdit en besoin est faible (infrieur
15 millions), une raison pouvant expliquer ce fait est que la banque estime le rendement de ce
type de projet ngligeable pour sa prosprit au vu des efforts investis et du temps consacr par
les analystes pour ltude dun dossier dun crdit. Le tableau 2.4 et la gure 2.4 illustrent ces
propos.
Variable garantie (GAR)
La rpartition des garanties du Tableau 2.5 montre que plus de la moiti, soit 56% des dossiers
de crdit porte une garantie comprise entre 100 millions et 500 millions, avec une moyenne
des garanties=889.200.000 et un maximum=68.480.000.000 qui se prsente comme une valeur
aberrante.
Le diagramme-bote (boxplot) et lhistogramme de la variable GAR illustre la distribution
de la variable cumulant les garanties des emprunteurs. On constate une forte concentration de
la variable GAR la base de la gure de droite et une valeur atypique lextrmit suprieure,
ce que conrme lhistogramme de GAR. Trs peu de concours de crdit ayant eu une faible
garantie ont t accepts. On conclut donc que loctroi dun crdit la First Bank est aussi
dtermin par une masse matrielle assez imposante de garanties.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 28
FIG. 2.4 histogramme de la variable CREDIT
TAB. 2.5 Rpartition des dossiers de crdit par les montants des garanties.
Classe de la garantie Nombre de clients
15M et moins 3
]15M;50M] 16
]50M;100M] 17
]100M;500M] 73
]500M;1000M] 10
suprieur 1000 11
Total 130
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 29
FIG. 2.5 Histogramme et Boxplot de GAR
Diffrents ratios de notre base de donnes
Nous rsumerons la description des ratios nanciers R1, R2, R3, R4, R5, R6, R7 dans le tableau
2.6 .
On contacte que la plupart des ratios ont des valeurs qui uctuent autour de zro et ils ont
une p-value rsultant du test de Shapiro-Wilk infrieure au seuil 5%; on rejette lhypothse
nulle (Ho) : le ratio suit une loi normale, donc on conclut quau seuil 5%, les ratios nanciers
de notre base de donnes ne sont pas des variables gaussiennes. Les reprsentations gures des
fonctions de densit des ratios R1 et R5 contenues dans le gure 2.6 conrment les rsultats du
TAB. 2.6 Rsum et test de normalit des ratios
Min Median Mean Max p-value du test de Shapiro au seuil 5%
R1 -1.8000 0.4350 0.4793 4.6000 2, 257.10
13
R2 -3.0300 0.0800 0.1351 2.9100 pvalue < 2, 2.10
16
R3 -0.7800 0.3500 0.5040 3.7100 1, 696.10
12
R4 -9.6200 0.2300 0.5249 8.6400 2, 894.10
12
R5 -4.810 0.845 1.146 8.360 1, 240.10
05
R6 1.3600 0.6800 0.6352 3.2500 2, 779.10
07
R7 -5.8600 1.5500 1.8980 9.3800 0.01168
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 30
FIG. 2.6 Rprsentation des densits des ratios R1 et R5.
test prcdent :
Le taux dintrt hors taxes (THT)
Les taux dintrt hors taxes appliqus aux crdits la First Bank sont trs diversis en
nombres, allant dun minimum de 3 % (appliqu un seul dossier long terme) 16.8% (appli-
qu deux dossiers court et moyen terme). Lvolution du nombre de dossiers valids en fonction
du taux dintrt est reprsente dans le tableau 2.7. Le taux de 13,75 % apparat plus frquem-
ment aussi bien dans les contrats de courte priode que dans les contrats de moyen terme. Pour
lensemble des dossiers portant les taux dintrt (130 dossiers au total), on dnombre 49 dos-
siers portant ce taux de 13,75 %.
Daprs le tableau 2.7, on constate que lintervalle de THT qui est ]13,50 ;14,00] regorge
une forte concentration des dossiers de crdit.
Liaison entre les variables de nos donnes
An de vrier sil y a un ventuel lien entre les diffrentes variables prises en compte dans
notre tude, nous avons calcul le coefcient de corrlation. Le choix de couple
2
de variables
2
La matrice de variance-covariance de notre tableau nous permettait de voir les variables qui taient lies.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 31
TAB. 2.7 Rpartition des dossiers suivant les taux de crdit et les chances de rembourse-
ment.
Echances de remboursement
Taux de crdit HT en % Court terme Moyen terme Long terme Total
([0 ;2 ans[) ([2 ;10 ans[) ( 10 ans)
3,000 0 0 1 1
8,000 1 3 0 4
]8,000 ;8,500] 5 0 0 5
]8,500 ;9,000] 7 3 0 10
]9,000 ;9,500] 6 1 0 7
]9,500 ;10,00] 2 0 0 2
]10,00 ;10,50] 0 0 0 0
]10,50 ;11,00] 1 0 0 1
]11,00 ;11,50] 0 0 0 0
]11,50 ;12,00] 1 0 0 0
]12,00 ;12,50] 2 1 0 3
]12,50 ;13,00] 12 11 0 23
]13,00 ;13,50] 4 2 0 6
]13,50 ;14,00] 44 7 0 51
]14,00 ;14,50] 3 1 0 4
]14,50 ;15,00] 3 0 0 3
]15,00 ;15,50] 4 1 0 5
]15,50 ;16,00] 2 0 0 2
]16,00 ;17,00] 1 1 0 2
Total 98 31 1 130
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 32
a t guid par des prsomptions de relation entre celles-ci qui nous sont apparues logique.
Ainsi, Le coefcient de corrlation linaire entre le taux dintrt hors taxes et la dure de
remboursement du crdit vaut 0.13 avec un IC
95%
=[-0.0441833 ; 0.2946267]. On peut donc dire
que la caractristique dure de remboursement du crdit est faiblement corrle au taux
dintrt, en sorte que les chances de plus en plus courtes correspondent aux taux dintrt
de plus en plus levs. Cette relation peut nous paratre plutt surprenante, tant entendu que
le taux dintrt est traditionnellement une fonction croissante du temps : les taux dintrt
long terme sont gnralement, mais pas toujours, suprieurs aux taux dintrt court terme
.[13](Gregory N. Mankiw, 2003, P 70).
Un rsultat similaire stablit aussi en utilisant le montant du crdit accord et le taux din-
trt hors taxes (coefcient de corrlation r = - 0,011, IC
95%
= [-0.1827414 ; 0.1615911]). Les
taux diminuent avec les montants de nancement levs. Mais la diffrence du rsultat pr-
cdent, ce second rsultat parat plus vraisemblable. Les plus gros clients reprsentent parfois
une bonne opportunit de remploi des ressources dtenues par la banque, et ceux dentre eux
jugs bons mritent ds lors un assouplissement des contraintes de crdit, notamment en
termes de cot de nancement. A linverse, les clients sollicitant des concours de crdit assez
petits supportent des taux dintrt de plus en plus levs. On est ici face un systme de
rationnement du crdit destin viter le mcanisme d antislection , et de permettre la
banque de garder ses bons clients. [15](Patrick Villieu, 2000, P 56).
En considrant la corrlation positive entre le montant du crdit sollicit et lchance de
remboursement (coefcient de corrlation r = 0,27, IC
95%
= [0.1009225 ; 0.4211627]) dune
part, et tant donn les rsultats prcdents, leffet du montant des fonds prts sur le taux
dintrt hors taxes semble plus probable. Une trs forte corrlation entre la variable EFF et
les variables CHDI et MASA, avec des coefcients de corrlation respectifs cor(EFF, CHDI)=
0.99 avec IC
95%
=[0.9819636 ; 0.9909637] et cor(EFF, MASA)=0.98 avec IC
95%
=[0.9750032 ;
0.9874546]. Rsultat prvisible ce niveau car les charges dune entreprise dont la masse sala-
riale fait partie sont fonction de leffectif du personnel de cette entreprise[13].
CONCLUSION :
Cette tude importante permet de mettre en exergue le fait quil nexiste pas une mthode
unique permettant de traiter des donnes dexpression ; la question "Quelle mthode dois je
utiliser pour traiter mes donnes dexpression ?" na pas de sens. Il apparat ainsi que face des
donnes dexpression, un statisticien seul, un analyste de crdit seul ou un comptable seul nest
pas en mesure de proposer des mthodes pertinentes ; la solution rside dans la collaboration
des trois spcialits.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
CHAPITRE TROIS
DEUX METHODES DE
DISCRIMINATION POUR LE
CREDIT SCORING
Introduction :
Grosso modo, le scoring consiste affecter une note globale un individu partir de notes
partielles, calcules sur des variables isoles ou en interaction. Cette note est utilise essentiel-
lement pour classer les individus par ordre ascendant ou descendant an den slectionner une
partie pour une action marketing, par exemple le credit scoring. La construction dun scoring fait
appel la modlisation prdictive, et lon ne parle dun scoring que lorsque la variable prdire
na que deux modalits[12]. Ct technique, le scoring est bas sur des mthodes classiques
et qui nvoluent que trs peu dun point de vue mathmatique. En revanche, les possibilits
dvolution se trouvent dans leur application pour raliser des analyses complexes. Et l toutes
les possibilits ne sont pas encore explores.
Dans ce chapitre, nous exposons deux approches mathmatiques classiques du credit
scoring pour la modlisation du risque de crdit partir de ltude du concept central de Data
Mining pour les modles paramtriques. Cependant, il existe plusieurs mthodes statistiques de
construction dun scoring dont les plus reconnues sont : lanalyse discriminante (linaire, qua-
dratique de Fisher), la rgression logistique discriminante, les arbres de classication, mthode
k-nn, les rseaux de neurones, les Sparateurs Vaste Marge (SVM), etc.. . . ..
Dans le cadre de notre tude, notre modle sera construit base deux modles paramtriques
savoir la rgression logistique discriminante et lanalyse discriminante (linaire et/ou quadra-
tique) de Fisher cause de leur grande robustesse et leur facile interprtabilit. En effet, il sera
question pour nous dont le but est didentier les clignotants du risque de crdit permettant de
prvoir les dfaillances, de construire pour chacune de ces mthodes un modle et nalement
mettre en comptition les deux modles pour en retenir celui qui sajustera le mieux du point
de vu prdictif nos donnes.
3.1 Le modle probabiliste de prdiction
Nous sommes en prsence de n observations {X
i1
, ...., X
ip
, Y
i
}
p
i=1
dun couple (Y,X) dans
une population . Pour la i
e
observation note (Y
i
; X
i
), Y
i
est un label qui dnote lappartenance
un groupe {0; 1}.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING34
Une nouvelle observation x
0
arrive, nous mesurons les variables explicatives, cette mesure
est not x
0
R
p
et nous souhaitons prdire son groupe Y = y
0
partir de lobservation de
ses attributs {X
i
}
p
i=1
= {x
0i
}
p
i=1
avec une probabilit de se tromper dans cette prdiction aussi
faible que possible. Ceci revient mettre en evidence une fonction :
g : R
p
{0; 1}
telle que lerreur (g) = P(g(X) = Y) soit aussi petite que possible.
Dans lidal, il faudrait chercher une fonction
g
: R
p
{0; 1} vriant (g
) = min (g)
g:R
p
{0;1}
.
Si une telle fonction g existe, le prdicteur g
P(g(X) = Y|X = x) dP
X
(x)
=
_
(g|X = x
0
) dP
X
(x)
Ainsi g
|X = x
0
) = min (g|X = x
0
) ; g : R
p
{0; 1}
est appel prdicteur de Bayes pour prdire Y |X = x
0
.
2.Cest le meilleur prdicteur de Y |X = x
0
car
(g
) = min (g) ; g : R
p
{0; 1}
3.
= (g
(X) = j P
j
P(X = x
0
|Y = j) = max
k=0;1
P
k
P(X = x
0
|Y = k)
i.e j = arg max
k=0;1
P
k
P(X = x
0
|Y = k);
On demontre que la rgle de dcision nale scrit comme suit :
1. si P(Y = 1|X = x
0
)
1
2
, alors g
(x
0
) = 0
2. si P(Y = 1|X = x
0
)
1
2
, alors g
(x
0
) = 1
3.si P(Y = 1|X = x
0
) =
1
2
, alors g
(x
0
) = 1 ou g
(x
0
) = 0, peu importe.
3.2 Analyse discriminante linaire et quadratique
Les probabilits priori des groupes j, notes P(Y = j) , j = 0; 1 sont connues. Quand on
na pas d priori, on peut, soit choisir que les groupes sont quivalents P(Y = j) =
1
2
, soit les-
timer partir des frquences de chaque groupe dans les observations{Y
i
}
n
i=1
. An de spcier le
modle de discrimination linaire et quadratique, nous allons supposer lhypothse de normalit
ci-dessous.
Discrimination quadratique : La densit des variables explicatives dans chaque groupe
j suit une loi multinormale f (x|y = j) N
p
(
j
;
j
);
j
M
p
(R), j = o; 1.
Ensuite, nous pouvons ajouter une hypothse supplmentaire pour obtenir le modle de discri-
mination linaire.
Discrimination linaire : La densit des variables explicatives dans chaque groupe j
suit une loi multinormale de mme matrice de variance-covariance dans chacun des
groupes :
f (x|y = j) N
p
(
j
; ) ; M
p
(R), j = 0; 1
Une fois estims tous les paramtres des lois normales, il suft alors dutiliser la rgle de
prdiction de Bayes pour connatre les probabilits daffectation de la nouvelle observation aux
diffrents groupes. Evidemment la prvision par la mthode sera donne par le groupe le plus
probable i.e
j = argmaxP(Y = k|X = x
0
) = argmax f (x
0
|y = k) P(Y = k); k {0; 1} .
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING36
3.2.1 Estimation des paramtres
Nous devons dans les 2 groupes, estimer (
j
;
j
) ; j = 0; 1 o
j
R
p
et
j
M
p
(R).Il
y a donc 2 moyennes estimer et 1 ou 2 matrices de variance-covariance estimer. Il existe de
nombreuses procdures destimations plus ou moins classiques.
Citons par exemple :
La mthode des moments.
La mthode de vraisemblance.
a) La mthode des moments.
Les moyennes par groupes
j
sont estims par le centre de gravit de chacun des groupes
j
=
1
n
j
iJ
x
0i
;
o J est lensemble des numros dobservations qui sont dans le groupe j et n
j
le nombre
dobservations dans le groupe j (ce qui est le cardinal de J).
Pour les matrices de variance-covariance (mthode discriminante quadratique), elles sont
estimes par :
j
=
1
n
j
1
iJ
(x
0i
j
) (x
0i
j
)
T
Pour la discrination linaire, la matrice de variance-covariance est estim par
j
=
1
n 2
g
j=1
iJ
(x
0i
j
) (x
0i
j
)
T
b) La mthode du maximun de vraisemblance
Les moyennes par groupes
j
sont encore estims par le centre de gravit de chacun des
groupes
j
=
1
n
j
iJ
X
i
o J est lensemble des numros dobservations qui sont dans le groupe j et n
j
le nombre
dobservations dans le groupe j (ce qui est le cardinal de J). Par contre les variances sont
estimes par :
Discrimination quadratique
j
=
1
n
j
iJ
(x
0i
j
) (x
0i
j
)
T
Discrimination linaire
=
1
n
g
j=1
iJ
(x
0i
j
) (x
0i
j
)
T
Dans le cadre de notre travail, Nous avons pos Y = 1 ou Y = 0 selon que X suit une
loi multinomiale N(
1
;
1
)( de densit f
X|Y =1
) ou N(
0
;
0
)(de densit f
X|Y =0
). Supposons
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING37
de plus
0
=
1
ie que la discrimination devra tre linaire. Comme, nous souhaitons avoir
une mesure quantitative entre 0 et 1, donnant la propension tre 1, nous nous interessons la
probabilit posteriori de Y=1, P(Y = 1|X).
3.2.2 Calcul du seuil thorique s
Si nous souhaitons savoir si un individu est franchement estim 1, alors P(Y = 1|X) sera
lv par rapport P(Y = 0|X). On a alors
P(Y = 1|X = x) P(Y = 0|X = x)
f
X|Y =1
P(Y = 1) f
X|Y=0
P(Y = 0)
or nous connaissons les 2 densits qui sont celles de 2 lois normales N(
1
; ) et N(
0
; ).
Nous avons donc :
P(Y = 1)
1
(2)
p
2
_
||
exp
_
1
2
(x
1
)
T
1
(x
1
)
_
P(Y = 0)
1
(2)
p
2
||
exp
_
1
2
(x
0
)
T
1
(x
0
)
_
.
En passant au log, nous avons alors :
x
T
1
(
1
0
) + log (P(Y = 0)) log (P(Y = 1))
1
2
T
1
1
1
+
1
2
T
0
1
0
0
Ce qui scrit comme S(x) s ;
avec S(x) = x
T
1
(
1
0
)
et s = log (P(Y = 1)) log (P(Y = 0)) +
1
2
T
1
1
1
2
T
0
1
0
.
S(x) est apple fonction discriminante de Bayes. Cest la fonction scoring de lanalyse dis-
criminante linaire 2 classes et s est le seuil. Ce seuil dpend des probabilits priori de
(Y = 1) et celle de (Y = 0).
En gnral, ces probabilits sont inconnues priori. Si des tudes ont t mnes sur dautres
donnes, il est alors possible de connatre ces 2 probabilits. Mais, en labsence de connais-
sance,elles sont poses gales
1
2
chacune. La determination du seuil sparant le choix (Y = 1)
du choix (Y = 0) est donc dlicat. Par ailleurs, le fait de ne plus considrer la probabilit
postriori, mais un scoring permet dviter le calcul de f
X
(x) qui est une densit difcilement
calculable.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING38
Lanalyse discriminante linaire est trs rpandue dans les logiciels de Statistique et dap-
prentissage et est trs utilise. Les raisons de son succs sont les suivantes :
- elle offre souvent un trs bon compromis pertinence/complexit ; autrement dit, elle permet
souvent de bien rsoudre le dilemme biais-variance. Elle est ainsi souvent suprieure lanalyse
discriminante quadratique qui dpend dun nombre notamment plus important de paramtres.
- dans le cadre de lanalyse discriminante linaire, la slection de variables peut tre ra-
lise de manire quasi optimale en utilisant une statistique F de Fisher[4]. En fait, les critres
classiques de slection de variables supposent de manire sous-jacente les hypothses gaus-
siennes de lanalyse discriminante gaussienne. Ainsi, dans une prdiction deux classes, on
peut montrer que,la probabilit optimale derreurs scrit (/2), tant la fonction de r-
partition dune loi normale centre rduite et reprsentant la distance de Mahalanobis entre
deux groupes :
2
= ||
1
0
||
1 = (
1
0
)
T
1
(
1
0
) ;
-lanalyse discriminante linaire fournit des rsultats stables (peu sujets aux uctuations
dchantillonnage) et robustes (i.e supportant bien des carts assez importants ces hypothses
de normalit des groupes et dgalit des matrices variances).
3.3 Analyse discriminante logistique
3.3.1 Dnition
a)introduction
Lanalyse discriminante logistique est une mthodologie statistique qui a pour objectif, par-
tir dobservations, de produire un modle permettant de prdire les valeurs prises par une
variable catgorielle, partir dune srie de variables explicatives continues et|ou binaires.Il
sagit ici pour nous de prvoir laide de p variables explicatives lappartenance un groupe.
Comme il existe une incertitude, nous la modlisons comme une probabilit et nous cherchons
P(Y = j|X = x
0
) ie la probabilit que lobservation soit dans le groupe j sachant nous avons
en main lobservation x
0
des variables explicatives. On pourra poser x
0
= (1, x
01
, ..., x
0p
).
Le premier problme est que nous modlisons des probabilits discrtes, nous avons donc
une contrainte :
g
j=1
P(Y = j|X = x
0
) = 1
Une fois dtermines (g 1) probabilits, la dernire est donc connue. Pour tenir compte
de cette contrainte, nous allons donc considrer un groupe tmoin, par exemple le g
e
groupe,
ensuite, nous allons modliser non pas P(Y = j|X = x
0
), mais le rapport de cette probabilit
la probabilit tmoin
P(Y=j|X=x
0
)
P(Y=g|X=x
0
)
.
Ce rapport est toujours positif et il est compris entre 0 et +. En passant au log, nous
obtenons une mesure qui sera dans R et que nous pouvons relier aux variables explicatives
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING39
X
1
, ......., X
p
via une fonction f. Cette fonction est choisie dans la classe la plus simple,
savoir les fonctions linaires. Et on crit donc :
ln
P(Y = j|X = x
0
)
P(Y = g|X = x
0
)
= f(x
0
) = x
T
0
j
(3.2)
Ce type de modlisation est appel analyse discriminante logistique multiclasse ou rgres-
sion logistique multiclasse.
Cependant le cas le plus classique est le cas o il existe g = 2 classes. Dans ce cas la notation
standard veut que Y = 0 ou Y = 1 et que lon prenne comme rfrence le groupe Y = 1. Nous
ne traiterons par la suite que le cas binaire, cas qui est utilis dans llaboration dun scoring.
b) Rgression logistique (binaire)
dnition(2.1.1) :(Rgression logistique)
Nous sommes en prsence dune variable expliquer binaire Y et de variables explicatives
(X
1
, ...., X
p
) = X R
p
.
Le modle de la rgression logistique scrit :
ln
P(Y = 1|X = x
0
)
1P(Y = 1|X = x
0
)
= x
T
0
(3.3)
ou
logit (P(Y = 1|X = x
0
)) = x
T
0
j
_
1 +
g
k=1
exp (x
T
0
j
)
.
3.3.2 Lien avec les GLM :
Nous modlisons deux probabilits P(Y = 1|X = x
0
) et P(Y = 0|X = x
0
) ie que la loi de
(Y |X = x
0
) est simplement une Bernouilli de paramtre P(Y = 1|X = x
0
) qui dpend de la
valeur x
0
de X.
Lesprance dune Bernoulli est simplement son paramtre, E(Y|X = x
0
) = P(Y = 1|X = x
0
).
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING40
Dans un modle de rgression logistique, nous effectuons donc 2 choix :
1. le choix dune loi pour Y|X=x
0
, ici la loi de Bernoulli,
2. le choix de la modlisation de E(Y|X = x
0
) par logit (E(Y|X = x
0
)) = x
T
0
. La fonc-
tion logit(.) est bijective, drivable et est appele fonction de lien. Cest une fonction de lien
spciale, appele canonique (pour la loi de Bernoulli). La variance dune loi de Bernouilli est
V(Y|X = x
0
) = P(Y = 1|X = x
0
) [1 P(Y = 1|X = x
0
)]
La variance des observations dcrites par le modle nest donc pas constante et varie selon
la valeur de X. La fonction de x
0
qui a pour valeur P(Y = 1|X = x
0
) [1 P(Y = 1|X = x
0
)]est
appele fonction de variance.
Remarque
Il est possible de choisir dautres fonctions de lien bijectives. Les choix classiques sont la
fonction probit(.) (Qui est linverse de la fonction de rpartition dune loi normale N(0; 1)).
Une gnralisation de la mthode de rgression logistique (ou rgression probit) est appele
GLM (generalized linear model). Cette mthode revient choisir une loi parmi un ensemble
restreint de loi (les lois exponentielles GLM), puis une fonction de lien (.) parmi un ensemble
rduit de fonctions bijectives drivables. Ensuite nous avons (E(Y|X = x
0
)) = x
T
0
.
3.3.3 Estimation des paramtres
Lestimation des paramtres se fait ici par maximum de vraisemblance. Dans le cas gnral
(multiclasse), cette maximisation fait appel des procdures itratives de minimisations clas-
siques comme la mthode de Newton. Dans le cas de la rgression logistique (binaire), il existe
une procdure spcique dite IRLS (Iterative Reweighted Least Squares).
Nous sommes en prsence de n observations des variables notes {X
i1
, ....., X
ip
, Y
i
}
n
i=1
,
dont la i
e
est note (x
i
, y
i
), y
i
{0; 1}. La vraisemblance conditionnelle de Y |X = x
i
associe
lobservation i scrit :
V(y
i
, ) =P(Y = 1|X = x
i
)
y
i
P(Y = 0|X = x
i
)
1y
i
Et donc la vraisemblance conditionnelle de lchantillon y = (y
1
, ....y
n
) de taille n scrit
sous la forme :
V(y, ) =
n
i=1
P(Y = 1|X = x
i
)
y
i
P(Y = 0|X = x
i
)
1y
i
Dans la pratique, il est plus ais de se servir de la Log-vraisemblance note L(y,).
En passant au log, nous avons alors
L(y,) =
n
i=1
_
y
i
ln
P(Y = 1|X = x
i
)
P(Y = 0|X = x
i
)
+ ln (P(Y = 0|X = x
i
))
_
Grce la dnition du modle logistique (3.3), nous avons alors :
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING41
L(y, ) =
n
i=1
_
y
i
x
T
i
ln
_
1 + exp(x
T
i
)
__
Ainsi, si les estimations des probabilits p
i
= P(Y = 1|X = x
i0
) sont en accord avec les
observations, la vraisemblance sera maximise. Il revient donc de chercher la valeur de qui
maximise L(y, ).
La fonction logarithme tant continue et strictement croissante, la Log-vraisemblance se
maximise avec la valeur de en mme temps que la vraisemblance. Pour avoir le maximum
,
il ne reste plus qu annuler le gradient de la fonction L(y, ) : Mais du point de vue pratique,
cause de la macroforme de L(y, ) et de la grandeur de la taille n; on utilise des mthodes
numriques doptimisation pour obtenir la valeurs estime de .
Prdicteur de Bayes estim
g
(x
0
)= 0 P(Y = 0|X = x
0
) P(Y = 1|X = x
0
) x
T
0
0.
(x
0
)= 1 P(Y = 1|X = x
0
) P(Y = 0|X = x
0
) x
T
0
0.
Le scalaire x
T
0
(
j
) =
_
j
U
1
2
1
j
;
j
+ U
1
2
1
j
_
O U
1
2
reprsente le quantile de niveau
_
1
2
_
de la loi normale N(0; 1),
2
j
est gal
_
I(
)
_
1
jj
et
_
I(
)
_
1
jj
est llment (j, j) de linverse de la matrice de Fisher E
_
2
L
2
_
.
La validit de ces intervalles est toute relative puisquil sagit dune approximation valable
asymptotiquement et dont la variance dans le cas de lapproximation normale, doit tre value
la vraie valeur du paramtre inconnu.
Il est toujours possible de complter cette tude par boostrap an dobtenir dautres inter-
valles de conance dans le cas o ceux-ci sont particulirement importants .Cela dit, en pratique,
on se contente de lintervalle de conance bti grce la matrice dinformation de Fisher.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING42
3.3.5 La qualit du modle
3.3.5.1 Un outil spcique : la dviance
Comme la vraisemblance nest jamais la mme chelle (cela dpend des donnes), il nest
pas facile davoir une ide de la qualit dajustement. Pour cela, un outil spcique est introduit :
la dviance. Elle compare la vraisemblance obtenue celle que lon obtiendrait dans un modle
parfait : le modle satur. Dans le modle satur, la prvision est parfaite, il nexiste donc
aucune incertitude et la probabilit estime par le modle au point X = x
i
est donc 1 pour le
groupe observ et 0 sinon. Dans le cas o plusieurs observations seraient disponibles au point
X = x
i
, alors, si le modle tait parfait, y
i
serait la moyenne des y
i
au point X = x
i
. Ce modle
est appel modle satur par dnition.
Pour le modle logistique binaire, la vraisemblance pour lobservation i pour ce modle satur
est gale par dnition :
L
satur
=
n
i=1
Y
i
logY
i
+ (1 Y
i
) log (1 Y
i
).
La dviance dun modle note D, est dnie par rapport au modle satur correspondant
comme
D = 2
_
n
i=1
(L
satur
L())
_
0
La dviance est gale 2 fois une diffrence de vraisemblance .Elle constitue un cart
en terme de log-vraisemblance entre le modle satur dajustement maximum et le modle
considr :
La dviance dans le cas binaire est donne par :
D = 2
n
i=1
Y
i
log
Y
i
P
i
+ (1 Y
i
) log
1 Y
i
1
P
i
Test dadquation par la dviance
Puisque nous laborons un test, dnissons hypothses nulle et alternative :
-H
0
le modle considr p paramtres est adquat.
-H
1
le modle considr p paramtres nest pas adquat.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING43
FIG. 3.1 Test de dviance,la droite verticale reprsente le seuil de rejet D
c
= q
1
(n p).
Ici, nous allons comparer le modle satur au modle considr au moyen de la dviance.
Nous savons que si la dviance est grande, alors le modle considr est loin du modle satur
et donc il nest pas trs adquat. Par contre si la dviance est proche de 0, le modle considr
sera adquat. Pour quantier cette notion de proche de 0 et de grande dviance, la loi de la
dviance sous H
0
(le modle considr est le vrai modle) va nous tre utile. En effet H
0
si est
vraie, le modle considr est vrai par dnition. La dviance sera rpartie sur R
+
, mais avec
plus de chance dtre proche de 0. Par contre si H
0
nest pas vraie la dviance sera rpartie sur
R
+
mais avec plus de chance dtre loigne de 0. Nous nous accordons % de chance de se
tromper sous H
0
donc si, lon connat la loi de D sous H
0
alors en prenant le quantile de niveau
1 nous excluons les % derreur tout en excluant les dviances les plus grandes, ie les cas
qui se prsenteront vraisemblablement si H
0
nest pas vraie.
La dviance est en fait le test de rapport de vraisemblance et sous des hypothses techniques
([8]Schervish, 1995, p. 459), D suit donc une loi du
2
(n p) degrs de libert, o p est le
nombre de paramtres du modle et n le nombre dobservations. Le test se droule alors de la
manire classique :
1.Les hypothses sont xes
-H
0
le modle considr p paramtre est adquat
-H
1
le modle considr p paramtres nest pas adquat
2. est choisi(en gnral 5%)
3.Lobservation de D est calcule, notons la D
obs
4.Calcul du quantile de niveau (1 ) de la loi du
2
(n p) ,not q
1
(n p).
- Si D q
1
(n p) alors H
0
est repouss au prot de H
1
, le modle considr nest pas
adquat.
- Si D
obs
q
1
(n p) alors H
0
est conserv, le modle considr est adquat.
Remarques
La validit de la loi et donc du test nest quasymptotique, il est donc ncessaire davoir un peu
de recul quant aux conclusions.
Lorsque les donnes sont binaires et quaucune rptition nest prsente au point X
i
= x
i
,i,
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING44
alors D ne suit pas une loi du
2
. Pour les donnes binaires le test dadquation dHosmer
Lemershow est conseiller.
Test dHosmer Lemershow
Ce test permet de vrier ladquation dun modle quand la variable expliquer est une
variable binaire uniquement. Il permet donc de vrier ladquation dans les cas o le test
dadquation par la dviance est particulirement dconseill.
Pour cela, les
P
i
= P(Y = 1|X = x
i
) sont ordonns par ordre croissant. Ensuite K groupes
de tailles gales sont crs, en gnral K = 10 et le dernier groupe, celui des
P
i
les plus grands,
possde un effectif ingal aux autres. Notons m
k
leffectif du groupe k. Ensuite une statistique
du type
2
est calcule sur ces groupes. Leffectif observ o
k
des cas (Y = 1) dans le groupe k
est dcompt, ce qui donne de manire mathmatique o
k
=
jgpe k
y
i
. La frquence thorique
est simplement la moyenne des probabilits estimes par le modle, pour toutes les observations
du groupe :
=
jgpe k
P
j
. La statistique de test est alors
C
2
=
K
k=1
(o
k
m
k
k
)
2
m
k
k
(1
k
)
,
o m
k
est leffectif du groupe k.
Le test se conduit de manire identique au test de dviance, la statistique C
2
suivant approxi-
mativement un
2
K1 degrs de libert. Cette approximation ayant t valide uniquement
par simulation[4] (Collett, 2003, p. 88), il semble donc important de ne pas appliquer trop stric-
tement la procdure de test, mais plutt de la considrer comme une indication.
Critre de choix de modles
Lobjet de ces critres de choix est de comparer des modles entre eux et qui ne sont pas
forcment embots les uns dans les autres.
Par dnition lAIC (Akaike Informative Criterion) pour un modle p paramtres est
AIC = 2L + 2p.
La philosophie est simple : plus la vraisemblance est grande, plus grande est donc la log-
vraisemblance L et meilleur est le modle. Cependant si lon met le nombre maximum de
paramtres (ce qui est le modle satur) alors L sera maximum. Il suft donc de rajouter des
paramtres pour la faire augmenter. Pour obtenir un modle de taille raisonnable il sera donc
bon de la pnaliser par une fonction du nombre de paramtre, ici 2p. Un autre critre de choix
de modle le BIC (Bayesian Informative Criterion) pour un modle p paramtres estim sur n
observations est dni par :
BIC = 2L + p log(n).
Lutilisation de ces critres est simple. Pour chaque modle concurrent le critre de choix
de modle est calcul et le modle qui prsente le plus faible est slectionn.
Remarquons que certains logiciels utilisent AIC et BIC, il est donc prudent de bien v-
rier dans quel sens doivent tre optimiss ces critres (maximisation ou minimisation). Ceci
peut tre fait aisment en comparant un modle trs mauvais (sans variable explicative) un
bon modle ( une variable) et de vrier dans quel sens varie les critres de choix.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING45
FIG. 3.2 Procdure dapprentissage/validation
3.3.5.2 Evaluation des performances
Lanalyse discriminante dcisionnelle vise proposer une rgle de dcision destine tre
applique pour le classement dans le futur dobservations de provenance inconnue. Il est donc
trs important dtre capable de mesurer le taux derreur que lon risque lors de lapplication
dune rgle de dcision construite sur la base dun chantillon dapprentissage. Dans ce qui suit,
nous passons en revue quelques moyens destimer le taux derreur rel dune rgle de dcision.
Apprentissage/validation
La procdure de validation consiste sparer de manire alatoire les donnes en deux
parties distinctes (y
a
, X
a
) et (y
v
, X
v
). Tous les modles concurrents sont construits avec le
jeu dapprentissage (y
a
, X
a
) (gure 3.2). Ensuite en utilisant tous ces modles et les variables
explicatives X
v
, les valeurs de la variables expliquer sont prdites y
v
(j) pour tous les modles
j concurrents. Comme le modle de rgression logistique binaire donne des estimatitions des
probabilits
P(Y = 1|X = X
v
), pour avoir une prvision binaire, on prend la modalit dont la
probabilit estime est la plus leve. Nous noterons cette prvision ainsi obtenue y
v
.
La qualit du modle est ensuite obtenue en mesurant la distance entre les observations
prvues et les vraies observations par un critre. Le plus connu est le PRESS
PRESS(j) = || y
v
(j) y
v
||
2
,
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING46
mais dans le cas dobservations binaires il nest pas utilis. En gnral, on utilise le nombre de
mal class, ie
MC = || y
v
(j) y
v
||
1
,
o ||x||
1
=
i
|x
i
|. Comme les valeurs de Y sont 0 ou 1, cette mthode est bien le nombre de
mal classs.
Le modle optimal k choisi est celui qui conduit au MC minimum (ou au critre choisi
minimum). Cette procdure semble la plus indique mais elle ncessite beaucoup de donnes
puisquil en faut sufsamment pour estimer le modle et pas trop pnaliser les modles avec
beaucoup de variables dont les coefcients seront moins bien estims, mais il faut aussi beau-
coup dobservations dans le jeu de validation (y
v
, X
v
) pour bien valuer la capacit de prvision
dans de nombreux cas de gure. De plus, comment diviser le nombre dobservations dans le jeu
dapprentissage par rapport au jeu de validation ? L encore aucune rgle nexiste mais lon
mentionne souvent la rgle 3/4 dans lapprentissage et 1/4 dans la validation. De plus, il faut
pouvoir calculer le MC sur chacun des modles concurrents ce qui dans certains cas est impos-
sible, lorsque le nombre de variables possibles p est grand.
Validation croise
Lorsque lon na pas assez de donnes pour lapprentissage/validation, la validation croise
est utilise pour valuer le taux derreur. La validation croise, dans sa version la plus classique,
connue sous le nom de leave-one-out, procde comme dcrit ci-dessous.
Pour i = 1, ... ,n on construit la rgle de dcisionsur la base de lchantillon dapprentissage
priv de son i
e
lment et on affecte ce dernier lun des groupes suivant cette rgle. Le taux
derreur estim est alors la frquence de points de mal classs de la sorte. Lestimation du
taux derreur ainsi obtenue est pratiquement sans biais. Mais la variance de lestimation est
dautant plus importante que n est grand puisque, dans ce cas, les diffrentes rgles de dcision
construites partir de n-2 observations communes auront tendance se ressembler. De plus,
cette procdure est galement assez coteuse mme si, du fait qu chaque tape lchantillon
soit amput dune seule observation, il est en gnral possible de recalculer la rgle de dcision.
Aussi, on peut lui prfrer la procdure suivante. On divise lchantillon alatoirement en
L parties (approximativement) gales. Pour l=1,...,L, on construit la rgle de dcision sur la
base de cet chantillon priv de sa l
eme
partie, ensuite pour cette l
eme
partie donne, on utilise
la procdure dapprentissage/validation, la l
eme
partie tant le jeu de validation et les autres
observations formant le jeu dapprentissage. Si L = n, on rtombe sur la procdure standard de
leave-one-out. On value la qualit du modle par un critre, le nombre de mal classs MC par
exemple, donnant ainsi MC(j)
l
et ensuite on itre le procd sur toutes les parties l variant de
1 L. Le critre nal minimiser est alors
MC
CV
(j) =
L
l=1
MC (j)
l
,
On en dduit une estimation de lerreur de prdiction pour le modle j :
(j) =
1
L
MC
CV
(j)
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING47
et le modle k retenu est celui qui conduit au minimum sur {MC
CV
(j)}, donc sur (j) .
Bien entendu le choix du nombre L parties nest pas anodin. Plus le nombre L est faible, plus la
capacit de prvision sera value dans de nombreux cas puisque le nombre dobservations dans
la validation sera lev, mais moins lestimation sera prcise. Au contraire, un L lev conduit
peu dobservations dans la validation et donc une plus grande variance dans les nombres de
mal classs.
3.3.6 Slection automatique
La slection de modle peut tre vue comme rechercher le modle optimum au sens dun
critre choisi parmi toutes les possibilits. Cela peut donc tre vu comme une optimisation dune
fonction objectif (le critre). Pour cela et limage des possibilits en optimisation, on peut soit
faire une recherche exhaustive car le nombre de modles possibles est ni, soit partir dun point
de dpart et utiliser une mthode doptimisation de la fonction objectif (recherche pas pas).
Remarquons quen gnral trouver le minimum global de la fonction objectif nest pas ga-
ranti dans les recherches pas pas et que seul un optimum local sera trouv dpendant du point
de dpart choisi.en gnral, on utilise lune des mthodes suivantes[10] :
Recherche pas pas, mthode descendante (backward selection)
Recherche pas pas, mthode progressive (stepwise selection)
Recherche pas pas, mthode ascendante (forward selection) dont lalgorithme gure de
procdure se prsente dans la gure 3.3.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING48
FIG. 3.3 Technique ascendante utilisant lAIC
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
CHAPITRE QUATRE
REPRESENTATION DUN SCORING
Si lanalyse discriminante permet de prvoir correctement (ou non) la variable binaire Y ,
il est rare quil ny ait pas derreur. Ainsi, dans une banque, chaque client est particulier et son
comportement dpend du temps prsent de son environnement, des circonstances extrieures
quil rencontre etc.. Le modle discriminant fournit, sur les donnes dapprentissage, des erreurs
que lon peut rsumer par un tableau de contingence.
Ainsi nous avons le nombre a de bien classs pour Y = 1 et d le nombre de bien classs pour
Y = 0. Les erreurs sont elles rsumes par c et b.(Cf. gure 4.1)
Dans la rprsentation du scoring, le seuil nest pas x priori comme il lest dans lanalyse
discriminante classique ou thorique.
4.1 Reprsentation thoriques
4.1.1 Prsentation sous forme de densit
Toutes les variables explicatives X
1
, ..., X
p
sont alatoires et donc le scoring S(X) est une
variable alatoire valeur dans R. En thorie, nous pouvons tracer sa densit sachant que Y =
0 et sa densit sachant que Y = 1. Le trac des densits dans les 2 cas renseigne sur le pouvoir
discriminant du scoring. Rappelons que pour un seuil donn, nous choisissons la valeur prvue
par le modle. Nous pouvons donc avoir des renseignements sur le pouvoir discriminant dun
scoring, pour un seuil donn, grce aux erreurs de premire et seconde espce :
= P(S(X) s|Y = 0), prvoir 1 alors quen ralit Y=0.
= P(S(X) s|Y = 1) , prvoir 0 alors quen ralit Y=1.
FIG. 4.1 Tableau de contingeance rsumant la capacit dajustement de lanalyse discrimi-
nante
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
REPRESENTATION DUN SCORING 50
FIG. 4.2 Densit de S(X) sachant Y=0 et Y=1(traits pleins) et leurs estimations (traits pointil-
ls). Le premier dessin gure un cas o des erreurs risquent dapparatre. Les aires colores
correspondent au choix dun seuil de s=450 et aux erreurs et .
FIG. 4.3 Courbe ROC dvolution des erreurs en fonction du seuil, gauche scoring parfait
et droite scoring avec des erreurs de classement.
Plus ces erreurs sont faibles, meilleur est le scoring(Cf gure 4.2)
Dans le cas de notre tude, lerreur est ici ne pas prendre un nouveau client (prvoir 1)
alors quil ne serait jamais dcouvert (Y=0) et lerreur sera de prendre un nouveau client
alors quil sera decouvert.
La prsentation sous forme de densit permet de montrer les dispersions potentielles des
scorings sous les 2 hypothses. Cependant il est difcile de voir linuence dun changement
de seuil.
4.1.2 Receiver Operating Curve (ROC)
La courbe ROCest une courbe paramtre ayant en abscisse (s) et en ordonne (1 (s)).
Elle permet de synthtiser de manire plus simple lvolution des erreurs en fonction de s. Pour
1 s donn, plus (s) est faible et (1 (s)) est fort, meilleur est le scoring.(gure 4.3)
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
REPRESENTATION DUN SCORING 51
FIG. 4.4 Courbe de performance, gauche un scoring parfait et droite un scoring avec des
erreurs.
Ce type de courbe est trs facile lire mais ne dpend pas de la probabilit des Y = 0 et
des Y = 1. Pour les faire intervenir, les praticiens utilisent les courbes de performance ou les
courbes de slection.
4.1.3 Courbe de performance
Nous allons cette fois ci nous intresser la proportion des individus dont le scoring est
infrieur au seuil s, ie P(S(X) s). Cette grandeur sera labscisse de notre courbe paramtre :
x(s) = P(S(X) s). Cette abscisse peut sinterprter comme le pourcentage (ici la probabilit)
de la population (les observations dont (Y = 0) et celles dont (Y = 1) dont le scoring est infrieur
s).
En ordonne nous allons regarder la probabilit de (Y = 1) dans cette population des indi-
vidus dont le scoring est infrieur s. An davoir une abscisse qui soit gale 1 quand s est
maximum, nous choisissons y(s) = P(Y = 1|S(X) s)/P(Y = 1) .(gure 4.4)
Remarquons quun score parfait touche laxe des abscisses au seuil s
0
qui spare parfai-
tement les deux populations. Cependant un score qui touche laxe au point (p
0
, 0) (avecp
0
> 0)
nest pas forcment un score parfait. Un score possde une courbe de performance qui touche
laxe des abscisses au seuil s
0
en de duquel il nexiste plus de Y = 1. Au dessus de s
0
peuvent
cohabiter des 0 et des 1 (si il ny a que des 1, le score est alors parfait).
Remarques
- Si le score est fantaisiste, alors la courbe peut remonter au dessus de la droite y = 1.
En effet, si dans tous les scores levs, au lieu de regrouper les individus {Y = 1}, on ne re-
groupe que des {Y = 0}, ce qui constitue un score tout fait fantaisiste, alors la probabilit
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
REPRESENTATION DUN SCORING 52
FIG. 4.5 Courbe de performance ( gauche) et de slection ( droite) pour un scoring fantai-
siste (pointills) et un scoring indpendant de Y (tirets longs)
P (Y = 1|S(X) s)va diminuer avec s. Ce cas est bien sr un cas limite que lon ne souhaite
pas voir.
- Si le score est simplement indpendant de Y, ie que lon cherche discriminer Y mais
aucune variable nexplique Y, alors nous avons P(Y = 1|S(X) s) = P (Y = 1)et nous avons
alors que le scoring est la droite y = 1.(Cf. gure 4.4)
4.1.4 Courbe de slection
An de contenir la courbe dans un demi carr, une autre courbe voisine existe. Elle est peut
tre plus naturelle lire, dans le sens o elle ressemble une courbe de concentration. Labscisse
reste toujours identique x(s) = P(S(X) s), mais lordonne est la probabilit davoir un score
infrieur s sachant que (Y = 1), cette ordonne peut se rcrire comme
P(S(X) s|Y = 1) =
P(S(X) s (Y = 1))
P(Y = 1)
=
P(Y = 1|S(X) s)
P(Y = 1)
P(S(X) s)
ie lordonne de la courbe de performance multiplie par une probabilit (comprise entre 0
et 1).
- Si le score est un tant soit peu raliste, il est en dessous de la premire bissectrice.
- Si le score est parfait, il touche laxe des abscisses la valeur du paramtre s
0
(gure
4.5).
- Un score possde une courbe de slection qui touche laxe des abscisses au seuil s
0
en
de duquel il nexiste plus de Y = 1. Ce nest pas forcment un score parfait (au dessus des
0
peuvent cohabiter des 0 et des 1).
- Si le score est indpendant de Y(ie pas de pouvoir explicatif des variables X
1
, ..., X
p
sur Y
), alors la courbe est la premire bissectrice (gure 4.6).
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
REPRESENTATION DUN SCORING 53
FIG. 4.6 Courbe de slection. A gauche scoring parfait et droite scoring avec des erreurs
de classements.
4.2 Estimations
Nous navons jamais les scores vrais mais des estimations que nous noterons
S(.). De
mme nous ne pouvons avoir la densit de
S(.) sachant Y = 0 ou de
S(.) sachant Y = 1, mais
nous pouvons lestimer par un estimateur noyau ou un histogramme. Enn les probabilits
P(S(X) s)sont simplement estimes par des pourcentages.
4.2.1 Qualit dajustement
Nous possdons n mesures des variables notes {X
i1
, ......, X
ip
, Y }
n
i=1
. A partir de ces me-
sures, nous estimons un scoring, par exemple par rgression logistique avec choix de variables.
Nous avons donc un scoring estim
S(.).
1. La premire tape est dordonner les observations selon les valeurs du scoring :
X
(1)1
, ..., X
(1)p
, Y
(1)
; ....; X
(n)1
, ..., X
(n)p
, Y
(n).
2. Il faut choisir une grille s
1
, s
2
,..., s
K
de valeurs de scoring. En gnral, on chosit les
valeurs extrmes du scoring, s
1
S(X
(1)
) et s
K
S(X
(n)
) .
3. Pour chaque intervalle, on dnombre le nombre dobservations n
1
, ..., n
k
qui sont dans
lintervalle ]s
k
;s
k+1
] pour k {1, ...., K} . De mme, on dnombre le nombre dobservations
qui possdent une valeur de Y gale 1 que nous noterons n
1
1
, ...., n
1
k
.
4. Les totaux sont le nombre total dobservation n =
K
k=1
n
k
et le nombre total dobserva-
tions avec Y
i
= 1, not n
1
=
K
k=1
n
1
k
. Lestimation de P(Y = 1) est alors
n
1
n
.
5. Les dnombrements sont ensuite cumuls donnant N
k
=
k
l=1
n
l
et N
1
k
=
k
l=1
n
1
l
.
Les probabilits sont estimes par
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
REPRESENTATION DUN SCORING 54
FIG. 4.7 Etapes de construction dune reprsentation dun scoring.
P(S(X) s
k+1
)
N
k
n
P(Y = 1|S(X) s
k+1
)
N
1
k
N
k
P(S(X) s|Y = 1)
N
1
k
N
k
n
n
1
N
k
n
6.Enn un type de courbe est choisi et on reprsente alors K points (x(s
k
) , y(s
k
)) ,
k {1, ..., K} et on ajoute le point (1 ;1) (Cf. gure 4.7)
Remarques
- Plus nous avons de points dans la grille de dcoupage (ie plus K est grand) plus nous
aurons de points dans la reprsentation nale et plus elle aura laspect dune courbe.
- Plus nous avons de points dans un intervalle ]s
k
, s
k+1
] plus les estimations des probabilits
seront prcises.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
REPRESENTATION DUN SCORING 55
- Comme nous utilisons les Y
i
pour construire lestimation du score
S() et pour estimer les
probabilits, nous navons que des courbes optimistes, cest le problme de lajustement qui
est toujours meilleur que la prvision...
4.2.2 Qualit de prvision
Nous possdons n mesures des variables notes {X
i1
, ..., X
ip
, Y
i
}
n
i=1
. Apartir de ces mesures
nous estimons un scoring, par exemple par une rgression logistique avec choix de variables.
Nous avons donc un score estim
S(.).
Ensuite nous avons un jeu de donnes de validation qui na pas encore t utilis. Nous
avons les observations suivantes
_
X
i1
, ..., X
ip
, Y
i
_
n
i=1
.
1. La premire tape est dordonner les observations selon les valeurs du scoring.
X
(1)1
, ..., X
(1)p
, Y
(1)
; ...; X
(n)1
, ..., X
(n)p
, Y
(n)
.
2. Il faut choisir une grille s
1
, s
2
, s
K+1
de valeurs du scoring. En gnral, on choisit les
valeurs extrmes du scoring, s
1
S(X
(1)
) et s
K
S(X
(n)
) .
3. Pour chaque intervalle on dnombre le nombre dobservations du jeu de validation n
1
, ...., n
k
qui
sont dans les intervalles ]s
k
; s
k+1
] pour k {1, ..., K} . De mme, ondnombre le nombre le
nombre dobservations du jeu de validation qui possdent une valeur de Y
K
k=1
n
k
et le nombre total dobservations avec Y
i
= 1, not n
1
=
K
k=1
n
1
k
. Lestimation de
P(Y
k
l=1
n
k
. N
1
k
=
k
l=1
n
1
k
.
Les probabilits sont alors estimes par
P(S(X) s
k+1
) =
N
k
n
P(Y = 1|S(X) s
k+1
) =
N
1
k
N
k
P(S(X) s|Y = 1) =
N
1
k
N
k
n
k
N
k
n
6. Enn untype de courbe est choisi et on reprsente alors K points (x(s
k+1
), y(s
k+1
)) ,
k {1, ..., K}et on ajoute le point (1 ;1).
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
CHAPITRE CINQ
MODELISATION
Introduction :
Dans ce chapitre, on sintresse au thme de la modlisation du credit scoring par un traite-
ment de nos donnes en appliquant les mthodes paramtriques exposes au chapitre 3. Compte
tenu de la varit des outils pouvant tre mis en jeu, nous avons fait le choix dinsister sur la
pratique des mthodes considres ainsi que sur la comprhension des sorties proposes par le
logiciel R
1
. R comme la plupart des logiciels en Statistique supposent implicitement les hy-
pothse de normalit, les distributions des estimateurs et donc les statistiques de test comme
valides[5](Data Mining 1, p 67). Plus rigoureusement, ces rsultats sont justis par les pro-
prits des distributions asymptotiques des estimateurs, proprits qui ne sont pas dveloppes
dans ce mmoire. Nous allons estimer une fonction de scoring par rgression logistique puis
par discrimination linaire. Nous appliquerons la validation croise pour estimer lerreur de
prdiction.
Warning : Recodage des variables qualitatives.
Le cas o les variables explicatives sont qualitatives ont ncessit un traitement particulier.
En effet comment faire une combinaison linaire de variables qualitatives et quantitatives ? Cela
na pas videmment pas de sens. La solution retenue est base sur ce quon appelle la forme
disjonctive dune variable X m modalits[12]. On dnit les m variables indicatrices des
modalits(1
1
, 1
2
, ..., 1
m
) telles que 1
j
vaut 1 si on appartient la modalit j, 0 sinon. Seule une
des indicatrices vaut 1, celle qui correspond la modalit prise. Les m indicatrices sont donc
quivalentes la variable qualitative. Au cas o lune de ces variables gurerait dans le scoring,
celui-ci serait alors une combinaison des indicatrices. Les variables explicatives qualitatives qui
interviennent dans le scoring sont donc les indicatrices de variables qualitatives. Cependant,
une difcult intervient : la matrice nest pas de plein rang et nest donc pas inversible car la
somme des indicatrices des modalits de chaque variable vaut 1. Cela signie quil existe une
innit de solutions quivalentes pour estimer les coefcients : une des solutions couramment
utilise consiste alors ne prendre que m-1 indicatrices pour chaque variable qualitative puisque
la dernire est redondante.
5.1 Rgression logistique
Nous allons diviser alatoirement notre ensemble dapprentsissage Aen L = 5 parties A
1
, A
2
,A
3
, A
4
, A
5
distintes, soit 26 individus pour chaque bloc. Pour chacune de ces parties, on va construire le
1
dont la version 2.5.1 est tlchargeable sur le site www.cran.at.r-project.org
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
MODELISATION 57
TAB. 5.1 Coefcients du modle logistique.
Variables Coef. Estimate Std. Error z value p-value IC
95%
retenues
CREDIT 0.9209897 0.0479373 19.21 < 10
3
0.8270343 | 1.014945
R1 -0.4030249 0.0263697 -15.28 < 10
13
-0.4547085 | -0.3513413
R3 0.7310701 0.0404733 18.06 < 10
8
0.6517439 | 0.8103964
R6 -0.0876921 0.0289502 -3.03 0.002 -0.1444334 | -0.0309509
R7 0.061002 0.0066751 9.14 < 10
5
0.047919 | 0.0740851
prdicteur de Y et on va calculer lerreur de prdiction par validation croise en utilisant la
fonction cv.glm qui se trouve dans la bibliothque boot du logiciel R.
Construction du modle et estimation de lerreur
La construction du modle logistique se fait en utilisant la fonction glmdu logiciel R, ensuite
une slection automatique des variables par minimisation de lAIC est faite par la fonction step
pour la slection des variables pertinentes du modle.
Le modle construit a retenu les variables CREDIT, R1, R3, R6, R7 comme signicatives.
Lestimation de lerreur par une validation croise en 5 blocs est 0.44957681.
Nous jugeons lerreur un peu lve. Etant donn la taille rduite de notre chantillon, on
peut se permettre daugmenter le nombre L de blocs, voire appliquer une estimation de lerreur
par leave-one-out. On obtient alors une estimation de lerreur gale 0.1886792, soit prs 82%
des observations originales classes correctement ce qui est acceptable car cette erreur est plus
petite que celle obtenue par une segmentation des donnes en 5 blocs. La qualit dajustement
peu tre donne par par le taux de mal classs. En effet, le scoring estim
S(X) tant determin,
il est possible pour chaque individu de notre chantillon destimer son scoring
2
. Au del du seuil
s=0, lestimation par le modle est 1. Le scoring estim par la rgression logistique avec une
erreur de 0.1886792 est :
T
1
1
1
2
T
0
1
0
obtenu ci-dessus nous donne s = 0,4125833.
Construction du scoring partir de la discrimination linaire
La procdure est identique que celle labore la rgression logistique. On dcide de faire
varier le seuil en esprant pouvant amliorer lerreur de prdiction.
On constate daprs la gure 5.2 que la construction dun scoring par discrimination linaire
est dgrade, lallure des trois courbes montre que la dduction dun seuil par rprsentation du
scoring nest pas possible. Il est pratiquement difcile den tirer des conclusions.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
CONCLUSIONS ET
RECOMMENDATIONS
Le but de notre travail tait de construire via des outils statistiques, une mthode de notation
des empruteurs la First Bank.
Au terme de ce travail, il en ressort que des deux mthodes annonces au chapitre 3 ( savoir
la rgression logistique et la discrimination linaire), seule la rgression logistique binaire nous
donne un rsultat satisfaisant. Le problme avec la discrimination linaire, est quil est un peu
difcile de se prononcer eu gard de la gure 5.2 qui montre 3 courbes dont les allures sont
loin de fournir un indice sur le calcul graphique du seuil. On pourrait se contenter du seuil tho-
rique s= 0,4125833, mais lerreur estime (= 0.62547) par validation croise(leave-one-out) est
lve. Cependant, ltude faite avec la rgression logistique nous fournit des rsultats concrets
au seuil s=0. On a obtenu une erreur de 0.1886792, soit plus de 80% de bons classements . En
faisant varier le seuil par construction du scoring, on se rend compte quavec un seuil = 80.3,
la discrimination est parfaite ie quon est sr de laffectation dun empruteur lune des deux
classes(erreur nulle). Toutefois, il est remarquer que ce seuil nous parat un peu trop rigou-
reux, elle nest applicable que si la banque ne veut courir aucun risque, ce qui nest pas toujours
une bonne politique bancaire car cette stratgie peut avoir un impact ngatif sur la rentabilit de
la banque
5
. Cette mthode de seuil variable permet de prendre des risques pour la slection des
clients dans la banque et ce selon les objectifs du moment.
Pour la First Bank, il convient dadopter le scoring valu par la rgression logistique :
S(X) est une fonction des ratios de rentabilit R1=CA/VA, R3=RN/capitaux propres, du
ratio dautonomie nancire R6=SN/total passif, du ratio de solvabilit R7= actif total/dettes et
du nancement (CREDIT) que lemprunteur a bnci auprs de la First Bank.
Recommendations
Pour un nouvel emprunteur ou un client de crdit qui sollicite un soutien nancier dans le
cadre dun projet dinvestissement :
1. La First Bank rcueille auprs du client les ratios R1, R3, R6, R7 et le crdit solli-
cit(CREDIT).
2. La banque calcule son scoring
S(X)= 0.9209897CREDIT - 0.4030249R1 + 0.7310701R3
- 0.0876921 R6+0.061002 R7 qui est une probabilit de dfaut.
5
Etant donn que loctroi de crdits fait partie de lactivit principale des banques, chercher annuler le risque
de crdit inuence sur les bnces de la banque.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
MODELISATION 63
En considrant le seuil thorique s=0, avec une erreur de 0.1886792 de mauvais classement,
on a le choix daffectation dun nouvel emprunteur rgis de manire suivante :
Si
S(X) 0 alors
Y = 0, ie que lemprunteur est non risqu, il est donc considr
comme bon.
Si
S(X) 0 alors
Y = 1, ie que lemprunteur est risqu, il est mauvais client.
Si
S(X) = 0 alors
Y = 0 ou
Y = 1, peu importe.
Cependant, en supposant que la politique conomique de la First Bank est de ne pas
prendre de risque ie on est au seuil de s=80.3, alors on a la rgle de dcision suivante :
Si
S(X) 80.3, alors le client est considr comme non risqu ie bon.
Si
S(X) 80.3, alors le client est peut-tre risqu.
Lexamen statistique de la situation conomique et nancire des entreprises (emprunteurs), en
vue de la dtection prcoce des difcults de la clientle, est extrmement fructueux. Par lana-
lyse multicritres, il permet la construction dun scoring qui fournit une image synthtique du
prol de lentreprise empreunteuse. Celui-ci est, dans la trs grande majorit des cas, rvla-
teur de la sant de lentreprise. Si un tel outil ne peut se substituer au jugement de lexpert,
il peut contribuer linformer rapidement sur le niveau de risque de lentreprise et concourir
au diagnostic, grce aux aides linterprtation qui laccompagnent. Lanalyste pourra alors se
concentrer sur des aspects plus dlicats et moins quantiables de lvaluation, en particulier les
aspects qualitatifs. Ainsi, expertise et utilisation dun scoring ne sont pas contradictoires ; au
contraire, elles se compltent et permettent dafner lanalyse du risque de crdit. De mme,
lorsque plusieurs outils dvaluation du risque sont disponibles, gnralement fonds sur des
systmes dinformation diffrents, il est trs fructueux de les examiner tous. En effet, les rensei-
gnements quils apportent relativisent les points de vue, accroissent la abilit de la prvision
et renforcent le diagnostic.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
ANNEXES
Codes R des fonctions utilises
Chapitre 5
##### importation du chier base
tab=read.table("donnee.txt",header=TRUE,sep="\t",dec=",")
####on rend visible le chier des donnees
attach(tab)
#### rsum des donnes
summary(tab)
##### modele simple
modelsimple =glm(Y~1,data=donnee,family=binomial)
summary(modelsimple)
##### modele complet
modelcomplet=glm(Y~.,data=donnee,family=binomial)
summary(modelcomplet)
##### Slection ascendante des variables du modle nal
Modelnal=step(modelecomplet,scope=list(upper=formula("Y~(FORJU+CAP +NACTI+SISO+CREDIT+EFF+DUREMB+GAR+AGE+EXP+THT
+INVEST+CHDI+MASA+CAF+VA+CA+RN+R1+R2+R3+R4+R5+R6+R7)", direction=forward),
lower=formula("Y~1")))
##### ajustement
table(modelnal$tted.values>0,tabapp$Y= =0)
##### calcul du scoring de chaque individu
score=predict(modelnal)
#### on ramne le scoring entre 0 et 100.
score= (score - min(score))*100/(max(score)-min(score))
#### on ordonne les valeurs du scoring par valeurs croissantes
ordre = order(score)
y.ordonne = donnee[ordre,"Y"]
score.ordonne = score[ordre]
decoupage=quantile(score.ordonne,seq(0,1,length=12))
score.decoupage =cut(score.ordonne,breaks=decoupage)
table.score=table(score.decoupage)
table.y = table(y.ordonne,score.decoupage)
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
MODELISATION 65
## Proba (S()<s )
px.v= cumsum(table.score)/sum(table.score)
## Proba( S()>s )
px2.v = rev( cumsum(rev(table.score))/sum(table.score) )
## Proba (Y=1 | S()<s )
py.v =cumsum(table.y.[2,])/cumsum(apply(table.y,2,sum))
## Proba (Y=0 | S()>s )
py2.v =rev(cumsum(rev(table.y[1,]))/cumsum(rev(apply(table.y,2,sum))) )
## Proba (Y=0 )
p0.v = table(y.ordonne)[1]/sum(table(y.ordonne))
## Proba (Y=1)
p1.v = table(y.ordonne)[2]/sum(table(y.ordonne))
### construction des courbes ROC, de slection et de performance
par(mfrow=c(1,3))
### courbe ROC
plot(c(0,py.v/p1.v*px.v),1-c(py2.v*px2.v/p0.v,0),type="b",xlab=expression(beta), ylab=expression(1-
alpha),col="red")
segments(0,0,1,1)
#### courbe de slection
plot(c(0,px.v),c(0,py.v/p1.v),type="l",xlab="P(S(x)<s)", ylab="P(Y=1|S(x)<s)/P(Y=1)", xlim=c(0,1),ylim=c(0,1),col="red")
segments(c(0,0),c(0,1),c(0,1),c(1,1))
#### courbe de performance
plot(c(0,px.v),c(0,py.v/p1.v*px.v),type="l",xlab="P(S(x)<s)", ylab="P(S(x)>s|Y=1)/P(Y=1),
xlim=c(0,1),ylim=c(0,1),col="red")
segments(0,0,1,1)
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
REFERENCES
[1]NDONG NGUEMA, Cours de Data Mining(2007), Ecole Nationale Suprieure Poly-
technique de Yaound.
[2]NDONGNGUEMA, Cours de Statistique Mathmatique(2007), Ecole Nationale Suprieure
Polytechnique de Yaound.
[3]RAPPORT ANNUEL 2006, Afriland First Bank.
[4]Collett D. (2003). Modelling binary data.Chapman & Hall/CRC, 2 ed.
[5]Philippe BESSE Data Mining 1, Laboratoire de Statistique et Probabilits, Universit
Paul Sabatier, Toulouse III.
[6] Glossaire 2007de la banque centrale tunisienne.
[7]Dufe (D.), Singleton (K. J.). Credit Risk. Princeton University Press (2003)
[8]Schervish M.J. (1995). Theory of statistics. Springer-Verlag, New-York.
[9]Mallows C.L. (1986). Augmented partial residuals. Technometrics, 28, 313319.
[10]Schwarz G. (1978). Estimating the dimension of a model. Annals of statistics, 6, 461464.
[11]Christophe J. GODLEWSKI, Rle de la Nature de lInformation dans lIntermdiation
Bancaire, LaRGE, Avril 2004
[12] Gilbert SAPORTA, La Notation Statistique des Emprunteurs (ou scoring) , CREM,
mars 2003
[13] Gregory N. MANKIW, Macroconomie , Nouveaux Horizons, De Boeck, 3me
dition, Bruxelles, 2003.
[14] Mark SCHREINER, Les Vertus et Faiblesses de lvaluation Statistique en Micro
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
MODELISATION 67
nance, Septembre 2003.
[15]Cohen, E. (1999), Dictionnaire de Gestion, Al Manar, Dictionnaires Repres.
[16]Patrick VILLIEU, Macroconomie : lInvestissement, (Repres, 276), La Dcouverte,
Paris, 2000 .
[17] www.afrilandrstbank.com
[18] www.micronance.com
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
Table des matires
1 PRESENTATIONDELASTRUCTUREDACCUEILETCONCEPTDERISQUE
BANCAIRE 15
1.1 Prsentation de la structure daccueil . . . . . . . . . . . . . . . . . . . . . . . 15
1.1.1 Afriland First Bank . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.1.2 La Direction des Etudes et du Corporate Banking(DECB) . . . . . . . 15
1.1.3 Contexte de ltude . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.2 Concept de risque bancaire : . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.2.1 Le risque de crdit : veiller aux dfauts de paiement[13] . . . . . . . . 20
1.2.2 Le risque de crdit : niveaux de gestion[7] . . . . . . . . . . . . . . . 20
2 DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 21
2.1 Mthodologie de collecte des donnes . . . . . . . . . . . . . . . . . . . . . . 21
2.2 Description des variables danalyse . . . . . . . . . . . . . . . . . . . . . . . . 22
3 DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING 33
3.1 Le modle probabiliste de prdiction . . . . . . . . . . . . . . . . . . . . . . . 33
3.2 Analyse discriminante linaire et quadratique . . . . . . . . . . . . . . . . . . 35
3.2.1 Estimation des paramtres . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2.2 Calcul du seuil thorique s . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3 Analyse discriminante logistique . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.1 Dnition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.2 Lien avec les GLM : . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.3 Estimation des paramtres . . . . . . . . . . . . . . . . . . . . . . . . 40
3.3.4 Prcision des estimations : . . . . . . . . . . . . . . . . . . . . . . . . 41
3.3.5 La qualit du modle . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.3.5.1 Un outil spcique : la dviance . . . . . . . . . . . . . . . 42
3.3.5.2 Evaluation des performances . . . . . . . . . . . . . . . . . 45
3.3.6 Slection automatique . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4 REPRESENTATION DUN SCORING 49
4.1 Reprsentation thoriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.1.1 Prsentation sous forme de densit . . . . . . . . . . . . . . . . . . . . 49
4.1.2 Receiver Operating Curve (ROC) . . . . . . . . . . . . . . . . . . . . 50
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
TABLE DES MATIRES i
4.1.3 Courbe de performance . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.1.4 Courbe de slection . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.2 Estimations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2.1 Qualit dajustement . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2.2 Qualit de prvision . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5 MODELISATION 56
5.1 Rgression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.2 Analyse discriminante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
Table des gures
2.1 Rpartition des dossiers selon la forme juridique. . . . . . . . . . . . . . . . 24
2.2 Diagramme en btons de NACTI. . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3 Rpartition des dossiers par lieu dimplantation des clients (%) . . . . . . . . 26
2.4 histogramme de la variable CREDIT . . . . . . . . . . . . . . . . . . . . . . 28
2.5 Histogramme et Boxplot de GAR . . . . . . . . . . . . . . . . . . . . . . . . 29
2.6 Rprsentation des densits des ratios R1 et R5. . . . . . . . . . . . . . . . . 30
3.1 Test de dviance,la droite verticale reprsente le seuil de rejet D
c
= q
1
(n p).
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2 Procdure dapprentissage/validation . . . . . . . . . . . . . . . . . . . . . . 45
3.3 Technique ascendante utilisant lAIC . . . . . . . . . . . . . . . . . . . . . . 48
4.1 Tableau de contingeance rsumant la capacit dajustement de lanalyse dis-
criminante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.2 Densit de S(X) sachant Y=0 et Y=1(traits pleins) et leurs estimations (traits
pointills). Le premier dessin gure un cas o des erreurs risquent dapparatre.
Les aires colores correspondent au choix dun seuil de s=450 et aux erreurs
et . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.3 Courbe ROC dvolution des erreurs en fonction du seuil, gauche scoring
parfait et droite scoring avec des erreurs de classement. . . . . . . . . . . . 50
4.4 Courbe de performance, gauche un scoring parfait et droite un scoring
avec des erreurs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.5 Courbe de performance ( gauche) et de slection ( droite) pour un scoring
fantaisiste (pointills) et un scoring indpendant de Y (tirets longs) . . . . . . 52
4.6 Courbe de slection. A gauche scoring parfait et droite scoring avec des
erreurs de classements. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.7 Etapes de construction dune reprsentation dun scoring. . . . . . . . . . . . 54
5.1 Courbes ROC, de performance et de slection lie la regression logistique . . 59
5.2 Courbes ROC, de performance et de slection lie la discrimination linaire. 61
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
Liste des tableaux
1.1 Fiche didentication de Afriland First Bank
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.1 codage des variables dtude . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2 Rpartition des dossiers de crdit suivant la forme juridique des entreprises. . 24
2.3 Rpartion des dossiers par activits principales des entreprises. . . . . . . . 25
2.4 Rpartition des dossiers de crdit par les montants des besoins exprims. 27
2.5 Rpartition des dossiers de crdit par les montants des garanties. . . . . . . 28
2.6 Rsum et test de normalit des ratios . . . . . . . . . . . . . . . . . . . . . 29
2.7 Rpartition des dossiers suivant les taux de crdit et les chances de rem-
boursement. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.1 Coefcients du modle logistique. . . . . . . . . . . . . . . . . . . . . . . . . 57
5.2 Dcoupage du scoring en classes en classes dffectifs approximativement gaux. 58
5.3 Dcoupage du scoring suivant les modalits de Y . . . . . . . . . . . . . . . . 59
5.4 Coefcients estims du modle linaire . . . . . . . . . . . . . . . . . . . . . . 60
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007