Sunteți pe pagina 1din 72

EVALUATION STATISTIQUE DU RISQUE DE

CREDIT PAR LA TECHNIQUE DU SCORING :


Cas de Afriland First Bank
Prsent par :
TENE Georges Colince
Matre s-Sciences en Mathmatiques Pures
Sous la direction de
Eugne-Patrice NDONG NGUEMA
Charg de cours lENSP de Yaound
Sous lencadrement professionnel de
Clestin GUELA SIMO
Directeur des Etudes et du Corporate Banking, AFRILAND FIRST BANK
DEDICACES
A la mmoire de mon pre. Papa : Que ton me repose en paix.
A ma mre, Mme TCHOUNDA Madeleine ; Maman, cest sr que tu ne comprendras
pas grand-chose au sujet que jai trait dans ce document, mais saches que chaque mot, chaque
phrase, chaque ponctuation et chaque lettre que jy ai inscrit ont une seule et mme signica-
tion : tu es la meilleure des mres .
A notre chef de famille, Mr FOYO Jean-Paul, pour tes conseils, ton soutien inconditionnel
que tu mas toujours apport comme tous tes enfants.
A mes surs, Mme WOUAGOU Juliette et Mme MASSO Flore, pour votre amour, votre
soutien moral et nancier, votre patience et votre dvouement sans faille qui mont permis
darriver jusqu ce point. Puisse ce diplme nous rserver tous des lendemains meilleurs.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
REMERCIEMENTS
Louange Dieu, le trs clment et le trs misricordieux .
Au Pr. Henri GWT
De prime bord, nous voudrions lui exprimer notre grande considration travers les grands
efforts fournis pour nous procurer le savoir et le savoir tre dans des conditions universitaires
favorables.
Au Dr. Eugne-Patrice NDONG NGUEMA
Une mention toute particulire dadmiration et dun grand respect son endroit, dont les
nombreux conseils mthodologiques et la constante disponibilit ont t plus que dterminant
durant notre formation et pour la ralisation de ce mmoire.
Au Pr. Philippe BESSE
Laboratoire de Statistique et Probabilits, UNIV Paul Sabatier de Toulouse III.
Pour sa disponibilit, son aide et les prcieux conseils quil ma donn via le Net.
A tout le personnel enseignant du Master 2 de Statistique Applique de lENSP.
Nous voulons ici exprimer nos sincres gratitudes toutes les personnes qui nous ont t
dun apport positif pendant notre stage la First Bank.
Nous remercions dabord M. GUELA SIMO Clestin pour avoir bien voulu nous parrainer
pendant notre sjour au sein de Afriland First Bank.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
3
Merci M. MOUAHA YEKEL, SIME Brice pour leur encadrement, et surtout pour avoir
bien voulu lire notre travail, contribuer par leurs nombreuses critiques positives son amliora-
tion.
Merci aussi tout le reste du staff de la Direction des Etudes et du Corporate Banking, et
plus particulirement MM El Hadj OUSMANE MAHAMAT et TACHOULA TSOGNO
Saturnin pour nous avoir bien accept parmi eux, et nous avoir guid dans les tches que nous
avons eu raliser pendant notre stage.
Sincres remerciements Mr Raymond TACHAGO pour lencadrement et le soutien in-
conditionnel dont jai toujours bnci ses cts.
A Mr Guillaume EYOUM pour le soutien dont il a toujours faire montre mon gard.
Ames amis et connaissances : Clotilde DJOTUE, Lopold NGUETGNIA, Nicanor NYAND-
JOU, Narcisse ZEBAZE, Samuel MBE et Raphal FONGANG.
A tous mes camarades du Master 2 de Statistique Applique de lENSP.
Enn, tous ceux qui nous ont oeuvr dans quelque circonstance que ce soit pour la concep-
tion et la ralisation de ce document, quils trouvent ici lexpression de notre profonde gratitude.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
AVANT - PROPOS
Le stage acadmique de n de formation fait partie du systme dvaluation de ltudiant
en Master 2 de Statistique Applique de lEcole Nationale Suprieure Polytechnique de lUni-
versit de Yaound I. Il prsente pour celui-ci un double intrt : ce stage permet lapprenant
dune part de se trouver dans un cadre mieux indiqu pour pouvoir confronter la thorie reue
pendant la formation la pratique sur le terrain de son futur mtier. Dautre part, cest aussi
loccasion de se familiariser avec son milieu de demain, le monde du travail. Cest la raison
pour laquelle le stage acadmique est une tape indispensable pour les futurs diplms en Sta-
tistique Applique que nous sommes. A lissue de ce stage, ltudiant prsentera un mmoire
de n de formation qui sera sanctionn par le diplme de master 2 de Statistique Applique.
Durant notre sjour qui a dur trois mois(25 juin au 25 septembre 2007) la First Bank,
notre objectif tait de fournir un outil statistique pouvant permettre de rduire le taux dimpays
lev par rapport la moyenne nationale, subie par cette banque en 2006, en mettant objec-
tivement sur pied un outil qui permettrait une dtection automatique des clients risque qui
sont la principale cause de ces impays. Il sagissait pour nous de construire un modle statis-
tique de dclement prcoce du statut bon ou mauvais client dun nouvel emprunteur de la
First Bank. Lorientation de notre travail tait porte sur la conception dun modle statistique
doctroi de crdit par la technique du scoring : Cest le credit scoring. Ce terme dsigne un en-
semble doutils daide la dcision utiliss par les organismes nanciers pour valuer le risque
de nonremboursement des prts.Un scoring est une note de risque, ou une probabilit de dfaut.
Le modle construit devrait nous permettre dvaluer le risque de crdit des emprunteurs de la
First Bank.
Nous navons pas la prtention davoir cern les contours du sujet, bien au contraire nous pen-
sons que plusieurs tudes doivent encore tre faites pour lamlioration de ce travail. Pour cette
raison, nous restons assujettis vos remarques et critiques.
il arrive que les grandes dcisions ne se prennent pas, mais se forment delles mmes
Henri Bosco (1888-1976)
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
RESUME
Comment les banques sont-elles censes valuer, prvoir et grer efcacement le risque
crdit, face lincroyable diversit des dangers et menaces qui psent dsormais sur leur acti-
vit ? Comment peuvent-elles rpondre avec succs aux nouvelles contraintes qui manent de la
clientle tout en prservant leur rentabilit future ? Ces deux questions sont au coeur des enjeux
lis la mesure du risque de crdit, et ne sont pas sans effet sur la capacit future des banques
grer ce type de risque. Encore aujourdhui, seules les banques et institutions nancires de
premier plan sont capables dvaluer leur risque de crdit avec un certain degr de conance ou
disposent dune base de donnes able pour le scoring ou la segmentation comportementale des
emprunteurs. Spcier des modles de risque plus robustes que les mthodes traditionnelles, en
intgrant davantage de facteurs de risque de crdit et en amliorant la prcision de la mesure de
ce risque, tel est le d que doivent aujourdhui relever les banques.
Dans le cadre de ce mmoire, notre travail consiste la mesure du risque de crdit par une
notation statistique des emprunteurs Afriland First Bank.On y dveloppe deux mthodes pa-
ramtriques de construction dun scoring, puis une comparaison nale des qualits de prvision
sur la base du taux de mal classs y est faite pour loptimisation des modles.
Mots cls : Banque, Risque de crdit, scoring, emprunteur, modle.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
ABSTRACT
How banks are supposed to evaluate, forecast and manage efciently credit risk, given
the multiple dangers and threats they have to face now? How can they answer successfully to
the new constraints arising from supervisors while preserving their future protability ? These
two questions are the most challenging issues related to credit risk, and they can impact on the
future banks ability to manage this type of risk. Even now, only rst-ranked nancial institu-
tions are really able to evaluate their credit risk with an acceptable level of condence or have
a reliable database for the scoring or the behavioural segmentation of the borrowers. Building
more robust credit risk models than traditional methods, by including more risk factors and im-
proving the accuracy of operational risk measures and indicators, such are the challenges banks
have to deal with in the near short term.
Within the framework of this memory, our work consists with the measurement of risk
credit, by a statistical notation of the borrowers at Afriland First Bank. We develop two para-
metric methods of construction of a scoring, then a nal comparison of qualities of forecast on
the basis of rate of evil classied is made for the optimization of the models.
Keywords : Banks, credit Risk, scoring, model, borrower
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
SIGLES ET ABBREVIATIONS
BTP : Btiment Travaux Publics.
CA : Chiffre dAffaire.
DECB : Direction des Etudes et du Corporate Banking.
ENSP : Ecole Nationale Suprieure Polytechnique .
ESDC : tude Statistique des Dossiers de Crdit .
Ets : Etablissement (entreprise personnelle) .
FCFA : Franc de la Communaut Financire de lAfrique Centrale .
GIC : Groupement dIntrt Commun .
IC : Intervalle de Conance.
M : millions .
RN : Rsultat Net.
SA : Socit Anonyme .
SARL : Socit Responsabilit Limite .
SN : Situation Net.
VA : Valeur Ajoute.
i.e :cest--dire
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
LEXIQUE DES TERMES
TECHNIQUES[15]
Actifs : cest lensemble des biens ou droits constituant le patrimoine de lentreprise, i.e
tout ce quelle possde.
Autonomie nancire dune entreprise : cest la capacit de sautogrer elle-mme.
Elle est value par les ratios : capital / dettes ; SN/dettes ; SN/total passif .
Cash ow : Le cash ow dune entreprise permet de mesurer sa capacit autonancer
ses investissements. Cest le moyen le plus sain puisquil correspond aux liquidits
dgages par lentreprise.
Charges directes : une charge est dite directe par rapport un produit lorsquelle parti-
cipe sans ambigut la fabrication de ce produit. Parmi les charges directes, on a entre
autres les matires premires et fournitures qui entrent en fabrication des produits et la
main duvre directe compose des frais de personnel rsultant des travaux effectus sur
un seul produit.
Charges indirectes : ce sont les charges qui concernent plusieurs produits (et parfois
mme tous les produits) de lentreprise et qui sont rparties (ou "imputes") entre ces
produits laide de cls de rpartition.
Ce sont par exemple : certains frais dusine (btiment, entretien, assurances, etc.), les cots des
services gnraux de lentreprise (direction gnrale, direction de la recherche, direction com-
merciale, etc.), les campagnes publicitaires portant sur plusieurs produits de lentreprise ou sur
lentreprise elle-mme (publicit corporate).
Chiffre daffaire : Le chiffre daffaire dsigne le total des ventes de biens et de services
facturs par une entreprise sur un exercice comptable.
Credit scoring : cest un ensemble doutils daide la dcision utiliss par les organismes
nanciers pour valuer le risque de nonremboursement des prts.
Fonds propres ou capitaux propres : ils correspondent aux ressources stables de lentre-
prise i.e dans une optique fonctionnelle, les capitaux propres participent, concurremment
avec les lments du passif externe, au nancement de lentreprise
Montant des investissements : Pour une entreprise, Cest le montant plac essentielle-
ment dans une opration conomique pour acqurir des biens durables utiliss court ou
moyen terme.
Passifs : ce sont les lments du patrimoine ayant une valeur conomique ngative pour
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
9
lentreprise, ie les obligations de lentreprise lgard dun tiers dont il est probable ou
certain quelle provoquera une sortie de ressources au bnce de ce tiers, sans contre-
partie au moins quivalente attendue de celui-ci. Les passifs comprennent les provisions
et les dettes.
Taux dintrt hors taxes en % : Le taux dintrt dun prt ou dun emprunt est le
pourcentage, calcul selon des conventions prdnies, qui mesure de faon synthtique,
sur une priode donne, la rentabilit pour le prteur ou le cot pour lemprunteur de
lchancier de ux nanciers du prt ou de lemprunt.
Valeur ajoute : Cest la contribution additionnelle dune ressource, dune activit ou
dun processus dans la ralisation dun produit ou dun service. En comptabilit elle est
donne par : Valeur Ajoute = Chiffre daffaire - Valeur des consommations interm-
diaires.
Rentabilit dune entreprise : cest laptitude donner des rsultats (positif ou ngatif).
La rentabilit permet dvaluer lefcacit, ou plutt lutilisation rationnelle de ressources
limites. Elle est value via les ratios suivants : VA/CA; RN/CA ou taux de marge nette ;
RN/capitaux propres.
Rsultat net : Le rsultat net dune entreprise sur une priode donne (par exemple : une
anne) est gal :
la somme des produits raliss par celle-ci sur la priode, (chiffre daffaires) de laquelle on a
dduit lensemble des charges (directes et indirectes) engages sur la mme priode, ainsi que
limpt sur les socits.
Le rsultat net peut donc prendre la forme dune perte (rsultat net ngatif) ou dun bnce
(rsultat net positif).
Scoring : cest une note de risque, ou une probabilit de dfaut.
Sige social ou lieu dexploitation : Le sige social dune entreprise est un lieu, pr-
cis dans les statuts dune socit, qui constitue son domicile et dtermine son domicile
juridique.
Solvabilit dune entreprise : cest sa capacit payer ses dettes ou ses cranciers. Elle
est value par le ratio actif total/dettes.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
RESUME EXECUTIF
Cette note propose une application aux techniques de credit scoring partir dune
tude de cas sur les difcults nancires des emprunteurs de la First Bank servant de sup-
port des formations initiales et continues en analyse des donnes. On prsente tout dabord
la problmatique de lvaluation du risque de crdit, les contraintes quimpose la collecte de
donnes comptables dans un tel contexte, et la batterie des critres micro-conomiques retenus
pour mesurer le degr dinsolvabilit des microcrditeurs. Linformation fournie par cette bat-
terie de variables nanciers est ensuite analyse aux moyens de techniques statistiques telle que
la rgression logistique et la discrimination linaire au sens de Fisher. Les rsultats fournis par
ces techniques danalyse discriminante, et de classement permettent de montrer lintrt m-
thodologique de ces outils pour ce type dtude micro-conomique. Les rsultats obtenus sont
interprts directement partir des sorties du logiciel R.
Objectif de ltude :
Proposer une base mthodologique de mesure du risque de crdit applicable aux emprun-
teurs lintention de la First Bank.
0.1 Problme
Dans un contexte de transition issu des rsultats comptables peu satisfaisants du rapport an-
nuel 2006, il est vraisemblable que la problmatique de lvaluation du risque de crdit bancaire
connaisse un regain dintrt compte tenu des multiples sollicitations de crdit auxquelles fait
face la First Bank. Les crances douteuses ont ainsi pes assez lourdes sur le rsultat net qua
connu la First Bank. Il savre ds lors indispensable de mettre en place des moyens efcaces
qui puissent permettre autant quil est possible de rduire les risques lis aux crdits accords
par la First Bank, faute de pouvoir les viter compltement.
0.2 Donnes
Les donnes sont collectes la DECB-division des projets et investissements, lunit sta-
tistique tant un dossier de crdit. Malgr les difcults de collectes auxquelles nous avons t
confronts pendant la priode de stage, nous avons pu collecter 130 dossiers de crdit pour un
total de 25 variables par dossier de crdit. Ceci nous a permis de confectionner notre base de
donnes sous forme dun tableau individus-variables pour en faire une analyse.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
11
0.3 Mthodologie
Il sagit dune classication supervise deux groupes : bons clients et mauvais
clients. An de discriminer au mieux les deux groupes demprunteurs rpertoris du point
de vue des critres nancires et comptables, nous avons utilis lanalyse discriminante sur la
base des variables nancires les plus pertinentes, pour prdire lappartenance de chaque em-
prunteur ou client au groupe dni par la valeur de la variable qualitative Y statut du client
deux modalits :
- si (Y =0), lentreprise(emprunteur) est considre comme nancirement saine ;
- sinon (Y=1), lentreprise est considr comme dfaillante.
partir de combinaisons des caractristiques nancires utilises comme variables explica-
tives (exognes) dans lanalyse, lanalyse discriminante construit des fonctions discriminantes
ou credit scoring permettant daffecter lemprunteur lun des groupes prdnis sur la base
dune rgle probabiliste baysienne. Les mthodes utilises sont la rgression logistique deux
classes et la discrimination au sens de Fisher.
An de valider les rsultats obtenus, nous utiliserons une procdure de validation croise
qui consiste pour chaque individu de lchantillon raliser son classement sur la base de la
fonction linaire discriminante obtenue avec les autres individus de lchantillon. Cela revient
effectuer autant destimations quil y a dindividus dans lchantillon. Selon cette procdure,
chaque individu class sert dchantillon-test pour le calcul du pourcentage de bien-classs et
le classement seffectue sur la base dun chantillon dapprentissage constitu par les n-1 indi-
vidus restants.
0.4 Rsultats
Le scoring obtenu par la rgression logistique binaire semble tre la mieux approprie pour
la notation statistique des emprunteurs la First Bank. Ainsi, lexpression mathmatique du
scoring est :

S(X)= 0.9209897CREDIT - 0.4030249R1 + 0.7310701R3 - 0.0876921 R6+0.061002 R7


qui est une probabilit de dfaut.
La mthode thorique nous fournit un seuil s=0 et un pourcentage de plus de 80% de bons
classements, consquemment la rgle de dcision suivante :


S(X) 0 alors

Y = 0, ie que lemprunteur est non risqu, il est donc considr comme
bon.


S(X) 0 alors

Y = 1, ie que lemprunteur est risqu, il est mauvais client.
La construction de ce scoring a gnr un seuil s= 80.3. En supposant que la politique cono-
mique de la First Bank est de ne pas prendre de risque ie on est au seuil de 80.3, alors on a la
rgle de dcision suivante :
Si

S(X) 80.3, alors le client est considr comme non risqu ie bon.
Si

S(X) 80.3, alors le client est peut-tre risqu car ici on rencotre les bons et les
mauvais clients.
Il est possible de faire encore varier ce seuil, cela signie quon accrot le risque et lerreur.
Lexamen statistique de la situation conomique et nancire des entreprises (emprunteurs),
en vue de la dtection prcoce des difcults de la clientle, est extrmement fructueux. Par
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
12
lanalyse multicritres, il permet la construction dun scoring qui fournit une image synthtique
du prol de lentreprise empreunteuse. Celui-ci est, dans la trs grande majorit des cas, rv-
lateur de la sant de lentreprise. Si un tel outil ne peut se substituer au jugement de lexpert,
il peut contribuer linformer rapidement sur le niveau de risque de lentreprise et concourir
au diagnostic, grce aux aides linterprtation qui laccompagnent. Lanalyste pourra alors se
concentrer sur des aspects plus dlicats et moins quantiables de lvaluation, en particulier les
aspects qualitatifs. Ainsi, expertise et utilisation dun scoring ne sont pas contradictoires ; au
contraire, elles se compltent et permettent dafner lanalyse du risque de crdit. De mme,
lorsque plusieurs outils dvaluation du risque sont disponibles, gnralement fonds sur des
systmes dinformation diffrents, il est trs fructueux de les examiner tous. En effet, les rensei-
gnements quils apportent relativisent les points de vue, accroissent la abilit de la prvision
et renforcent le diagnostic.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
INTRODUCTION
Contexte et problmatique
Le risque de crdit[6] est le risque (vu comme une probabilit) que lemprunteur ne rem-
bourse pas sa dette en partie ou en totalit, lchance xe. De nos jours, sa matrise est
lune des principales proccupations pour la plupart des organismes bancaires, notamment via
les crances quelles accordent leurs clients, qui sont pour la plupart des formes de prt court
terme, et pour cette raison, de nombreuses banques sont aujourdhui amenes lintgrer dans
leur gestion an de le minimiser. Ce risque est en effet lourd de consquences pour la banque,
car toute dette non rembourse est conomiquement une perte sche que supporte le crancier.
Comptablement parlant, les crances et emprunts accords des tiers constituent ainsi un poste
spcique dans le bilan de lentreprise et toute volution ngative obre dautant la survie de
lentreprise moyen ou long terme. Trs tt, les tablissements bancaires ont donc cherch
simmuniser contre ce risque de crdit. En amont, ce risque peut faire lobjet dune valuation
grce diffrents critres et des techniques mlant calcul et intuition. Suite cette valuation,
les banques disposent ensuite de diffrents moyens de protection pour minimiser, voire annuler
ce risque conomique.
Dans le cadre de leur fonction dintermdiation nancire, les banques sexposent au risque
de ne pas recouvrir la totalit des fonds engags dans les dlais impartis. La First Bank, 4
me
banque en total du bilan au Cameroun en 2006, a d constituer FCFA 4 milliards de provisions
pour faire face aux mauvaises crances au titre du mme exercice, pour un rsultat net(RN) dex-
ploitation de FCFA 1 milliard[3]. Ce qui reprsente un taux moyen de crances en souffrance
ou taux dimpays denviron 17% (taux suprieur la moyenne nationale qui est de 12%). Les
crances douteuses ont ainsi pes assez lourd sur ce rsultat net qua connu la First Bank. Il
savre ds lors indispensable de mettre en place des moyens efcaces qui puissent permettre
autant quil est possible de rduire les risques lis aux crdits accords par la First Bank, faute
de pouvoir les viter compltement. Cest la raison pour laquelle lun des ds conomiques
majeurs pour la First Bank en 2007 est rduire de manire considrable ces impays.
Le march du crdit bancaire mettant en relation le banquier et le client emprunteur est
caractris par une imperfection dinformation, source de rationnement du crdit aux yeux de
Christophe Godlewski[11]. Le banquier se doit ainsi de chercher les moyens efcaces qui lui
permettent de bien faire la slection de ses clients. La pratique de cette slection ncessite que
le banquier dispose dau moins deux choses : linformation sur les clients, et une technique
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
14
objective de slection elle-mme. Pour dtenir cette information, il y a une source ofcielle
reprsente par les documents comptables et sociaux, et une source prive ncessitant que le
banquier soit effectivement en relation avec lemprunteur. Pour analyser linformation quun
banquier dtient sur ses clients, on dispose la First Bank dune mthode subjective dont
les exigences majeures sont le jugement et le bon sens, ce qui ne permet pas la First Bank de
dceler judicieusement les clients susceptibles de ne pas honorer leurs engagements avec la
banque. Ainsi, Pour analyser linformation que le banquier dtient sur son client, il faut trouver
une autre approche complmentaire pour ltude des dossiers de crdit, amlioratrice du taux
dimpays. Ceci passe objectivement par la mise sur pied dun modle statistique dvaluation
du risque de non remboursement (risque de crdit) des emprunteurs de la First Bank.
Lutilisation de la statistique pour tudier les dossiers de demande de crdit passe par un travail
de synthse dune grande masse dinformations collecte dans le pass. En effet, les techniques
statistiques permettent de retracer le prol des bons clients et des mauvais clients travers leur
pass partir duquel il est possible de pronostiquer le risque de dfaut dun nouveau client.
Si un modle dvaluation est utilis, les variables discriminantes contenues dans ce modle
doivent tre statistiquement reprsentatives. La abilit du modle et ses paramtres doivent
tre contrls priori (mesure de la performance prdictive) et posteriori (back-testing).
Enjeu :
La mesure du risque de crdit sur les emprunteurs est un enjeu important, surtout lorsquil
sagit des besoins traditionnels tel que le crdit bancaire. La ncessit pour les banques de dis-
poser doutils ables est encore plus forte dans la priode actuelle de monte du risque de crdit
et de doutes sur les comptes de la clientle. La ralisation dun modle de notation statistique
doctroi de crdit par le scoring (credit scoring) est dune grande importance en ce sens que
sa capacit de pronostiquer facilite lvaluation des risques des candidats aux microcrdits. Le
credit scoring est objectif, cohrent et explicite, il permet de quantier le risque comme proba-
bilit et suppose quune bonne partie des risques est lie aux caractristiques quanties dans
la base de donnes.
Plan de travail :
Notre travail est divis en cinq principaux chapitres. Le squelette se prsente comme suit :
dans un premier temps, nous prsentons la banque Afriland First Bank, sa Direction des Etudes
et du Corporate Banking(DECB) et les diffrents risques auxquelles font face la plupart des
banques en mettant un accent particulier sur le risque de crdit. La description de nos donnes
fait lobjet du chapitre deux. Le chapitre trois est consacr un expos sur quelques applications
statistiques version paramtrique du credit scoring savoir la rgression logistique et la discri-
mination linaire-quadratique au sens de Fisher, ensuite un quatrime chapitre est consacr
la technique pratique de construction et reprsentation dun scoring, on fait varier le seuil s de
discrimination et on propose un algorithme pour estimer les mal classs lors de la prdiction,
il sagit des erreurs de premire et deuxime espce. Le chapitre cinq enn, est essentiellement
port sur les applications informatiques via le logiciel R des diffrentes mthodes annonces
aux chapitres trois et quatre, en essayant dinterprter les sorties obtenues. Un paragraphe pour
les recommandations y est insr la n pour conclure ce travail.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
CHAPITRE PREMIER
PRESENTATION DE LA
STRUCTURE DACCUEIL ET
CONCEPT DE RISQUE BANCAIRE
Ce premier chapitre de notre travail est dune part consacr une prsentation sommaire de
la structure dans lequel nous avons effectu notre stage acadmique. Dautre part, on y prsente
dans sa gnralit le concept de risque bancaire en y mettant un accent particulier sur le risque
de crdit, la raison dtre de notre travail.
1.1 Prsentation de la structure daccueil
1.1.1 Afriland First Bank
Afriland First Bank est un tablissement bancaire de 6 500 000 000 FCFA de capital social.
Cest une Socit Anonyme (SA) dont lhistoire remonte au 4 octobre 1987, date de cration
de la Caisse Commune dpargne et dInvestissement (CCEI) qui allait tre rebaptise Afriland
First Bank en abrg First Bank 15 annes plus tard. Son sige social est Yaound. Le tableau
1.1 prsente les principales caractristiques de la First Bank.
Notre stage sest droul au sige social de la First Bank Yaound, prcisment au sein
de la Direction des tudes et du Corporate Banking (DECB) dont les missions et lorganisation
sont sommairement prsentes dans les lignes qui suivent :
1.1.2 La Direction des Etudes et du Corporate Banking(DECB)
a- Les missions de la DECB
Plusieurs missions sont assignes la DECB, notamment :
ltude de faisabilits des projets ;
lvaluation des entreprises ;
ltude de la restructuration des entreprises ;
llaboration dune banque de donnes conomiques et statistiques ;
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
PRESENTATION DE LA STRUCTURE DACCUEIL ET CONCEPT DE
RISQUE BANCAIRE 16
TAB. 1.1 Fiche didentication de Afriland First Bank
Raison sociale : Afriland First Bank
Forme juridique : S.A
Sige social : Yaound, Hippodrome, Place de lindpendance,
B.P : 11834
Tel. : 22 23 30 68 / 22 22 37 34/22 23 63 27
Fax : 22 22 17 85
Telex : 8907 KN
Web : www.afrilandrstbank.com
Capital social : 6 500 000 000 F CFA
Vocation : La volont dtre et de rester une banque africaine
Ambitions :
- rester le partenaire de lentreprise gagnante ;
- entretenir la amme de linnovation;
- rester la banque de proximit ;
- nourrir la croissance par une bonne liquidit.
Source :www.afrilandrstbank.com
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
PRESENTATION DE LA STRUCTURE DACCUEIL ET CONCEPT DE
RISQUE BANCAIRE 17
lanalyse des lires conomiques ;
lalimentation permanente de la banque des projets ;
lorganisation / le conseil / le suivi des entreprises ;
la gestion des lignes de nancement ;
la promotion des entreprises ;
la promotion des fonds de garanties mutuelles ;
la recherche des solutions aux problmes spciques de nancement des entreprises ;
la recherche des subventions pour le nancement du suivi/conseil des entrepreneurs ;
la recherche des lignes de nancement moyen et long terme ;
la recherche des partenaires trangers ainsi que lassistance technique pour les projets ;
le dveloppement des diverses relations avec les bailleurs de fonds ;
la promotion et le suivi des microstructures ;
la gestion du portefeuille des participations locales.
b- Lorganisation de la DECB
La DECB est dirige par un directeur qui en assure le suivi et la gestion. Elle comprend trois
Dpartements :
Le Dpartement Micro banque organis en cinq divisions :
la Division Micro banque Ouest et Nord-ouest ;
la Division Micro banque Grand Nord ;
la Division Micro banque Littoral, Est et Sud-Ouest ;
la Division Micro banque Sud-Centre ;
la Division Audit
Le Dpartement des tudes, des Projets et des Investissements avec trois divisions :
la Division des tudes ;
la Division des Projets et Investissements ;
la Division Documentation et Archivage.
Le Dpartement du Corporate Banking et des Marchs Financiers qui comprend trois
divisions :
la Division des Marchs Financiers ;
la Division Asset Management / Gestion Actif ;
la Division du Corporate Banking
1.1.3 Contexte de ltude
Le dispositif actuel dtude des dossiers de crdit la First Bank
Le remploi des ressources collectes au titre des crdits accords aux agents conomiques
besoin de nancement est la raison dtre de la First Bank. En effet, plusieurs types de clients,
personnes physiques ou morales peuvent, au besoin, solliciter le concours de la First Bank pour
le nancement de leurs projets ou diverses activits conomiques.
Cependant, la First Bank ne rpond pas favorablement toutes les demandes exprimes
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
PRESENTATION DE LA STRUCTURE DACCUEIL ET CONCEPT DE
RISQUE BANCAIRE 18
par ses clients potentiels. Seuls les clients jugs aptes retourner les fonds reus aux condi-
tions convenues peuvent tre nancs. Cette aptitude respecter ses engagements vis--vis de
la banque svalue travers ltude des dossiers de demande de crdit introduits par les clients
auprs de la banque. Cette tude est conduite respectivement par les analystes, les contre ana-
lystes des dossiers de crdit et les comits de crdit.
a. Les analystes et les contre analystes des dossiers de crdit
Les analystes des dossiers de crdit dbutent lanalyse de tout dossier de crdit introduit auprs
de la First Bank par les clients. Mais, paralllement cette analyse des dossiers de demande de
crdit, les analystes assurent le conseil et lorientation du client an de lui permettre de bien
circonscrire lobjet de sa demande.
Ce dbut danalyse consiste notamment :
faire une description des caractristiques du client et de son besoin exprim ;
faire ltat de la situation des engagements en cours du client vis--vis du systme ban-
caire en gnral, et en particulier ses engagements vis--vis de la First Bank ;
dcrire le projet objet de la demande, et en analyser les risques, la rentabilit et la solva-
bilit ;
recenser les types de garanties que le client propose pour la couverture dventuels enga-
gements de la banque ;
rsumer les points forts et les points faibles susceptibles dorienter une apprciation du
dossier en traitement ;
faire une proposition de dcision vis--vis du nancement sollicit par le client, ainsi que
les conditions de banque que sont lchance, les garanties, le mode damortissement du
crdit et le taux dintrt.
Ce travail des analystes est par la suite prsent un contre analyste pour des critiques en vue
de son amlioration. Le dossier tudi par lanalyste et le contre analyste est alors prt tre
prsent aux comits de crdit pour son apprciation.
b. Les comits de crdit
Ce sont les seules instances mme de valider dnitivement un dossier de crdit devant bn-
cier du concours de la banque dans les limites de leurs comptences. Il y a cet effet 5 comits
de crdit chacun habilet valider les dossiers de crdit portant des montants compris dans un
intervalle donn. Un autre critre distinctif de ces comits est la qualit des membres.
Le comit 1 commence lanalyse de tout dossier tudi par lanalyste et le contre analyste.
Les membres dbattent du dossier de crdit sur la base dune che danalyse rdige par lana-
lyste. Il valide la demande de nancement en reprcisant les conditions de banque (chance,
garanties et taux), ou la rejette, si le montant se trouve dans les limites de ses comptences. Si
non, il donne son avis, favorable ou non, pour le nancement du besoin du client, puis transmet
le dossier au comit 2 qui suit le mme processus. Cette dmarche se poursuit jusquau comit
5 pour les montants des crdits pour lesquels les 4 premiers comits ne peuvent se prononcer
dnitivement. Enn, notons que la dcision de chaque comit est motive, et accompagne
dun procs verbal.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
PRESENTATION DE LA STRUCTURE DACCUEIL ET CONCEPT DE
RISQUE BANCAIRE 19
1.2 Concept de risque bancaire :
Dans cette partie, nous abordons sommairement le concept de risque bancaire et nous nous
articulons essentiellement sur la zoologie du risque nancier.
La principale mission des banques est dassurer la fonction dintermdiaire nancier. Lors-
quune banque combine des ressources dorigines diverses pour nancer plusieurs emplois dis-
tincts, cette fonction est qualie dallocation. Cette fonction dintermdiation dans un environ-
nement instable fait ainsi supporter ltablissement nancier quatre types de risques [7] :
1.Les risques commerciaux : ce sont les risques rsultant de linsolvabilit dun acheteur
priv dans le cadre dune vente de marchandises ou dune prestation de service, ou dun four-
nisseur priv dans le cadre dune opration de prnancement. La couverture de ce risque peut
tre limite linsolvabilit juridiquement constate ou largie linsolvabilit de fait (prsu-
me) ou la carence pure et simple (dfaut).
2.Les risques de positionnement concurrentiel : Cest un type de risque principalement ca-
ractris par la situation dun produit ou une entreprise produit unique par rapport la concur-
rence et de pouvoir tirer les enseignements qui simposent quant la position concurrentielle
de la rme et lattrait du march.
3.Les risques oprationnels : Ce sont les risques que lorganisation, ses acteurs et lenviron-
nement externe font courir la banque. Ils se dcomposent en 4 sous-ensembles :
Le risque li au systme dinformation : dfaillance matrielle, bogue logiciel, obsoles-
cence des technologies (matriel, langages de programmation, SGBD,..).
Le risque li aux processus (saisies errones, non respect des procdures,. . . ) ;
Le risque li aux personnes (absentisme, fraude, mouvements sociaux,. . . mais aussi
capacit de lentreprise assurer la relve sur les postes cls) ;
Le risque li aux vnements extrieurs (terrorisme, catastrophe naturelle) .
4. Les risques nanciers : Ce sont les plus importants, ces risques, pouvant entraner des pertes
srieuses pour la banque, doivent tre pris en compte dans sa gestion interne. On en distingue
six principaux types :
Le risque de liquidit, pour une banque, reprsente lventualit de ne pas pouvoir faire
face, un moment donn, ses engagements ou ses chances.
Le risque de tauxdun tablissement nancier est celui de voir sa rentabilit ou la valeur de
ses fonds propres affectes par lvolution des taux dintrt,
Le risque de march est le risque de pertes sur les positions du bilan et du hors bilan la
suite de variations des prix de march.
Le risque de change traduit le fait quune baisse des cours de change peut entraner une
perte de valeur libelle en de vises trangres.
Le risque de solvabilit est lventualit de ne pas disposer de fonds propres sufsants pour
absorber les pertes ventuelles.
Le risque de crdit ou de contrepartie : cest le risque pour un crancier de perdre d-
nitivement sa crance dans la mesure o le dbiteur ne peut pas, mme en liquidant lensemble
de ses avoirs, rembourser la totalit de ses engagements.
Ce dernier est la principale typologie de risque laquelle sont confronts les tablissements
de crdit (banque) de nos jours. Le crdit comporte toujours un certain degr de risques. La
banque ne peut les liminer totalement, mais plutt en les mesurant correctement, elle doit
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
PRESENTATION DE LA STRUCTURE DACCUEIL ET CONCEPT DE
RISQUE BANCAIRE 20
pouvoir les grer, par exemple les couvrir sils sont importants. Lorsque la banque octroie un
crdit, elle pose un acte de conance vis--vis du dbiteur. Faire crdit, cest essentiellement
faire conance : la banque croit au remboursement ultrieur de la somme emprunte. Mais il
ny a jamais de certitude absolue que le dbiteur remboursera dans les dlais convenus. Cest
la raison pour laquelle la gestion du risque de crdit requiert une attention de grande envergure
car le contraire pourrait entraner la faillite de la banque.
1.2.1 Le risque de crdit : veiller aux dfauts de paiement[13]
Lvnement risqu est le non-respect par un client ou par une contrepartie de ses obli-
gations nancires ou, de manire plus gnrale, la dtrioration de la qualit crdit de cette
contrepartie. Tout produit bancaire pour lequel un dfaut de paiement du client entranerait une
perte pour la banque doit donc faire lobjet dun calcul de risque crdit. Lhorizon de temps per-
tinent pour le risque de crdit stale donc jusqu lexpiration des contrats, mais il est souvent
ramen un an, priode de recapitalisation de la banque.
1.2.2 Le risque de crdit : niveaux de gestion[7]
Le risque de crdit est gr plusieurs niveaux :
1- Les systmes de gestion des limites permettent de diversier le risque et dviter la
concentration des encours crdit sur un pays (risque gogure), un secteur conomique, un
groupe international, etc.
2-Les systmes de scoring valuent la probabilit de dfaut de paiement pour un client ex-
ante (avant mme de lui octroyer le crdit) ; ces systmes sont souvent bass sur des statistiques
de dfaillances et permettent de segmenter les clients suivant le risque.
3- Un systme de gestion de portefeuille, au-del des systmes utiliss pour loctroi du
crdit, permet doptimiser les transactions. La notion de pertes moyennes intervient nouveau,
mais couple la notion de capital conomique, pour driver un Risk Adjusted Return On
Capital (RAROC). Ce RAROC sera disponible plusieurs niveaux : par transaction, par client
et par entit de la banque. Ce systme permet galement, grce aux investisseurs et aux marchs
nanciers, de redistribuer le portefeuille des crdits pour un rapport rendement / risque optimal.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
CHAPITRE DEUX
DESCRIPTION STATISTIQUE DE
LA BASE DE DONNEES
Introduction :
Les outils de la Statistique descriptive fournissent des rsums synthtiques de sries
de valeurs adaptes leur type (qualitatives ou quantitatives), et observes sur une population
ou un chantillon. Ce chapitre se propose de prsenter quelques moyens permettant de rsu-
mer les caractristiques (tendance centrale, dispersion, bote moustaches, histogramme, tests
statistiques) dune variable statistique ou les relations entre variables de mme type quantita-
tif (coefcient de corrlation, nuage de points) ou qualitatif. De types diffrents (rapport de
corrlation, diagrammes en botes parallles). Les notions prsentes sont illustres sur un jeu
de donnes typique dun credit scoring en marketing bancaire. Cest ensuite la recherche de
prtraitements des donnes an de les rendre conformes aux techniques de modlisation ou
dapprentissage quil sera ncessaire de mettre en oeuvre an datteindre les objectifs xs :
Codage en classe ou recodage de classes,
Imputations ou non des donnes manquantes,
Classication supervise et premier choix de variables.
Dans le cas dune seule variable, Les notions les plus classiques sont celles de mdiane,
quantile, moyenne, frquence, variance, cart-type dnies paralllement des reprsentations
gures : diagramme en bton, histogramme, diagramme-bote, gures cumulatifs, diagrammes
en colonnes, en barre ou en secteurs. Dans le cas de deux variables, on sintressera la corr-
lation, au rapport de corrlation ou encore la statistique dun test du khi deux associ une
table de contingence. Ces notions sont associes diffrentes gures comme le nuage de points
(scatterplot), les diagrammes-botes parallles.
Dans ce qui suit, nous prsentons la mthodologie de collecte des donnes et nous nous
proposons simplement de produire via certains outils moins classiques mais efcaces et prsents
dans la plupart des logiciels statistiques comme le logiciel R. Cela nous permettra galement
dillustrer les premires tapes exploratoires raliser sur notre jeu de donnes.
2.1 Mthodologie de collecte des donnes
La constitution dun chantillon pour notre tude savre trs coteuse en temps du point
de vue de la collecte des donnes, pour des raisons techniques lies lharmonisation des pra-
tiques comptables de la First Bank ; mais galement en raison des rgles strictes de condentia-
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 22
lit imposes par la nature des informations comptables et nancires. Les donnes nancires
et comptables sont issues de la DECB - division des projets et investissements de la First Bank.
La slection sest effectue sur la base de donnes physiques comptables, disponibles et ables
pour des exercices datant jusquen n 2006
1
.
Pour notre tude, nous avons considr comme unit statistique un dossier de crdit. A
la First Bank, un dossier de crdit est un chier physique dans lequel on retrouve toutes les
informations comptables et nancires sur un client. Les dossiers de crdit quon a pu consulter
taient essentiellement les dossiers sur les projets dinvestissements pour lesquels la First Bank
stait sengage en mettant la disposition du promoteur le crdit (en totalit ou en partialit
suivant les recommandations des diffrents comits de crdit) dont il avait besoin pour le -
nancement de son affaire. Dans la conduite dune analyse statistique des dossiers de crdit, le
premier travail a consist constituer un chier qui contient des informations compltes sur des
dossiers de prts. La constitution de la base de donnes sous forme dun tableau deux entres
individus-variables ncessaire cette lanalyse a commenc avec la dnition des variables de
natures diverses collecter partir des dossiers de crdit dj octroys par la First Bank et qui
taient arrivs chance. Ltape de la collecte sera suivie par celle de la saisie an de disposer
dune base de donnes sous forme de chier lectronique pour les besoins danalyse. Malgr
la difcult de collecte de donnes laquelle nous avons t confronts pour des raisons de
secret bancaire mis par la banque, nous avons tout de mme recueilli pendant une dure de
trois semaines un total de 130 dossiers de crdit, bien videmment peu satisfaisant en nombre,
mais aussi, sufsant pour mener terme notre travail. A lissue de cette collecte, des 130 dos-
siers de crdit obtenus, on en dnombre 19 dont le crdit octroy par la First Bank ntait pas
rembours totalement ,en partie ou mme pas rembours aprs la date de lchance convenue
avec la banque.
2.2 Description des variables danalyse
Le choix des variables danalyse se doit dobir la seule logique de couverture maximale,
autant que faire se peut, de linformation susceptible daider distinguer les bons dossiers de
crdit des mauvais dossiers, ou les mauvais clients des bons clients. Les variables retenir
doivent donc contenir lessentiel de linformation sur le client. La batterie de critres cono-
miques et nanciers comporte 25 variables explicatives et une variable qualitative Y expliquer
dont les slections sont faites selon les thmes dcrits dans le tableau 2.1 .
Remarque
Dans le tableau 2.1, les variables FORJU, NACTI, SISO et Y sont qualitatives et les 22
autres sont quantitatives. Il est noter la variable Y = statut dun client est la variable qualitative
binaire prdire dont les modalits sont 0 = bon client ou client non risqu et 1 = mauvais
client ou client risqu. Nous dclarons un client bon lorsquil a rembours la totalit de son
emprunt lchance xe avec la banque, sinon il est considr comme mauvais client.
1
Etant donn quun crdit mis sur pied en 2007 ne pouvait pas encore tre son terme au moment de notre
tude, en effet la plupart des dossiers de crdit avait une dure de remboursement suprieure 12 mois.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 23
TAB. 2.1 codage des variables dtude
NOM VARIABLE CODAGE
FORJU forme juridique 1= SARL; 2= Ets ; 3=SA; 4=particulier ;
5= autres(association et GIC)
CAP montant du capital en FCFA
NACTI nature de lactivit 1= commerce gnral ; 2=BTP; 3= industrie ;
4=sant publique ; 5=agriculture ;
6=commerce spcialis ; 7=autres
SISO sige social 1=Yaound ; 2=Douala ; 3=bafoussan ;
4=batouri ; 5=autres
CREDIT montant du crdit octroy en FCFA
EFF effectif de lentreprise en nombre de personnes
DUREMB dure du remboursement en mois
GAR montant des garanties en FCFA
AGE ge du promoteur en annes
EXP exprience du promoteur en annes
THT taux dintrt hors taxes en %
INVEST montant des investissements en FCFA
CHDI charges directes et indirectes en FCFA
MASA masse salariale ou frais du personnel en FCFA
CAF cash ow en FCFA
VA valeur ajoute en FCFA
CA chiffre daffaire en FCFA
RN rsultat net en FCFA
R1 ratio 1 de rentabilit=CA/VA numrique
R2 ratio 2 de rentabilit=RN/CA numrique
=taux de marge nette
R3 ratio 3 de rentabilit numrique
=RN/capitaux propres
R4 ratio 1 dautonomie nancire numrique
=capital/dettes
R5 ratio 2 dautonomie nancire numrique
=SN/dettes
R6 ratio 3 dautonomie nancire numrique
=SN/total passif
R7 ratio de solvabilit numrique
=actif total/dettes
Y statut dun client 0=<< bon client >>; 1=<< mauvais client >>
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 24
TAB. 2.2 Rpartition des dossiers de crdit suivant la forme juridique des entreprises.
Forme juridique(FORJU) effectif (%)
Socit responsabilit limit(SARL) 53 40.77
Etablissement(Ets) 24 18,46
Socit Anonyme(SA) 23 17,69
particulier 21 16.15
autres 9 6,92
Total 130 100,00
FIG. 2.1 Rpartition des dossiers selon la forme juridique.
Dans ce qui suit, nous dcrivons dabord les variables endognes qualitatives, ensuite la
description est porte sur certaines variables quantitatives endognes en privilgiant les gures
et en recherchant les ventuelles liaisons entre elles.
La forme juridique(FORJU)
Le tableau 2.2 donne la rpartition des dossiers de crdit enregistrs dans notre tude suivant
la forme juridique des entreprises ayant initi ces dossiers. Le plus gros lot de dossiers (40,77
%) est issu des SARL. Les Ets suivent avec 18,46% de ces dossiers, les SA occupent 17,69%,
les particuliers avec un peu plus de 16,15% des dossiers dans chaque cas. Environ 6,92 % des
dossiers proviennent des autres i.e des groupements et associations.
Cette rpartition des dossiers de crdit suivant la forme juridique peut tre explique par
des facteurs tels que le nombre de demandes exprimes, la qualit des projets prsents, ou le
pass des entreprises auprs de la banque. Nous associons au tableau 2.2 un histogramme de la
variable FORJU.(Cf. gure 2.1)
Nature de lactivit (NACTI)
Une riche gamme dactivits est couverte par les entreprises ayant sollicit avec succs le
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 25
TAB. 2.3 Rpartion des dossiers par activits principales des entreprises.
Activit principale des entreprises Effectif
commerce gnral 28
BTP 26
industrie 14
sant publique 9
agriculture 8
enseignement 7
commerce spcialis 7
import-export 6
htellerie 4
mdecine et chirugie 2
restauration 4
prestations de services 4
services de transport 2
tlcommunications 2
gestion immobilire 1
distribution des hydrocarbures 1
social 1
services nanciers 1
pharmacie 1
imprimerie 1
communication audiovisuelle 1
Total 130
concours de la First Bank. La liste des domaines dactivits principales des entreprises dont les
dossiers de crdit sont valids est donne dans le tableau 2.3.
Les commerants, les entreprises de btiment et travaux publics (54 dossiers) ont enregistr
prs de la moiti des dossiers valids. Les autres activits sont trs peu reprsentes dans notre
base de donnes. Nous illustrons ces propos par une reprsentation de la variable NACTI.(Cf
gure 2.2)
Le sige social ou le lieu dimplantation des entreprises nances (SISO)
Nous avons utilis 5 modalits pour cette variable lors de la collecte. Ces modalits sont no-
tamment : Yaound, Douala, Bafoussam, Batouri et les autres villes. Sur le plan national, cette
rpartition suit la logique de concentration des entreprises et dintensit de lactivit cono-
mique, comme le montre la gure 2.3 .
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 26
FIG. 2.2 Diagramme en btons de NACTI.
1=commerce gnral | 2=BTP | 3=industrie | 4=sant publique | 5=agriculture| 6=commerce
spcialis | 7=autres.
FIG. 2.3 Rpartition des dossiers par lieu dimplantation des clients (%)
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 27
TAB. 2.4 Rpartition des dossiers de crdit par les montants des besoins exprims.
Classe de besoin Nombre de clients
10 M et moins 8
]10M;25M] 30
]25M;50M] 20
]50M;500M] 62
]500M;900M] 6
suprieur 900M 4
Total 130
Daprs la gure 2.3, On observe que la plus grande part de dossiers valids proviennent
des entreprises bases Yaound (59,23 %). Les dossiers provenant des entreprises implantes
Douala, o la concentration des entreprises est la plus grande lchelle nationale nest que
denviron 20 %. Les autres villes et les zones rurales camerounaises sont reprsentes hauteur
de 8,46 % environ des avis de nancement.
Crdit octroy (CREDIT)
La rpartition des dossiers de crdit par montant de besoin exprim du Tableau 2.4 montre que
prs de la moiti des emprunteurs de la First Bank sont ceux qui se sont vus accords un crdit
dont le besoin est compris entre 50 millions et 500 millions. Par contre, peu de clients ont eu un
avis favorable leur demande de crdit lorsque le besoin du nancement est lev (suprieur
900 millions). La rticence de la First Bank ce type de crdit provient peut-tre du fait quelle
ne veut pas nancer les projets cot trop lev cause du grand risque encouru pouvant
engendrer des pertes normes pour la banque. Par ailleurs, il est remarquer aussi que la First
Bank nest pas intresse par les clients dont la demande de crdit en besoin est faible (infrieur
15 millions), une raison pouvant expliquer ce fait est que la banque estime le rendement de ce
type de projet ngligeable pour sa prosprit au vu des efforts investis et du temps consacr par
les analystes pour ltude dun dossier dun crdit. Le tableau 2.4 et la gure 2.4 illustrent ces
propos.
Variable garantie (GAR)
La rpartition des garanties du Tableau 2.5 montre que plus de la moiti, soit 56% des dossiers
de crdit porte une garantie comprise entre 100 millions et 500 millions, avec une moyenne
des garanties=889.200.000 et un maximum=68.480.000.000 qui se prsente comme une valeur
aberrante.
Le diagramme-bote (boxplot) et lhistogramme de la variable GAR illustre la distribution
de la variable cumulant les garanties des emprunteurs. On constate une forte concentration de
la variable GAR la base de la gure de droite et une valeur atypique lextrmit suprieure,
ce que conrme lhistogramme de GAR. Trs peu de concours de crdit ayant eu une faible
garantie ont t accepts. On conclut donc que loctroi dun crdit la First Bank est aussi
dtermin par une masse matrielle assez imposante de garanties.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 28
FIG. 2.4 histogramme de la variable CREDIT
TAB. 2.5 Rpartition des dossiers de crdit par les montants des garanties.
Classe de la garantie Nombre de clients
15M et moins 3
]15M;50M] 16
]50M;100M] 17
]100M;500M] 73
]500M;1000M] 10
suprieur 1000 11
Total 130
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 29
FIG. 2.5 Histogramme et Boxplot de GAR
Diffrents ratios de notre base de donnes
Nous rsumerons la description des ratios nanciers R1, R2, R3, R4, R5, R6, R7 dans le tableau
2.6 .
On contacte que la plupart des ratios ont des valeurs qui uctuent autour de zro et ils ont
une p-value rsultant du test de Shapiro-Wilk infrieure au seuil 5%; on rejette lhypothse
nulle (Ho) : le ratio suit une loi normale, donc on conclut quau seuil 5%, les ratios nanciers
de notre base de donnes ne sont pas des variables gaussiennes. Les reprsentations gures des
fonctions de densit des ratios R1 et R5 contenues dans le gure 2.6 conrment les rsultats du
TAB. 2.6 Rsum et test de normalit des ratios
Min Median Mean Max p-value du test de Shapiro au seuil 5%
R1 -1.8000 0.4350 0.4793 4.6000 2, 257.10
13
R2 -3.0300 0.0800 0.1351 2.9100 pvalue < 2, 2.10
16
R3 -0.7800 0.3500 0.5040 3.7100 1, 696.10
12
R4 -9.6200 0.2300 0.5249 8.6400 2, 894.10
12
R5 -4.810 0.845 1.146 8.360 1, 240.10
05
R6 1.3600 0.6800 0.6352 3.2500 2, 779.10
07
R7 -5.8600 1.5500 1.8980 9.3800 0.01168
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 30
FIG. 2.6 Rprsentation des densits des ratios R1 et R5.
test prcdent :
Le taux dintrt hors taxes (THT)
Les taux dintrt hors taxes appliqus aux crdits la First Bank sont trs diversis en
nombres, allant dun minimum de 3 % (appliqu un seul dossier long terme) 16.8% (appli-
qu deux dossiers court et moyen terme). Lvolution du nombre de dossiers valids en fonction
du taux dintrt est reprsente dans le tableau 2.7. Le taux de 13,75 % apparat plus frquem-
ment aussi bien dans les contrats de courte priode que dans les contrats de moyen terme. Pour
lensemble des dossiers portant les taux dintrt (130 dossiers au total), on dnombre 49 dos-
siers portant ce taux de 13,75 %.
Daprs le tableau 2.7, on constate que lintervalle de THT qui est ]13,50 ;14,00] regorge
une forte concentration des dossiers de crdit.
Liaison entre les variables de nos donnes
An de vrier sil y a un ventuel lien entre les diffrentes variables prises en compte dans
notre tude, nous avons calcul le coefcient de corrlation. Le choix de couple
2
de variables
2
La matrice de variance-covariance de notre tableau nous permettait de voir les variables qui taient lies.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 31
TAB. 2.7 Rpartition des dossiers suivant les taux de crdit et les chances de rembourse-
ment.
Echances de remboursement
Taux de crdit HT en % Court terme Moyen terme Long terme Total
([0 ;2 ans[) ([2 ;10 ans[) ( 10 ans)
3,000 0 0 1 1
8,000 1 3 0 4
]8,000 ;8,500] 5 0 0 5
]8,500 ;9,000] 7 3 0 10
]9,000 ;9,500] 6 1 0 7
]9,500 ;10,00] 2 0 0 2
]10,00 ;10,50] 0 0 0 0
]10,50 ;11,00] 1 0 0 1
]11,00 ;11,50] 0 0 0 0
]11,50 ;12,00] 1 0 0 0
]12,00 ;12,50] 2 1 0 3
]12,50 ;13,00] 12 11 0 23
]13,00 ;13,50] 4 2 0 6
]13,50 ;14,00] 44 7 0 51
]14,00 ;14,50] 3 1 0 4
]14,50 ;15,00] 3 0 0 3
]15,00 ;15,50] 4 1 0 5
]15,50 ;16,00] 2 0 0 2
]16,00 ;17,00] 1 1 0 2
Total 98 31 1 130
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 32
a t guid par des prsomptions de relation entre celles-ci qui nous sont apparues logique.
Ainsi, Le coefcient de corrlation linaire entre le taux dintrt hors taxes et la dure de
remboursement du crdit vaut 0.13 avec un IC
95%
=[-0.0441833 ; 0.2946267]. On peut donc dire
que la caractristique dure de remboursement du crdit est faiblement corrle au taux
dintrt, en sorte que les chances de plus en plus courtes correspondent aux taux dintrt
de plus en plus levs. Cette relation peut nous paratre plutt surprenante, tant entendu que
le taux dintrt est traditionnellement une fonction croissante du temps : les taux dintrt
long terme sont gnralement, mais pas toujours, suprieurs aux taux dintrt court terme
.[13](Gregory N. Mankiw, 2003, P 70).
Un rsultat similaire stablit aussi en utilisant le montant du crdit accord et le taux din-
trt hors taxes (coefcient de corrlation r = - 0,011, IC
95%
= [-0.1827414 ; 0.1615911]). Les
taux diminuent avec les montants de nancement levs. Mais la diffrence du rsultat pr-
cdent, ce second rsultat parat plus vraisemblable. Les plus gros clients reprsentent parfois
une bonne opportunit de remploi des ressources dtenues par la banque, et ceux dentre eux
jugs bons mritent ds lors un assouplissement des contraintes de crdit, notamment en
termes de cot de nancement. A linverse, les clients sollicitant des concours de crdit assez
petits supportent des taux dintrt de plus en plus levs. On est ici face un systme de
rationnement du crdit destin viter le mcanisme d antislection , et de permettre la
banque de garder ses bons clients. [15](Patrick Villieu, 2000, P 56).
En considrant la corrlation positive entre le montant du crdit sollicit et lchance de
remboursement (coefcient de corrlation r = 0,27, IC
95%
= [0.1009225 ; 0.4211627]) dune
part, et tant donn les rsultats prcdents, leffet du montant des fonds prts sur le taux
dintrt hors taxes semble plus probable. Une trs forte corrlation entre la variable EFF et
les variables CHDI et MASA, avec des coefcients de corrlation respectifs cor(EFF, CHDI)=
0.99 avec IC
95%
=[0.9819636 ; 0.9909637] et cor(EFF, MASA)=0.98 avec IC
95%
=[0.9750032 ;
0.9874546]. Rsultat prvisible ce niveau car les charges dune entreprise dont la masse sala-
riale fait partie sont fonction de leffectif du personnel de cette entreprise[13].
CONCLUSION :
Cette tude importante permet de mettre en exergue le fait quil nexiste pas une mthode
unique permettant de traiter des donnes dexpression ; la question "Quelle mthode dois je
utiliser pour traiter mes donnes dexpression ?" na pas de sens. Il apparat ainsi que face des
donnes dexpression, un statisticien seul, un analyste de crdit seul ou un comptable seul nest
pas en mesure de proposer des mthodes pertinentes ; la solution rside dans la collaboration
des trois spcialits.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
CHAPITRE TROIS
DEUX METHODES DE
DISCRIMINATION POUR LE
CREDIT SCORING
Introduction :
Grosso modo, le scoring consiste affecter une note globale un individu partir de notes
partielles, calcules sur des variables isoles ou en interaction. Cette note est utilise essentiel-
lement pour classer les individus par ordre ascendant ou descendant an den slectionner une
partie pour une action marketing, par exemple le credit scoring. La construction dun scoring fait
appel la modlisation prdictive, et lon ne parle dun scoring que lorsque la variable prdire
na que deux modalits[12]. Ct technique, le scoring est bas sur des mthodes classiques
et qui nvoluent que trs peu dun point de vue mathmatique. En revanche, les possibilits
dvolution se trouvent dans leur application pour raliser des analyses complexes. Et l toutes
les possibilits ne sont pas encore explores.
Dans ce chapitre, nous exposons deux approches mathmatiques classiques du credit
scoring pour la modlisation du risque de crdit partir de ltude du concept central de Data
Mining pour les modles paramtriques. Cependant, il existe plusieurs mthodes statistiques de
construction dun scoring dont les plus reconnues sont : lanalyse discriminante (linaire, qua-
dratique de Fisher), la rgression logistique discriminante, les arbres de classication, mthode
k-nn, les rseaux de neurones, les Sparateurs Vaste Marge (SVM), etc.. . . ..
Dans le cadre de notre tude, notre modle sera construit base deux modles paramtriques
savoir la rgression logistique discriminante et lanalyse discriminante (linaire et/ou quadra-
tique) de Fisher cause de leur grande robustesse et leur facile interprtabilit. En effet, il sera
question pour nous dont le but est didentier les clignotants du risque de crdit permettant de
prvoir les dfaillances, de construire pour chacune de ces mthodes un modle et nalement
mettre en comptition les deux modles pour en retenir celui qui sajustera le mieux du point
de vu prdictif nos donnes.
3.1 Le modle probabiliste de prdiction
Nous sommes en prsence de n observations {X
i1
, ...., X
ip
, Y
i
}
p
i=1
dun couple (Y,X) dans
une population . Pour la i
e
observation note (Y
i
; X
i
), Y
i
est un label qui dnote lappartenance
un groupe {0; 1}.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING34
Une nouvelle observation x
0
arrive, nous mesurons les variables explicatives, cette mesure
est not x
0
R
p
et nous souhaitons prdire son groupe Y = y
0
partir de lobservation de
ses attributs {X
i
}
p
i=1
= {x
0i
}
p
i=1
avec une probabilit de se tromper dans cette prdiction aussi
faible que possible. Ceci revient mettre en evidence une fonction :
g : R
p
{0; 1}
telle que lerreur (g) = P(g(X) = Y) soit aussi petite que possible.
Dans lidal, il faudrait chercher une fonction
g

: R
p
{0; 1} vriant (g

) = min (g)
g:R
p
{0;1}
.
Si une telle fonction g existe, le prdicteur g

(X) serait le meilleur pour prdire Y partir


de lobservation de X. [1]
Prdicteur de Bayes- Erreur de Bayes
Pour g : R
p
{0; 1}, on a :
(g) = P(g (X) = Y) = P(g(X) = 0; Y = 1) +P(g(X) = 1; Y = 0) = E
_
1
g(X)=Y
_
. (3.1)
Posons alors (g|X = x) = P (g (X) = Y|X = x)= probabilit de se tromper dans la pr-
diction de la valeur de Y pour un individu connaissant dj les valeurs de ses attributs X= x.
On a donc daprs (3.1)
(g) =
_

P(g(X) = Y|X = x) dP
X
(x)
=
_

(g|X = x
0
) dP
X
(x)
Ainsi g

rend minimum (g) parmi les fonctions g : R


p
{0; 1} si et seulement si g

rend minimum (g|X = x


0
), x
0
R
p
, parmi les fonctions g : R
p
{0; 1}
dnition
1.un prdicteur g

(X)de Y qui vrie


(g

|X = x
0
) = min (g|X = x
0
) ; g : R
p
{0; 1}
est appel prdicteur de Bayes pour prdire Y |X = x
0
.
2.Cest le meilleur prdicteur de Y |X = x
0
car
(g

) = min (g) ; g : R
p
{0; 1}
3.

= (g

) est appel erreur de Bayes.


Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING35
Vocabulaire
Pour j = 0 ;1 on a :
P
j
=P(Y = j)= probabilit priori de la classe (Y=j) dans lchantillon.
P(Y = j|X = x
0
)= probabilit postroiri de la classe (Y=j) pour un individu dans la
population.
V
j
(x
0
) = P(X = x
0
|Y = j) = probabilit que X=x
0
dans la classe (Y=j). Cest aussi la
vraisemblance de la valeur Y=j lorsquon a observ X = x
0
.
Le thorme de Bayes nous permet dcrire :
pour j=0 ;1 P(Y = j|X = x
0
) =
P
j
P(X = x
0
|Y = j)
P
1
P(X = x
0
|Y = 1) +P
0
P(X = x
0
|Y = 0)
.
Le prdicteur de Bayes g

(X) peut aussi se dnit par :


j = 0, 1 g

(X) = j P
j
P(X = x
0
|Y = j) = max
k=0;1
P
k
P(X = x
0
|Y = k)
i.e j = arg max
k=0;1
P
k
P(X = x
0
|Y = k);
On demontre que la rgle de dcision nale scrit comme suit :
1. si P(Y = 1|X = x
0
)
1
2
, alors g

(x
0
) = 0
2. si P(Y = 1|X = x
0
)
1
2
, alors g

(x
0
) = 1
3.si P(Y = 1|X = x
0
) =
1
2
, alors g

(x
0
) = 1 ou g

(x
0
) = 0, peu importe.
3.2 Analyse discriminante linaire et quadratique
Les probabilits priori des groupes j, notes P(Y = j) , j = 0; 1 sont connues. Quand on
na pas d priori, on peut, soit choisir que les groupes sont quivalents P(Y = j) =
1
2
, soit les-
timer partir des frquences de chaque groupe dans les observations{Y
i
}
n
i=1
. An de spcier le
modle de discrimination linaire et quadratique, nous allons supposer lhypothse de normalit
ci-dessous.
Discrimination quadratique : La densit des variables explicatives dans chaque groupe
j suit une loi multinormale f (x|y = j) N
p
(
j
;
j
);
j
M
p
(R), j = o; 1.
Ensuite, nous pouvons ajouter une hypothse supplmentaire pour obtenir le modle de discri-
mination linaire.
Discrimination linaire : La densit des variables explicatives dans chaque groupe j
suit une loi multinormale de mme matrice de variance-covariance dans chacun des
groupes :
f (x|y = j) N
p
(
j
; ) ; M
p
(R), j = 0; 1
Une fois estims tous les paramtres des lois normales, il suft alors dutiliser la rgle de
prdiction de Bayes pour connatre les probabilits daffectation de la nouvelle observation aux
diffrents groupes. Evidemment la prvision par la mthode sera donne par le groupe le plus
probable i.e
j = argmaxP(Y = k|X = x
0
) = argmax f (x
0
|y = k) P(Y = k); k {0; 1} .
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING36
3.2.1 Estimation des paramtres
Nous devons dans les 2 groupes, estimer (
j
;
j
) ; j = 0; 1 o
j
R
p
et
j
M
p
(R).Il
y a donc 2 moyennes estimer et 1 ou 2 matrices de variance-covariance estimer. Il existe de
nombreuses procdures destimations plus ou moins classiques.
Citons par exemple :
La mthode des moments.
La mthode de vraisemblance.
a) La mthode des moments.
Les moyennes par groupes
j
sont estims par le centre de gravit de chacun des groupes

j
=
1
n
j

iJ
x
0i
;
o J est lensemble des numros dobservations qui sont dans le groupe j et n
j
le nombre
dobservations dans le groupe j (ce qui est le cardinal de J).
Pour les matrices de variance-covariance (mthode discriminante quadratique), elles sont
estimes par :

j
=
1
n
j
1

iJ
(x
0i

j
) (x
0i

j
)
T
Pour la discrination linaire, la matrice de variance-covariance est estim par

j
=
1
n 2
g

j=1

iJ
(x
0i

j
) (x
0i

j
)
T
b) La mthode du maximun de vraisemblance
Les moyennes par groupes
j
sont encore estims par le centre de gravit de chacun des
groupes

j
=
1
n
j

iJ
X
i
o J est lensemble des numros dobservations qui sont dans le groupe j et n
j
le nombre
dobservations dans le groupe j (ce qui est le cardinal de J). Par contre les variances sont
estimes par :
Discrimination quadratique

j
=
1
n
j

iJ
(x
0i

j
) (x
0i

j
)
T
Discrimination linaire

=
1
n
g

j=1

iJ
(x
0i

j
) (x
0i

j
)
T
Dans le cadre de notre travail, Nous avons pos Y = 1 ou Y = 0 selon que X suit une
loi multinomiale N(
1
;
1
)( de densit f
X|Y =1
) ou N(
0
;
0
)(de densit f
X|Y =0
). Supposons
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING37
de plus
0
=
1
ie que la discrimination devra tre linaire. Comme, nous souhaitons avoir
une mesure quantitative entre 0 et 1, donnant la propension tre 1, nous nous interessons la
probabilit posteriori de Y=1, P(Y = 1|X).
3.2.2 Calcul du seuil thorique s
Si nous souhaitons savoir si un individu est franchement estim 1, alors P(Y = 1|X) sera
lv par rapport P(Y = 0|X). On a alors
P(Y = 1|X = x) P(Y = 0|X = x)
f
X|Y =1
P(Y = 1) f
X|Y=0
P(Y = 0)
or nous connaissons les 2 densits qui sont celles de 2 lois normales N(
1
; ) et N(
0
; ).
Nous avons donc :
P(Y = 1)
1
(2)
p
2
_
||
exp
_

1
2
(x
1
)
T

1
(x
1
)
_

P(Y = 0)
1
(2)
p
2

||
exp
_

1
2
(x
0
)
T

1
(x
0
)
_
.
En passant au log, nous avons alors :
x
T

1
(
1

0
) + log (P(Y = 0)) log (P(Y = 1))
1
2

T
1

1

1
+
1
2

T
0

1

0
0
Ce qui scrit comme S(x) s ;
avec S(x) = x
T

1
(
1

0
)
et s = log (P(Y = 1)) log (P(Y = 0)) +
1
2

T
1

1

1
2

T
0

1

0
.
S(x) est apple fonction discriminante de Bayes. Cest la fonction scoring de lanalyse dis-
criminante linaire 2 classes et s est le seuil. Ce seuil dpend des probabilits priori de
(Y = 1) et celle de (Y = 0).
En gnral, ces probabilits sont inconnues priori. Si des tudes ont t mnes sur dautres
donnes, il est alors possible de connatre ces 2 probabilits. Mais, en labsence de connais-
sance,elles sont poses gales
1
2
chacune. La determination du seuil sparant le choix (Y = 1)
du choix (Y = 0) est donc dlicat. Par ailleurs, le fait de ne plus considrer la probabilit
postriori, mais un scoring permet dviter le calcul de f
X
(x) qui est une densit difcilement
calculable.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING38
Lanalyse discriminante linaire est trs rpandue dans les logiciels de Statistique et dap-
prentissage et est trs utilise. Les raisons de son succs sont les suivantes :
- elle offre souvent un trs bon compromis pertinence/complexit ; autrement dit, elle permet
souvent de bien rsoudre le dilemme biais-variance. Elle est ainsi souvent suprieure lanalyse
discriminante quadratique qui dpend dun nombre notamment plus important de paramtres.
- dans le cadre de lanalyse discriminante linaire, la slection de variables peut tre ra-
lise de manire quasi optimale en utilisant une statistique F de Fisher[4]. En fait, les critres
classiques de slection de variables supposent de manire sous-jacente les hypothses gaus-
siennes de lanalyse discriminante gaussienne. Ainsi, dans une prdiction deux classes, on
peut montrer que,la probabilit optimale derreurs scrit (/2), tant la fonction de r-
partition dune loi normale centre rduite et reprsentant la distance de Mahalanobis entre
deux groupes :

2
= ||
1

0
||

1 = (
1

0
)
T

1
(
1

0
) ;
-lanalyse discriminante linaire fournit des rsultats stables (peu sujets aux uctuations
dchantillonnage) et robustes (i.e supportant bien des carts assez importants ces hypothses
de normalit des groupes et dgalit des matrices variances).
3.3 Analyse discriminante logistique
3.3.1 Dnition
a)introduction
Lanalyse discriminante logistique est une mthodologie statistique qui a pour objectif, par-
tir dobservations, de produire un modle permettant de prdire les valeurs prises par une
variable catgorielle, partir dune srie de variables explicatives continues et|ou binaires.Il
sagit ici pour nous de prvoir laide de p variables explicatives lappartenance un groupe.
Comme il existe une incertitude, nous la modlisons comme une probabilit et nous cherchons
P(Y = j|X = x
0
) ie la probabilit que lobservation soit dans le groupe j sachant nous avons
en main lobservation x
0
des variables explicatives. On pourra poser x
0
= (1, x
01
, ..., x
0p
).
Le premier problme est que nous modlisons des probabilits discrtes, nous avons donc
une contrainte :
g

j=1
P(Y = j|X = x
0
) = 1
Une fois dtermines (g 1) probabilits, la dernire est donc connue. Pour tenir compte
de cette contrainte, nous allons donc considrer un groupe tmoin, par exemple le g
e
groupe,
ensuite, nous allons modliser non pas P(Y = j|X = x
0
), mais le rapport de cette probabilit
la probabilit tmoin
P(Y=j|X=x
0
)
P(Y=g|X=x
0
)
.
Ce rapport est toujours positif et il est compris entre 0 et +. En passant au log, nous
obtenons une mesure qui sera dans R et que nous pouvons relier aux variables explicatives
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING39
X
1
, ......., X
p
via une fonction f. Cette fonction est choisie dans la classe la plus simple,
savoir les fonctions linaires. Et on crit donc :
ln
P(Y = j|X = x
0
)
P(Y = g|X = x
0
)
= f(x
0
) = x
T
0

j
(3.2)
Ce type de modlisation est appel analyse discriminante logistique multiclasse ou rgres-
sion logistique multiclasse.
Cependant le cas le plus classique est le cas o il existe g = 2 classes. Dans ce cas la notation
standard veut que Y = 0 ou Y = 1 et que lon prenne comme rfrence le groupe Y = 1. Nous
ne traiterons par la suite que le cas binaire, cas qui est utilis dans llaboration dun scoring.
b) Rgression logistique (binaire)
dnition(2.1.1) :(Rgression logistique)
Nous sommes en prsence dune variable expliquer binaire Y et de variables explicatives
(X
1
, ...., X
p
) = X R
p
.
Le modle de la rgression logistique scrit :
ln
P(Y = 1|X = x
0
)
1P(Y = 1|X = x
0
)
= x
T
0
(3.3)
ou
logit (P(Y = 1|X = x
0
)) = x
T
0

Son nom provient du fait que la fonction p ln


p
1p
est appele fonction logit, qui est une
fonction drivable bijective de ]0; 1[ dans R.
Remarquons que nous pouvons rcrire (3.3) P(Y = 1|X = x
0
) =
exp
(
x
T
0

)
1+exp
(
x
T
0

)
.
Remarque
Nous pouvons aussi crire P(Y = j|X = x
0
) dans le modle multiclasse comme suit :
P(Y = j|X = x
0
) =
exp
_
x
T
0

j
_
1 +

g
k=1
exp (x
T
0

j
)
.
3.3.2 Lien avec les GLM :
Nous modlisons deux probabilits P(Y = 1|X = x
0
) et P(Y = 0|X = x
0
) ie que la loi de
(Y |X = x
0
) est simplement une Bernouilli de paramtre P(Y = 1|X = x
0
) qui dpend de la
valeur x
0
de X.
Lesprance dune Bernoulli est simplement son paramtre, E(Y|X = x
0
) = P(Y = 1|X = x
0
).
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING40
Dans un modle de rgression logistique, nous effectuons donc 2 choix :
1. le choix dune loi pour Y|X=x
0
, ici la loi de Bernoulli,
2. le choix de la modlisation de E(Y|X = x
0
) par logit (E(Y|X = x
0
)) = x
T
0
. La fonc-
tion logit(.) est bijective, drivable et est appele fonction de lien. Cest une fonction de lien
spciale, appele canonique (pour la loi de Bernoulli). La variance dune loi de Bernouilli est
V(Y|X = x
0
) = P(Y = 1|X = x
0
) [1 P(Y = 1|X = x
0
)]
La variance des observations dcrites par le modle nest donc pas constante et varie selon
la valeur de X. La fonction de x
0
qui a pour valeur P(Y = 1|X = x
0
) [1 P(Y = 1|X = x
0
)]est
appele fonction de variance.
Remarque
Il est possible de choisir dautres fonctions de lien bijectives. Les choix classiques sont la
fonction probit(.) (Qui est linverse de la fonction de rpartition dune loi normale N(0; 1)).
Une gnralisation de la mthode de rgression logistique (ou rgression probit) est appele
GLM (generalized linear model). Cette mthode revient choisir une loi parmi un ensemble
restreint de loi (les lois exponentielles GLM), puis une fonction de lien (.) parmi un ensemble
rduit de fonctions bijectives drivables. Ensuite nous avons (E(Y|X = x
0
)) = x
T
0
.
3.3.3 Estimation des paramtres
Lestimation des paramtres se fait ici par maximum de vraisemblance. Dans le cas gnral
(multiclasse), cette maximisation fait appel des procdures itratives de minimisations clas-
siques comme la mthode de Newton. Dans le cas de la rgression logistique (binaire), il existe
une procdure spcique dite IRLS (Iterative Reweighted Least Squares).
Nous sommes en prsence de n observations des variables notes {X
i1
, ....., X
ip
, Y
i
}
n
i=1
,
dont la i
e
est note (x
i
, y
i
), y
i
{0; 1}. La vraisemblance conditionnelle de Y |X = x
i
associe
lobservation i scrit :
V(y
i
, ) =P(Y = 1|X = x
i
)
y
i
P(Y = 0|X = x
i
)
1y
i
Et donc la vraisemblance conditionnelle de lchantillon y = (y
1
, ....y
n
) de taille n scrit
sous la forme :
V(y, ) =
n

i=1
P(Y = 1|X = x
i
)
y
i
P(Y = 0|X = x
i
)
1y
i
Dans la pratique, il est plus ais de se servir de la Log-vraisemblance note L(y,).
En passant au log, nous avons alors
L(y,) =
n

i=1
_
y
i
ln
P(Y = 1|X = x
i
)
P(Y = 0|X = x
i
)
+ ln (P(Y = 0|X = x
i
))
_
Grce la dnition du modle logistique (3.3), nous avons alors :
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING41
L(y, ) =
n

i=1
_
y
i
x
T
i
ln
_
1 + exp(x
T
i
)
__
Ainsi, si les estimations des probabilits p
i
= P(Y = 1|X = x
i0
) sont en accord avec les
observations, la vraisemblance sera maximise. Il revient donc de chercher la valeur de qui
maximise L(y, ).
La fonction logarithme tant continue et strictement croissante, la Log-vraisemblance se
maximise avec la valeur de en mme temps que la vraisemblance. Pour avoir le maximum

,
il ne reste plus qu annuler le gradient de la fonction L(y, ) : Mais du point de vue pratique,
cause de la macroforme de L(y, ) et de la grandeur de la taille n; on utilise des mthodes
numriques doptimisation pour obtenir la valeurs estime de .
Prdicteur de Bayes estim

g

(X) : On a : P(Y = 1|X = x


0
) =
exp
(
x
T
0

)
1+exp
(
x
T
0

)
par (3.3), on en
dduit que P(Y = 0|X = x
0
) =
1
1+exp
(
x
T
0

)
.
On en dduit

g

(X) en remplaant par sa valeur estime



dans les expressions deP(Y = 1|X = x
0
)et
P(Y = 1|X = x
0
) ci-dessus :

(x
0
)= 0 P(Y = 0|X = x
0
) P(Y = 1|X = x
0
) x
T
0

0.

(x
0
)= 1 P(Y = 1|X = x
0
) P(Y = 0|X = x
0
) x
T
0

0.
Le scalaire x
T
0

est appl fonction discriminante logistique binaire, aussi appl scoring. On


constate dans ce cas que le seuil s apparat clairement et il vaut s=0.
Dans la pratique, il serait maladroit de se ger sur ce seuil thorique s=0, il est vivement
conseill de faire varier le seuil et de conserver celui qui rend la prdiction meilleure.
3.3.4 Prcision des estimations :
Puisque nous utilisons le maximum de vraisemblance, il est alors possible de btir des in-
tervalles de conance pour
j
au seuil selon la formule suivante :
IC

(
j
) =
_

j
U
1

2
1

j
;

j
+ U
1

2
1

j
_
O U
1

2
reprsente le quantile de niveau
_
1

2
_
de la loi normale N(0; 1),
2

j
est gal
_
I(

)
_
1
jj
et
_
I(

)
_
1
jj
est llment (j, j) de linverse de la matrice de Fisher E
_

2
L

2
_
.
La validit de ces intervalles est toute relative puisquil sagit dune approximation valable
asymptotiquement et dont la variance dans le cas de lapproximation normale, doit tre value
la vraie valeur du paramtre inconnu.
Il est toujours possible de complter cette tude par boostrap an dobtenir dautres inter-
valles de conance dans le cas o ceux-ci sont particulirement importants .Cela dit, en pratique,
on se contente de lintervalle de conance bti grce la matrice dinformation de Fisher.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING42
3.3.5 La qualit du modle
3.3.5.1 Un outil spcique : la dviance
Comme la vraisemblance nest jamais la mme chelle (cela dpend des donnes), il nest
pas facile davoir une ide de la qualit dajustement. Pour cela, un outil spcique est introduit :
la dviance. Elle compare la vraisemblance obtenue celle que lon obtiendrait dans un modle
parfait : le modle satur. Dans le modle satur, la prvision est parfaite, il nexiste donc
aucune incertitude et la probabilit estime par le modle au point X = x
i
est donc 1 pour le
groupe observ et 0 sinon. Dans le cas o plusieurs observations seraient disponibles au point
X = x
i
, alors, si le modle tait parfait, y
i
serait la moyenne des y
i
au point X = x
i
. Ce modle
est appel modle satur par dnition.
Pour le modle logistique binaire, la vraisemblance pour lobservation i pour ce modle satur
est gale par dnition :
L
satur
=
n

i=1
Y
i
logY
i
+ (1 Y
i
) log (1 Y
i
).
La dviance dun modle note D, est dnie par rapport au modle satur correspondant
comme
D = 2
_
n

i=1
(L
satur
L())
_
0
La dviance est gale 2 fois une diffrence de vraisemblance .Elle constitue un cart
en terme de log-vraisemblance entre le modle satur dajustement maximum et le modle
considr :
La dviance dans le cas binaire est donne par :
D = 2
n

i=1
Y
i
log
Y
i

P
i
+ (1 Y
i
) log
1 Y
i
1

P
i
Test dadquation par la dviance
Puisque nous laborons un test, dnissons hypothses nulle et alternative :
-H
0
le modle considr p paramtres est adquat.
-H
1
le modle considr p paramtres nest pas adquat.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING43
FIG. 3.1 Test de dviance,la droite verticale reprsente le seuil de rejet D
c
= q
1
(n p).
Ici, nous allons comparer le modle satur au modle considr au moyen de la dviance.
Nous savons que si la dviance est grande, alors le modle considr est loin du modle satur
et donc il nest pas trs adquat. Par contre si la dviance est proche de 0, le modle considr
sera adquat. Pour quantier cette notion de proche de 0 et de grande dviance, la loi de la
dviance sous H
0
(le modle considr est le vrai modle) va nous tre utile. En effet H
0
si est
vraie, le modle considr est vrai par dnition. La dviance sera rpartie sur R
+
, mais avec
plus de chance dtre proche de 0. Par contre si H
0
nest pas vraie la dviance sera rpartie sur
R
+
mais avec plus de chance dtre loigne de 0. Nous nous accordons % de chance de se
tromper sous H
0
donc si, lon connat la loi de D sous H
0
alors en prenant le quantile de niveau
1 nous excluons les % derreur tout en excluant les dviances les plus grandes, ie les cas
qui se prsenteront vraisemblablement si H
0
nest pas vraie.
La dviance est en fait le test de rapport de vraisemblance et sous des hypothses techniques
([8]Schervish, 1995, p. 459), D suit donc une loi du
2
(n p) degrs de libert, o p est le
nombre de paramtres du modle et n le nombre dobservations. Le test se droule alors de la
manire classique :
1.Les hypothses sont xes
-H
0
le modle considr p paramtre est adquat
-H
1
le modle considr p paramtres nest pas adquat
2. est choisi(en gnral 5%)
3.Lobservation de D est calcule, notons la D
obs
4.Calcul du quantile de niveau (1 ) de la loi du
2
(n p) ,not q
1
(n p).
- Si D q
1
(n p) alors H
0
est repouss au prot de H
1
, le modle considr nest pas
adquat.
- Si D
obs
q
1
(n p) alors H
0
est conserv, le modle considr est adquat.
Remarques
La validit de la loi et donc du test nest quasymptotique, il est donc ncessaire davoir un peu
de recul quant aux conclusions.
Lorsque les donnes sont binaires et quaucune rptition nest prsente au point X
i
= x
i
,i,
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING44
alors D ne suit pas une loi du
2
. Pour les donnes binaires le test dadquation dHosmer
Lemershow est conseiller.
Test dHosmer Lemershow
Ce test permet de vrier ladquation dun modle quand la variable expliquer est une
variable binaire uniquement. Il permet donc de vrier ladquation dans les cas o le test
dadquation par la dviance est particulirement dconseill.
Pour cela, les

P
i
= P(Y = 1|X = x
i
) sont ordonns par ordre croissant. Ensuite K groupes
de tailles gales sont crs, en gnral K = 10 et le dernier groupe, celui des

P
i
les plus grands,
possde un effectif ingal aux autres. Notons m

k
leffectif du groupe k. Ensuite une statistique
du type
2
est calcule sur ces groupes. Leffectif observ o
k
des cas (Y = 1) dans le groupe k
est dcompt, ce qui donne de manire mathmatique o
k
=

jgpe k
y
i
. La frquence thorique
est simplement la moyenne des probabilits estimes par le modle, pour toutes les observations
du groupe :

=

jgpe k

P
j
. La statistique de test est alors
C
2
=
K

k=1
(o
k
m

k

k
)
2
m

k

k
(1
k
)
,
o m

k
est leffectif du groupe k.
Le test se conduit de manire identique au test de dviance, la statistique C
2
suivant approxi-
mativement un
2
K1 degrs de libert. Cette approximation ayant t valide uniquement
par simulation[4] (Collett, 2003, p. 88), il semble donc important de ne pas appliquer trop stric-
tement la procdure de test, mais plutt de la considrer comme une indication.
Critre de choix de modles
Lobjet de ces critres de choix est de comparer des modles entre eux et qui ne sont pas
forcment embots les uns dans les autres.
Par dnition lAIC (Akaike Informative Criterion) pour un modle p paramtres est
AIC = 2L + 2p.
La philosophie est simple : plus la vraisemblance est grande, plus grande est donc la log-
vraisemblance L et meilleur est le modle. Cependant si lon met le nombre maximum de
paramtres (ce qui est le modle satur) alors L sera maximum. Il suft donc de rajouter des
paramtres pour la faire augmenter. Pour obtenir un modle de taille raisonnable il sera donc
bon de la pnaliser par une fonction du nombre de paramtre, ici 2p. Un autre critre de choix
de modle le BIC (Bayesian Informative Criterion) pour un modle p paramtres estim sur n
observations est dni par :
BIC = 2L + p log(n).
Lutilisation de ces critres est simple. Pour chaque modle concurrent le critre de choix
de modle est calcul et le modle qui prsente le plus faible est slectionn.
Remarquons que certains logiciels utilisent AIC et BIC, il est donc prudent de bien v-
rier dans quel sens doivent tre optimiss ces critres (maximisation ou minimisation). Ceci
peut tre fait aisment en comparant un modle trs mauvais (sans variable explicative) un
bon modle ( une variable) et de vrier dans quel sens varie les critres de choix.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING45
FIG. 3.2 Procdure dapprentissage/validation
3.3.5.2 Evaluation des performances
Lanalyse discriminante dcisionnelle vise proposer une rgle de dcision destine tre
applique pour le classement dans le futur dobservations de provenance inconnue. Il est donc
trs important dtre capable de mesurer le taux derreur que lon risque lors de lapplication
dune rgle de dcision construite sur la base dun chantillon dapprentissage. Dans ce qui suit,
nous passons en revue quelques moyens destimer le taux derreur rel dune rgle de dcision.
Apprentissage/validation
La procdure de validation consiste sparer de manire alatoire les donnes en deux
parties distinctes (y
a
, X
a
) et (y
v
, X
v
). Tous les modles concurrents sont construits avec le
jeu dapprentissage (y
a
, X
a
) (gure 3.2). Ensuite en utilisant tous ces modles et les variables
explicatives X
v
, les valeurs de la variables expliquer sont prdites y
v
(j) pour tous les modles
j concurrents. Comme le modle de rgression logistique binaire donne des estimatitions des
probabilits

P(Y = 1|X = X
v
), pour avoir une prvision binaire, on prend la modalit dont la
probabilit estime est la plus leve. Nous noterons cette prvision ainsi obtenue y
v
.
La qualit du modle est ensuite obtenue en mesurant la distance entre les observations
prvues et les vraies observations par un critre. Le plus connu est le PRESS
PRESS(j) = || y
v
(j) y
v
||
2
,
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING46
mais dans le cas dobservations binaires il nest pas utilis. En gnral, on utilise le nombre de
mal class, ie
MC = || y
v
(j) y
v
||
1
,
o ||x||
1
=

i
|x
i
|. Comme les valeurs de Y sont 0 ou 1, cette mthode est bien le nombre de
mal classs.
Le modle optimal k choisi est celui qui conduit au MC minimum (ou au critre choisi
minimum). Cette procdure semble la plus indique mais elle ncessite beaucoup de donnes
puisquil en faut sufsamment pour estimer le modle et pas trop pnaliser les modles avec
beaucoup de variables dont les coefcients seront moins bien estims, mais il faut aussi beau-
coup dobservations dans le jeu de validation (y
v
, X
v
) pour bien valuer la capacit de prvision
dans de nombreux cas de gure. De plus, comment diviser le nombre dobservations dans le jeu
dapprentissage par rapport au jeu de validation ? L encore aucune rgle nexiste mais lon
mentionne souvent la rgle 3/4 dans lapprentissage et 1/4 dans la validation. De plus, il faut
pouvoir calculer le MC sur chacun des modles concurrents ce qui dans certains cas est impos-
sible, lorsque le nombre de variables possibles p est grand.
Validation croise
Lorsque lon na pas assez de donnes pour lapprentissage/validation, la validation croise
est utilise pour valuer le taux derreur. La validation croise, dans sa version la plus classique,
connue sous le nom de leave-one-out, procde comme dcrit ci-dessous.
Pour i = 1, ... ,n on construit la rgle de dcisionsur la base de lchantillon dapprentissage
priv de son i
e
lment et on affecte ce dernier lun des groupes suivant cette rgle. Le taux
derreur estim est alors la frquence de points de mal classs de la sorte. Lestimation du
taux derreur ainsi obtenue est pratiquement sans biais. Mais la variance de lestimation est
dautant plus importante que n est grand puisque, dans ce cas, les diffrentes rgles de dcision
construites partir de n-2 observations communes auront tendance se ressembler. De plus,
cette procdure est galement assez coteuse mme si, du fait qu chaque tape lchantillon
soit amput dune seule observation, il est en gnral possible de recalculer la rgle de dcision.
Aussi, on peut lui prfrer la procdure suivante. On divise lchantillon alatoirement en
L parties (approximativement) gales. Pour l=1,...,L, on construit la rgle de dcision sur la
base de cet chantillon priv de sa l
eme
partie, ensuite pour cette l
eme
partie donne, on utilise
la procdure dapprentissage/validation, la l
eme
partie tant le jeu de validation et les autres
observations formant le jeu dapprentissage. Si L = n, on rtombe sur la procdure standard de
leave-one-out. On value la qualit du modle par un critre, le nombre de mal classs MC par
exemple, donnant ainsi MC(j)
l
et ensuite on itre le procd sur toutes les parties l variant de
1 L. Le critre nal minimiser est alors
MC
CV
(j) =
L

l=1
MC (j)
l
,
On en dduit une estimation de lerreur de prdiction pour le modle j :
(j) =
1
L
MC
CV
(j)
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING47
et le modle k retenu est celui qui conduit au minimum sur {MC
CV
(j)}, donc sur (j) .
Bien entendu le choix du nombre L parties nest pas anodin. Plus le nombre L est faible, plus la
capacit de prvision sera value dans de nombreux cas puisque le nombre dobservations dans
la validation sera lev, mais moins lestimation sera prcise. Au contraire, un L lev conduit
peu dobservations dans la validation et donc une plus grande variance dans les nombres de
mal classs.
3.3.6 Slection automatique
La slection de modle peut tre vue comme rechercher le modle optimum au sens dun
critre choisi parmi toutes les possibilits. Cela peut donc tre vu comme une optimisation dune
fonction objectif (le critre). Pour cela et limage des possibilits en optimisation, on peut soit
faire une recherche exhaustive car le nombre de modles possibles est ni, soit partir dun point
de dpart et utiliser une mthode doptimisation de la fonction objectif (recherche pas pas).
Remarquons quen gnral trouver le minimum global de la fonction objectif nest pas ga-
ranti dans les recherches pas pas et que seul un optimum local sera trouv dpendant du point
de dpart choisi.en gnral, on utilise lune des mthodes suivantes[10] :
Recherche pas pas, mthode descendante (backward selection)
Recherche pas pas, mthode progressive (stepwise selection)
Recherche pas pas, mthode ascendante (forward selection) dont lalgorithme gure de
procdure se prsente dans la gure 3.3.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING48
FIG. 3.3 Technique ascendante utilisant lAIC
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
CHAPITRE QUATRE
REPRESENTATION DUN SCORING
Si lanalyse discriminante permet de prvoir correctement (ou non) la variable binaire Y ,
il est rare quil ny ait pas derreur. Ainsi, dans une banque, chaque client est particulier et son
comportement dpend du temps prsent de son environnement, des circonstances extrieures
quil rencontre etc.. Le modle discriminant fournit, sur les donnes dapprentissage, des erreurs
que lon peut rsumer par un tableau de contingence.
Ainsi nous avons le nombre a de bien classs pour Y = 1 et d le nombre de bien classs pour
Y = 0. Les erreurs sont elles rsumes par c et b.(Cf. gure 4.1)
Dans la rprsentation du scoring, le seuil nest pas x priori comme il lest dans lanalyse
discriminante classique ou thorique.
4.1 Reprsentation thoriques
4.1.1 Prsentation sous forme de densit
Toutes les variables explicatives X
1
, ..., X
p
sont alatoires et donc le scoring S(X) est une
variable alatoire valeur dans R. En thorie, nous pouvons tracer sa densit sachant que Y =
0 et sa densit sachant que Y = 1. Le trac des densits dans les 2 cas renseigne sur le pouvoir
discriminant du scoring. Rappelons que pour un seuil donn, nous choisissons la valeur prvue
par le modle. Nous pouvons donc avoir des renseignements sur le pouvoir discriminant dun
scoring, pour un seuil donn, grce aux erreurs de premire et seconde espce :
= P(S(X) s|Y = 0), prvoir 1 alors quen ralit Y=0.
= P(S(X) s|Y = 1) , prvoir 0 alors quen ralit Y=1.
FIG. 4.1 Tableau de contingeance rsumant la capacit dajustement de lanalyse discrimi-
nante
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
REPRESENTATION DUN SCORING 50
FIG. 4.2 Densit de S(X) sachant Y=0 et Y=1(traits pleins) et leurs estimations (traits pointil-
ls). Le premier dessin gure un cas o des erreurs risquent dapparatre. Les aires colores
correspondent au choix dun seuil de s=450 et aux erreurs et .
FIG. 4.3 Courbe ROC dvolution des erreurs en fonction du seuil, gauche scoring parfait
et droite scoring avec des erreurs de classement.
Plus ces erreurs sont faibles, meilleur est le scoring(Cf gure 4.2)
Dans le cas de notre tude, lerreur est ici ne pas prendre un nouveau client (prvoir 1)
alors quil ne serait jamais dcouvert (Y=0) et lerreur sera de prendre un nouveau client
alors quil sera decouvert.
La prsentation sous forme de densit permet de montrer les dispersions potentielles des
scorings sous les 2 hypothses. Cependant il est difcile de voir linuence dun changement
de seuil.
4.1.2 Receiver Operating Curve (ROC)
La courbe ROCest une courbe paramtre ayant en abscisse (s) et en ordonne (1 (s)).
Elle permet de synthtiser de manire plus simple lvolution des erreurs en fonction de s. Pour
1 s donn, plus (s) est faible et (1 (s)) est fort, meilleur est le scoring.(gure 4.3)
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
REPRESENTATION DUN SCORING 51
FIG. 4.4 Courbe de performance, gauche un scoring parfait et droite un scoring avec des
erreurs.
Ce type de courbe est trs facile lire mais ne dpend pas de la probabilit des Y = 0 et
des Y = 1. Pour les faire intervenir, les praticiens utilisent les courbes de performance ou les
courbes de slection.
4.1.3 Courbe de performance
Nous allons cette fois ci nous intresser la proportion des individus dont le scoring est
infrieur au seuil s, ie P(S(X) s). Cette grandeur sera labscisse de notre courbe paramtre :
x(s) = P(S(X) s). Cette abscisse peut sinterprter comme le pourcentage (ici la probabilit)
de la population (les observations dont (Y = 0) et celles dont (Y = 1) dont le scoring est infrieur
s).
En ordonne nous allons regarder la probabilit de (Y = 1) dans cette population des indi-
vidus dont le scoring est infrieur s. An davoir une abscisse qui soit gale 1 quand s est
maximum, nous choisissons y(s) = P(Y = 1|S(X) s)/P(Y = 1) .(gure 4.4)
Remarquons quun score parfait touche laxe des abscisses au seuil s
0
qui spare parfai-
tement les deux populations. Cependant un score qui touche laxe au point (p
0
, 0) (avecp
0
> 0)
nest pas forcment un score parfait. Un score possde une courbe de performance qui touche
laxe des abscisses au seuil s
0
en de duquel il nexiste plus de Y = 1. Au dessus de s
0
peuvent
cohabiter des 0 et des 1 (si il ny a que des 1, le score est alors parfait).
Remarques
- Si le score est fantaisiste, alors la courbe peut remonter au dessus de la droite y = 1.
En effet, si dans tous les scores levs, au lieu de regrouper les individus {Y = 1}, on ne re-
groupe que des {Y = 0}, ce qui constitue un score tout fait fantaisiste, alors la probabilit
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
REPRESENTATION DUN SCORING 52
FIG. 4.5 Courbe de performance ( gauche) et de slection ( droite) pour un scoring fantai-
siste (pointills) et un scoring indpendant de Y (tirets longs)
P (Y = 1|S(X) s)va diminuer avec s. Ce cas est bien sr un cas limite que lon ne souhaite
pas voir.
- Si le score est simplement indpendant de Y, ie que lon cherche discriminer Y mais
aucune variable nexplique Y, alors nous avons P(Y = 1|S(X) s) = P (Y = 1)et nous avons
alors que le scoring est la droite y = 1.(Cf. gure 4.4)
4.1.4 Courbe de slection
An de contenir la courbe dans un demi carr, une autre courbe voisine existe. Elle est peut
tre plus naturelle lire, dans le sens o elle ressemble une courbe de concentration. Labscisse
reste toujours identique x(s) = P(S(X) s), mais lordonne est la probabilit davoir un score
infrieur s sachant que (Y = 1), cette ordonne peut se rcrire comme
P(S(X) s|Y = 1) =
P(S(X) s (Y = 1))
P(Y = 1)
=
P(Y = 1|S(X) s)
P(Y = 1)
P(S(X) s)
ie lordonne de la courbe de performance multiplie par une probabilit (comprise entre 0
et 1).
- Si le score est un tant soit peu raliste, il est en dessous de la premire bissectrice.
- Si le score est parfait, il touche laxe des abscisses la valeur du paramtre s
0
(gure
4.5).
- Un score possde une courbe de slection qui touche laxe des abscisses au seuil s
0
en
de duquel il nexiste plus de Y = 1. Ce nest pas forcment un score parfait (au dessus des
0
peuvent cohabiter des 0 et des 1).
- Si le score est indpendant de Y(ie pas de pouvoir explicatif des variables X
1
, ..., X
p
sur Y
), alors la courbe est la premire bissectrice (gure 4.6).
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
REPRESENTATION DUN SCORING 53
FIG. 4.6 Courbe de slection. A gauche scoring parfait et droite scoring avec des erreurs
de classements.
4.2 Estimations
Nous navons jamais les scores vrais mais des estimations que nous noterons

S(.). De
mme nous ne pouvons avoir la densit de

S(.) sachant Y = 0 ou de

S(.) sachant Y = 1, mais
nous pouvons lestimer par un estimateur noyau ou un histogramme. Enn les probabilits
P(S(X) s)sont simplement estimes par des pourcentages.
4.2.1 Qualit dajustement
Nous possdons n mesures des variables notes {X
i1
, ......, X
ip
, Y }
n
i=1
. A partir de ces me-
sures, nous estimons un scoring, par exemple par rgression logistique avec choix de variables.
Nous avons donc un scoring estim

S(.).
1. La premire tape est dordonner les observations selon les valeurs du scoring :
X
(1)1
, ..., X
(1)p
, Y
(1)
; ....; X
(n)1
, ..., X
(n)p
, Y
(n).
2. Il faut choisir une grille s
1
, s
2
,..., s
K
de valeurs de scoring. En gnral, on chosit les
valeurs extrmes du scoring, s
1


S(X
(1)
) et s
K


S(X
(n)
) .
3. Pour chaque intervalle, on dnombre le nombre dobservations n
1
, ..., n
k
qui sont dans
lintervalle ]s
k
;s
k+1
] pour k {1, ...., K} . De mme, on dnombre le nombre dobservations
qui possdent une valeur de Y gale 1 que nous noterons n
1
1
, ...., n
1
k
.
4. Les totaux sont le nombre total dobservation n =

K
k=1
n
k
et le nombre total dobserva-
tions avec Y
i
= 1, not n
1
=

K
k=1
n
1
k
. Lestimation de P(Y = 1) est alors
n
1
n
.
5. Les dnombrements sont ensuite cumuls donnant N
k
=

k
l=1
n
l
et N
1
k
=

k
l=1
n
1
l
.
Les probabilits sont estimes par
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
REPRESENTATION DUN SCORING 54
FIG. 4.7 Etapes de construction dune reprsentation dun scoring.
P(S(X) s
k+1
)
N
k
n
P(Y = 1|S(X) s
k+1
)
N
1
k
N
k
P(S(X) s|Y = 1)
N
1
k
N
k
n
n
1
N
k
n
6.Enn un type de courbe est choisi et on reprsente alors K points (x(s
k
) , y(s
k
)) ,
k {1, ..., K} et on ajoute le point (1 ;1) (Cf. gure 4.7)
Remarques
- Plus nous avons de points dans la grille de dcoupage (ie plus K est grand) plus nous
aurons de points dans la reprsentation nale et plus elle aura laspect dune courbe.
- Plus nous avons de points dans un intervalle ]s
k
, s
k+1
] plus les estimations des probabilits
seront prcises.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
REPRESENTATION DUN SCORING 55
- Comme nous utilisons les Y
i
pour construire lestimation du score

S() et pour estimer les
probabilits, nous navons que des courbes optimistes, cest le problme de lajustement qui
est toujours meilleur que la prvision...
4.2.2 Qualit de prvision
Nous possdons n mesures des variables notes {X
i1
, ..., X
ip
, Y
i
}
n
i=1
. Apartir de ces mesures
nous estimons un scoring, par exemple par une rgression logistique avec choix de variables.
Nous avons donc un score estim

S(.).
Ensuite nous avons un jeu de donnes de validation qui na pas encore t utilis. Nous
avons les observations suivantes
_
X

i1
, ..., X

ip
, Y
i
_
n
i=1
.
1. La premire tape est dordonner les observations selon les valeurs du scoring.
X

(1)1
, ..., X

(1)p
, Y

(1)
; ...; X

(n)1
, ..., X

(n)p
, Y

(n)
.
2. Il faut choisir une grille s
1
, s
2
, s
K+1
de valeurs du scoring. En gnral, on choisit les
valeurs extrmes du scoring, s
1


S(X

(1)
) et s
K


S(X

(n)
) .
3. Pour chaque intervalle on dnombre le nombre dobservations du jeu de validation n

1
, ...., n

k
qui
sont dans les intervalles ]s
k
; s
k+1
] pour k {1, ..., K} . De mme, ondnombre le nombre le
nombre dobservations du jeu de validation qui possdent une valeur de Y

= 1que nous note-


rons n
1
1
, ..., n
1
k
.
4. Pour chacun des intervalles, on dnombre le nombre dobservations n

K
k=1
n

k
et le nombre total dobservations avec Y

i
= 1, not n
1
=

K
k=1
n
1
k
. Lestimation de
P(Y

= 1) = P(Y = 1)est alors


n
1
n
.
5. Les dnobrements sont ensuite cumuls donnant N
k
=

k
l=1
n

k
. N
1
k
=

k
l=1
n
1
k
.
Les probabilits sont alors estimes par
P(S(X) s
k+1
) =
N

k
n

P(Y = 1|S(X) s
k+1
) =
N
1
k
N

k
P(S(X) s|Y = 1) =
N
1
k
N

k
n

k
N

k
n
6. Enn untype de courbe est choisi et on reprsente alors K points (x(s
k+1
), y(s
k+1
)) ,
k {1, ..., K}et on ajoute le point (1 ;1).
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
CHAPITRE CINQ
MODELISATION
Introduction :
Dans ce chapitre, on sintresse au thme de la modlisation du credit scoring par un traite-
ment de nos donnes en appliquant les mthodes paramtriques exposes au chapitre 3. Compte
tenu de la varit des outils pouvant tre mis en jeu, nous avons fait le choix dinsister sur la
pratique des mthodes considres ainsi que sur la comprhension des sorties proposes par le
logiciel R
1
. R comme la plupart des logiciels en Statistique supposent implicitement les hy-
pothse de normalit, les distributions des estimateurs et donc les statistiques de test comme
valides[5](Data Mining 1, p 67). Plus rigoureusement, ces rsultats sont justis par les pro-
prits des distributions asymptotiques des estimateurs, proprits qui ne sont pas dveloppes
dans ce mmoire. Nous allons estimer une fonction de scoring par rgression logistique puis
par discrimination linaire. Nous appliquerons la validation croise pour estimer lerreur de
prdiction.
Warning : Recodage des variables qualitatives.
Le cas o les variables explicatives sont qualitatives ont ncessit un traitement particulier.
En effet comment faire une combinaison linaire de variables qualitatives et quantitatives ? Cela
na pas videmment pas de sens. La solution retenue est base sur ce quon appelle la forme
disjonctive dune variable X m modalits[12]. On dnit les m variables indicatrices des
modalits(1
1
, 1
2
, ..., 1
m
) telles que 1
j
vaut 1 si on appartient la modalit j, 0 sinon. Seule une
des indicatrices vaut 1, celle qui correspond la modalit prise. Les m indicatrices sont donc
quivalentes la variable qualitative. Au cas o lune de ces variables gurerait dans le scoring,
celui-ci serait alors une combinaison des indicatrices. Les variables explicatives qualitatives qui
interviennent dans le scoring sont donc les indicatrices de variables qualitatives. Cependant,
une difcult intervient : la matrice nest pas de plein rang et nest donc pas inversible car la
somme des indicatrices des modalits de chaque variable vaut 1. Cela signie quil existe une
innit de solutions quivalentes pour estimer les coefcients : une des solutions couramment
utilise consiste alors ne prendre que m-1 indicatrices pour chaque variable qualitative puisque
la dernire est redondante.
5.1 Rgression logistique
Nous allons diviser alatoirement notre ensemble dapprentsissage Aen L = 5 parties A
1
, A
2
,A
3
, A
4
, A
5
distintes, soit 26 individus pour chaque bloc. Pour chacune de ces parties, on va construire le
1
dont la version 2.5.1 est tlchargeable sur le site www.cran.at.r-project.org
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
MODELISATION 57
TAB. 5.1 Coefcients du modle logistique.
Variables Coef. Estimate Std. Error z value p-value IC
95%
retenues
CREDIT 0.9209897 0.0479373 19.21 < 10
3
0.8270343 | 1.014945
R1 -0.4030249 0.0263697 -15.28 < 10
13
-0.4547085 | -0.3513413
R3 0.7310701 0.0404733 18.06 < 10
8
0.6517439 | 0.8103964
R6 -0.0876921 0.0289502 -3.03 0.002 -0.1444334 | -0.0309509
R7 0.061002 0.0066751 9.14 < 10
5
0.047919 | 0.0740851
prdicteur de Y et on va calculer lerreur de prdiction par validation croise en utilisant la
fonction cv.glm qui se trouve dans la bibliothque boot du logiciel R.
Construction du modle et estimation de lerreur
La construction du modle logistique se fait en utilisant la fonction glmdu logiciel R, ensuite
une slection automatique des variables par minimisation de lAIC est faite par la fonction step
pour la slection des variables pertinentes du modle.
Le modle construit a retenu les variables CREDIT, R1, R3, R6, R7 comme signicatives.
Lestimation de lerreur par une validation croise en 5 blocs est 0.44957681.
Nous jugeons lerreur un peu lve. Etant donn la taille rduite de notre chantillon, on
peut se permettre daugmenter le nombre L de blocs, voire appliquer une estimation de lerreur
par leave-one-out. On obtient alors une estimation de lerreur gale 0.1886792, soit prs 82%
des observations originales classes correctement ce qui est acceptable car cette erreur est plus
petite que celle obtenue par une segmentation des donnes en 5 blocs. La qualit dajustement
peu tre donne par par le taux de mal classs. En effet, le scoring estim

S(X) tant determin,
il est possible pour chaque individu de notre chantillon destimer son scoring
2
. Au del du seuil
s=0, lestimation par le modle est 1. Le scoring estim par la rgression logistique avec une
erreur de 0.1886792 est :

S(X)= 0.9209897CREDIT - 0.4030249R1 + 0.7310701R3 - 0.0876921 R6+0.061002 R7.


Construction dun scoring partir de la rgression logistique
Dans le modle de scoring ci-dessus, lerreur et la rgle de dcision nale sont obtenues
avec un seuil thorique s=0. Maintenant, le seuil s est variable. On va estimer les scoring de
tous les individus de lchantillon. Il est dusage de ramener ces scoring estims entre 0 et 100
(en %), ce qui peut se faire en utilisant la transformation :
scoring = (scoring min(scoring)) 100/ (max (scoring) min(scoring))).
Ainsi pour les 130 individus de notre chantillon, on obtient une suite de 130 nombres rels
infrieurs entre 0 et 100. Ensuite, on les ordonne par valeurs croissantes du scoring. Puis un
2
Dans R, cela se fait en utilisant la fonction predict
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
MODELISATION 58
TAB. 5.2 Dcoupage du scoring en classes en classes dffectifs approximativement gaux.
decoupage en classes effectif par classe
[0 ; 2.59] 12
]2.59 ;80.3] 11
]80.3 ;84.6] 12
]84.6 ;86.3] 12
]86.3 ;87.6] 12
]87.6 ;90.1] 12
]90.1 ;91] 11
]91 ;92] 12
]92 ;93.2] 12
]93.2 ;95.2] 12
]95.2 ;100] 12
dcoupage est fait en 11 classes (par exemple) dffectifs gaux comme expliqu dans lalgo-
rithme de rprsentation dun scoring du paragraphe 4.2.1 du chapitre prcdent
3
.
Au niveau numrique, cela donne les rsultats suivants :
Pour connatre le nombre dobservations pour lesquelles la variable expliquer vaut 0 dans
chaque classe, ou connatre le nombre dobservations pour lesquelles la variable expliquer
vaut 1 dans chaque classe, il suft de faire le tableau de contingence entre les observations de
Y.
Daprs le tableau 5.3, nous jugeons donc la qualit dun scoring bas sur la rgression
logistique. Nous voyons quen dc dune probabilit P(S s
0
) denviron 0.2, aucun client
risqu ou mauvais client (Y=1) nest trouv. Cette probabilit correspond la n de la seconde
classe ie un seuil s
0
de 80.3.
A partir de ces dnombrements par classe, nous devons estimer les probabilits P(S s)
et P(S s) grce aux cumuls comme prsent au paragraphe 4.2.1. Puis nous pouvons estimer
les probabilits suivantes P(Y = 1|S s) , P(Y = 0|S s). Enn nous estimons P(Y = 0) et
P(Y = 1). Nous pouvons maintenant tracer la courbe ROC, la courbe de performance et la
courbe slection contenues dans la gure 5.1.
La gure 5.1 montre que les deux derniers graphiques touchent laxe des abcisses au point(0.2 ;0),
ce qui concorde bien avec les rsultatas obtenus dans le tableau 5.3 ie en dea de la probablit
0.2 aucun mauvais client nest trouv, ce qui correspond un seuil de 80.3.
Si la politique de la banque consiste ne pas prendre de risque, ce seuil est celui slec-
tionner. Le seuil pas de mauvais clientest 80.3 car la n de la seconde classe correspond une
probabilit P(S s
0
) 0.2 .
3
Voir en ANNEXE pour les commandes du logiciel R qui fournissent les rsultats de cet algorithme.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
MODELISATION 59
TAB. 5.3 Dcoupage du scoring suivant les modalits de Y
Dcoupage Y effectif par classe
[0 ;2.59] 0 12
1 0
]2.59 ;80.3] 0 11
1 0
]80.3 ;84.6] 0 11
1 1
]84.6 ;86.3] 0 11
1 1
]86.3 ;87.6] 0 10
1 2
]87.6 ;90.1] 0 9
1 3
]90.1 ;91] 0 10
1 1
]91 ;92] 0 10
1 2
]92 ;93.2] 0 10
1 2
]93.2 ;95.2] 0 8
1 4
]95.2 ;100] 0 9
1 3
FIG. 5.1 Courbes ROC, de performance et de slection lie la regression logistique
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
MODELISATION 60
TAB. 5.4 Coefcients estims du modle linaire
Variables Coefcients IC
95%
Intercept 1,367.10
2
1,221465.10
2
| 4.750795.10
2
CAP 0,1951406 -0,1697578 | 0,2243187
CREDIT 4,205561 -2,404566 |6,006555
EFF 2,175276 1,320829 | 3,029722
DUREMB -1,641947 -1,777509 | -0,506386
GAR -0,1855474 -0.2673828 | -0.103712
AGE -0.2934967 -0.3563134 | -0.23068
EXP -0.8431434 -0.9661575 | -0.7201294
THT 1.029068.10
2
-0.0455745 | 0.568789
INVEST 8.923639.10
2
-2.36664.10
5
|9.215487.10
10
CHDI -1,041.10
2
-2.063303.10
2
| 3.093465.10
2
MASA 0,7230202 -0,5667727 | 0,9223421
CAF 0,6557301 -0,5473226 | 0,7856098
VA 0,7451563 -0,6188638 | 0,8972216
CA 0,9554785 -0,0111789 | 1,125447
RN 0,4991191 -0,2016577 | 1,23536
R1 1,805436 -0,7369857 | 4,422879
R2 -1,075136 -1,9113738 | -0,268324
R3 0,1880326 -0,1593717 | 0,218477
R4 2,175276 -1,320829 | 3,029722
R5 -1,641947 -1,777509 | 0,506386
R6 -0,1855474 -0,2673828 |0,103712
R7 -0,0165511 -0,0964645 |0,0633623
5.2 Analyse discriminante
Le cas quadratique :
Le logiciel R nous signale un message davertissement que la commande qda de la bibliothque
MASS ne peut tre applique ceci tant d la taille rduite de nos donnes.
Le cas linaire :
Les coefcients de lanalyse discriminate linaire sont obtenues par la commande lda de la
bibliothque MASS, dans laquelle gure loption CV de la validation croise.
Le tableau 3.5 montre quen observant les intervalles de conance
4
, les variables quon
peut retenir sont : EFF, DUREMB, AGE, EXP,CHDI, R2 et lintercept. Le scoring pour la
discrimination linaire est :

S(X)=2,175276EFF - 1,641947DUREMB- 0,2934967AGE - 0,8431434EXP + (-1,041.10


9
)CHDI
- 1,075136R2 + 1,367.10
2
.
4
Les intrevalles de conance qui contiennent 0 sont non signicatifs pour les coefcients correspondants.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
MODELISATION 61
FIG. 5.2 Courbes ROC, de performance et de slection lie la discrimination linaire.
La transformation
scoring = (scoring min(scoring)) 100/ (max (scoring) min(scoring)))
nous permet davoir le scoring comme une probabilit(entre 0 et 100 %).
Loption CV de la commande lda nous permet davoir lerreur de prdiction par leave-one-
out. Lerreur de prdiction ainsi obtenu est de 0.62547, soit 0.37453 des observations originales
classes correctement, ce qui nest pas intressant.
Le calcul du seuil par la formule
s = log (P(Y = 1)) log (P(Y = 0)) +
1
2

T
1

1

1
2

T
0

1

0
obtenu ci-dessus nous donne s = 0,4125833.
Construction du scoring partir de la discrimination linaire
La procdure est identique que celle labore la rgression logistique. On dcide de faire
varier le seuil en esprant pouvant amliorer lerreur de prdiction.
On constate daprs la gure 5.2 que la construction dun scoring par discrimination linaire
est dgrade, lallure des trois courbes montre que la dduction dun seuil par rprsentation du
scoring nest pas possible. Il est pratiquement difcile den tirer des conclusions.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
CONCLUSIONS ET
RECOMMENDATIONS
Le but de notre travail tait de construire via des outils statistiques, une mthode de notation
des empruteurs la First Bank.
Au terme de ce travail, il en ressort que des deux mthodes annonces au chapitre 3 ( savoir
la rgression logistique et la discrimination linaire), seule la rgression logistique binaire nous
donne un rsultat satisfaisant. Le problme avec la discrimination linaire, est quil est un peu
difcile de se prononcer eu gard de la gure 5.2 qui montre 3 courbes dont les allures sont
loin de fournir un indice sur le calcul graphique du seuil. On pourrait se contenter du seuil tho-
rique s= 0,4125833, mais lerreur estime (= 0.62547) par validation croise(leave-one-out) est
lve. Cependant, ltude faite avec la rgression logistique nous fournit des rsultats concrets
au seuil s=0. On a obtenu une erreur de 0.1886792, soit plus de 80% de bons classements . En
faisant varier le seuil par construction du scoring, on se rend compte quavec un seuil = 80.3,
la discrimination est parfaite ie quon est sr de laffectation dun empruteur lune des deux
classes(erreur nulle). Toutefois, il est remarquer que ce seuil nous parat un peu trop rigou-
reux, elle nest applicable que si la banque ne veut courir aucun risque, ce qui nest pas toujours
une bonne politique bancaire car cette stratgie peut avoir un impact ngatif sur la rentabilit de
la banque
5
. Cette mthode de seuil variable permet de prendre des risques pour la slection des
clients dans la banque et ce selon les objectifs du moment.
Pour la First Bank, il convient dadopter le scoring valu par la rgression logistique :

S(X)= 0.9209897CREDIT - 0.4030249R1 + 0.7310701R3 - 0.0876921 R6+0.061002 R7.

S(X) est une fonction des ratios de rentabilit R1=CA/VA, R3=RN/capitaux propres, du
ratio dautonomie nancire R6=SN/total passif, du ratio de solvabilit R7= actif total/dettes et
du nancement (CREDIT) que lemprunteur a bnci auprs de la First Bank.
Recommendations
Pour un nouvel emprunteur ou un client de crdit qui sollicite un soutien nancier dans le
cadre dun projet dinvestissement :
1. La First Bank rcueille auprs du client les ratios R1, R3, R6, R7 et le crdit solli-
cit(CREDIT).
2. La banque calcule son scoring

S(X)= 0.9209897CREDIT - 0.4030249R1 + 0.7310701R3
- 0.0876921 R6+0.061002 R7 qui est une probabilit de dfaut.
5
Etant donn que loctroi de crdits fait partie de lactivit principale des banques, chercher annuler le risque
de crdit inuence sur les bnces de la banque.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
MODELISATION 63
En considrant le seuil thorique s=0, avec une erreur de 0.1886792 de mauvais classement,
on a le choix daffectation dun nouvel emprunteur rgis de manire suivante :
Si

S(X) 0 alors

Y = 0, ie que lemprunteur est non risqu, il est donc considr
comme bon.
Si

S(X) 0 alors

Y = 1, ie que lemprunteur est risqu, il est mauvais client.
Si

S(X) = 0 alors

Y = 0 ou

Y = 1, peu importe.
Cependant, en supposant que la politique conomique de la First Bank est de ne pas
prendre de risque ie on est au seuil de s=80.3, alors on a la rgle de dcision suivante :
Si

S(X) 80.3, alors le client est considr comme non risqu ie bon.
Si

S(X) 80.3, alors le client est peut-tre risqu.
Lexamen statistique de la situation conomique et nancire des entreprises (emprunteurs), en
vue de la dtection prcoce des difcults de la clientle, est extrmement fructueux. Par lana-
lyse multicritres, il permet la construction dun scoring qui fournit une image synthtique du
prol de lentreprise empreunteuse. Celui-ci est, dans la trs grande majorit des cas, rvla-
teur de la sant de lentreprise. Si un tel outil ne peut se substituer au jugement de lexpert,
il peut contribuer linformer rapidement sur le niveau de risque de lentreprise et concourir
au diagnostic, grce aux aides linterprtation qui laccompagnent. Lanalyste pourra alors se
concentrer sur des aspects plus dlicats et moins quantiables de lvaluation, en particulier les
aspects qualitatifs. Ainsi, expertise et utilisation dun scoring ne sont pas contradictoires ; au
contraire, elles se compltent et permettent dafner lanalyse du risque de crdit. De mme,
lorsque plusieurs outils dvaluation du risque sont disponibles, gnralement fonds sur des
systmes dinformation diffrents, il est trs fructueux de les examiner tous. En effet, les rensei-
gnements quils apportent relativisent les points de vue, accroissent la abilit de la prvision
et renforcent le diagnostic.
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
ANNEXES
Codes R des fonctions utilises
Chapitre 5
##### importation du chier base
tab=read.table("donnee.txt",header=TRUE,sep="\t",dec=",")
####on rend visible le chier des donnees
attach(tab)
#### rsum des donnes
summary(tab)
##### modele simple
modelsimple =glm(Y~1,data=donnee,family=binomial)
summary(modelsimple)
##### modele complet
modelcomplet=glm(Y~.,data=donnee,family=binomial)
summary(modelcomplet)
##### Slection ascendante des variables du modle nal
Modelnal=step(modelecomplet,scope=list(upper=formula("Y~(FORJU+CAP +NACTI+SISO+CREDIT+EFF+DUREMB+GAR+AGE+EXP+THT
+INVEST+CHDI+MASA+CAF+VA+CA+RN+R1+R2+R3+R4+R5+R6+R7)", direction=forward),
lower=formula("Y~1")))
##### ajustement
table(modelnal$tted.values>0,tabapp$Y= =0)
##### calcul du scoring de chaque individu
score=predict(modelnal)
#### on ramne le scoring entre 0 et 100.
score= (score - min(score))*100/(max(score)-min(score))
#### on ordonne les valeurs du scoring par valeurs croissantes
ordre = order(score)
y.ordonne = donnee[ordre,"Y"]
score.ordonne = score[ordre]
decoupage=quantile(score.ordonne,seq(0,1,length=12))
score.decoupage =cut(score.ordonne,breaks=decoupage)
table.score=table(score.decoupage)
table.y = table(y.ordonne,score.decoupage)
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
MODELISATION 65
## Proba (S()<s )
px.v= cumsum(table.score)/sum(table.score)
## Proba( S()>s )
px2.v = rev( cumsum(rev(table.score))/sum(table.score) )
## Proba (Y=1 | S()<s )
py.v =cumsum(table.y.[2,])/cumsum(apply(table.y,2,sum))
## Proba (Y=0 | S()>s )
py2.v =rev(cumsum(rev(table.y[1,]))/cumsum(rev(apply(table.y,2,sum))) )
## Proba (Y=0 )
p0.v = table(y.ordonne)[1]/sum(table(y.ordonne))
## Proba (Y=1)
p1.v = table(y.ordonne)[2]/sum(table(y.ordonne))
### construction des courbes ROC, de slection et de performance
par(mfrow=c(1,3))
### courbe ROC
plot(c(0,py.v/p1.v*px.v),1-c(py2.v*px2.v/p0.v,0),type="b",xlab=expression(beta), ylab=expression(1-
alpha),col="red")
segments(0,0,1,1)
#### courbe de slection
plot(c(0,px.v),c(0,py.v/p1.v),type="l",xlab="P(S(x)<s)", ylab="P(Y=1|S(x)<s)/P(Y=1)", xlim=c(0,1),ylim=c(0,1),col="red")
segments(c(0,0),c(0,1),c(0,1),c(1,1))
#### courbe de performance
plot(c(0,px.v),c(0,py.v/p1.v*px.v),type="l",xlab="P(S(x)<s)", ylab="P(S(x)>s|Y=1)/P(Y=1),
xlim=c(0,1),ylim=c(0,1),col="red")
segments(0,0,1,1)
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
REFERENCES
[1]NDONG NGUEMA, Cours de Data Mining(2007), Ecole Nationale Suprieure Poly-
technique de Yaound.
[2]NDONGNGUEMA, Cours de Statistique Mathmatique(2007), Ecole Nationale Suprieure
Polytechnique de Yaound.
[3]RAPPORT ANNUEL 2006, Afriland First Bank.
[4]Collett D. (2003). Modelling binary data.Chapman & Hall/CRC, 2 ed.
[5]Philippe BESSE Data Mining 1, Laboratoire de Statistique et Probabilits, Universit
Paul Sabatier, Toulouse III.
[6] Glossaire 2007de la banque centrale tunisienne.
[7]Dufe (D.), Singleton (K. J.). Credit Risk. Princeton University Press (2003)
[8]Schervish M.J. (1995). Theory of statistics. Springer-Verlag, New-York.
[9]Mallows C.L. (1986). Augmented partial residuals. Technometrics, 28, 313319.
[10]Schwarz G. (1978). Estimating the dimension of a model. Annals of statistics, 6, 461464.
[11]Christophe J. GODLEWSKI, Rle de la Nature de lInformation dans lIntermdiation
Bancaire, LaRGE, Avril 2004
[12] Gilbert SAPORTA, La Notation Statistique des Emprunteurs (ou scoring) , CREM,
mars 2003
[13] Gregory N. MANKIW, Macroconomie , Nouveaux Horizons, De Boeck, 3me
dition, Bruxelles, 2003.
[14] Mark SCHREINER, Les Vertus et Faiblesses de lvaluation Statistique en Micro
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
MODELISATION 67
nance, Septembre 2003.
[15]Cohen, E. (1999), Dictionnaire de Gestion, Al Manar, Dictionnaires Repres.
[16]Patrick VILLIEU, Macroconomie : lInvestissement, (Repres, 276), La Dcouverte,
Paris, 2000 .
[17] www.afrilandrstbank.com
[18] www.micronance.com
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
Table des matires
1 PRESENTATIONDELASTRUCTUREDACCUEILETCONCEPTDERISQUE
BANCAIRE 15
1.1 Prsentation de la structure daccueil . . . . . . . . . . . . . . . . . . . . . . . 15
1.1.1 Afriland First Bank . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.1.2 La Direction des Etudes et du Corporate Banking(DECB) . . . . . . . 15
1.1.3 Contexte de ltude . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.2 Concept de risque bancaire : . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.2.1 Le risque de crdit : veiller aux dfauts de paiement[13] . . . . . . . . 20
1.2.2 Le risque de crdit : niveaux de gestion[7] . . . . . . . . . . . . . . . 20
2 DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 21
2.1 Mthodologie de collecte des donnes . . . . . . . . . . . . . . . . . . . . . . 21
2.2 Description des variables danalyse . . . . . . . . . . . . . . . . . . . . . . . . 22
3 DEUX METHODES DE DISCRIMINATION POUR LE CREDIT SCORING 33
3.1 Le modle probabiliste de prdiction . . . . . . . . . . . . . . . . . . . . . . . 33
3.2 Analyse discriminante linaire et quadratique . . . . . . . . . . . . . . . . . . 35
3.2.1 Estimation des paramtres . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2.2 Calcul du seuil thorique s . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3 Analyse discriminante logistique . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.1 Dnition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.2 Lien avec les GLM : . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.3 Estimation des paramtres . . . . . . . . . . . . . . . . . . . . . . . . 40
3.3.4 Prcision des estimations : . . . . . . . . . . . . . . . . . . . . . . . . 41
3.3.5 La qualit du modle . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.3.5.1 Un outil spcique : la dviance . . . . . . . . . . . . . . . 42
3.3.5.2 Evaluation des performances . . . . . . . . . . . . . . . . . 45
3.3.6 Slection automatique . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4 REPRESENTATION DUN SCORING 49
4.1 Reprsentation thoriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.1.1 Prsentation sous forme de densit . . . . . . . . . . . . . . . . . . . . 49
4.1.2 Receiver Operating Curve (ROC) . . . . . . . . . . . . . . . . . . . . 50
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
TABLE DES MATIRES i
4.1.3 Courbe de performance . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.1.4 Courbe de slection . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.2 Estimations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2.1 Qualit dajustement . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2.2 Qualit de prvision . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5 MODELISATION 56
5.1 Rgression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.2 Analyse discriminante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
Table des gures
2.1 Rpartition des dossiers selon la forme juridique. . . . . . . . . . . . . . . . 24
2.2 Diagramme en btons de NACTI. . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3 Rpartition des dossiers par lieu dimplantation des clients (%) . . . . . . . . 26
2.4 histogramme de la variable CREDIT . . . . . . . . . . . . . . . . . . . . . . 28
2.5 Histogramme et Boxplot de GAR . . . . . . . . . . . . . . . . . . . . . . . . 29
2.6 Rprsentation des densits des ratios R1 et R5. . . . . . . . . . . . . . . . . 30
3.1 Test de dviance,la droite verticale reprsente le seuil de rejet D
c
= q
1
(n p).
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2 Procdure dapprentissage/validation . . . . . . . . . . . . . . . . . . . . . . 45
3.3 Technique ascendante utilisant lAIC . . . . . . . . . . . . . . . . . . . . . . 48
4.1 Tableau de contingeance rsumant la capacit dajustement de lanalyse dis-
criminante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.2 Densit de S(X) sachant Y=0 et Y=1(traits pleins) et leurs estimations (traits
pointills). Le premier dessin gure un cas o des erreurs risquent dapparatre.
Les aires colores correspondent au choix dun seuil de s=450 et aux erreurs
et . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.3 Courbe ROC dvolution des erreurs en fonction du seuil, gauche scoring
parfait et droite scoring avec des erreurs de classement. . . . . . . . . . . . 50
4.4 Courbe de performance, gauche un scoring parfait et droite un scoring
avec des erreurs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.5 Courbe de performance ( gauche) et de slection ( droite) pour un scoring
fantaisiste (pointills) et un scoring indpendant de Y (tirets longs) . . . . . . 52
4.6 Courbe de slection. A gauche scoring parfait et droite scoring avec des
erreurs de classements. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.7 Etapes de construction dune reprsentation dun scoring. . . . . . . . . . . . 54
5.1 Courbes ROC, de performance et de slection lie la regression logistique . . 59
5.2 Courbes ROC, de performance et de slection lie la discrimination linaire. 61
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007
Liste des tableaux
1.1 Fiche didentication de Afriland First Bank
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.1 codage des variables dtude . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2 Rpartition des dossiers de crdit suivant la forme juridique des entreprises. . 24
2.3 Rpartion des dossiers par activits principales des entreprises. . . . . . . . 25
2.4 Rpartition des dossiers de crdit par les montants des besoins exprims. 27
2.5 Rpartition des dossiers de crdit par les montants des garanties. . . . . . . 28
2.6 Rsum et test de normalit des ratios . . . . . . . . . . . . . . . . . . . . . 29
2.7 Rpartition des dossiers suivant les taux de crdit et les chances de rem-
boursement. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5.1 Coefcients du modle logistique. . . . . . . . . . . . . . . . . . . . . . . . . 57
5.2 Dcoupage du scoring en classes en classes dffectifs approximativement gaux. 58
5.3 Dcoupage du scoring suivant les modalits de Y . . . . . . . . . . . . . . . . 59
5.4 Coefcients estims du modle linaire . . . . . . . . . . . . . . . . . . . . . . 60
Mmoire de Master de Statistique Applique TENE Georges ColinceENSP 2006-2007

S-ar putea să vă placă și