Sunteți pe pagina 1din 4

ANALYSE DU SYSTME DINFORMATION DENTREPRISE II

TP1
Arbres de dcision

Paul Extermann Avril 2014

ANALYSE DU SYSTME DINFORMATION DENTREPRISE II

Introduction :
Ce TP a comme sujet les arbres de dcision, avec comme base de donne un jeu de 1'000 donnes de clients classs selon 20 critres diffrents. Ces clients ont tous fait appel un prt et le rsultat de ce dernier nous est donn. Je vais tester de manire itrative deux algorithmes de tests alatoires (Gini Index & Information Gain) afin de produire un modle, sur la base des informations du fichier CreditScore.data, capable de prdire le rsultat du prt dun futur client selon ses 20 critres personnels.

Mthodologie :
Tout dabord, il faut aller chercher les informations et les stocker dans myData. Puis il faut invoquer rpart, dont Gini Index et Information Gain sont des commandes. Ensuite, la cration de deux sets de donnes diffrents est ncessaire. Pour ce faire, jitre 10 fois une sparation alatoire entre le jeu dessai (trainData) et le jeu de test (testData), tout en respectant un rapport de respectivement 2/3 et 1/3. Ensuite, de ces itrations je retire la prcision moyenne afin de minimiser les biais. Lexercice me demande de tester les deux algorithmes avec un jeu de 3 split diffrents, et 4 cp diffrents. Jai donc 12 possibilits de paramtrage par algorithme. Le jeu est le suivant :

minsplit x cp ({2,20, ({2,20,60} 20,60} x {0.005,0.05, {0.005,0.05,0.15, 0.05,0.15,0.25}) 0.15,0.25})


Afin de multiplier les contrles, jutilise la fonction set.seed(1) pour pouvoir comparer entre eux les rsultats des diffrentes combinaisons de paramtrages de Gini et dInformation Gain sur la base de donnes identiques. Jattribue aux rsultats de chacune des boucles (les moyennes donc) un nom compos du nom de la formule (Gini/Info), du nombre de minsplit (2/20/60) et du cp (.05/.5/.15/.25).

Rsultats :
Voici les rsultats de ces calculs :

Algorithme de Gini Index

Algorithme dInformation Gain

m i n s p l i t

complexity parameter
0.005 2 20 60
0.710479

complexity parameter
0.005 2 20 60
0.7149701

0.05
0.7191617

0.15
0.7011976

0.25
0.7011976

0.05
0.7152695

0.15
0.7011976

0.25
0.7011976

0.7110778

0.7191617

0.7011976

0.7011976

0.7122754

0.7152695

0.7011976

0.7011976

0.7206587

0.7179641

0.7011976

0.7011976

0.7257485

0.7152695

0.7011976

0.7011976

m i n s p l i t

Paul Extermann Avril 2014

ANALYSE DU SYSTME DINFORMATION DENTREPRISE II Ces chiffres reprsentent la chance quun client a dtre class dans le tas bon par les algorithmes. Pour les deux algorithmes, la paire de paramtrage ayant le plus fort taux est identique. Il sagit de minsplit=60 et cp=0.005. Un minsplit haut indique quil faut beaucoup doccurrences pour crer un nouveau nud dans larbre de dcision. Cela produit un arbre moins sensible aux donnes exotiques. Le cp, complexity parameter, dcrit le minimum dexplication quun nud doit avoir pour tre cr. Si il est lev, il y aura moins de nuds, si il est trs faible (comme ici, 0.005), il reprsente au plus prs les variations de paramtres secondaires. Cest pourquoi un cp trs bas donne les meilleurs rsultats.

Cration de larbre de dcision selon les valeurs optimales :


Pour ceci, il faut revenir dans R afin quInformation Gain nous livre ses secrets. Aprs avoir utilis la commande predict, afin dappliquer lalgorithme choisi lensemble des donnes (ce qui donne un rsultat de 788/1000 bonnes prdictions), jai demand R de me crer un graphique reprsentant larbre de dcision de lalgorithme Information Gain sous paramtre minsplit=60 et cp=0.005. Voici le rsultat :

Algorithme d dInformation Gain (minsplit=60,cp=0.005)


3

Paul Extermann Avril 2014

ANALYSE DU SYSTME DINFORMATION DENTREPRISE II

Analyse de larbre de dcision :


Voici comment Information Gain classe les diffrents paramtres. Pour lire cet arbre, chaque branche partant gauche dun nud est celle dont la condition est remplie, droite non remplie. Le plus important est ltat actuel du compte en banque. Si le threshold de 200DM est atteint, lalgorithme donne un go (60 Bad (B) vs 397 Good (G)), ainsi que si le client na pas de compte courant. Si le minimum nest pas atteint, cest la dure qui vient ensuite. Information Gain (IG) vrifie si le prt excde 22,5 mois. De l partent deux branches. Si la dure excde 22,5 mois, IG va regarder ltat du compte dpargne. Si plus de 1000DM sont prsents ou quaucun compte nexiste, le prt est Good (12B vs 29G) 70.7%. Lalgorithme revrifie la dure si le montant de 1000DM nest pas sur le compte. Au-dessus de 47.5mois, la banque a tout intrt refuser le prt, ayant 86,1% de chance de ne pas revoir son argent. En-dessous, lobjet du prt est mis sous la loupe. Seuls les achats de voitures usages, les rparations et le perfectionnement professionnel donnent lieu un crdit (73.9% de bons clients), les autres raisons donnant lieu trop souvent des impays (pour 62% des cas). Quant lautre branche, IG vrifie lhistorique de crdit du client. Dans le cas dun historique vierge ou sans tache, le client na que 25% de chance de rendre son prt. Dans les autres situations, lalgorithme regarde nouveau la dure du crdit (il nexcdait pas 22,5 mois). Si la dure est infrieure 11,5 mois, le client est un bon client 82,5%. Autrement, IG vrifie le montant demand par le client. Endessous de 1388DM, il est 72,8% un bon payeur. Au-dessus, la possession dun bien (immobilier, voiture, etc) est observe. Possder une maison ou une assurance-vie donne des clients bons 74%. Le cas chant, ils sont trs mauvais payeurs, 82,6%.

Conclusion :
On peut voir dans cet arbre de dcision que les caractristiques des clients ont t rduites 9 nuds, contre 20 caractristiques dans le jeu de donnes. Certaines informations ayant plus de poids que dautres, Information Gain fait le tri entre le grain et livraie.

Paul Extermann Avril 2014

S-ar putea să vă placă și