Documente Academic
Documente Profesional
Documente Cultură
TP1
Arbres de dcision
Introduction :
Ce TP a comme sujet les arbres de dcision, avec comme base de donne un jeu de 1'000 donnes de clients classs selon 20 critres diffrents. Ces clients ont tous fait appel un prt et le rsultat de ce dernier nous est donn. Je vais tester de manire itrative deux algorithmes de tests alatoires (Gini Index & Information Gain) afin de produire un modle, sur la base des informations du fichier CreditScore.data, capable de prdire le rsultat du prt dun futur client selon ses 20 critres personnels.
Mthodologie :
Tout dabord, il faut aller chercher les informations et les stocker dans myData. Puis il faut invoquer rpart, dont Gini Index et Information Gain sont des commandes. Ensuite, la cration de deux sets de donnes diffrents est ncessaire. Pour ce faire, jitre 10 fois une sparation alatoire entre le jeu dessai (trainData) et le jeu de test (testData), tout en respectant un rapport de respectivement 2/3 et 1/3. Ensuite, de ces itrations je retire la prcision moyenne afin de minimiser les biais. Lexercice me demande de tester les deux algorithmes avec un jeu de 3 split diffrents, et 4 cp diffrents. Jai donc 12 possibilits de paramtrage par algorithme. Le jeu est le suivant :
Rsultats :
Voici les rsultats de ces calculs :
m i n s p l i t
complexity parameter
0.005 2 20 60
0.710479
complexity parameter
0.005 2 20 60
0.7149701
0.05
0.7191617
0.15
0.7011976
0.25
0.7011976
0.05
0.7152695
0.15
0.7011976
0.25
0.7011976
0.7110778
0.7191617
0.7011976
0.7011976
0.7122754
0.7152695
0.7011976
0.7011976
0.7206587
0.7179641
0.7011976
0.7011976
0.7257485
0.7152695
0.7011976
0.7011976
m i n s p l i t
ANALYSE DU SYSTME DINFORMATION DENTREPRISE II Ces chiffres reprsentent la chance quun client a dtre class dans le tas bon par les algorithmes. Pour les deux algorithmes, la paire de paramtrage ayant le plus fort taux est identique. Il sagit de minsplit=60 et cp=0.005. Un minsplit haut indique quil faut beaucoup doccurrences pour crer un nouveau nud dans larbre de dcision. Cela produit un arbre moins sensible aux donnes exotiques. Le cp, complexity parameter, dcrit le minimum dexplication quun nud doit avoir pour tre cr. Si il est lev, il y aura moins de nuds, si il est trs faible (comme ici, 0.005), il reprsente au plus prs les variations de paramtres secondaires. Cest pourquoi un cp trs bas donne les meilleurs rsultats.
Conclusion :
On peut voir dans cet arbre de dcision que les caractristiques des clients ont t rduites 9 nuds, contre 20 caractristiques dans le jeu de donnes. Certaines informations ayant plus de poids que dautres, Information Gain fait le tri entre le grain et livraie.