Sunteți pe pagina 1din 4

BDSA, AMD, Anamaria Aldea, Alexandru Coser 2020

Seminar Analiza Multidimensională a Datelor


Arbori de Clasificare

 Generarea graficului pentru validarea încrucişată (cross-validation)


size of tree

1 2 5 6 10 12 32
1.1
1.0
X-val Relative Error

0.9
0.8
0.7
0.6

Inf 0.053 0.0074 0.0051 0.0015 0 0

cp

 Alegem prima valoare a parametrului de complexitate CP situată sub linia orizontală


punctată, care reprezintă media geometrică a erorilor, în acest caz cp=0.0015.

Page 1 of 4
BDSA, AMD, Anamaria Aldea, Alexandru Coser 2020

 Reprezentarea grafică a arborelui de clasificare

 Interpretarea arborelui de clasificare

Urmărind reprezentarea grafică a arborelui de clasificare, putem deduce următoarele:


 Pornind de la nodul rădăcină cu indicele (1), se realizează prima împărţire a setului de
date în 2 submulţimi, în funcţie de regulile de decizie de la fiecare pas, ţinând cont de
alegerea unei variabile care reduce cel mai mult entropia din cadrul nodului. Aşadar,
prima variabila după care se aplică regula de decizie este vârsta (variabila Age1) astfel:
dacă respondenţii aparţin segmentelor de vârstă 18-25 şi 26-30 ani, atunci urmărim
traseul din partea stânga, aferent etichetei "Yes". în caz contrar, se va urmări traseul
din partea dreaptă aferent etichetei "No".

Page 2 of 4
BDSA, AMD, Anamaria Aldea, Alexandru Coser 2020

 Ce reprezintă cifrele din cadrul unui nod?


o chenarul alb superior cu o cifră reprezintă numărul de ordine al nodului.
o cifra 1 sau 0 superioară din interiorul nodului reprezintă eticheta clasei previzionate
de către model, şi anume, 1=WellPaid, 0=Not Well Paid.
o pe următoarea linie se află 2 probabilităţi: cea din stânga este probabilitatea
aferentă clasei Not Well Paid, altfel spus target = 0, în timp ce valoarea din dreapta
desemnează probabilitatea de apariţie a evenimentului studiat, şi anume, target = 1
(WellPaid).
o ultima linie arată procentul observaţiilor clasificate în cadrul acelui nod din numărul
total de observaţii din setul întreg de date.
o În cele din urmă, după ce se urmăreşte tot traseul, se ajunge la nodurile terminale
(denumite şi "frunze") ale arborelui, care dau probabilităţile finale de apartenenţă la
una dintre cele două clase: 1=WellPaid şi 0=Not WellPaid.

 Paleta de culori aleasă are următoarea semnificaţie:


o Albastru semnifică repartizarea majoritară a respondenţilor în clasa celor bine
plătiţi (target=1)
o Portocaliu semnifică repartizarea majoritară a respondenţilor în clasa celor mai
puţin bine plătiţi (target=0).
o Intensitatea culorii este corelată cu mărimea probabilităţii de apartenenţă la
una din cele două clase. Cu cât culoarea este mai intensă, cu atât probabilitatea
este mai mare. Urmăriţi nodurile reprezentate în arbore şi identificaţi acest
lucru.

 Se observă faptul că pragul de decizie sau de separare între cele două clase este realizat
în funcţie de nivelul probabilităţii unei clase, raportată la valoarea unui prag de 0.5
(50%). Aşadar, dacă probabilitatea clasei WellPaid > 0.5, atunci clasa alocata de către
model pentru acele observaţii din cadrul nodului va avea eticheta 1 (clasa WellPaid).
Analog în caz contrar.

 Exemplu de interpretare pentru 3 noduri:

Nodul nr. 7:
o Respondenţii cu vârsta peste 30 de ani, care au o vechime mai mare de 10 ani de
când programează ca profesionişti, au cea mai mare şansă să fie bine plătiţi,
deoarece înregistrează cea mai mare probabilitate de apartenenţă la clasa
WellPaid, şi anume, 0.76 (76%).
o Urmărind cealaltă probabilitate, remarcăm că şansa să aparţină clasei 0 (Not Well
Paid) este destul de redusă (24%).
o În acest nod terminal (frunză) au fost clasificaţi 25% din totalul respondenţilor din
baza de date analizată.

Page 3 of 4
BDSA, AMD, Anamaria Aldea, Alexandru Coser 2020

Nodul nr. 13:


o Respondenţii cu vârsta peste 30 de ani, care au o vechime până în 10 ani de
când programează ca profesionişti, înregistrează o probabilitate de apartenenţă
la clasa WellPaid egală cu 0.70 (70%).
o Urmărind cealaltă probabilitate, remarcăm ca şansa să aparţină clasei 0 (Not
Well Paid) este în continuare redusă (30%).
o În acest nod terminal (frunză) au fost clasificaţi 8% din totalul respondenţilor din
baza de date analizată.
Nodul nr. 3:
o Respondenţii cu vârsta cuprinsă între 18-30 de ani, care sunt Studenţi Full-time
sau Part-time, înregistrează o probabilitate de apartenenţă la clasa WellPaid
egală cu 0.18 (18%), echivalent cu a spune că probabilitatea de a fi prost platiţi
este de 82%.
o Având în vedere această valoare a probabilităţii clasei 0, încadrarea acestor
respondenţi se face în clasa 0 (Not Well Paid)
o În acest nod terminal (frunză) au fost clasificaţi 11% din totalul respondenţilor
din baza de date analizată, având cea mai mare şansă să fie prost plătiţi.

În cele din urmă, dacă veţi urmări toate procentele nodurilor terminale, însumându-le,
veţi obţine 100% din observaţii:
11 + 25 + 7 + 7 + 5 + 1 + 5 + 6 + 8 + 25 = 100%
Dacă intamplator obţineti ceva diferit de 100% la proiect, e posibil să fie din rotunjirile
de la zecimale, deci nu vă îngrijoraţi.

 Reprezentarea curbei ROC

Page 4 of 4

S-ar putea să vă placă și