Arbori de Clasificare

AACPI, 2022, Data mining in afaceri
ARBORI DE CLASIFICARE
 clasificarea unei forme sa face pe baza unei secvențe de întrebări, întrebarea curentă
depinzând de răspunsul la întrebarea anterioară. Această secvență de întrebări (și
răspunsurile asociate) este reprezentată printr-un arbore care la nodul rădăcină
include toate unităţile analizate, a căror apartenenţă este cunoscută şi pentru care se
cunosc o serie de caracteristici.
 clasificarea începe la nodul rădăcină și se termină la nodul frunză.
 fiecare test sau întrebare implică o singură caracteristică.
 setul de date se împarte progresiv în subseturi din ce în ce mai mici, printr-un proces
recursiv de creștere: date fiind observațiile dintr-un anumit nod, se ia decizia de a
face din acesta un nod frunză sau se caută o altă caracteristică de separare.
 ideal ar fi ca nodurile terminale să fie ”noduri pure” în care toate obiectele au
aceeași apartenență (aceeași etichetă).
1
Formalizare
Într-un anumit nod (A), criteriul care stă la baza alegerii variantei de ramificare în nod stâng
(AL) și nod drept (AR) se bazează pe un principiu descris de ecuația:
P(AL)r(AL) + P(AR)r(AR) < P(A)r(A)
Unde P(A) este probabilitatea asociată nodului A iar r(A) este un risc asociat nodului A, ce trebuie
înțeles ca risc de clasificare eronată. Ecuația de mai sus subliniază faptul că ramificarea în arbore
se face astfel încât riscul clasificării incorecte să fie redus.
Probabilitatea unui nod, reprezintă probabilitatea ca o entitate să se încadreze în acest nod și se se

calculează după relația:
𝜋𝑛
𝑃(𝐴) = ∑2𝑖=1 𝑖 𝑖𝐴⁄𝑛𝑖
2
NOTATII
 𝜋𝑖 = probabilitatea asociată fiecărei clase

 𝑛𝑖𝐴 = numărul de observații care fac parte din clasa i din totalul observațiilor de la nodul A
(𝑛𝐴 ).
 𝑛𝑖 = reprezintă numărul de observații din eșantion incluse în categoria i.
Pentru a defini riscul asociat unui nod, trebuie să introducem următoarele notații:
- L(i,j)- matricea clasificării incorecte a unui obiect în clasa j în condițiile în care în realitate
aparține clasei i.
- 𝑡(𝐴) – clasa asociată nodului A dacă acesta ar fi nod terminal.
Riscul asociat unui nod A (riscul de a clasifica incorect) prin următoarea relație:
𝑟(𝐴) = ∑2𝑖=1 𝑝(𝑖|𝐴)𝐿(𝑖, 𝑡(𝐴))
3
În implementarea algoritmilor de clasificare se folosesc entropia sau indicele Gini pentru a

cuantifica impuritatea unui nod. Dacă proporția obiectelor care fac parte din clasa j se notează
cu P( 𝜔𝑗 ) atunci entropia se calculează după relația:
𝐼 (𝐴) = − ∑𝑗 𝑃(𝜔𝑗 )𝑙𝑜𝑔2 𝑃(𝜔𝑗 )
iar indicele Gini se calculează astfel:
𝐼 (𝐴) = ∑𝑖≠𝑗 𝑃(𝜔𝑖 ) 𝑃(𝜔𝑗 )
La un nod A se va alege acea caracteristică pentru care scăderea impurității este

maximă.
- Dacă procesul de divizare continuă pânâ când fiecare nod frunză înregistrează cea mai redusă
valoare a impurității, performanță predictivă a modelului va fi redusa, exagerând orice
fluctuație nesemnificativă din date.
- Dacă procesul de ramificare se incheie prea repede erorile vor fi prea mari, performanța
modelului având de suferit. Se va incheia procesul de ”creștere” al arborelui atunci când cel
4
mai bun test reduce impuritatea cu o valoare mai mică decât un prag stabilit denumit în cele
ce urmează, parametru de complexitate (cp).
5
Exemplu - Utilizarea arborilor de clasificare pentru a explica înclinaţia unui

individ spre antreprenoriat
- Baza de date utilizată este disponibilă la adresa https://www.gemconsortium.org/.

- Sunt analizate răspunsurile indivizilor rezidenţi în Germania.
variabila dependentă este o variabilă categorială binară construită pe baza răspunsurilor
la întrebarea: ”În prezent încercaţi să vă dezvoltaţi propria afacere?”
- Scopul analizei noastre este acela de a clasifica indivizii în una dintre cele două
clase, etichetate „Yes”- clasa antreprenorilor şi “No”
- două categorii de factori: factori demografici precum vârstă (Age), sex (Gender),
nivelul de educaţie (Educ), venitul gospodăriei (GEMHHINC) şi statut ocupaţional
(Work) şi factori care cuantifică percepţii ale respondenţilor privind activitatea
antreprenorială.
6
Nivelul de educaţie este o variabilă categorială cu 5 nivele, etichetate astfel:

“1”- gimnaziu, “2”- până la 10 clase, “3”- studii liceale, “4” –şcoală postliceală, „5”-
studii superioare.
Variabila venit este construită astfel încât împarte indivizii în trei categorii: venit redus
(“L33”), venit mediu (“M33”), venit ridicat (“U33”). Conform statutului occupational
definit în baza de date utilizată, un individ se poate încadra în una dintre categoriile:
“W”- lucrează cu normă întreagă su parţială, “R/S”- pensionari sau studenţi, „ntW”- nu
este angajat.
În a doua categorie sunt incluse următoarele variabile:
- Variabila “knowent” cu 2 nivele: “Yes” (dacă respondentul declară că are
cunoştinţe care au dezvoltat o afacere în ultimii doi ani) şi „No”, altfel.
- Variabila „suskill” care arată dacă respondentul consideră că deţine cunoştinţele,
competenţele şi experienţa necesare dezvoltării unei afaceri.
7
- Variabila “fearfail” care exprimă poziţia respondentului cu privire la următoarea

întrebare “Consideraţi că teama de eşec reprezintă un obstacol pentru deschiderea
unei afaceri?”
- Variabila „nbstatus” care prezintă acordul/dezacordul respondenţilor cu privire la
următoarea afirmaţie:”Cei care au avut success în dezoltarea unei noi afaceri, au un
statut superior şi sunt respectaţi în ţara mea”
- Bibliotecile utilizate pentru a construi şi reprezenta clasificatorul binar de tip arbore sunt
rpart (Atkinson, Therneau. 2000) şi Rpart.plot (Milborrow, 2016). Funcţia rpart()
construieşte arborele şi realizează validarea încrucişată iar funcţia prp() este cea pe care
am utilizat-o pentru reprezentarea grafică.
- Pentru fiecare nod frunză, eticheta asociată clasei, probabilitatea celei de a doua clase (pe
exemplul nostru, clasa “No”) şi procentul unităţilor existente în respectivul nod din total
eşantion.
8
9
- După construirea arborelui, urmează o etapă care are ca scop luarea unei decizii cu privire la
dimensiunea potrivita a acestuia.
- Acestă etapă are la bază o tehnică de validare utilizată pentru evaluarea performanţelor
modelelor estimate, denumită validare încrucişată (unităţile disponibile în eşantionul pe
care se efectuează analiza sunt împărţite în două subeşantione. Unul dintre acestea este folosit
pentru a estima modelul iar cel de-al doilea este utilizat pentru a testa modelul estimat)
- În contextul arborilor de clasificare, validarea încrucişată este utilizată pentru a identifica
valoarea optimă a parametrului de complexitate. Rezultatele oferite de funcţia rpart, privind
validarea încrucişată se obţin prin împărţirea eşantionului iniţial în 10 subseturi de
dimensiuni egale. Arborele complet se estimează eliminând pe rând câte unul dintre aceste
subseturi. De fiecare dată testarea modelului se face pe subsetul eliminat.
- Linia orizontală din graficul care ilustrează rezultatele validării încrucişate reprezintă
valoarea care indică punctul de minim al curbei plus o abatere standard.
10
11
12
În funcţie de frecvenţa cu care o variabilă este utilizată pentru a efectua ramificări în

arbore, se calculează coeficientul care indică importanţa factorului respectiv pentru
stabilirea apartenenţei unui obiect la una dintre clase
suskill knowent Age GEMHHINC EDUC Work fearfail gender

43 24 9 7 6 6 5 1
Referinţe
Atkinson, E. J., & Therneau, T. M. (2000). An introduction to recursive partitioning using the RPART routines. Rochester: Mayo Foundation.
Breiman L., Friedman J. H., Olshen R. A., and Stone, C. J. (1984) Classification and Regression Trees. Wadsworth.
Milborrow, S. (2016). Plotting rpart trees with the rpart. plot package.
Therneau, Atkinson, Ripley (2018), Package rpart, available at https://cran.r-project.org/web/packages/rpart/rpart.pdf
13

Arbori de Clasificare

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Arbori de Clasificare

Încărcat de

Drepturi de autor:

Formate disponibile

AACPI, 2022, Data mining in afaceri

P(AL)r(AL) + P(AR)r(AR) < P(A)r(A)

Probabilitatea unui nod, reprezintă probabilitatea ca o entitate să se încadreze în acest nod și se se

 𝜋𝑖 = probabilitatea asociată fiecărei clase

- 𝑡(𝐴) – clasa asociată nodului A dacă acesta ar fi nod terminal.

𝑟(𝐴) = ∑2𝑖=1 𝑝(𝑖|𝐴)𝐿(𝑖, 𝑡(𝐴))

În implementarea algoritmilor de clasificare se folosesc entropia sau indicele Gini pentru a

𝐼 (𝐴) = − ∑𝑗 𝑃(𝜔𝑗 )𝑙𝑜𝑔2 𝑃(𝜔𝑗 )

iar indicele Gini se calculează astfel:

𝐼 (𝐴) = ∑𝑖≠𝑗 𝑃(𝜔𝑖 ) 𝑃(𝜔𝑗 )

La un nod A se va alege acea caracteristică pentru care scăderea impurității este

Exemplu - Utilizarea arborilor de clasificare pentru a explica înclinaţia unui

- Baza de date utilizată este disponibilă la adresa https://www.gemconsortium.org/.

Nivelul de educaţie este o variabilă categorială cu 5 nivele, etichetate astfel:

- Variabila “fearfail” care exprimă poziţia respondentului cu privire la următoarea

În funcţie de frecvenţa cu care o variabilă este utilizată pentru a efectua ramificări în

suskill knowent Age GEMHHINC EDUC Work fearfail gender

S-ar putea să vă placă și