Documente Academic
Documente Profesional
Documente Cultură
ARBORI DE CLASIFICARE
clasificarea unei forme sa face pe baza unei secvențe de întrebări, întrebarea curentă
depinzând de răspunsul la întrebarea anterioară. Această secvență de întrebări (și
răspunsurile asociate) este reprezentată printr-un arbore care la nodul rădăcină
include toate unităţile analizate, a căror apartenenţă este cunoscută şi pentru care se
cunosc o serie de caracteristici.
clasificarea începe la nodul rădăcină și se termină la nodul frunză.
fiecare test sau întrebare implică o singură caracteristică.
setul de date se împarte progresiv în subseturi din ce în ce mai mici, printr-un proces
recursiv de creștere: date fiind observațiile dintr-un anumit nod, se ia decizia de a
face din acesta un nod frunză sau se caută o altă caracteristică de separare.
ideal ar fi ca nodurile terminale să fie ”noduri pure” în care toate obiectele au
aceeași apartenență (aceeași etichetă).
1
AACPI, 2022, Data mining in afaceri
Formalizare
Într-un anumit nod (A), criteriul care stă la baza alegerii variantei de ramificare în nod stâng
(AL) și nod drept (AR) se bazează pe un principiu descris de ecuația:
Unde P(A) este probabilitatea asociată nodului A iar r(A) este un risc asociat nodului A, ce trebuie
înțeles ca risc de clasificare eronată. Ecuația de mai sus subliniază faptul că ramificarea în arbore
se face astfel încât riscul clasificării incorecte să fie redus.
2
AACPI, 2022, Data mining in afaceri
NOTATII
Pentru a defini riscul asociat unui nod, trebuie să introducem următoarele notații:
- L(i,j)- matricea clasificării incorecte a unui obiect în clasa j în condițiile în care în realitate
aparține clasei i.
Riscul asociat unui nod A (riscul de a clasifica incorect) prin următoarea relație:
3
AACPI, 2022, Data mining in afaceri
4
AACPI, 2022, Data mining in afaceri
mai bun test reduce impuritatea cu o valoare mai mică decât un prag stabilit denumit în cele
ce urmează, parametru de complexitate (cp).
5
AACPI, 2022, Data mining in afaceri
6
AACPI, 2022, Data mining in afaceri
8
AACPI, 2022, Data mining in afaceri
9
AACPI, 2022, Data mining in afaceri
- După construirea arborelui, urmează o etapă care are ca scop luarea unei decizii cu privire la
dimensiunea potrivita a acestuia.
- Acestă etapă are la bază o tehnică de validare utilizată pentru evaluarea performanţelor
modelelor estimate, denumită validare încrucişată (unităţile disponibile în eşantionul pe
care se efectuează analiza sunt împărţite în două subeşantione. Unul dintre acestea este folosit
pentru a estima modelul iar cel de-al doilea este utilizat pentru a testa modelul estimat)
- În contextul arborilor de clasificare, validarea încrucişată este utilizată pentru a identifica
valoarea optimă a parametrului de complexitate. Rezultatele oferite de funcţia rpart, privind
validarea încrucişată se obţin prin împărţirea eşantionului iniţial în 10 subseturi de
dimensiuni egale. Arborele complet se estimează eliminând pe rând câte unul dintre aceste
subseturi. De fiecare dată testarea modelului se face pe subsetul eliminat.
- Linia orizontală din graficul care ilustrează rezultatele validării încrucişate reprezintă
valoarea care indică punctul de minim al curbei plus o abatere standard.
10
AACPI, 2022, Data mining in afaceri
11
AACPI, 2022, Data mining in afaceri
12
AACPI, 2022, Data mining in afaceri
Referinţe
Atkinson, E. J., & Therneau, T. M. (2000). An introduction to recursive partitioning using the RPART routines. Rochester: Mayo Foundation.
Breiman L., Friedman J. H., Olshen R. A., and Stone, C. J. (1984) Classification and Regression Trees. Wadsworth.
Milborrow, S. (2016). Plotting rpart trees with the rpart. plot package.
Therneau, Atkinson, Ripley (2018), Package rpart, available at https://cran.r-project.org/web/packages/rpart/rpart.pdf
13