Sunteți pe pagina 1din 7

CSIE, 2023, Data mining

Neliniaritate/ liniaritate

Conf. Univ. Maer Matei Monica


CSIE, 2023, Data mining

ARBORI- Avantaje/Dezavantaje

• Modul reprezentării- ușurința întelegerii


• Probleme neliniare
• Usurința integrării variabilelor calitative
• - robustețe redusă ( modificări minore în date pot genera modificări majore ale
outputului final)
• - acuratețe mai redusă a predicțiilor realizate comparativ cu alte metode

Dar capacitatea predictivă poate fi crescută prin metode precum: bagging sau
random forest

Conf. Univ. Maer Matei Monica


CSIE, 2023, Data mining

- Bootstrap pentru îmbunătățirea performanțelor arborilor, pentru reducerea


varianței (dacă estimăm un arbore pe un set extras aleator din eșantionul
analizat vom obține modele foarte diferite)
- Se folosește bootstrap pentru a genera B replici

-
- Pentru variabile calitative, clasa predictată va fi cea mai frecventă pentru cele B
predicții
- B se alege suficient de mare astfel încât eroarea să se stabilizeze

Conf. Univ. Maer Matei Monica


CSIE, 2023, Data mining

Estimarea erorii (out of bag- OOB)


- 2/3 dintre observații sunt utilizate la fiecare replică
- OOB= observațiile nefolosite la estimare sunt folosite pentru testare
- În general vor fi B/3 predicții pentru o anumită observație

!!!! Folosirea bootstrapului contribuie la reducerea varianței și erorilor însă cu costul


interpretabilității (nu mai putem avea reprezentarea grafică și nici importanța
variabilelor)

- Dar o măsură a importanței fiecărui predictor se poate obține pe baza indicelui


Gini (valoarea medie a descreșterilor indicelui atunci când un anumit predictor
este utilizat)

Conf. Univ. Maer Matei Monica


CSIE, 2023, Data mining

Conf. Univ. Maer Matei Monica


CSIE, 2023, Data mining

Random forest
+ LIPSA corelațiilor dintre arbori
- La fiecare arbore construit se folosesc sqrt(p) =m predictori (unde p reprezintă
numărul inițial de predictori) extrași aleator – are ca efect o reducere a varianței
(ca urmare a faptului că arborii nu mai sunt corelați)

Conf. Univ. Maer Matei Monica


CSIE, 2023, Data mining

Principiul bootstrap

Conf. Univ. Maer Matei Monica

S-ar putea să vă placă și