Sunteți pe pagina 1din 3

783

ANALIZA STATISTIC A DATELOR ECONOMICE PRIN ALGORITMI


DATA MINING DE ARBORI DE DECIZIE
LAVINIU AURELIAN BDULESCU
Universitatea din Craiova; Facultatea de Automatic, Calculatoare i Electronic, Secia
Inginerie Software; Craiova, str. G. Fotino , nr. 2, bl. b8, 3, 11, 200481, Dolj; mobil
0722276554;
E-mail: laviniu_aurelian_badulescu@yahoo.com

In contrast with statistical analysis, data mining analyzes all the relevant data in database
and extracts hidden patterns. Data Mining Decision Tree Algorithms generate
classification or estimation models. The algorithms use a splitting criterion to determine
the most predictive factor and place it as the first decision point in the tree. Specific
decision tree include CART and CHAID.

1. INTRODUCERE
Data Mining este n anumite privine o extensie a statisticii la care au fost adugate
elemente de inteligen artificial i Machine Learning. Ca i statistica, Data Mining nu este
o soluie de afaceri, ea este doar o tehnologie [8]. n contrast cu analiza statistic, Data
Mining analizeaz toate datele relevante din baza de date i extrage modelele (patterns)
ascunse [2]. Metodele de lucru ale statisticii sunt combinate cu metodele specifice
domeniului Machine Learning i sunt ajustate pentru estimarea modelului optim de
performan din bazele de date [6].

Un arbore de decizie (Decision Tree) este un model de clasificare sau estimare care poate fi
privit ca un arbore. Fiecare subarbore din componena sa reprezint un rspuns la o
ntrebare de clasificare, frunzele arborelui sunt partiii sau segmentri ale setului de date n
funcie de clasificarea realizat, iar nodurile prezint informaii statistice.

Ideea de baz a algoritmilor de arbori de decizie este utilizarea unui criteriu de divizare
pentru a determina cel mai predictiv factor i amplasarea lui ca prim punct de decizie n
arbore i n continuare s execute o cutare de factori predictivi pentru a construi subarborii
pn cnd nu mai exist date de procesat. Reducerea arborelui (tree pruning) crete
acurateea la datele-zgomot i poate fi realizat atunci cnd arborele este n construcie
(pre-pruning), sau dup construcia arborelui (post-pruning).[5]

Arborele de decizie genereaz un output cu o interpretare uoar pentru marketing i o
identificare facil a variabilelor semnificative n luarea deciziilor manageriale. La
construirea modelului arborescent se pot utiliza variabilele originale care nu au fost
transformate sau normalizate. Modelul de arbore de decizie va crea reguli asupra datelor de
estimat variabila int. Metodele specifice de arbore de decizie includ arborii de clasificare
i regresie (Classification and Regression Trees: CART) i detecia automat a interaciunii

2
(Chi Square Automatic Interaction Detection: CHAID). Ei furnizeaz o mulime de
reguli ce pot fi aplicate pentru un set de date neclasificat, pentru a estima care nregistrri
784
vor avea o anumit ieire. CART segmenteaz un set de date crend subarbori binari, n
timp ce CHAID segmenteaz setul de date crend subarbori oarecare, utiliznd teste
2
.
CART necesit de obicei mai puin pregtire a datelor dect CHAID.[1]

Dei arborii de decizie au fost dezvoltai iniial ca instrumente exploratorii pentru rafinarea
i preprocesarea datelor pentru tehnici statistice, cum ar fi regresia logic, ei sunt din ce n
ce mai mult utilizai pentru predicie. Analiza regresiei este o tehnic statistic tradiional
pentru gsirea unei funcii care descrie relaia dintre un numr de variabile i o valoare care
se dorete estimat. Aceast tehnic utilizeaz, n general, intrri numerice. De obicei, este
necesar o preprocesare. Cele mai utilizate tehnici de regresie sunt: regresia polinomial
(polynomial regression), extensie a regresiei lineare i regresia logic (logistic regression),
ieirea n acest caz fiind 1 sau 0 [3]. Arborii de decizie luai n considerare n problema
analizelor de regresie sunt numii arbori de regresie.[9]
2. ALGORITMII CART I CHAID
Algoritmul CART este un algoritm de explorare i predicie[4] care alege fiecare predictor
la construirea arborelui astfel nct s scad dezordinea datelor. Msura pe baza creia este
preferat un predictor altuia este valoarea entropiei. Algoritmul CART este relativ robust n
raport cu datele lips. Dac o valoare lipsete pentru un predictor particular ntr-o
nregistrare particular, la construirea arborelui acea nregistrare nu va fi utilizat n
realizarea determinrii ramificrii optimale. Cnd CART este utilizat pentru a prezice
asupra unor date noi, valorile lips pot fi manipulate prin intermediul substitutelor
(surrogates). Substitutele sunt valori de ramificare i predictori care simuleaz ramificarea
real din arbore i pot fi utilizate cnd lipsesc datele pentru predictorul dorit. De exemplu,
dei mrimea la pantofi nu este un predictor perfect pentru nlimea unei persoane, ea
poate fi folosit ca un substitut n ncercarea de a simula o ramificare bazat pe nlime
cnd acea informaie lipsete dintr-o nregistrare particular ce trebuie utilizat n estimarea
cu modelul CART.

CHAID difer de CART n modul cum alege ramificarea. Pentru alegerea ramificrii
optimale, CHAID se bazeaz pe testul
2
din tabelele de contingen pentru a determina
care predictor categorial este cel mai departe de independen cu valorile estimate.
Algoritmul CHAID este popular n cercetrile de marketing n contextul studiilor de
segmentare a pieei. Putnd fi utilizai att pentru predicie ct i pentru clasificare,
algoritmii CART i CHAID pot fi aplicai pentru analiza problemelor de tip regresie sau de
tip clasificare. Prezentm paii urmai la dezvoltarea algoritmului CHAID.

1. Pregtirea predictorilor. Se construiesc predictorii categoriali din predictorii continui
prin mprirea distribuiei continue ntr-un numr de categorii cu un numr aproximativ
egal de observaii. Pentru predictorii categoriali, categoriile (clasele) sunt definite de la
sine.

2. Fuziunea categoriilor. Parcurgem repetat predictorii pentru a determina pentru fiecare
predictor perechea de categorii predictor care sunt cel mai puin semnificative n raport cu
variabila dependent; pentru problemele de clasificare (unde variabila dependent este
categorial), se va evalua un test
2
(Pearson
2
); pentru problemele de regresie (unde
variabila dependent este continu), se va evalua un test F. Dac testul respectiv pentru o
pereche dat de categorii predictor nu este semnificant statistic, atunci se vor fuziona
categoriile predictor respective i se va repeta acest pas (i.e. se va gsi urmtoarea pereche
785
de categorii, care acum pot include categoriile anterior fuzionate). Dac perechea de
categorii predictor este semnificativ statistic, atunci se va estima un test Bonferroni p-
valoare ajustat pentru mulimea categoriilor predictorului respectiv.

3. Selectarea valorii de separare. Alegem variabila predictor de separare cu cea mai mic
p-valoare ajustat, adic variabila predictor care produce cea mai semnificativ separare;
dac cea mai mic p-valoare ajustat (Bonferroni) pentru orice predictor este mai mare
dect o anumit valoare de separare , atunci nu va mai fi executat nici o separare i nodul
respectiv este o frunz.
Acest proces continu pn cnd nu mai poate fi realizat nici o separare.[7]
3. CONCLUZII
Arborele de decizie i algoritmul care l creeaz pot fi complicai, ns rezultatul poate fi
prezentat ntr-un mod uor de neles, lucru care poate fi extrem de folositor n luarea
deciziilor n afaceri. Astfel arborele de decizie este situat n topul modelelor predictive. El
poate fi utilizat ns, n egal msur, i n aplicaiile de clasificare ce sunt solicitate n
diverse domenii cum ar fi experimentele tiinifice, aprobrile de credite, target marketing,
store location, analizele financiare, customer segmentation, detectarea fraudelor etc.

S observm dou elemente interesante la acest tip de arbore:
el divide datele la fiecare punct de ramificare fr s piard nici o dat, numrul
total de nregistrri din nodul printe fiind egal cu suma nregistrrilor coninute n
cei doi subarbori fii;
este uor de neles cum a fost construit modelul, n contrast cu alte modelele
concurente cum ar fi reele neuronale etc.
Datorit naltului lor nivel de automatism i uurinei de translatare a modelelor construite
cu arbori de decizie n SQL, pentru utilizarea n baze de date relaionale, tehnologia este
uor de integrat n procese IT deja existentele, necesitnd puin preprocesare i reducere a
datelor, sau extragere a lor cu scop precis pentru Data Mining.
BIBLIOGRAFIE
1. ***, An Overview of Data Mining at Dun & Bradstreet, Data Intelligence
Group White Paper 95/01, 1995.
2. Baragoin, C., Andersen, C., M., Bayerl, S., Bent, G., Lee, J., Schommer, C.,
Mining Your Own Business in Retail Using DB2 Intelligent Miner for Data,
International Technical Support Organization, International Business Machines
Corporation, RedBook, San Jose, California, 2001, p. 21.
3. Baragoin, C., Andersen, C., M., Bayerl, S., Bent, G., Lee, J., Schommer, C.,
Mining Your Own Business in Telecoms Using DB2 Intelligent Miner for Data,
International Technical Support Organization, International Business Machines
Corporation, RedBook, San Jose, California, 2001.
4. Breiman, L., Friedman, J., Olshen, R., Stone, C., Classification and Regression
Trees, Stanford University and the University of California, Berkeley, 1984.
5. Nepomnjashiy, A., Data Mining Algorithms: Microsoft SQL Server 2000 vs.
"Yukon" SQL Server, DatabaseJournal.com, 2004,
http://www.databasejournal.com/.
6. Ratner, B., Statistical Modeling and Analysis for Database Marketing:
Effective Techniques for Mining Big Data, Chapman & Hall/CRC, 2003.