Sunteți pe pagina 1din 9

EXPLORAREA DATELOR I DESCOPERIREA

CUNOTINELOR - PROBLEME, OBIECTIVE


I STRATEGII
Cornel Lepdatu
cornel_lepadatu@biblacad.ro
Academia Romn Bucureti
Biblioteca Academiei Romne

Rezumat: Explorarea datelor i descoperirea cunotinelor, data mining, este un ansamblu de metode i algoritmi
destinat explorrii i analizei unor, adesea, mari volume de date n vederea deducerii, din aceste date, a unor reguli, a
unor asocieri, a unor tendine necunoscute, a unor structuri specifice care s restituie n mod concis esena informaiei
utile pentru asistarea deciziilor.
n ciuda dezvoltrii rapide, domeniul data mining este nc vag definit i lipsit de o abordare integrat, situaie care
provoac dificulti n procesele de predare, de nvare, de cercetare precum i n cele de aplicare [9]. Succesul unui
proiect, din orice domeniu de activitate al organizaiilor contemporane, este de multe ori compromis de propensiunea
general de a elabora soluiile nainte de a identifica i formula problemele.
Articolul se concentreaz asupra unor aspecte importante privind natura i calitatea datelor utilizate n aplicarea data
mining, privind metodele cele mai frecvent utilizate, alegerea principalelor obiective, formularea i tratarea problemelor
n contextul strategiilor uzuale de data mining.
Cuvinte cheie: obiective data mining, problematic data mining, proces data mining, strategie data mining, tehnologie
data mining.

Abstract: Data mining and knowledge discovery denote a set of methods and algorithms for exploration and analysis of
(often) large volumes of data aiming to infer rules, associations, unknown trends, specific structures so that useful
information may be returned in a concise form for supporting decisions. Despite its fast-paced development the data
mining is still vaguely defined and lacks an integrated approach. This situation causes difficulties in teaching, learning,
research and application. The success of a project in any field of activity of contemporary organizations is often
compromised by the general propensity to develop solutions before identifying problems and formulating statements. The
article focuses on several important aspects such as the nature and quality of data used in the application of data mining,
the most commonly used methods, the choice of the main objectives, problem formulation that should be adequately
addressed in the context of data mining common strategies.
Key words: data mining goals, data mining problems, data mining process, data mining strategies, data mining
technology.

1. Introducere
Organizaiile au acumulat volume foarte mari de date, stocate pe suporturi informatice,
privitoare la tranzacii de diverse tipuri, derulate de-a lungul multor ani. Astfel:
bncile posed arhive de milioane de nregistrri n care sunt consemnate n detaliu
operaiile efectuate de clienii lor;
n aproape orice firm se gsesc mii i sute de mii de nregistrri privitoare la cumprrile,
vnzrile, ncasrile i plile efectuate;
societile de telefonie mobil posed date privitoare la fiecare convorbire efectuat de
abonaii lor, incluznd data, momentul i locul apelului, durata convorbirii, numrul de
telefon al corespondentului;
magazinele posed sute de mii de nregistrri, provenind de la casele de marcaj, n care
figureaz nu numai articolele cumprate ci i cumprtorii, identificai prin legitimaiile
de acces.
O dat cu expansiunea internetului, volumul datelor stocate n format digital nu nceteaz s
creasc, din ce n ce mai rapid, peste tot n lume:

Revista Romn de Informatic i Automatic, vol. 22, nr. 4, 2012 http://www.rria.ici.ro 5


indivizii pun, din ce n ce mai mult, informaiile pe care le dein la dispoziia tuturor, via web;
numeroase organizaii, n special cea mai mare parte a marilor magazine, culeg din ce n ce
mai multe informaii despre clienii lor i comportamentele acestora;
foarte multe dintre procesele industriale sunt controlate informatic;
rezultatele analizelor medicale sunt, din ce n ce mai sistematic, stocate pentru a fi analizate;
tot mai numeroase msurtori efectuate pretutindeni n lume, ca de exemplu cele
meteorologice, umplu de asemenea importante baze de date digitale.
Mijloacele i tehnicile informatice, tot mai evoluate, au contribuit de-a lungul timpului la
amplificarea capacitii de memorare i stocare a datelor iar n ultimile decenii au susinut o
reorientare semnificativ, privind utilizarea volumelor de date stocate, de la un proces de explorare
retrospectiv ctre unul cu caracter prospectiv:
mult vreme aceste date s-au acumulat pur i simplu n virtutea nevoii de arhivare;
datele acumulate conin informaii i cunotine ascunse, care pot servi la bunul mers al
unei organizaii, dar luate ca atare, nu au mare utilitate dac nu sunt nsoite de mecanisme
care s permit explorarea lor i nelegerea fenomenelor care au guvernat funcionarea
surselor de date;
creterea permanent a concurenei, exigenele din ce n ce mai mari ale pieei au
determinat organizaiile s devin contiente de potenialul pe care aceste arhive de date l
reprezint.
Informaia nu lipsete, ceea ce lipsete este timpul managerului de a considera toate
informaiile care sunt disponibile semnala nc din 1992, H. Simon, laureat al Premiului Nobel
pentru economie [4]. n zilele noastre, nu numai c volumul de date stocate digital este foarte
important, dar i tipul acestor informaii este foarte diversificat:
web-ul este un exemplu, foarte prezent astzi, de spaiu care regrupeaz date foarte
numeroase, diverse i variate: texte structurate sau nu, imagini, sunete, filme, etc.;
bazele de date clieni, datele extrase din procesele de producie, rezultate ale analizelor
medicale sau baze de date de msurtori mondiale pot conine de asemenea un numr
important de informaii eterogene: date numerice, categoriale, curbe, etc.
Exist n prezent un foarte mare interes de a dezvolta tehnici care s permit utilizarea optim a
tuturor acestor stocuri de informaii, pentru a extrage din ele un maximum de cunoatere util:
pe web, este vorba de a nelege mai bine coninutul paginilor web i cererile utilizatorilor
pentru a le furniza informaia int cea mai pertinent posibil i n maniera cea mai
comprehensiv posibil;
n cazul bazelor de date de clieni, poate fi vorba de a nelege ct mai bine
comportamentele clienilor pentru a le facilita accesul la produsele care i intereseaz;
n ce privete datele provenite din procesele de producie, exist un mare interes de a
extrage din ele un maximum de cunotine pentru a deduce din ele bune practici de
optimizare a produciei;
studiul rezultatelor analizelor medicale poate s ajute la mai buna depistare a pacienilor cu
risc pentru anumite boli, permind astfel mai degrab prevenirea dect vindecarea;
analiza datelor meteorologice poate ajuta la mai buna nelegere a fenomenelor generale
care influeneaz climatul pentru a anticipa fenomenele extreme i pentru a aciona n
consecin pentru populaiile vizate.

6 Revista Romn de Informatic i Automatic, vol. 22, nr. 4, 2012 http://www.rria.ici.ro


2. Tehnologia data mining
Preocuprile privind descoperirea de noi cunotine utile prin analizarea de date existente au
condus la dezvoltarea tehnologiei data mining ale crei rdcini se regsesc n statistica
matematic, n pachetele software folosite n tiinele sociale i n inteligena artificial.
Data mining nu este nici noutate tehnologic nici tiinific, metodele i tehnicile utilizate sunt
relativ vechi. Noutatea a constat n integrarea acestora n procesarea industrial a informaiei.
Dezvoltarea n decursul timpului a diverselor concepte, metode i tehnici utilizate n prezent de
tehnologia data mining se poate ncadra [11] n trei perioade dup cum urmeaz:
statistic (sau preistorie): 1758, clasificare, Carl von Linn; 1875, regresie liniar, Francis
Galton; 1896, formula coeficientului de corelaie, Karl Pearson; 1900, distribuia , Karl
Pearson; 1930, analiza factorial, Hotteling; 1936, analiza discriminant, Fisher i
Mahalanobis; 1941, analiza factorial a corespondenelor, Guttman; 1943, reele
neuronale, Mc Culloch i Pitts; 1944, regresia logistic, Joseph Berkson; 1958,
perceptronul, Rosenblatt; 1962, analiza datelor, J.-P. Benzcri; 1964, arbore de decizie
AID, J.P.Sonquist i J.-A.Morgan; 1965, metoda centrelor mobile, E. W. Forgy; 1967,
metoda celor k-medii, Mac Queen; 1972, modelul liniar generalizat, Nelder i
Wedderburn;
analiza datelor (sau istorie): 1975, algoritmi genetici, Holland; 1975, metoda de clasare
DISQUAL, Gilbert Saporta; 1977, analiza exploratorie a datelor, Tukey; 1980, reele
bayesiene, Pearl; 1980, arbore de decizie CHAID, KASS; 1983, regresie PLS (Partial Least
Squares), Herman i Svante Wold; 1984, arbore CART, Breiman, Friedman, Olshen, Stone;
1986, perceptron multistrat, Rumelhart i McClelland; 1989, reele (auto-adaptative), T.
Kohonen;
explorarea datelor i descoperirea cunotinelor: 1990 (aproximativ), apariia conceptului
de data mining; 1993, arbore C4.5, J. Ross Quinlan; 1996, bagging (Breiman) i boosting
(Freund-Shapire); 1998, maini cu suport vectorial, Vladimir Vapnik; 2000, regresie
logistic PLS, Michel Tenenhaus; 2001, pduri aleatoare, L. Breiman.
Principalele aspecte ale utilizrii acestor tehnici, caracteristice pentru fiecare perioad, sunt
urmtoarele [11]:
statistic: cteva sute de indivizi; cteva variabile cu datele obinute cu o procedur
special (eantionare, planificare experiment); ipoteze tari privind legile statistice urmate;
modelele provin din teorie i sunt confruntate cu datele; metode probabiliste i statistice;
utilizare n laborator;
analiza datelor: cteva zeci de mii de indivizi; cteva zeci de variabile; construirea de
tabele indivizi variabile; importan pentru calcul i reprezentare vizual;
data mining: mai multe milioane de indivizi; mai multe sute de variabile; numeroase
variabile nenumerice, uneori textuale; date obinute anterior studiului i adesea n alte
scopuri; date imperfecte, erori de obinere sau de codificare, valori lips sau aberante;
populaie constant evolutiv (dificil de eantionat); necesitatea unor calcule rapide, uneori
n timp real; nu se caut ntotdeauna optimul matematic ci modelul cel mai uor de neles
(sau de asimilat) de ctre utilizatori; ipoteze slabe privind legile statistice urmate; modelele
sunt obinute din date din care se deduc i elemente teoretice; metode statistice, de
inteligen artificial i de teoria nvrii; utilizare n organizaii.

3. Probleme data mining


Tehnologia data mining permite descoperirea de pattern-uri structurale din date utiliznd
algoritmi suficient de robuti att pentru a prelucra date imperfecte, corelate stohastic, ct i pentru
a extrage corelaii, uneori imprecise, i reguli utilizabile ulterior n predicia, explicarea i
nelegerea evoluiei structurii datelor analizate.

Revista Romn de Informatic i Automatic, vol. 22, nr. 4, 2012 http://www.rria.ici.ro 7


n fapt, aportul data mining se rezum la un numr limitat de aciuni care, folosite n mod
adecvat, se pot dovedi extrem de utile pentru numeroase probleme i situaii din domeniul
decizional. ntre principalele tipuri de probleme, rezolvabile cu data mining, cele mai frecvente [9,
12] sunt: analiza asocierilor, pattern-uri secveniale, analiza grupurilor, clasificare, mulimi
rough, link mining.
Datele disponibile sunt privite [1, 2, 3, 7, 10, 11, 13] ca reprezentnd o serie de observaii
privind un set de caracteristici sau variabile Y = { Yj j = 1 p }, care au fost msurate pe un
eantion de obiecte sau indivizi, X = { xi i = 1 n } . Exist dou tipuri de variabile, explicative
i de explicat: mulimea de variabile explicative sau predictive, este constituit din variabile, fie
toate cantitative, fie toate calitative, fie mixte; variabilele de explicat sau de predicie sau int, de
asemenea, pot fi: cantitative i calitative cu dou sau mai multe modaliti.
Analiza asocierilor. Fie A = {a1, , aj, ..., ap} o mulime de articole i fie T = {t1, ..., ti, ..., tn}
o mulime de tranzacii. Fiecare dintre cei n indivizi ti conine articole alese din A, fiecare din cele p
variabile Yj este o variabil cu valori binare care precizeaz pentru fiecare articol aj faptul c acesta
a fost ales sau nu n tranzacia ti.
O submulime P de articole din A, P A, poart numele de itemset. Dac toate articolele
coninute ntr-un itemset P sunt coninute i n tranzacia ti, P ti = P, se spune c tranzacia ti
conine itemsetul P, ti P. Numrul (P) = {ti ti P, ti T}, al tranzaciilor ti ce conin
itemsetul P, se numete suportul (sau susinerea) lui P.
O regul de asociere ntre dou itemseturi, P i Q, este o expresie formal de tip implicaie
adic de forma: P Q unde P Q = . Puterea unei reguli de asociere poate fi determinat
pe baza a dou metrici:
s(P Q) = (P Q) / n, numit suport (sau susinere) i
c(P Q) = (P Q) / (P), numit confiden (sau ncredere).
Suportul s exprim msura n care regula P Q se aplic n mulimea de observaii
disponibile, iar confidena c msoar ct de frecvent articolele din Q apar n tranzaciile care conin P.
Cu aceste considerente problema analizei asocierilor se formuleaz astfel: Fiind dat o
mulime de tranzacii, T, s se gseasc toate regulile P Q care au suportul s supmin i
confidena c confmin , unde supmin i confmin sunt limite dorite de utilizator pentru s i respectiv c.
Pattern-uri secveniale. Fie A = {1, , j, , p} o mulime de articole, fie C = { c1, , cq}
mulimea clienilor i fie T = {t1, ..., ti, ..., tn} mulimea tranzaciilor.
Fiecare din cele n tranzacii ti conine p cmpuri pentru articole, un cmp , id-client, pentru
identificarea clientului precum i un cmp, id-tr-time, pentru precizarea momentului tranzaciei;
pentru orice client (id-client) exist cel mult o tranzacie la un moment dat (id-tr-time). Fiecare din
cele p variabile Yj este o variabil cu valori binare i precizeaz pentru fiecare articol j faptul c
acesta a fost ales sau nu n tranzacia ti, ti T.
Orice submulime I A, de articole din A, poart numele de itemset. O mulime ordonat de
itemseturi S = I1, I2, , Is formeaz o secven. Secvena S = I1, I2, , Is este coninut n
secvena R = J1, J2, , Jr , S R, dac exist indicii k1 < k2 < ... < ks astfel nct I1 Jk1, I2 Jk2,
..., Is Jks. ntr-o mulime de secvene o secven SM este maximal dac SM nu este coninut n
nicio alt secven din : ()S , SM S.
Pentru o tranzactie ti T, itemset(ti) reprezint itemsetul care conine toate articolele alese n
tranzacia respectiv. Fie c C i fie Tc T, Tc = { tc1, tc2, ..., tcnc} mulimea tranzaciior clientului
c, ordonate cresctor n timp (dup id-tr-time). n aceste condiii, se numete secven-client
secvena: S(c) = itemset(tc1), itemset(tc2), ..., itemset(tcnc) .
Se spune c un client oarecare, c C, suport (sau susine) secvena S, dac S este coninut n
secvena-client a clientului c, S S(c). Suportul unei secvene S reprezint fraciunea clienilor care
susin pe S: s(S) = |{c | c C, S S(c)}| / | C |.
8 Revista Romn de Informatic i Automatic, vol. 22, nr. 4, 2012 http://www.rria.ici.ro
Problema descoperirii de pattern-uri secveniale revine la a descoperi secvenele maximale,
din mulimea tuturor secvenelor , care au un anumit suport minimal supmin , specificat de
utilizator : SM { S s(S) supmin}.
Orice astfel de secven maximal reprezint un pattern secvenial. O secven care
ndeplinete condiia de suport minimal este numit secven mare.
Analiza grupurilor. Se dispune de observaii asupra a p variabile Yj msurate pe n indivizi. Fie
X = {x1, ..., xi, ..., xn} mulimea celor n indivizi caracterizai de cele p variabile; se presupune c
spaiul p, ce conine pe X, este dotat cu o distan (euclidian sau 2) sau cu o similaritate. Se
dorete partiionarea mulimii X n k submulimi (clase sau clustere), unde k este cunoscut priori,
astfel nct clasele Cl, l = 1 k, obinute s fie ct mai omogene.
Fie g1, g2, ..., gi, ..., gk centrele de greutate ale celor k clase dorite : ineria clasei Cl este
Il = xiCl pj d2(xi, gi), cu pj s-a notat ponderea individului xi ; ineria intraclase este IW = kl=1
PlIl , unde Pl este ponderea clasei l (numrul de indivizi); ineria interclase este IB = kl=1Pl
d2(gl, g), unde g este centrul de greutate al mulimi X de n indivizi; ineria total a lui X, este I = IW
+ IB, principiul lui Knig-Huygens. O clas este cu att mai omogen cu ct ineria mulimii de
puncte ce o alctuiete este mai mic.
Un criteriu de partiionare pentru a determina, n medie, clase omogene, const n a cuta acea
partiie n k clase pentru care ineria intraclase este minim, deci ineria interclase este maxim.
Clasificare. Se dispune de observaii privind p variabile cantitative Yj i o variabil nominal
avnd q modaliti Y, msurate pe n indivizi. Cei n indivizi sunt mprii n q clase presupuse
disjuncte, definite priori de variabila nominal Y i se cunoate afectarea fiecrui individ la o
clas.
Fie X = {x1, ..., xi, ..., xn} mulimea celor n indivizi caracterizai de cele p variabile i fie y
vectorul n-dimensional cu componentele yi (i = 1 n, yi {1, ..., q}) reprezentnd numrul clasei
din care face parte individul xi. Problema de clasificare (sau de clasare), respectiv problema
afectrii unui individ suplimentar xs, caracterizat prin cele p variabile, la una dintre cele q clase
poate fi formulat dup cum urmeaz:
Pe baza datelor disponibile {(x1, y1), ..., (xi, yi), ..., (xn, yn)}, numit eantion de nvare, s se
defineasc o regul (sau un clasificator) (), astfel nct () s poat fi evaluat pentru orice
individ x, nu doar pentru cei inclui n datele de nvare iar clasa atribuit oricrui individ nou xs,
= (xs), s fie ct mai apropiat posibil de clasa real y.
Pentru datele xi din eantionul de nvare, clasele reale, yi, sunt cunoscute, dar nu vor coincide
n mod necesar cu aproximrile lor i = (xi). Pentru indivizii xs noi, clasele reale ys nu sunt
cunoscute, dar principala int a procedurii de clasificare este ca aproximarea s = (xs) ys s fie
cea mai bun posibil, motiv pentru care calitatea aceastei aproximri trebuie s fie judecat pe baza
proprietilor statistice sau probabilistice ale ntregii populaii din care viitorii indivizi vor fi preluai.
Mulimi rough. Se dispune de un sistem de informaii adic de un cuplu de mulimi finite i
nevide I = (U, V) unde: U = {i | i = 1 n } este o mulime de obiecte (sau de indivizi) numit
univers; V = {Vj | Vj : U Vj, j = 1 p} este o mulime de caracteristici (sau de variabile) astfel
nct sistemul asigneaz caracterisicii j a individului i valoarea xij , xij = Vj(i), din domeniul Vj al
funciei Vj.
Doi indivizi i, U, i , pentru care xij = xj se numesc indiscernabili n raport cu
variabila Vj.
Fie acum W o submulime de variabile, W V i fie ind(W) U U relaia indus de W pe
indivizii din U, unde ind(W) = {( i, )i, U, xij = xj ()Vj W} i este o relaie de echivalen
pe U; (i, ) ind(W) indivizii i, sunt indiscernabili n raport cu variabilele din W. Relaia
ind(W), numit i relaie de W-indiscernabilitate, partiioneaz mulimea U n clase de echivalen
notate prin [i]W , Uind(W) = [i]W.

Revista Romn de Informatic i Automatic, vol. 22, nr. 4, 2012 http://www.rria.ici.ro 9


V = P D unde P reprezint mulimea variabilelor de predicie (sau explicative), iar D
mulimea variabilelor de decizie (sau de explicat). Se numete matrice de discernabilitate matricea
M nn() ale crei elemente
mi = {p P[Vp(i) Vp()] [(Vd (i) Vd (), ()Vd D]}
reprezint liste de variabile de predicie care plaseaz indivizii i, n clase diferite ale partiiei
Uind(D).
Fie Z U i W P. Se dorete ca mulimea int Z s fie descris cu ajutorul variabilelor din
W. Descrierea lui Z nu poate fi precis deoarece pentru anumite obiecte din U, indiscernabile n
raport cu variabilele din W, nu se tie dac pot fi incluse sau nu n Z i atunci descrierea lui Z
va fi aproximativ.
Se numete aproximare W-inferioar a lui Z mulimea indivizilor care pot fi clasai ca membri
siguri ai lui Z: Winf Z = { i U [i]W Z }. Se numete aproximare W-superioar a lui Z
mulimea indivizilor ce pot fi clasai membri posibili ai lui Z: WsupZ = { i U [i]W Z }.
Se numete acuratee a aproximrii raportul: W(Z) = WinfZ / WsupZ. Se numete regiune de
frontier a lui Z mulimea indivizilor care nu pot fi clasai cu certitudine nici n Z nici n afara lui Z:
WfZ = WsupZ WinfZ.
Dac Wf(Z) , mulimea Z se numete mulime rough sau W-rough (pe baza cunotinelor
din W), iar dac WfZ = , mulimea Z se numete mulime crisp sau W-definibil (pe baza
cunotinelor din W).
Pentru un sistem de informaii (U, V) n care se evideniaz situaii de indiscernabilitate,
abordarea bazat pe mulimi rough permite clasri ale indivizilor din U, pe baza partiiilor induse
de variabile din V, prin determinarea unor submulimi de aproximare inferioar, de aproximare
superioar i de frontier.
Link mining. Mulimea de obiecte (sau de indivizi) observat este mulimea paginilor Web.
Fie G = (P, L) un graf orientat asociat spaiului Web, unde: P, mulimea nodurilor, reprezint
mulimea paginilor Web i L, mulimea arcelor orientate, reprezint mulimea (hyper)link-urilor. Se
numete in-link (out-link) al unei pagini i orice link care indic (din) pagina i din (ctre) alte pagini.
Un link de la pagina la pagina i este considerat ca un transfer implicit de autoritate ctre
pagina i i din acest punct de vedere o pagin cu mai multe in-link-uri este considerat a fi de
calitate mai nalt (sau cu un scor de calitate mai mare) dect o alt pagin cu mai puine in-link-
uri astfel nct, din punctul de vedere al calitii paginile pot fi pagini de (nalt) calitate i
pagini comune.
Din punctul de vedere al timpului paginile pot fi pagini vechi i pagini noi, adugate recent.
Paginile vechi, dac sunt de calitate i sunt actualizate rmn de calitate, n caz contrar devin, n
timp, comune, iar dac sunt comune i sunt actualizate pot deveni, n timp, de calitate, n caz
contrar rmnnd comune. Paginile noi, similar cu articolele tiinifice noi (preferate de ctre
cercettori), dei pot fi de calitate, fiind publicate recent scorul acestora (numrul de in-link-uri sau
de citri) este de ateptat s fie foarte mic sau chiar nul.
Fiind dat o cerere de cutare, a unui utilizator, principala sarcin a motoarelor de cutare
este de a gsi paginile relevante, de cea mai nalt calitate, care satisfac nevoia de informare a
utilizatorului.

4. Obiective i strategii data mining


Ceea ce se exploateaz prin data mining sunt colecii de date disponibile, de volum mare sau
foarte mare, provenite din surse interne ale organizaiei care au fost constituite, inclusiv ca
structur, n perspectiva altor finaliti, i la care se adaug date provenite din diverse alte surse
externe organizaiei [5, 6, 8, 10]. Utilizarea data mining presupune:
identificarea oportunitii acesteia i a datelor pe care se poate baza explorarea;
10 Revista Romn de Informatic i Automatic, vol. 22, nr. 4, 2012 http://www.rria.ici.ro
extragerea informaiilor din coleciile / depozitele de date existente i prelucrarea acestora
prin tehnici adecvate de data mining;
adoptarea de decizii pe baza rezultatelor obinute i ntreprinderea de aciuni;
msurarea rezultatelor concrete pentru a identifica i alte modaliti de exploatare a
datelor disponibile.
Un prim demers, de multe ori plictisitor dar inevitabil, const n efectuarea unei explorri a
acestor date: alura distribuiilor, prezena datelor atipice, corelaii i coeren, transformri
eventuale ale datelor; clasificare.
Demersul descriptiv i exploratoriu permite realizarea de rezumate i grafice mai mult sau mai
puin elaborate, descrierea mulimilor de date i stabilirea de relaii ntre variabile, fr a acorda un
rol privilegiat vreunei variabile. Demersul exploratoriu se sprijin, n mod esenial, pe noiuni
elementare (medie i dispersie), pe reprezentri grafice i pe tehnici descriptive multidimensionale.
Metodele exploratorii caut subspaiile de reprezentare (factoriale) de dimensiuni mici, care
aproximeaz cel mai bine norii de puncte-indivizi sau de puncte-variabile, astfel nct vecintile
msurate n aceste spaii s reflecte ct mai exact proximitile reale.
n demersul descriptiv i exploratoriu obiectivele principale urmrite sunt:
explorare multidimensional, bazat cel mai frecvent pe metode precum analiza n
componente principale, analiza factorial discriminant, analiza corespondenelor simple,
analiza corespondenelor multiple i analiza canonic.
clasificare, utiliznd cel mai adesea metode precum clasificarea ascendent ierarhic,
metoda norilor dinamici sau o metod mixt.
Un al doilea demers l constituie modelarea n scopul prediciei unei (unor) variabile int prin
variabilele explicative utiliznd instrumente de modelare (sau de nvare).
Demersul inferenial i confirmatoriu permite validarea (sau infirmarea), pornind de la teste
statistice sau modele probabiliste, a ipotezelor formulate priori (adic urmare a unui demers
exploratoriu) i extrapolarea acestora de la nivelul eantionului la cel al unei populaii mai mari.
Demersul confirmatoriu face apel, n special, la metodele numite explicative i previzionale
destinate s explice apoi s prevad, urmnd anumite reguli de decizie, o variabil privilegiat cu
ajutorul uneia sau mai multor variabile explicative.
n demersul inferenial i confirmatoriu obiectivul principal urmrit l constituie
modelarea/discriminarea respectiv deducerea unui model de previziune pentru variabila
(variabilele) int. Metodele cele mai frecvent utilizate n atingerea acestui obiectiv sunt: modelul
liniar general, analiza discriminant, reelele neuronale, mainile cu suport vectorial, arborii de
clasificare i de regresie, agregarea modelelor (Bagging, Boosting, Random Forest).
Demersurile sunt complementare, explorarea i descrierea trebuind, n general, s precead
etapele explicative i predictive [1, 2, 3]. O explorare preliminar este adesea util pentru a avea o
prim idee despre natura legturilor ntre variabile i pentru a trata cu pruden variabilele corelate,
i deci redundante, ce risc s ncarce inutil modelul. Succesiunea acestor dou demersuri,
explorare i apoi nvare, constituie fundamentul utilizrii data mining. Spre deosebire de
abordarea statistic tradiional, n care observarea datelor este integrat n metodologie
(planificarea experimentului), n data mining datele sunt prealabile analizei. Pentru a se oferi anse
mai favorabile de succes unui proces data mining este evident c preocuprile legate de definirea
obiectivelor i de analiz a datelor ar trebui s intervin ct mai devreme posibil.
Strategiile uzuale pentru data mining constau din nlnuirea a patru etape majore:
extracie; extragerea datelor, eventual prin sondaj.
explorare; studiul distribuiilor, transformare, recodificarea eventual a variabilelor
cantitative, regruparea modalitilor variabilelor calitative, eliminarea anumitor variabile,
selecionarea acelora cel mai strns legate de variabila int, completarea datelor lips,
cercetarea eventualelor relaii neliniare.

Revista Romn de Informatic i Automatic, vol. 22, nr. 4, 2012 http://www.rria.ici.ro 11


analiz;
o clasificare: caracterizarea claselor prin variabilele iniiale cu ajutorul instrumentelor de
discriminare,
o modelare / discriminare: extracia unui eantion de test, estimarea, optimizarea
modelelor pentru fiecare din metodele utilizabile (validare ncruciat), compararea
performanelor,
exploatare; odat ce o metod asociat cu un model sunt considerate ca fiind bine alese
ntregul eantion este regrupat pentru a face o ultim estimare a modelului, exploatarea
modelului i difuzarea rezultatelor.
Exist produse informatice de data mining putnd funciona pe arhitecturi de tip client-server
menite s exploateze volume foarte mari de date, cu palet larg de tehnici att n variant statistic
ct i n variant data mining. Exist, de asemenea, numeroase produse informatice de data mining
realizate pentru PC-uri, simplu de instalat, nu foarte scumpe, cu algoritmi de bun calitate,
conviviale i suficiente pentru IMM (prelucrnd zeci i chiar sute de mii de linii) i care ofer n
general una sau dou tehnici de data mining.
Sistemele software de data mining sunt, n general, capabile s asigure:
algoritmi: de clasare (analiz discriminant liniar, regresie logistic binar sau
politomic, model liniar generalizat, regresie logistic PLS, arbori de decizie, reele
neuronale, k-vecini cei mai apropiai); de predicie (regresie liniar, model liniar general,
regresie robust, regresie neliniar, regresie PLS, arbori de decizie, reele neuronale, k-
vecini cei mai apropiai); de clasificare (centre mobile, nori dinamici, k-medii, clasificare
ierarhic, metoda mixt, reele Kohonen); de analiz a seriilor temporale; de analiz a
fiabilitii (supravieuirii); de detecie a asocierilor.
funcii de pregtire a datelor: de manevrare fiiere (fuziune, agregare, transpoziie); de
vizualizare indivizi, colorare conform unui criteriu dat; de detectare, filtrare i tratare
extreme; de analiz i tratare valori lips; de transformare a variabilelor (recodificare,
standardizare, normalizare automat, discretizare); de creare de noi variabile (funcii
logice, iruri, statistici, funcii matematice); de selecie a discretizrilor, interaciunilor i
variabilelor celor mai explicative.
funcii de prelucrri statistice: determinarea caracteristicilor de tendi central, de
dispersie, de form; teste statistice de medie, de varian, de distribuie, de independen,
de heteroscedasticitate, de multicoliniaritate.
funcii de eantionare i de partiionare a datelor: crearea de eantioane de nvare, de test
i de validare (eantionarea stratificat trebuie s fie posibil); Bootstrap, jackknife
(validare ncruciat).
funcii de analiz exploratorie a datelor.
limbaje evoluate de programare (bazate pe macro-instruciuni).
faciliti de prezentare a rezultatelor: vizualizare rezultate, manipulare tabele, biblioteci de
grafice (2D, 3D, interactiv), navigare n arbori de decizie, afiare curbe, indice Gini,
ncorporare rezultate n diverse rapoarte.
faciliti de gestiune a metadatelor (definirea uniform a tuturor variabilelor i a grupurilor
de variabile).
platforme suport (Windows, Unix, Sun, IBM-MVS); formate de intrare/ieire ale datelor
gestionate (tabele Oracle, Sybase, DB2, SAS, Excel); volume de date care pot fi
rezonabil tratate.
putere de calcul (arhitecturi client server, calcule pe server vizualizarea rezultatelor pe
client; algoritmi paraleli); execuia n mod interactiv sau diferit; portabilitatea modelelor
construite (C, XML, Java, SQL).

12 Revista Romn de Informatic i Automatic, vol. 22, nr. 4, 2012 http://www.rria.ici.ro


n cadrul procesului decizional, mai larg, procesul data mining se desfoar ca o succesiune
de faze:
extragerea datelor, cu sau fr eantionare, recurgnd la tehnici de sondaj aplicate sau
aplicabile bazelor de date;
explorarea datelor pentru detectarea valorilor aberante sau doar atipice, a incoerenelor,
pentru studiul de distribuiilor, structurilor de corelaie, pentru cutarea tipologiilor, pentru
transformarea datelor;
partiionarea aleatoare a eantionului (nvare, validare, testare), n funcie de mrimea
acestuia i de tehnicile care vor fi utilizate, pentru a estima o eroare de predicie n vederea
alegerii modelului, a alegerii i certificrii metodei;
pentru fiecare din metodele luate n consideraie: estimarea modelului pentru o valoare
dat unui parametru de complexitate (numrul de variabile, de vecini, de frunze, de
neuroni, durata de nvare, etc.) i optimizarea acestui parametru;
compararea modelelor optimale obinute (cte unul pentru fiecare metod) prin estimarea
erorii de previziune;
iterarea eventual a etapelor precedente, n cazul n care eantionul de test este prea mic.
Partiionri aleatoare succesive ale eantionului pentru medierea pe mai multe cazuri a
estimrii finale a erorii de predicie i asigurarea robusteii modelului obinut;
alegerea metodei adoptate, pe baza capacitilor sale de predicie, a robusteii sale dar i,
eventual, a interpretabilitii modelului obinut.

5. Concluzii
O practic bun de data mining necesit din partea asistenilor decizionali s tie s articuleze
toate metodele [1, 2, 4, 5] sarcin care nu poate fi ndeplinit dect cu condiia de a avea foarte bine
clarificate obiectivele studiului.
Pe de o parte, multe metode urmresc aceleai obiective predictive. n cazurile fericite, cnd
datele sunt bine structurate, metodele furnizeaz rezultate foarte asemntoare. n celelalte cazuri o
anumit metod poate s se dovedeasc mai eficace, fie datorit mrimii eantionului, fie c
geometric este mai bine adaptat topologiei grupurilor de discriminat, fie datorit mai bunei
interaciuni cu tipurile de variabile. Astfel, n multe situaii, poate fi esenial i eficace o decupare
n clase de variabile predictive cantitative pentru a aborda n mod restrns o versiune neliniar a
modelului prin combinarea variabilelor auxiliare. Acest aspect poate fi important de exemplu n
cazul regresiei logistice sau perceptronului, dar este inutil n cazul arborilor de decizie care
integreaz acest decupaj n clase n chiar construcia modelelor (singurele optimale).
Pe de alt parte, metodele nu prezint toate aceleai faciliti de interpretare. Nu exist o cea
mai bun alegere priori. Numai experiena i un protocol de test atent construit permit
determinarea acesteia. Este i motivul pentru care sistemele software generaliste nu fac o alegere i
ofer aceste metode n paralel pentru a se adapta mai bine la date, la deprinderile fiecrui utilizator
(client potenial) i chiar i modei.
n fazele exploratorii pot fi gsite relaii care aparent au semnificaii importante, valabile n
interiorul setului de testare, dar care s-ar putea s fie fr nici o semnificaie statistic ntro
populaie mai larg (data dredging, data fishing, data snooping).
n fazele de modelare, o supraparametrizare sau o supraajustare a modelului poate explica
perfect datele fr ca rezultatele s fie totui extrapolabile sau generalizabile la alte date dect cele
studiate. Rezultatele previziunii pot fi deci viciate de o important eroare relativ legat de variana
estimaiilor parametrilor. Problema este de a gsi un compromis bun ntre bias-ul unui model mai
mult sau mai puin fals i variana estimatorilor.
Obiectivul esenial rmne cutarea sensului n vederea facilitrii lurilor de decizie,

Revista Romn de Informatic i Automatic, vol. 22, nr. 4, 2012 http://www.rria.ici.ro 13