Sunteți pe pagina 1din 19

TEHNOLOGII PENTRU EXTRAGEREA CUNOTINELOR

- DATA MINING
n cutarea informaiei ascunse
Dup mai multe decenii n cursul crora mijloace i tehnici informatice tot mai evoluate au
contribuit la amplificarea capacitii de memorare i stocare a datelor, ultimii ani au marcat o
reorientare semnificativ n utilizarea volumelor de date stocate, de la un proces de explorare
retrospectiv spre unul cu caracter prospectiv. Aceast schimbare a devenit posibil ca urmare a
maturizrii tehnologiilor legate de data mining.
Denumirea provine de la analogia cu activitatea minier; tot aa cum este necesar
dislocarea i rafinarea a tone de minereu pentru a obine cteva grame de aur, aici sunt
examinate i analizate sute de mii sau milioane de date pentru a extrage din ele informaii i
semnificaii noi, dincolo de scopurile pentru care acestea au fost colectate i memorate la
origine.
Data mining are, ca i alte concepte folosite n informatic, mai multe definiii. n esen,
acestea converg spre ideea formulat anterior: un proces de extragere de informaii noi din
coleciile de date existente. Termenul de dat este utilizat aici cu semnificaia de descriere a unui
eveniment precis, produs n lumea real i verificabil prin raportare la aceasta. Informaia (sau
cunoaterea transmis) constituie descrierea unei categorii abstracte, ce acoper mai multe
evenimente sau exemple concrete.
Principiul de funcionare n data mining este urmtorul: se prelucreaz datele referitoare la
perioadele trecute, examinnd o varietate de situaii care s-au produs i ale cror rezultate sau
consecine sunt deci, bine cunoscute, pentru a evidenia caracteristicile acestora i a permite
elaborarea unui model. Odat construit, modelul poate fi aplicat situaiilor noi de acelai tip.
Informaiile obinute prin data mining sunt de natur predictiv sau descriptiv.
Un exemplu tipic de problem predictiv este direcionarea aciunilor de marketing. Datele
rezultate din corespondena promoional trecut se folosesc pentru a identifica destinatarii
pentru care urmtoarea campanie promoional poate aduce un maxim de efect.
Detectarea tranzaciilor frauduloase cu carduri bancare constituie unul dintre exemplele
tipice de aplicaii descriptive. Explorarea ansamblului tranzaciilor permite evidenierea unui
anumit tipar comportamental, considerat normal. Dendat ce la un bancomat se cere efectuarea
unei tranzacii ce iese din acest tipar, solicitarea poate fi refuzat. Este posibil ca operaia cerut
s fie sau s nu fie frauduloas; o analiz ulterioar poate stabili acest lucru dar, n acest stadiu,
sistemul o respinge pentru a preveni orice consecine nedorite.
Fundamentele explorrii datelor
Expansiunea tehnicilor de data mining se explic, printre altele, prin faptul c firmele au
acumulat volume foarte mari de date, stocate pe suporturi informatice, privitoare la tranzacii de
diverse tipuri, derulate de-a lungul mai multor ani. Bncile posed, spre exemplu, arhive de
milioane de nregistrri, n care sunt consemnate n detaliu operaiile efectuate de clienii lor. n
orice firm se gsesc mii i sute de mii de nregistrri privitoare la cumprrile, vnzrile,
ncasrile i plile fcute. Societile de telefonie mobil posed date privitoare la fiecare
convorbire efectuat de abonaii lor, incluznd data, momentul i locul apelului, numrul de
telefon al corespondentului, durata convorbirii. Un magazin de tipul cash and carry posed sute
de mii de nregistrri, provenind de la casele de marcaj, n care figureaz nu numai articolele
cumprate ci i cumprtorii, identificai prin legitimaiile de acces. Mult vreme acestea s-au

acumulat pur i simplu n virtutea nevoii de arhivare. Creterea permanent a concurenei,


exigenele din ce n ce mai mari ale pieei au determinat firmele s devin contiente de
potenialul pe care aceste arhive de date l reprezint. Toate exemplele enumerate au un element
comun: vizeaz, n mod direct sau indirect, clienii. Exploatarea lor din aceast perspectiv ofer
oportuniti deosebite. Datele sunt la dispoziia organizaiei respective; datele sunt ct se poate
de precise i analitice; datele sunt n volum mare i acoper perioade de timp de ordinul anilor.
Dar relaia cu clienii nu este singura direcie de reutilizare a acestor date. n multe alte domenii
ale activitii de afaceri, tendinele pe care acestea le ncorporeaz sau le reflect n mod
obiectiv, structurile sau tiparele pe care le relev sunt deosebit de valoroase.
Alturi de existena coleciilor de date istorice memorate pe suporturi informatice, nc doi
factori explic emergena cunoscut actualmente de data mining: maturizarea algoritmilor i a
produselor program dedicate i creterea capacitii de memorare i prelucrare a calculatoarelor,
care permite tratarea n corelaie a volumelor foarte mari de date.
Unele dintre tehnicile de data mining dateaz de ceva mai muli ani. Algoritmii folosii au
cunoscut ns un proces de evoluie continu, care a permis nlturarea unora dintre limitele sau
deficienele iniiale. Produsele program au evoluat i ele spre o utilizare ct mai facil, la un
asemenea nivel nct pot fi folosite cu o cunoatere minim a tehnicii pe care o implementeaz.
n sfrit, au aprut firme care ofer spre vnzare colecii de date istorice de uz general - cum ar
fi, spre exemplu, evoluia indicatorilor bursieri din ultimii 20 de ani - special constituite pentru
asemenea utilizri.
Depozitele de date i tehnologiile OLAP vizeaz i ele datele colectate la nivelul
organizaiilor. n ciuda unor cerine i prelucrri preliminare asemntoare, exist deosebiri
eseniale n privina demersului la care recurg fiecare dintre ele i nu mai puin, a obiectivelor
urmrite. Nu este mai puin adevrat c depozitele de date se preteaz foarte bine ca surse pentru
data mining iar rezultatele furnizate de acesta pot completa cmpurile nregistrrilor celor dinti
i pot fi valorificate apoi prin proieciile multidimensionale specifice OLAP.
O explorare dirijat de oportuniti
Potenialul oferit de tehnicile de data mining trebuie ncorporat n procesele comerciale
curente ale organizaiilor pentru a deveni realmente utile. Cutarea de informaii nu este un scop
n sine; ea devine util doar n msura n care se transpune n aciune.
Declanarea unui demers bazat pe data mining se face ca urmare a observrii sau
constatrii unei necesiti sau oportuniti comerciale. Observarea diminurii numrului de
clieni, scderea vnzrilor la un anumit produs, lansarea unui nou produs sau serviciu sunt
cteva exemple de situaii de acest tip. O firm poate alege s reacioneze sau nu la asemenea
situaii i, n caz afirmativ, poate alege diverse moduri de a o face. Tehnicile de data mining
constitute una dintre acestea. Totui, este de reinut c fiecare dintre ele este adecvat unui
anumit gen de probleme sau de circumstane i c, de multe ori, aplicarea lor n combinaie
poate produce rezultatele cele mai bune. Alegerea trebuie s aib n vedere i compatibilitatea
dintre cerinele n materie de date ale tehnicii sau tehnicile alese i cele de care se poate dispune
realmente.
Pasul urmtor const n explorarea propriu-zis a datelor. La rndul su, acesta este departe
de a fi simplu sau liniar. Multe dintre aceste tehnici solicit, nainte de a putea fi utilizate, un
proces de nvare; datele, fiind eterogene, impun o etap de pregtire prealabil; rezultatele sunt
rareori aplicabile n forma n care sunt obinute, cernd un efort suplimentar de interpretare i
adaptare, la care s participe i decidentul, cu cunotinele i experiena sa n afaceri. Spre

exemplu, aplicarea unui algoritm de grupare poate evidenia existena a 20 de clustere diferite;
dintre acestea, doar unul se poate dovedi util dar relevana lor nu poate fi apreciat dect de
specialistul sau specialitii din firm.
Informaiile obinute anterior au valoarea aciunilor ntreprinse pe baza lor. Tehnicile de
data mining permit obinerea de cunotine mai bogate privitoare la mediul n care exist i
funcioneaz ntreprinderea. Acestea trebuie ns transformate n aciune iar efectul aciunilor
msurat.
Este posibil ca aciunea de data mining s fie un eec i nu o reuit. Este posibil ca
msurile ntreprinse s nu fie cele mai adecvate n raport cu informaiile obinute. Att reuita
ct i eecul pot fi surs de nvminte pentru viitor, pot fi stimulii unor noi aciuni de data
mining, mai bine i mai precis orientate i derulate.
Toate aceste contureaz ideea unui ciclu n utilizarea data mining, n cursul cruia se
parcurg cele patru etape menionate:
identificarea oportunitii comerciale i a datelor pe care se poate baza explorarea
extragerea de informaii din coleciile de date existente prin tehnici adecvate de
data mining
adoptarea de decizii i ntreprinderea de aciuni pe baza informaiilor obinute
msurarea rezultatelor concrete pentru a identifica i alte modaliti de exploatare
a datelor disponibile

Data minig

Oportunitate
de afaceri

Decizie i
aciune

Evaluare
rezultate

Fig. 14 Ciclul de utilizare a data mining

Verificarea ipotezelor i cutarea cunotinelor


Aplicarea tehnicilor de data mining poate fi fcut din perspectiva unui demers ascendent
sau descendent.
n abordarea descendent, efortul este orientat spre confirmarea sau infirmarea unor idei
(ipoteze) formulate n prealabil prin alte mijloace. Un demers asemntor se aplic n statistic
i n analiza datelor, dar folosind alte tehnici i metode.

Data mining

verificarea
ipotezelor

cutarea de
cunotine

dirijat

nedirijat

Fig. 15 Utilizri ale tehnicilor de data mining

Abordarea ascendent are o cu totul alt finalitate; ea urmrete extragerea de cunotine


sau informaii noi din datele disponibile. Cutarea poate fi dirijat sau nedirijat.
Cutarea dirijat ia n considerare un atribut sau un cmp, ale crui valori ncearc s le
explice prin celelalte cmpuri. Este cea mai folosit n practic.
Cutarea nedirijat are ca scop identificarea relaiilor sau structurilor existente n
ansamblul datelor examinate, fr a acorda prioritate unui cmp sau altul. Dei mai
spectaculoas, n practic se recurge mult mai puin la ea dect la cutarea dirijat.
Tehnici i aciuni
Ceea ce se exploateaz prin data mining sunt coleciile de date de care dispune o
organizaie, colecii care au fost ns constituite pentru alte scopuri; n cazurile cele mai
frecvente, este vorba de datele privitoare la tranzaciile derulate ntr-o anumit perioad de timp:
comenzi, livrri, pli, ncasri etc. La acestea se adaug, deseori, date provenite din alte surse,
cum ar fi, spre exemplu, statistici oficiale privitoare la evoluia economiei n ansamblu, date
privitoare la concuren, diverse msuri legislative sau normative etc. Aceasta explic utilizarea
frecvent a calificativului de informaii ascunse: volumul mare sau foarte mare i faptul c
structura i coninutul lor sunt edificate n perspectiva altor finaliti, fac foarte dificil sau
imposibil detectarea corelaiilor sau raporturilor de ansamblu pe care le ncorporeaz n mod
intrinsec.
Rezultatele sunt cu att mai sigure i relevante, cu ct se bazeaz pe un volum mai mare de
date, din motive lesne de neles: o tendin relevat de un numr foarte mare de cazuri practice
este mult mai pertinent dect cea dedus din doar cteva situaii.

Explorarea datelor n vederea obinerii de informaii recurge la diverse tehnici, printre cele
mai folosite aflndu-se:
reelele neuronale
arborii de decizie
algoritmii genetici
analiza grupurilor
raionamentele bazate pe cazuri
analiza legturilor
La acestea se pot asocia i tehnici statistice, cum sunt, spre exemplu, regresiile, analiza
factorial etc.
Data mining nu este un panaceu universal, capabil s rezolve orice problem de gestiune.
n fapt, aportul su se rezum la un numr limitat de aciuni: clasificarea, estimarea, predicia,
gruparea, analiza gruprilor, dar care, folosite n mod adecvat, se pot dovedi extrem de utile
pentru numeroase probleme i situaii din domeniul decizional.
Clasificarea urmrete s plaseze obiectele prelucrate ntr-un grup limitat de clase
predefinite. Spre exemplu, o cerere de credit va fi ncadrat, prin clasificare, n una dintre
urmtoarele categorii de risc: sczut, mediu, ridicat. Obiectele clasificate sunt reprezentate, n
general, sub form de nregistrri, compuse din atribute sau cmpuri. Dintre tehnicile de data
mining, cele mai adecvate clasificrii sunt arborii de decizie i raionamentul bazat pe cazuri.
Estimarea urmrete s atribuie o valoare unei variabile, pe baza celorlalte date de intrare.
Prin intermediul su se poate aprecia, de exemplu, numrul de copii sau venitul total al unei
familii. Rezultatele obinute prin estimare sunt valori continue. Reelele neuronale sunt printre
cele mai bune tehnici de data mining pentru acest gen de prelucrri.
Predicia urmrete s claseze nregistrrile tratate n funcie de un comportament sau o
valoare estimat viitoare. n acest scop, se recurge la o colecie de exemple, bazate pe date din
trecut, n care valorile variabilei de previzionat sunt deja cunoscute. Cu ajutorul acestora se
construiete un model care s explice comportamentul observat. Aplicnd acest model asupra
nregistrrilor de prelucrat, se obine o predicie a comportamentului sau valorilor acestora n
viitor. Cu condiia folosirii unui set adecvat de exemple trecute, toate tehnicile de clasificare sau
estimare pot fi folosite i pentru predicie.
Gruparea urmrete s determine care sunt obiectele care apar cel mai frecvent mpreun.
Exemplul tipic pentru acest gen de aciune este determinarea mrfurilor care se cumpr uzual
mpreun, de unde i denumirea de "analiz a coului gospodinei".
Analiza grupurilor urmrete s divid o populaie eterogen n grupuri mai omogene,
numite "cluster". Spre deosebire de celelalte tipuri de aciune asemntoare, aici nu exist un set
predeterminat de clase ca n cazul clasificrii i nici exemple trecute. Segmentarea se face n
exclusivitate pe baza similitudinilor sesizate ntre obiecte.
Etapele procesului de explorare a datelor
Existena programelor pentru implementarea algoritmilor specifici tehnicilor de data
mining este indispensabil dar insuficient. n amonte, programele trebuie alimentate cu date.
Cum datele disponibile provin din surse variate i au fost, la origine, organizate i constituite
pentru a rspunde altor scopuri, este necesar o faz de pregtire prealabil, de curare i
uniformizare. n aval, rezultatele nu pot fi folosite n forma n care sunt furnizate de ctre
programele respective; coninutul lor trebuie analizat i interpretat de ctre specialiti pentru a
identifica informaiile pertinente pe care le conin. Nu este mai puin important selecia

tehnicilor adecvate naturii problemei vizate. Este evident, prin urmare, c tehnicile de data
mining se pot utiliza numai n cadrul unor procese specifice, relativ complexe i deseori
neliniare. n cadrul acestora, se pot distinge urmtoarele etape:
definirea problemei
identificarea surselor de date
colectarea i selectarea datelor
pregtirea datelor
construirea modelului
evaluarea modelului
integrarea modelului
Definirea problemei
Aa cum s-a precizat anterior, declanarea procesului este determinat de sesizarea unei
oportuniti sau necesiti de afaceri. n cadrul acesteia, este nevoie s se delimiteze exact ce
urmeaz a fi rezolvat prin data mining, care sunt obiectivele urmrite i rezultatele ateptate.
Problema de rezolvat prin data mining contribuie, ca parte component, la valorificarea
oportunitii sesizate de ntreprindere, dar nu se identific cu ea. n plus, trebuie s primeasc o
form n care s poat fi tratat prin aceste tehnici. Spre exemplu, iniiativa unei companii de
telefonie mobil de a testa pe pia un nou produs, ca oportunitate, este mult prea complex i
prea general. Cum este vorba despre o testare, oferta va fi adresat doar ctorva sute dintre
zecile de mii de abonai. Care dintre clienii actuali ai companiei ar putea fi cei mai interesai de
noul serviciu i a cror apreciere ar fi deci cea mai pertinent ? Abia aceasta este o problem de
data mining.
Identificarea surselor de date
Odat problema definit, este necesar stabilirea structurii generale a datelor necesare
rezolvrii sale i a regulilor de constituire a acestora. Urmeaz localizarea surselor acestora. n
cazurile cele mai frecvente, este vorba de date dispersate in diverse sisteme informatice
operaionale, stocate n formate diferite, administrate cu produse software diferite, uneori
disponibile numai pe hrtie. nainte de a trece la etapa urmtoare, este recomandabil
examinarea coninutului fiecreia dintre surse, pentru o familiarizare cu coninutul su i pentru
identificarea, ct mai precoce, a eventualelor incoerente sau probleme de definire, care pot
compromite rezultatele analizelor urmtoare.
Colectarea i selecia datelor
Aceast etap urmrete extragerea i plasarea ntr-o baz comun a tuturor datelor ce
urmeaz a fi folosite. Este o munc relativ anost, care ocup pn la 80% din timpul global
consumat. Existenta depozitelor de date constitute un avantaj major.
Una dintre problemele de rezolvat in aceast faz const in alegerea ntre prelucrarea
ntregului fond de date disponibil sau a unui eantion. Limitele echipamentelor i a produselor
program utilizate, bugetul alocat proiectului, cerinele i particularitile studiului sunt factorii
care intervin n aceast alegere. n cazul opiunii pentru lucrul cu eantioane, vor fi respectate
toate regulile i cerinele de constituire a acestora.

Pregtirea datelor
Datele selectate n faza anterioar au fost, n marea majoritate a cazurilor, culese i
stocate n cu totul alte scopuri. n consecin, trebuie supuse unui proces preliminar de
pregtire nainte de a putea fi supuse extraciei prin data mining. Alturi de cerinele specifice
fiecreia dintre tehnici, care vor fi prezentate n paragrafele urmtoare, exist o serie de
transformri comune care vizeaz:
valorile extreme sau aberante
valorile lips
valorile de tip text
rezumarea
codificarea incoerent
arhitecturile informatice incompatibile
Tratarea valorilor extreme sau aberante se poate face prin mai multe tehnici: ncadrarea
ntre limitele cuprinse ntre medie i un anumit numr de abateri standard prin excludere sau
plafonare, izolarea vrfurilor, etc. Tratarea acestor valori trebuie fcut totui cu mult
discernmnt deoarece n unele cazuri ele sunt cele care pot evidenia anumite trsturi
relevante.
Valorile lips pot ridica probleme n funcionarea unor algoritmi de data mining. i n acest
caz, exist mai multe aciuni posibile: eliminarea nregistrrilor avnd cmpuri cu valori nule,
completarea datelor omise cu valori medii, cu valoarea cea mai frecvent sau cu valori calculate
dup alte relaii sau gestionarea distinct a acestora prin nlocuirea cu constante predeterminate.
Valorile de tip text ridic numeroase dificulti. Aceleai cuvinte separate de un numr
diferit de spaii reprezint, n calculator, valori diferite. Chiar notaii cu structur riguros
definit, cum sunt numerele de nmatriculare auto, pot genera asemenea probleme. Din aceast
cauz este preferabil excluderea acestui tip de variabile. Dac prelucrarea lor nu poate fi totui
evitat, soluia cea mai sigur const n codificarea prin tabele de corespondene, n care s
figureze toate irurile valide de caractere.
Rezumarea se poate aplica atunci cnd detaliile coninute n date sunt nesemnificative
pentru rezolvarea problemei abordate, atunci cnd numrul de exemple analitice este insuficient
sau atunci cnd datele sunt prea numeroase n raport cu capacitile de prelucrare.
Codificarea incoerent apare n cazurile n care obiecte identice sunt reprezentate diferit n
unele dintre sursele folosite. Spre exemplu, acelai partener al firmei este referit prin coduri
diferite n calitate de furnizor i de client. Dac nu sunt compensate, aceste diferene pot
conduce la rezultate i concluzii eronate. Aceeai situaie poate apare n cazul utilizrii
abrevierilor curente, n care abateri minime de ortografiere conduc la interpretarea lor drept
elemente diferite.
Incompatibilitile arhitecturale informatice vizeaz, n principal, diferenele n modul de
reprezentare intern a valorilor, mai ales atunci cnd este vorba despre date create cu sisteme din
generaii diferite.
Pentru multe dintre problemele de genul celor amintite, exist programe specializate; de
asemenea, numeroase produse program de data mining includ n mod implicit funcii de
pregtire a datelor. Din pcate, acestea nu izbutesc s rspund tuturor cerinelor i solicit
adesea intervenii punctuale suplimentare.

Construirea modelului
Aceasta este etapa care se apropie cel mai mult de semnificaia termenului de data mining.
Avnd n vedere c ntregul proces a fost dirijat de o anumit perspectiv de rezolvare, n care sau fcut opiuni privitoare la aciunile de ntreprins pentru explorarea datelor, la structura i la
coninutul acestora, etapa se rezum, n esen, la crearea modelului informatic care va efectua
explorarea propriu-zis.
Demersul aplicat influeneaz considerabil aceast etap, iar uneori i etapele precedente.
n cazul cutrii de informaii, dirijate sau nu, construirea modelului este acompaniat de o
faz de instruire, de nvare. Detaliile acesteia depind de tehnica de data mining folosit. Dar
pentru toate se parcurg dou momente distincte: al nvrii i al testrii.
nvarea se bazeaz pe un ansamblu de exemple complete, pornind de la care sunt
identificate relaiile care leag ntre ele valorile cmpurilor sau atributelor. Procesul de nvare
se ncheie atunci cnd rezultatele furnizate de model se apropie suficient de mult de soluiile
coninute de datele dup care s-a nvat. Nu exist ns certitudinea c modelul se va comporta
la fel de bine i n alte situaii. Din acest motiv, este supus testrii cu date diferite
de cele folosite pentru nvare, dar aparinnd aceleiai populaii. Urmeaz, dac este
necesar, o faz de reajustare necesar pentru a-1 face s furnizeze rezultate bune i n raport cu
datele de test. Doar dup ncheierea acesteia, modelul poate fi considerat terminat. Aceasta va
aduga la etapele anterioare dou sarcini suplimentare: obinerea de date preclasate i
distribuirea acestora, dup colectare i pregtire, n trei seturi: de nvare, de testare i de
evaluare.
Obinerea de explicaii privitoare la modul n care un atribut variaz n funcie de
coninutul altor atribute presupune ca nregistrrile de date s includ valori pentru toate aceste
cmpuri luate mpreun i s reflecte toate cazurile cunoscute cu un numr ct mai mare de
exemple. Cutnd, spre exemplu, clienii care prezint riscuri n privina capacitii de
rambursare a mprumuturilor, va fi nevoie ca datele colectate s marcheze clar acest aspect. In
caz contrar, informaiile obinute nu vor putea fi utilizate pentru a face ulterior predicii pe baza
lor.
Odat datele preclasate colectate, este necesar divizarea lor n cele trei pri. Acestea se
creeaz din acelai fiier dar conin nregistrri diferite. n general, 70-80% din nregistrri sunt
alocate nvrii, restul rmnnd pentru testare sau fiind mprit egal ntre aceasta i evaluare.
Datele colectate
Date de
nvare

Date de
test

Date de
evaluare

Model
utilizabil
Fig.16 Schema procesului de creare a modelelor de cutare a informaiilor

Dup depirea momentului cruia i este destinat, fiecare dintre acestea devine
inutilizabil, deoarece nu mai poate aduce nici o ameliorare modelului.
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului, de a determina corect valorile
pentru cazuri noi. Pentru aceasta, va fi aplicat asupra ultimei pri a datelor preclasate
disponibile, reinute pentru evaluare. Procentul de eroare nregistrat cu acestea poate fi acceptat
ca valoare valabil i pentru datele noi. n general, performanele unui model se apreciaz cu
ajutorul unei matrice de confuzie", care compar situaia real cu cea furnizat de acesta.
Calitatea global se exprim prin raportul dintre numrul de predicii exacte i numrul total de
predicii.
Integrarea modelului
Aceast etap finalizeaz procesul, prin includerea modelului obinut ntr-un SIAD, a crui
inim" va deveni, sau prin integrarea sa ntr-un proces decizional mai general din ntreprindere.
Dou observaii finale se impun aici.
Orice model are o durat de via limitat. Cum construcia sa se face pe baza
corelaiilor semnalate n datele existente la un moment dat, schimbrile survenite ulterior nu mai
pot fi luate n considerare. Dei durata de valabilitate n timp poate fi foarte diferit de la un tip
de model la altul, unele putnd fi folosite fr schimbri timp de mai muli ani, observaia
anterioar rmne strict valabil: modelele trebuie actualizate permanent, pentru a putea urmri
schimbrile survenite n domeniul la care se refer.
Rezolvarea unei probleme se obine prin combinarea mai multor tehnici. n faa
diversitii factorilor ce acioneaz n realitatea economico-social actual, aplicarea unei
singure tehnici de data mining poate conduce la rezultate nesemnificative sau la o lips complet
de rezultate. Combinarea tehnicilor permite obinerea unei viziuni mai largi i mai diversificate,
cu implicaii lesne de ntrevzut asupra actului decizional, chiar dac acest lucru este mai
costisitor.
Raionamentul bazat pe cazuri
Raionamentul bazat pe cazuri caut rspunsurile la problemele noi n experienele
acumulate n trecut. n fata unei situaii noi, vor fi cutate cazurile asemntoare cunoscute iar
concluziile acestora vor fi aplicate i n noua situaie. Metoda este aplicabil att pentru
clasificri ct i pentru predicii i ofer un bun rspuns, pragmatic i evolutiv, pentru o mare
diversitate de probleme.
Cazurile pe care se bazeaz raionamentul sunt memorate sub form de nregistrri.
nregistrarea este compus din setul de atribute care descriu fiecare caz n parte. Cazul nou este
i el reprezentat ca o nregistrare, n care unul dintre cmpuri - cel al crui valoare trebuie
determinat - este vid. Pentru aflarea sa, se caut nregistrrile cu care acesta seamn cel mai
mult - vecinele - i coninutul acestora este folosit pentru a produce un rspuns.
Exist prin urmare, dou funcii de prelucrare fundamentale:

msurarea distanei dintre membrii fiecrui cuplu de nregistrri, pentru a putea


afla vecinele cele mai apropiate
combinarea rezultatelor furnizate de vecine n rspunsul propus pentru cazul
curent.

Msurarea distanei dintre cmpuri


Distana este expresia modului n care se evalueaz similitudinea.
Proprietile sale eseniale n raport cu acest scop sunt urmtoarele:
poate fi ntotdeauna definit i are forma unui numr real cu valori mai mari sau
egale cu zero;
distana de la un element la el nsi este ntotdeauna nul;
sensul msurrii nu are importan: distana de la elementul A la elementul B este
egal cu distana de la B la A;
nu poate exista niciodat un punct intermediar C prin a crui parcurgere s se
scurteze distana dintre A i B.
Cele mai utilizate moduri de calcul al distanei pentru cmpurile numerice sunt:

diferena n valoare absolut A-B


ptratul diferenei (A-B)2
diferena n valoare absolut normalizat A-B/(diferena maxim)

Ultima variant are avantajul de a produce rezultate cu valori cuprinse ntotdeauna ntre 0
i 1.
Pentru exemplificare, tabelul urmtor prezint nregistrrile aferente unui numr de 5
clieni ai unei bnci comerciale, crora li se vireaz salariul n conturi de card.
1
2
3
4
5

Vrst
52
46
48
38
24

Stare civil
celibatar
cstorit
cstorit
divorat
celibatar

Venit
5.400.000
4.800.000
4.900.000
3.100.000
2.800.000

Tabelul 1. Datele privitoare la cinci clieni ai bncii

Distanele dintre clieni pentru atributele vrst i venit, calculate n valori normalizate,
sunt prezentate n urmtoarele dou tabele:
52
46
48
38
24
52
0,00
0,21
0,14
0,50
1,00
46
0,21
0,00
0,07
0,29
0,79
48
0,14
0,07
0,00
0,36
0,86
38
0,50
0,29
0,36
0,00
0,50
24 1,00
0,79
0,86
0,50
0,00
Tabelul 2. Matricea distanelor ntre clinti n funcie de vrst

5.400.000
4.800.000
4.900.000
3.100.000
2.800.000

5.400.000
0,00
0,23
0,19
0,88
1,00

4.800.000
0,23
0,00
0,04
0,65
0,77

4.900.000
0,19
0,04
0,00
0,69
0,81

3.100.000
0,88
0,65
0,69
0,00
0,12

2.800.000
1,00
0,77
0,81
0,12
0,00

Tabelul 3. Matricea distantelor ntre clieni n funcie de venituri

Calcularea distanei pentru datele nenumerice se poate face prin funcii particulare,
adaptate problemei de rezolvat. Spre exemplu, pentru un cmp reprezentnd starea civil, se
poate recurge la urmtoarea funcie, n care identitatea valorilor cmpului din cele dou
nregistrri este notat cu 0 iar deosebirea cu 1:
D(celibatar, celibatar) = 0
D(celibatar, cstorit) = 1
D(celibatar, vduv) = 1
D(cstorit, cstorit) = 0
D(cstorit, divorat) = 1

celibatar cstorit cstorit divorat celibatar


celibatar 0
1
1
1
0
cstorit 1
0
0
1
1
divorat
1
1
1
0
1
celibatar 0
1
1
1
0
Tabelul 4. Matricea distanelor pentru starea civil

Uneori, valorile cmpurilor implicate conin expresii ascunse ale distanei. Numerele de
nmatriculare auto pot indica, spre exemplu, localizarea geografic a domiciliului posesorului
su i permit astfel efectuarea de clasificri. Codurile potale i numerele de telefon constituie
alte exemple de valori ce pot fi exploatate prin funcii adecvate n scopul ierarhizrii sau gruprii
nregistrrilor.
Msurarea distanei dintre nregistrri
Funciile menionate anterior servesc pentru evaluarea distanei pentru un anumit cmp. n
cazurile n care este necesar considerarea simultan a mai multor cmpuri ale nregistrrii, se
calculeaz distana pentru fiecare cmp n parte iar rezultatul se combin ntr-o valoare unic,
care exprim distana nregistrrii respective. Cele mai utilizate procedee de combinare a
distanelor cmpurilor sunt:
nsumarea
nsumarea normalizat (suma distanelor / suma maxim)
distana euclidian (rdcina ptrat din suma ptratelor distanelor).

Figura urmtoare prezint distanele dintre nregistrri, calculate conform acestor trei
procedee.

nsumare
1
2
1 0,00 1,45
2 1,45 0,00
3 1,34 0,11
4 2,38 1,94
5 2,00 2,55
nsumare normalizat
1
2
1 0,00 0,54
2 0,54 0,00
3 0,50 0,04
4 0,89 0,73
5 0,75 0,96
Distan euclidian
1
2
1 0,00 1,05
2 1,05 0,00
3 1,03 0,08
4 1,43 1,23
5 1,41 1,49

3
1,34
0,11
0,00
2,05
2,66

4
2,38
1,94
2,05
0,00
1,62

5
2,00
2,55
2,66
1,62
0,00

3
0,50
0,04
0,00
0,77
1,00

4
0,89
0,73
0,77
0,00
0,61

5
0,75
0,96
1,00
0,61
0,00

3
1,03
0,08
0,00
1,27
1,55

4
1,43
1,23
1,27
0,00
1,12

5
1,41
1,49
1,55
1,12
0,00

Tabelul 5. Matrici ale distanelor dintre nregistrri

Pentru aceleai nregistrri, aplicarea acestor procedee poate conduce la vecinti diferite.
Distana euclidian este cea care evideniaz cel mai pregnant nregistrrile pentru care toate
cmpurile sunt vecine; celelalte dou metode pot masca discrepana unor cmpuri compensat
prin marea apropiere a altor cmpuri.
n oricare dintre metodele anterioare poate fi introdus un coeficient care s exprime
importana "subiectiv" acordat cmpurilor n calcularea distanei.
Obinerea rezultatului
Aflarea celor mai apropiai vecini este doar primul pas: soluia problemei se obine prin
combinarea rspunsurilor oferite de acetia. Cum fiecare poate avea variante de rspuns diferite,
demersul cel mai firesc este acela de a cere celor mai apropiai vecini s voteze. Rezultatul care
obine majoritatea va fi cel atribuit cazului curent. O cerin minimal este ca numrul votanilor
s fie impar, pentru a evita situaiile de indeterminare (balotaj).
Pentru ilustrare, s-a considerat cazul unui nou client, ale crui caracteristici sunt:
Vrst
34

Stare civil
celibatar

Venit
4.200.000

Distanele corespunztoare celor trei atribute i distana fa de celelalte nregistrri, sunt


cuprinse n tabelul urmtor.

Vrsta
52
0,64

46
0,43

48
0,50

38
0,14

24
0,36

5.400.000
0,46

4.800.000
0,23

4.900.000
0,27

3.100.000
0,42

2.800.000
0,54

Celibatar
0

Cstorit
1

Cstorit
1

Divorat
1

Celibatar
0

34
Venit
4.200.000
Starea civil
Celibatar

Tabelul 6. Distanele atributelor aferente noii nregistrri

1
6 1,10

2
1,66

3
1,77

4
1,57

5
0,90

6
0,00

Vecini
5;1;4;2;3

Tabelul 7. Poziia noii nregistrri fa de cele existente

Vecinele sunt prezentate n ordinea descresctoare a apropierii de aceasta.


Banca este interesat n constituirea de depozite la termen pentru clienii ale cror salarii
sunt virate n conturi de card. Situaia actual se prezint astfel:
1
2
3
4
5
6

Vrst
52
46
48
38
24
34

Stare civil
celibatar
cstorit
cstorit
divorat
celibatar
celibatar

Venit
5.400.000
4.800.000
4.900.000
3.100.000
2.800.000
4.200.000

Depozit
nu
da
nu
da
nu

Noul client va deschide sau nu un depozit ? Rspunsul, obinut prin votul celor mai
apropiai vecini este urmtorul:
Vecinii n
ordinea
apropierii
5;1;4;2;3

Depozite la
termen
1 votant
deschise
n;n;d;d;n
nu

Rezultat
2 votani 3 votanti

4 votani

nu

nu

Rezultatul final poate fi semnificativ influenat de numrul de votani. Din acest motiv,
este recomandabil ncorporarea unui indicator care s exprime procentul celor care au votat
pentru rezultatul reinut din totalul votanilor.

1 votant
nu
100%

2 votani
nu
100%

3 votani
nu
67%

4 votani
?
50%

n locul votului simplu, se poate apela la un vot ponderat, n care greutatea rspunsului
fiecrui vecin este invers proporional cu distana acestuia fa de cazul curent. Votul vecinilor
mai apropiai devine astfel mai important dect al celor aflai la o distan ceva mai mare.
Metodele bazate pe vot dau bune rezultate n situatiile n care rspunsurile cutate sunt de
tip enumerativ. Dac este necesar ns obinerea de rezultate cu valori continue, acestea trebuie
stabilite altfel. O posibil soluie o reprezint interpolarea valorilor nregistrrilor vecine.
Interpolarea introduce ns o aplatizare a rezultatelor, care se nscriu inevitabil ntre cel dou
limite folosite n calcul. Rezultate mult mai bune se obin prin metode de regresie statistic,
aplicate asupra valorilor fumizate de vecinii cei mai apropiai. Ecuaia dreptei sau curbei astfel
obinute permite calcularea mult mai precis a valorilor aferente cazului curent.
Avantaje i limite ale raionamentului bazat pe cazuri
Raionamentul bazat pe cazuri este o tehnic de data mining deosebit de puternic. Exist
un numr mare de probleme n care aplicarea demersului su specific poate conduce la soluii. O
fraud nou va fi, foarte probabil, asemntoare celor deja cunoscute; prin aceast tehnic ea
poate fi identificat i marcat, n vederea unei examinri ulterioare mai amnunite. n faa unei
aciuni de promovare de produse, un client va avea, foarte probabil, un comportament
asemntor celui manifestat fa de campaniile de marketing anterioare; prin aceast metod pot
fi identificai cei la care aciunea respectiv poate conduce la cele mai bune rezultate. i
enumerarea aceasta poate continua.
Calitatea rezultatelor depinde direct de volumul de date pe care se bazeaz. O modalitate
de estimare a calitii acestuia const n aplicarea tehnicii asupra propriilor date de nvare.
Dac o anumit situaie, supus votului unui set de testare format din doi, trei i apoi patru
vecini, conduce la rezultate discordate sau ambigui, nseamn c numrul nregistrrilor pe care
se bazeaz raionamentul este prea mic.
Printre avantajele raionamentului bazat pe cazuri se pot enumera:
Poate fi aplicat pentru o mare diversitate de tipuri de date, inclusiv pentru
structurile de date complexe, cum sunt, spre exemplu, imaginile, ale cror
tratare este mult mai dificil cu alte tehnici. Cmpurile de tip text sunt, de
asemenea, mai uor de tratat dect n alte tehnici.
Pot fi luate n considerare orict de multe cmpuri, spre deosebire de alte tehnici
la care numrul acestora este limitat (uneori chiar foarte drastic).
Rezultatele furnizate sunt explicate; sistemul ajunge la o anumit concluzie n
virtutea apropierii sau similitudinii cazului tratat cu alte cazuri produse n trecut.
Elementele noi survenite n datele de nvare sunt uor ncorporate i folosite n
raionamente, spre deosebire de alte tehnici pentru care asemenea schimbri
presupun reluarea ntregului proces de "nvare".
Principalele dezavantaje constau n volumul mare de memorie i n timpii importani de
prelucrare necesari pentru aplicarea funciilor de distan asupra tuturor nregistrrilor i
cmpurilor ce particip la aflarea soluiei.

n concluzie, raionamentul bazat pe cazuri constituie o tehnic puternic, foarte adecvat


situaiilor n care sunt necesare clasificri sau predicii fundamentate pe corelaii cu caracter
local.
Analiza grupurilor (clustering)
Aceast tehnic permite identificarea automat a grupurilor existente n ansamblul datelor
analizate, fiind una dintre puinele ce pot fi aplicate n cutarea nedirijat a informaiilor.
Grupurile - denumite n englez clusters - rezult automat n urma procesului de prelucrare, fr
a avea ca punct de pornire un anumit criteriu sau proprietate. Este o tehnic ce are capacitatea de
a releva realmente caracteristici ascunse - sub volumul i diversitatea detaliilor - ntr-un anumit
set de nregistrri. Grupurile astfel definite pot fi sau nu semnificative; avnd n vedere c
procesul este automat i nedirijat, exist ntotdeauna riscul de a obine rezultate nerelevante.
Totui, numeroase aplicaii ale acestei tehnici au permis descoperirea unor elemente noi n
variate domenii de activitate, ceea ce explic interesul de care se bucur.
Detecia grupurilor prin divizare
Metoda celor k-medii este una dintre cele mai folosite n practic pentru detecia de
grupuri. Ideea pe care se bazeaz este aceea de a cuta, prin mai multe iteraii succesive, acele k
puncte care formeaz punctele centrale ale grupurilor formate de nregistrri n funcie de poziia
pe care o ocup unele fa de altele. Considernd, pentru exemplificare, c se prelucreaz
nregistrri care au numai dou cmpuri, acestea pot fi plasate ntr-un spaiu plan, valorile celor
dou atribute fiind coordonatele punctului corespunztor nregistrrii respective. Deoarece nu
exist un criteriu predeterminat de grupare, n primul pas se stabilesc aleator k puncte drept
centre de grupare. Algoritmul prevede alegerea n acest scop a primelor k nregistrri dac
acestea sunt complet neordonate sau a nregistrrilor aflate la distane relativ egale dac exist o
relaie de ordonare. Odat aceste puncte alese, se traseaz frontiere echidistante ntre ele i
celelalte nregistrri sunt grupate n funcie de poziia pe care o au fa de aceste frontiere. Dup
aceast distribuire iniial, se execut mai multe iteraii, n cursul crora centrele grupurilor i
componena lor se rafineaz. Prelucrrile efectuate ntr-o asemenea iteraie constau n calcularea
coordonatelor centrale ale fiecrui grup delimitat n iteraia anterioar, ca medie a coordonatelor
corespunztoare ale tuturor nregistrrilor alocate grupului respectiv. Spre exemplu, lucrnd n
dou coordonate x1, x2, se va calcula, pur i simplu, media valorilor x1 ale tuturor nregistrrilor
din grup i media valorilor x2, rezultatele constituind coordonatele x1 i x2 ale noului centru.
Dup gsirea acestor noi cluster-e, nregistrrile sunt din nou distribuite, fiecare fiind asociat
cluster-ului celui mai apropiat. Procesul se ncheie atunci cnd se ajunge la o configuraie n care
noile iteraii nu mai conduc la schimbri ale frontierelor. Demersul descris poate fi aplicat nu
numai pentru dou dimensiuni, ci pentru orict de multe, folosind un numr corespunztor de
coordonate.
Mrimea lui k
Fixnd pe k la o anumit valoare, exist anse s se gseasc k clustere. Dar nimic nu
atest c ansamblul iniial conine doar attea grupuri; este foarte posibil s existe i altele,
perfect individualizabile, care ar fi fost descoperite dac s-ar fi ales o mrime diferit pentru k.

Prin urmare, pentru a obine rezultate ct mai bune, este necesar ca, pentru aceleai date, s se
aplice n mod repetat algoritmul de grupare, pentru valori diferite ale lui k. Dup fiecare
asemenea prelucrare, se poate face o evaluare a consistenei cluster- elor gsite, comparnd
distana medie a nregistrrilor aflate n interiorul unui cluster cu distana dintre cluster-e. Avnd
n vedere c proprietatea esenial urmrit este aceea de a avea n interiorul unui cluster
nregistrri ct mai apropiate, se poate recurge la calcularea varianei - suma ptratelor
diferenelor fiecrui element n raport cu media. Varianta cea mai bun este cea care conduce la
cluster-e cu variant minimal.
Exist i un criteriu de evaluare subiectiv, bazat pe estimarea utilitii cluster-elor. Este
foarte posibil ca algoritmul s identifice un anumit numr de cluster-e, bine delimitate din punct
de vedere formal, dar nesemnificative n spaiul problemei sau activitii vizate.
De la nregistrri la coordonate
Una dintre dificultile ntlnite n aplicarea acestei tehnici const n gsirea modalitii de
exprimare a valorilor luate de atributele nregistrrilor, astfel nct msurarea apropierii pe care
se bazeaz repartizarea lor n grupuri s fie relevant. Alturi de problemele ridicate de
reprezentarea numeric a datelor, care pot fi de diferite tipuri, inclusiv text, apare i aspectul,
mult mai delicat, al stabilirii acestor mrimi astfel nct s adopte un comportament adecvat
cerinelor utilizrii lor drept coordonate poziionale. Dincolo de mrimi cum sunt lungimea,
volumul sau greutatea, care exprim msuri propriu-zise, altele, chiar numerice fiind, pot ridica
dificulti n momentul utilizrii drept coordonate. Spre exemplu, se poate calcula diferena
dintre dou temperaturi dar nu se poate afirma c ntr-o zi n care s-au atins 32 C a fost de dou
ori mai cald dect ntr-o zi cu 16 C.
O alt dificultate vine din faptul c dimensiunile luate n considerare pot s nu aib aceeai
importan pentru problema tratat: o variaie minim a unei variabile poate fi mult mai
important dect variaii de zeci de ori mai mari ale altora. Cum importana acestora este, din
punct de vedere geometric egal, trebuie gsit modalitatea de a exprima i nivelul de
semnificaie al unei variabile, prin poziia sa pe axa care o reprezint n modelul geometric.
n principiu, orice funcie care asociaz la dou puncte o valoare unic prin care se
exprim o relaie dintre acestea poate fi folosit pentru msurarea distanei; totui, aceasta este
pe deplin corespunztoare dac posed cele patru proprieti menionate la raionamentul bazat
pe cazuri.
n cazul n care se lucreaz cu msuri sau cu intervale, se poate considera c fiecare
nregistrare este un punct n spaiu, ale crui coordonate sunt exprimate de vectorul format de
valorile cmpurilor sale. Pentru a msura apropierea dintre ele se pot folosi diverse metode,
dintre care cea mai utilizat se bazeaz pe distana euclidian. Aceasta se determin calculnd
ptratele diferenelor dintre fiecare pereche de coordonate ale celor dou puncte comparate i
extrgnd apoi rdcina ptrat din suma acestora.
Uneori, comparaiile directe sunt irelevante. Apropierea este exprimat de similitudinea
raporturilor sau corelaiilor dintre valorile cmpurilor nregistrrilor i nu de mrimea lor
absolut. Una dintre soluiile preferate n asemenea circumstane const n interpretarea valorilor
drept vectori i nu drept puncte n spaiu. n aceste condiii, ceea ce se compar sunt unghiurile
dintre vectori sau sinusul acestor unghiuri, care are avantajul suplimentar de a produce
ntotdeauna rezultate cuprinse ntre 0 i 1. Unghiul vectorilor permite o evaluare a apropierii
care nu este influenat de diferenele de talie dintre obiectele comparate. Relund un exemplu

din literatura de specialitate, comparaia direct dintre lungimea corpului, a cozii i a ghearelor
unui leu i a unei pisici va indica fr ndoial puncte situate la mare distan ntre ele. Dac
raporturile dintre lungimea diverselor pri ale corpului i lungimea total sunt similare la leu i
la pisic, atunci vectorii vor fi aproape paraleli, indicnd acum asemnarea dintre acetia.
Pentru valorile de tip enumerativ, msura cea mai simpl a distanei se obine prin
raportarea numrului de cmpuri similare din cele dou nregistrri comparate la numrul
total de cmpuri. n funcie de circumstane, se poate amplifica sau, dimpotriv, diminua
rezoluia cu care sunt examinate similitudinile dintre nregistrri.
Detecia supl este o variant a metodei celor k medii, bazat pe utilizarea de distribuii
gauss n repartizarea punctelor n cluster-e. n aceast abordare, un punct poate aparine, cu
probabiliti diferite, mai multor cluster-e n acelai timp.
Detecia grupurilor prin aglomerare
Acest demers acioneaz n sens contrar celui prezentat anterior: se pornete de la o stare
iniial n care fiecare punct este considerat a fi un cluster i se execut aglomerri succesive
pn cnd se obine un singur cluster, care reunete toate punctele. Toate variantele generate n
cursul acestor iteraii sunt conservate astfel nct, printr-o analiz ulterioar, s se poat reine
configuraia cea mai bun, cea mai relevant n raport cu scopul cutrii.
Procesul debuteaz prin construirea unei matrici de similitudine, n care figureaz
distanele sau gradele de asociere dintre toate punctele. Din matricea de similitudini, se extrage
perechea de puncte cu valoarea cea mai mic - cele mai apropiate - care sunt grupate mpreun
ntr-un cluster distinct. Matricea se reconstruiete, nlocuind cele dou puncte prin cluster-ul lor
i recalculnd distanele de la cluster la celelalte puncte. Procesul se reia, ntr-o manier
similar, pn cnd se ajunge la un singur cluster. ncepnd cu a doua iteraie, devine necesar i
msurarea distanei dintre cluster-e. Pentru aceasta exist mai multe variante:
distana dintre dou cluster-e este distana dintre cele mai apropiate puncte ale
acestora;
distana dintre dou cluster-e este distana dintre cele mai
ndeprtate puncte ale acestora;
distana dintre dou cluster-e este distana dintre centrele (centroidele) lor.
La fiecare iteraie, se memoreaz cluster-le obinute i distana dintre ele, n vederea
analizei ulterioare.
Datele comerciale asupra creia se aplic metoda sunt, ca i n cazul anterior, reprezentate
prin nregistrri. Variantele de msurare a asocierii menionate anterior - distana euclidian,
unghiul vectorilor, numrul cmpurilor similare raportat la numrul total de nregistrri - pot fi
utilizate la fel de bine i n aceleai condiii i aici.

Figura 16 Trei modaliti de msurare a distanei dintre cluster-e

Gruparea prin aglomerare produce mai multe nivele succesive de grupare, pn la


obinerea unui singur cluster. Este necesar s se dea i aici un rspuns ntrebrii: care este cel
mai bun numr de cluster-e ? Diferena dintre valoarea distanei n momentul formrii clusterului i aceeai valoare la gruparea pe nivelul imediat superior este o bun msur n acest caz.
Varianta prezentat anterior, constnd n compararea distanei medii din interiorul cluster-ului cu
distana medie dintre cluster-e, poate fi aplicat i aici. Eventual, aceast comparaie se poate
face pentru o singur variabil, considerat a fi cea mai semnificativ.
Schimbarea de scal, necesar pentru a face comparabile datele economice exprimate
uzual n uniti de msur diferite const n proiecia acestor valori pe un interval comun,
cuprins, spre exemplu, ntre 0 i 1 sau - 1 i 1. Aceast proiecie se poate face n urmtoarele
moduri:
valoarea curent/valoarea medie
(valoarea curent - valoarea minim)/(valoarea maxima - valoarea minim)
(valoarea curent - valoarea medie)/abaterea standard (numit conversie la scala Z).
Avantaje i limite ale analizei grupurilor
Principalul avantaj al acestei tehnici const n capacitatea sa de cutare nedirijat. Acesta
este ns i motivul pentru care nu este, aproape niciodat, utilizat singur. Informaiile
privitoare la configuraiile structurale existente n masa de date analizat trebuie examinate n
continuare prin alte tehnici, pentru a extrage elemente mai detaliate i mai pertinente. Chiar i n
cadrul strict al acestei tehnici, este recomandabil ca nregistrrile ce aparin cluster -elor celor
mai puternice s fie eliminate din setul de date iniiale i s se declaneze un nou proces de
grupare asupra datelor rmase. Exist astfel ansa descoperirii de noi grupri, mascate iniial de
decalajul mare dintre distane sau asocieri.
Aplicarea sa este deosebit de adecvat n cazurile n care trebuie examinate structuri de
date complexe, cu multe cmpuri.
Alte avantaje constau n uurina de prelucrare a datelor de diverse tipuri, inclusiv a celor
de tip text i n cerinele minimale de pregtire prealabil a datelor de lucru.
Principalele dezavantaje constau n dificultatea gsirii matricilor potrivite pentru
exprimarea distanelor i a ponderilor. De asemenea, interpretarea rezultatelor poate fi uneori

dificil n virtutea faptului c este vorba despre o cutare nedirijat. Proprietile care au stat la
baza constituirii grupurilor trebuie gsite printr-o analiz suplimentar a componenei fiecrui
grup, tehnica neavnd capacitatea de a furniza cunotine explicite n aceast privin.
Detectarea automat de cluster-e este recomandabil ca tehnic de debut pentru un proiect
de data mining. Rezultatele furnizate de aceasta urmeaz a fi explorate n continuare cu alte
tehnici pentru a obine informaii mai complete.