- DATA MINING
n cutarea informaiei ascunse
Dup mai multe decenii n cursul crora mijloace i tehnici informatice tot mai evoluate au
contribuit la amplificarea capacitii de memorare i stocare a datelor, ultimii ani au marcat o
reorientare semnificativ n utilizarea volumelor de date stocate, de la un proces de explorare
retrospectiv spre unul cu caracter prospectiv. Aceast schimbare a devenit posibil ca urmare a
maturizrii tehnologiilor legate de data mining.
Denumirea provine de la analogia cu activitatea minier; tot aa cum este necesar
dislocarea i rafinarea a tone de minereu pentru a obine cteva grame de aur, aici sunt
examinate i analizate sute de mii sau milioane de date pentru a extrage din ele informaii i
semnificaii noi, dincolo de scopurile pentru care acestea au fost colectate i memorate la
origine.
Data mining are, ca i alte concepte folosite n informatic, mai multe definiii. n esen,
acestea converg spre ideea formulat anterior: un proces de extragere de informaii noi din
coleciile de date existente. Termenul de dat este utilizat aici cu semnificaia de descriere a unui
eveniment precis, produs n lumea real i verificabil prin raportare la aceasta. Informaia (sau
cunoaterea transmis) constituie descrierea unei categorii abstracte, ce acoper mai multe
evenimente sau exemple concrete.
Principiul de funcionare n data mining este urmtorul: se prelucreaz datele referitoare la
perioadele trecute, examinnd o varietate de situaii care s-au produs i ale cror rezultate sau
consecine sunt deci, bine cunoscute, pentru a evidenia caracteristicile acestora i a permite
elaborarea unui model. Odat construit, modelul poate fi aplicat situaiilor noi de acelai tip.
Informaiile obinute prin data mining sunt de natur predictiv sau descriptiv.
Un exemplu tipic de problem predictiv este direcionarea aciunilor de marketing. Datele
rezultate din corespondena promoional trecut se folosesc pentru a identifica destinatarii
pentru care urmtoarea campanie promoional poate aduce un maxim de efect.
Detectarea tranzaciilor frauduloase cu carduri bancare constituie unul dintre exemplele
tipice de aplicaii descriptive. Explorarea ansamblului tranzaciilor permite evidenierea unui
anumit tipar comportamental, considerat normal. Dendat ce la un bancomat se cere efectuarea
unei tranzacii ce iese din acest tipar, solicitarea poate fi refuzat. Este posibil ca operaia cerut
s fie sau s nu fie frauduloas; o analiz ulterioar poate stabili acest lucru dar, n acest stadiu,
sistemul o respinge pentru a preveni orice consecine nedorite.
Fundamentele explorrii datelor
Expansiunea tehnicilor de data mining se explic, printre altele, prin faptul c firmele au
acumulat volume foarte mari de date, stocate pe suporturi informatice, privitoare la tranzacii de
diverse tipuri, derulate de-a lungul mai multor ani. Bncile posed, spre exemplu, arhive de
milioane de nregistrri, n care sunt consemnate n detaliu operaiile efectuate de clienii lor. n
orice firm se gsesc mii i sute de mii de nregistrri privitoare la cumprrile, vnzrile,
ncasrile i plile fcute. Societile de telefonie mobil posed date privitoare la fiecare
convorbire efectuat de abonaii lor, incluznd data, momentul i locul apelului, numrul de
telefon al corespondentului, durata convorbirii. Un magazin de tipul cash and carry posed sute
de mii de nregistrri, provenind de la casele de marcaj, n care figureaz nu numai articolele
cumprate ci i cumprtorii, identificai prin legitimaiile de acces. Mult vreme acestea s-au
exemplu, aplicarea unui algoritm de grupare poate evidenia existena a 20 de clustere diferite;
dintre acestea, doar unul se poate dovedi util dar relevana lor nu poate fi apreciat dect de
specialistul sau specialitii din firm.
Informaiile obinute anterior au valoarea aciunilor ntreprinse pe baza lor. Tehnicile de
data mining permit obinerea de cunotine mai bogate privitoare la mediul n care exist i
funcioneaz ntreprinderea. Acestea trebuie ns transformate n aciune iar efectul aciunilor
msurat.
Este posibil ca aciunea de data mining s fie un eec i nu o reuit. Este posibil ca
msurile ntreprinse s nu fie cele mai adecvate n raport cu informaiile obinute. Att reuita
ct i eecul pot fi surs de nvminte pentru viitor, pot fi stimulii unor noi aciuni de data
mining, mai bine i mai precis orientate i derulate.
Toate aceste contureaz ideea unui ciclu n utilizarea data mining, n cursul cruia se
parcurg cele patru etape menionate:
identificarea oportunitii comerciale i a datelor pe care se poate baza explorarea
extragerea de informaii din coleciile de date existente prin tehnici adecvate de
data mining
adoptarea de decizii i ntreprinderea de aciuni pe baza informaiilor obinute
msurarea rezultatelor concrete pentru a identifica i alte modaliti de exploatare
a datelor disponibile
Data minig
Oportunitate
de afaceri
Decizie i
aciune
Evaluare
rezultate
Data mining
verificarea
ipotezelor
cutarea de
cunotine
dirijat
nedirijat
Explorarea datelor n vederea obinerii de informaii recurge la diverse tehnici, printre cele
mai folosite aflndu-se:
reelele neuronale
arborii de decizie
algoritmii genetici
analiza grupurilor
raionamentele bazate pe cazuri
analiza legturilor
La acestea se pot asocia i tehnici statistice, cum sunt, spre exemplu, regresiile, analiza
factorial etc.
Data mining nu este un panaceu universal, capabil s rezolve orice problem de gestiune.
n fapt, aportul su se rezum la un numr limitat de aciuni: clasificarea, estimarea, predicia,
gruparea, analiza gruprilor, dar care, folosite n mod adecvat, se pot dovedi extrem de utile
pentru numeroase probleme i situaii din domeniul decizional.
Clasificarea urmrete s plaseze obiectele prelucrate ntr-un grup limitat de clase
predefinite. Spre exemplu, o cerere de credit va fi ncadrat, prin clasificare, n una dintre
urmtoarele categorii de risc: sczut, mediu, ridicat. Obiectele clasificate sunt reprezentate, n
general, sub form de nregistrri, compuse din atribute sau cmpuri. Dintre tehnicile de data
mining, cele mai adecvate clasificrii sunt arborii de decizie i raionamentul bazat pe cazuri.
Estimarea urmrete s atribuie o valoare unei variabile, pe baza celorlalte date de intrare.
Prin intermediul su se poate aprecia, de exemplu, numrul de copii sau venitul total al unei
familii. Rezultatele obinute prin estimare sunt valori continue. Reelele neuronale sunt printre
cele mai bune tehnici de data mining pentru acest gen de prelucrri.
Predicia urmrete s claseze nregistrrile tratate n funcie de un comportament sau o
valoare estimat viitoare. n acest scop, se recurge la o colecie de exemple, bazate pe date din
trecut, n care valorile variabilei de previzionat sunt deja cunoscute. Cu ajutorul acestora se
construiete un model care s explice comportamentul observat. Aplicnd acest model asupra
nregistrrilor de prelucrat, se obine o predicie a comportamentului sau valorilor acestora n
viitor. Cu condiia folosirii unui set adecvat de exemple trecute, toate tehnicile de clasificare sau
estimare pot fi folosite i pentru predicie.
Gruparea urmrete s determine care sunt obiectele care apar cel mai frecvent mpreun.
Exemplul tipic pentru acest gen de aciune este determinarea mrfurilor care se cumpr uzual
mpreun, de unde i denumirea de "analiz a coului gospodinei".
Analiza grupurilor urmrete s divid o populaie eterogen n grupuri mai omogene,
numite "cluster". Spre deosebire de celelalte tipuri de aciune asemntoare, aici nu exist un set
predeterminat de clase ca n cazul clasificrii i nici exemple trecute. Segmentarea se face n
exclusivitate pe baza similitudinilor sesizate ntre obiecte.
Etapele procesului de explorare a datelor
Existena programelor pentru implementarea algoritmilor specifici tehnicilor de data
mining este indispensabil dar insuficient. n amonte, programele trebuie alimentate cu date.
Cum datele disponibile provin din surse variate i au fost, la origine, organizate i constituite
pentru a rspunde altor scopuri, este necesar o faz de pregtire prealabil, de curare i
uniformizare. n aval, rezultatele nu pot fi folosite n forma n care sunt furnizate de ctre
programele respective; coninutul lor trebuie analizat i interpretat de ctre specialiti pentru a
identifica informaiile pertinente pe care le conin. Nu este mai puin important selecia
tehnicilor adecvate naturii problemei vizate. Este evident, prin urmare, c tehnicile de data
mining se pot utiliza numai n cadrul unor procese specifice, relativ complexe i deseori
neliniare. n cadrul acestora, se pot distinge urmtoarele etape:
definirea problemei
identificarea surselor de date
colectarea i selectarea datelor
pregtirea datelor
construirea modelului
evaluarea modelului
integrarea modelului
Definirea problemei
Aa cum s-a precizat anterior, declanarea procesului este determinat de sesizarea unei
oportuniti sau necesiti de afaceri. n cadrul acesteia, este nevoie s se delimiteze exact ce
urmeaz a fi rezolvat prin data mining, care sunt obiectivele urmrite i rezultatele ateptate.
Problema de rezolvat prin data mining contribuie, ca parte component, la valorificarea
oportunitii sesizate de ntreprindere, dar nu se identific cu ea. n plus, trebuie s primeasc o
form n care s poat fi tratat prin aceste tehnici. Spre exemplu, iniiativa unei companii de
telefonie mobil de a testa pe pia un nou produs, ca oportunitate, este mult prea complex i
prea general. Cum este vorba despre o testare, oferta va fi adresat doar ctorva sute dintre
zecile de mii de abonai. Care dintre clienii actuali ai companiei ar putea fi cei mai interesai de
noul serviciu i a cror apreciere ar fi deci cea mai pertinent ? Abia aceasta este o problem de
data mining.
Identificarea surselor de date
Odat problema definit, este necesar stabilirea structurii generale a datelor necesare
rezolvrii sale i a regulilor de constituire a acestora. Urmeaz localizarea surselor acestora. n
cazurile cele mai frecvente, este vorba de date dispersate in diverse sisteme informatice
operaionale, stocate n formate diferite, administrate cu produse software diferite, uneori
disponibile numai pe hrtie. nainte de a trece la etapa urmtoare, este recomandabil
examinarea coninutului fiecreia dintre surse, pentru o familiarizare cu coninutul su i pentru
identificarea, ct mai precoce, a eventualelor incoerente sau probleme de definire, care pot
compromite rezultatele analizelor urmtoare.
Colectarea i selecia datelor
Aceast etap urmrete extragerea i plasarea ntr-o baz comun a tuturor datelor ce
urmeaz a fi folosite. Este o munc relativ anost, care ocup pn la 80% din timpul global
consumat. Existenta depozitelor de date constitute un avantaj major.
Una dintre problemele de rezolvat in aceast faz const in alegerea ntre prelucrarea
ntregului fond de date disponibil sau a unui eantion. Limitele echipamentelor i a produselor
program utilizate, bugetul alocat proiectului, cerinele i particularitile studiului sunt factorii
care intervin n aceast alegere. n cazul opiunii pentru lucrul cu eantioane, vor fi respectate
toate regulile i cerinele de constituire a acestora.
Pregtirea datelor
Datele selectate n faza anterioar au fost, n marea majoritate a cazurilor, culese i
stocate n cu totul alte scopuri. n consecin, trebuie supuse unui proces preliminar de
pregtire nainte de a putea fi supuse extraciei prin data mining. Alturi de cerinele specifice
fiecreia dintre tehnici, care vor fi prezentate n paragrafele urmtoare, exist o serie de
transformri comune care vizeaz:
valorile extreme sau aberante
valorile lips
valorile de tip text
rezumarea
codificarea incoerent
arhitecturile informatice incompatibile
Tratarea valorilor extreme sau aberante se poate face prin mai multe tehnici: ncadrarea
ntre limitele cuprinse ntre medie i un anumit numr de abateri standard prin excludere sau
plafonare, izolarea vrfurilor, etc. Tratarea acestor valori trebuie fcut totui cu mult
discernmnt deoarece n unele cazuri ele sunt cele care pot evidenia anumite trsturi
relevante.
Valorile lips pot ridica probleme n funcionarea unor algoritmi de data mining. i n acest
caz, exist mai multe aciuni posibile: eliminarea nregistrrilor avnd cmpuri cu valori nule,
completarea datelor omise cu valori medii, cu valoarea cea mai frecvent sau cu valori calculate
dup alte relaii sau gestionarea distinct a acestora prin nlocuirea cu constante predeterminate.
Valorile de tip text ridic numeroase dificulti. Aceleai cuvinte separate de un numr
diferit de spaii reprezint, n calculator, valori diferite. Chiar notaii cu structur riguros
definit, cum sunt numerele de nmatriculare auto, pot genera asemenea probleme. Din aceast
cauz este preferabil excluderea acestui tip de variabile. Dac prelucrarea lor nu poate fi totui
evitat, soluia cea mai sigur const n codificarea prin tabele de corespondene, n care s
figureze toate irurile valide de caractere.
Rezumarea se poate aplica atunci cnd detaliile coninute n date sunt nesemnificative
pentru rezolvarea problemei abordate, atunci cnd numrul de exemple analitice este insuficient
sau atunci cnd datele sunt prea numeroase n raport cu capacitile de prelucrare.
Codificarea incoerent apare n cazurile n care obiecte identice sunt reprezentate diferit n
unele dintre sursele folosite. Spre exemplu, acelai partener al firmei este referit prin coduri
diferite n calitate de furnizor i de client. Dac nu sunt compensate, aceste diferene pot
conduce la rezultate i concluzii eronate. Aceeai situaie poate apare n cazul utilizrii
abrevierilor curente, n care abateri minime de ortografiere conduc la interpretarea lor drept
elemente diferite.
Incompatibilitile arhitecturale informatice vizeaz, n principal, diferenele n modul de
reprezentare intern a valorilor, mai ales atunci cnd este vorba despre date create cu sisteme din
generaii diferite.
Pentru multe dintre problemele de genul celor amintite, exist programe specializate; de
asemenea, numeroase produse program de data mining includ n mod implicit funcii de
pregtire a datelor. Din pcate, acestea nu izbutesc s rspund tuturor cerinelor i solicit
adesea intervenii punctuale suplimentare.
Construirea modelului
Aceasta este etapa care se apropie cel mai mult de semnificaia termenului de data mining.
Avnd n vedere c ntregul proces a fost dirijat de o anumit perspectiv de rezolvare, n care sau fcut opiuni privitoare la aciunile de ntreprins pentru explorarea datelor, la structura i la
coninutul acestora, etapa se rezum, n esen, la crearea modelului informatic care va efectua
explorarea propriu-zis.
Demersul aplicat influeneaz considerabil aceast etap, iar uneori i etapele precedente.
n cazul cutrii de informaii, dirijate sau nu, construirea modelului este acompaniat de o
faz de instruire, de nvare. Detaliile acesteia depind de tehnica de data mining folosit. Dar
pentru toate se parcurg dou momente distincte: al nvrii i al testrii.
nvarea se bazeaz pe un ansamblu de exemple complete, pornind de la care sunt
identificate relaiile care leag ntre ele valorile cmpurilor sau atributelor. Procesul de nvare
se ncheie atunci cnd rezultatele furnizate de model se apropie suficient de mult de soluiile
coninute de datele dup care s-a nvat. Nu exist ns certitudinea c modelul se va comporta
la fel de bine i n alte situaii. Din acest motiv, este supus testrii cu date diferite
de cele folosite pentru nvare, dar aparinnd aceleiai populaii. Urmeaz, dac este
necesar, o faz de reajustare necesar pentru a-1 face s furnizeze rezultate bune i n raport cu
datele de test. Doar dup ncheierea acesteia, modelul poate fi considerat terminat. Aceasta va
aduga la etapele anterioare dou sarcini suplimentare: obinerea de date preclasate i
distribuirea acestora, dup colectare i pregtire, n trei seturi: de nvare, de testare i de
evaluare.
Obinerea de explicaii privitoare la modul n care un atribut variaz n funcie de
coninutul altor atribute presupune ca nregistrrile de date s includ valori pentru toate aceste
cmpuri luate mpreun i s reflecte toate cazurile cunoscute cu un numr ct mai mare de
exemple. Cutnd, spre exemplu, clienii care prezint riscuri n privina capacitii de
rambursare a mprumuturilor, va fi nevoie ca datele colectate s marcheze clar acest aspect. In
caz contrar, informaiile obinute nu vor putea fi utilizate pentru a face ulterior predicii pe baza
lor.
Odat datele preclasate colectate, este necesar divizarea lor n cele trei pri. Acestea se
creeaz din acelai fiier dar conin nregistrri diferite. n general, 70-80% din nregistrri sunt
alocate nvrii, restul rmnnd pentru testare sau fiind mprit egal ntre aceasta i evaluare.
Datele colectate
Date de
nvare
Date de
test
Date de
evaluare
Model
utilizabil
Fig.16 Schema procesului de creare a modelelor de cutare a informaiilor
Dup depirea momentului cruia i este destinat, fiecare dintre acestea devine
inutilizabil, deoarece nu mai poate aduce nici o ameliorare modelului.
Evaluarea modelului
Evaluarea are scopul de a stabili capacitatea modelului, de a determina corect valorile
pentru cazuri noi. Pentru aceasta, va fi aplicat asupra ultimei pri a datelor preclasate
disponibile, reinute pentru evaluare. Procentul de eroare nregistrat cu acestea poate fi acceptat
ca valoare valabil i pentru datele noi. n general, performanele unui model se apreciaz cu
ajutorul unei matrice de confuzie", care compar situaia real cu cea furnizat de acesta.
Calitatea global se exprim prin raportul dintre numrul de predicii exacte i numrul total de
predicii.
Integrarea modelului
Aceast etap finalizeaz procesul, prin includerea modelului obinut ntr-un SIAD, a crui
inim" va deveni, sau prin integrarea sa ntr-un proces decizional mai general din ntreprindere.
Dou observaii finale se impun aici.
Orice model are o durat de via limitat. Cum construcia sa se face pe baza
corelaiilor semnalate n datele existente la un moment dat, schimbrile survenite ulterior nu mai
pot fi luate n considerare. Dei durata de valabilitate n timp poate fi foarte diferit de la un tip
de model la altul, unele putnd fi folosite fr schimbri timp de mai muli ani, observaia
anterioar rmne strict valabil: modelele trebuie actualizate permanent, pentru a putea urmri
schimbrile survenite n domeniul la care se refer.
Rezolvarea unei probleme se obine prin combinarea mai multor tehnici. n faa
diversitii factorilor ce acioneaz n realitatea economico-social actual, aplicarea unei
singure tehnici de data mining poate conduce la rezultate nesemnificative sau la o lips complet
de rezultate. Combinarea tehnicilor permite obinerea unei viziuni mai largi i mai diversificate,
cu implicaii lesne de ntrevzut asupra actului decizional, chiar dac acest lucru este mai
costisitor.
Raionamentul bazat pe cazuri
Raionamentul bazat pe cazuri caut rspunsurile la problemele noi n experienele
acumulate n trecut. n fata unei situaii noi, vor fi cutate cazurile asemntoare cunoscute iar
concluziile acestora vor fi aplicate i n noua situaie. Metoda este aplicabil att pentru
clasificri ct i pentru predicii i ofer un bun rspuns, pragmatic i evolutiv, pentru o mare
diversitate de probleme.
Cazurile pe care se bazeaz raionamentul sunt memorate sub form de nregistrri.
nregistrarea este compus din setul de atribute care descriu fiecare caz n parte. Cazul nou este
i el reprezentat ca o nregistrare, n care unul dintre cmpuri - cel al crui valoare trebuie
determinat - este vid. Pentru aflarea sa, se caut nregistrrile cu care acesta seamn cel mai
mult - vecinele - i coninutul acestora este folosit pentru a produce un rspuns.
Exist prin urmare, dou funcii de prelucrare fundamentale:
Ultima variant are avantajul de a produce rezultate cu valori cuprinse ntotdeauna ntre 0
i 1.
Pentru exemplificare, tabelul urmtor prezint nregistrrile aferente unui numr de 5
clieni ai unei bnci comerciale, crora li se vireaz salariul n conturi de card.
1
2
3
4
5
Vrst
52
46
48
38
24
Stare civil
celibatar
cstorit
cstorit
divorat
celibatar
Venit
5.400.000
4.800.000
4.900.000
3.100.000
2.800.000
Distanele dintre clieni pentru atributele vrst i venit, calculate n valori normalizate,
sunt prezentate n urmtoarele dou tabele:
52
46
48
38
24
52
0,00
0,21
0,14
0,50
1,00
46
0,21
0,00
0,07
0,29
0,79
48
0,14
0,07
0,00
0,36
0,86
38
0,50
0,29
0,36
0,00
0,50
24 1,00
0,79
0,86
0,50
0,00
Tabelul 2. Matricea distanelor ntre clinti n funcie de vrst
5.400.000
4.800.000
4.900.000
3.100.000
2.800.000
5.400.000
0,00
0,23
0,19
0,88
1,00
4.800.000
0,23
0,00
0,04
0,65
0,77
4.900.000
0,19
0,04
0,00
0,69
0,81
3.100.000
0,88
0,65
0,69
0,00
0,12
2.800.000
1,00
0,77
0,81
0,12
0,00
Calcularea distanei pentru datele nenumerice se poate face prin funcii particulare,
adaptate problemei de rezolvat. Spre exemplu, pentru un cmp reprezentnd starea civil, se
poate recurge la urmtoarea funcie, n care identitatea valorilor cmpului din cele dou
nregistrri este notat cu 0 iar deosebirea cu 1:
D(celibatar, celibatar) = 0
D(celibatar, cstorit) = 1
D(celibatar, vduv) = 1
D(cstorit, cstorit) = 0
D(cstorit, divorat) = 1
Uneori, valorile cmpurilor implicate conin expresii ascunse ale distanei. Numerele de
nmatriculare auto pot indica, spre exemplu, localizarea geografic a domiciliului posesorului
su i permit astfel efectuarea de clasificri. Codurile potale i numerele de telefon constituie
alte exemple de valori ce pot fi exploatate prin funcii adecvate n scopul ierarhizrii sau gruprii
nregistrrilor.
Msurarea distanei dintre nregistrri
Funciile menionate anterior servesc pentru evaluarea distanei pentru un anumit cmp. n
cazurile n care este necesar considerarea simultan a mai multor cmpuri ale nregistrrii, se
calculeaz distana pentru fiecare cmp n parte iar rezultatul se combin ntr-o valoare unic,
care exprim distana nregistrrii respective. Cele mai utilizate procedee de combinare a
distanelor cmpurilor sunt:
nsumarea
nsumarea normalizat (suma distanelor / suma maxim)
distana euclidian (rdcina ptrat din suma ptratelor distanelor).
Figura urmtoare prezint distanele dintre nregistrri, calculate conform acestor trei
procedee.
nsumare
1
2
1 0,00 1,45
2 1,45 0,00
3 1,34 0,11
4 2,38 1,94
5 2,00 2,55
nsumare normalizat
1
2
1 0,00 0,54
2 0,54 0,00
3 0,50 0,04
4 0,89 0,73
5 0,75 0,96
Distan euclidian
1
2
1 0,00 1,05
2 1,05 0,00
3 1,03 0,08
4 1,43 1,23
5 1,41 1,49
3
1,34
0,11
0,00
2,05
2,66
4
2,38
1,94
2,05
0,00
1,62
5
2,00
2,55
2,66
1,62
0,00
3
0,50
0,04
0,00
0,77
1,00
4
0,89
0,73
0,77
0,00
0,61
5
0,75
0,96
1,00
0,61
0,00
3
1,03
0,08
0,00
1,27
1,55
4
1,43
1,23
1,27
0,00
1,12
5
1,41
1,49
1,55
1,12
0,00
Pentru aceleai nregistrri, aplicarea acestor procedee poate conduce la vecinti diferite.
Distana euclidian este cea care evideniaz cel mai pregnant nregistrrile pentru care toate
cmpurile sunt vecine; celelalte dou metode pot masca discrepana unor cmpuri compensat
prin marea apropiere a altor cmpuri.
n oricare dintre metodele anterioare poate fi introdus un coeficient care s exprime
importana "subiectiv" acordat cmpurilor n calcularea distanei.
Obinerea rezultatului
Aflarea celor mai apropiai vecini este doar primul pas: soluia problemei se obine prin
combinarea rspunsurilor oferite de acetia. Cum fiecare poate avea variante de rspuns diferite,
demersul cel mai firesc este acela de a cere celor mai apropiai vecini s voteze. Rezultatul care
obine majoritatea va fi cel atribuit cazului curent. O cerin minimal este ca numrul votanilor
s fie impar, pentru a evita situaiile de indeterminare (balotaj).
Pentru ilustrare, s-a considerat cazul unui nou client, ale crui caracteristici sunt:
Vrst
34
Stare civil
celibatar
Venit
4.200.000
Vrsta
52
0,64
46
0,43
48
0,50
38
0,14
24
0,36
5.400.000
0,46
4.800.000
0,23
4.900.000
0,27
3.100.000
0,42
2.800.000
0,54
Celibatar
0
Cstorit
1
Cstorit
1
Divorat
1
Celibatar
0
34
Venit
4.200.000
Starea civil
Celibatar
1
6 1,10
2
1,66
3
1,77
4
1,57
5
0,90
6
0,00
Vecini
5;1;4;2;3
Vrst
52
46
48
38
24
34
Stare civil
celibatar
cstorit
cstorit
divorat
celibatar
celibatar
Venit
5.400.000
4.800.000
4.900.000
3.100.000
2.800.000
4.200.000
Depozit
nu
da
nu
da
nu
Noul client va deschide sau nu un depozit ? Rspunsul, obinut prin votul celor mai
apropiai vecini este urmtorul:
Vecinii n
ordinea
apropierii
5;1;4;2;3
Depozite la
termen
1 votant
deschise
n;n;d;d;n
nu
Rezultat
2 votani 3 votanti
4 votani
nu
nu
Rezultatul final poate fi semnificativ influenat de numrul de votani. Din acest motiv,
este recomandabil ncorporarea unui indicator care s exprime procentul celor care au votat
pentru rezultatul reinut din totalul votanilor.
1 votant
nu
100%
2 votani
nu
100%
3 votani
nu
67%
4 votani
?
50%
n locul votului simplu, se poate apela la un vot ponderat, n care greutatea rspunsului
fiecrui vecin este invers proporional cu distana acestuia fa de cazul curent. Votul vecinilor
mai apropiai devine astfel mai important dect al celor aflai la o distan ceva mai mare.
Metodele bazate pe vot dau bune rezultate n situatiile n care rspunsurile cutate sunt de
tip enumerativ. Dac este necesar ns obinerea de rezultate cu valori continue, acestea trebuie
stabilite altfel. O posibil soluie o reprezint interpolarea valorilor nregistrrilor vecine.
Interpolarea introduce ns o aplatizare a rezultatelor, care se nscriu inevitabil ntre cel dou
limite folosite n calcul. Rezultate mult mai bune se obin prin metode de regresie statistic,
aplicate asupra valorilor fumizate de vecinii cei mai apropiai. Ecuaia dreptei sau curbei astfel
obinute permite calcularea mult mai precis a valorilor aferente cazului curent.
Avantaje i limite ale raionamentului bazat pe cazuri
Raionamentul bazat pe cazuri este o tehnic de data mining deosebit de puternic. Exist
un numr mare de probleme n care aplicarea demersului su specific poate conduce la soluii. O
fraud nou va fi, foarte probabil, asemntoare celor deja cunoscute; prin aceast tehnic ea
poate fi identificat i marcat, n vederea unei examinri ulterioare mai amnunite. n faa unei
aciuni de promovare de produse, un client va avea, foarte probabil, un comportament
asemntor celui manifestat fa de campaniile de marketing anterioare; prin aceast metod pot
fi identificai cei la care aciunea respectiv poate conduce la cele mai bune rezultate. i
enumerarea aceasta poate continua.
Calitatea rezultatelor depinde direct de volumul de date pe care se bazeaz. O modalitate
de estimare a calitii acestuia const n aplicarea tehnicii asupra propriilor date de nvare.
Dac o anumit situaie, supus votului unui set de testare format din doi, trei i apoi patru
vecini, conduce la rezultate discordate sau ambigui, nseamn c numrul nregistrrilor pe care
se bazeaz raionamentul este prea mic.
Printre avantajele raionamentului bazat pe cazuri se pot enumera:
Poate fi aplicat pentru o mare diversitate de tipuri de date, inclusiv pentru
structurile de date complexe, cum sunt, spre exemplu, imaginile, ale cror
tratare este mult mai dificil cu alte tehnici. Cmpurile de tip text sunt, de
asemenea, mai uor de tratat dect n alte tehnici.
Pot fi luate n considerare orict de multe cmpuri, spre deosebire de alte tehnici
la care numrul acestora este limitat (uneori chiar foarte drastic).
Rezultatele furnizate sunt explicate; sistemul ajunge la o anumit concluzie n
virtutea apropierii sau similitudinii cazului tratat cu alte cazuri produse n trecut.
Elementele noi survenite n datele de nvare sunt uor ncorporate i folosite n
raionamente, spre deosebire de alte tehnici pentru care asemenea schimbri
presupun reluarea ntregului proces de "nvare".
Principalele dezavantaje constau n volumul mare de memorie i n timpii importani de
prelucrare necesari pentru aplicarea funciilor de distan asupra tuturor nregistrrilor i
cmpurilor ce particip la aflarea soluiei.
Prin urmare, pentru a obine rezultate ct mai bune, este necesar ca, pentru aceleai date, s se
aplice n mod repetat algoritmul de grupare, pentru valori diferite ale lui k. Dup fiecare
asemenea prelucrare, se poate face o evaluare a consistenei cluster- elor gsite, comparnd
distana medie a nregistrrilor aflate n interiorul unui cluster cu distana dintre cluster-e. Avnd
n vedere c proprietatea esenial urmrit este aceea de a avea n interiorul unui cluster
nregistrri ct mai apropiate, se poate recurge la calcularea varianei - suma ptratelor
diferenelor fiecrui element n raport cu media. Varianta cea mai bun este cea care conduce la
cluster-e cu variant minimal.
Exist i un criteriu de evaluare subiectiv, bazat pe estimarea utilitii cluster-elor. Este
foarte posibil ca algoritmul s identifice un anumit numr de cluster-e, bine delimitate din punct
de vedere formal, dar nesemnificative n spaiul problemei sau activitii vizate.
De la nregistrri la coordonate
Una dintre dificultile ntlnite n aplicarea acestei tehnici const n gsirea modalitii de
exprimare a valorilor luate de atributele nregistrrilor, astfel nct msurarea apropierii pe care
se bazeaz repartizarea lor n grupuri s fie relevant. Alturi de problemele ridicate de
reprezentarea numeric a datelor, care pot fi de diferite tipuri, inclusiv text, apare i aspectul,
mult mai delicat, al stabilirii acestor mrimi astfel nct s adopte un comportament adecvat
cerinelor utilizrii lor drept coordonate poziionale. Dincolo de mrimi cum sunt lungimea,
volumul sau greutatea, care exprim msuri propriu-zise, altele, chiar numerice fiind, pot ridica
dificulti n momentul utilizrii drept coordonate. Spre exemplu, se poate calcula diferena
dintre dou temperaturi dar nu se poate afirma c ntr-o zi n care s-au atins 32 C a fost de dou
ori mai cald dect ntr-o zi cu 16 C.
O alt dificultate vine din faptul c dimensiunile luate n considerare pot s nu aib aceeai
importan pentru problema tratat: o variaie minim a unei variabile poate fi mult mai
important dect variaii de zeci de ori mai mari ale altora. Cum importana acestora este, din
punct de vedere geometric egal, trebuie gsit modalitatea de a exprima i nivelul de
semnificaie al unei variabile, prin poziia sa pe axa care o reprezint n modelul geometric.
n principiu, orice funcie care asociaz la dou puncte o valoare unic prin care se
exprim o relaie dintre acestea poate fi folosit pentru msurarea distanei; totui, aceasta este
pe deplin corespunztoare dac posed cele patru proprieti menionate la raionamentul bazat
pe cazuri.
n cazul n care se lucreaz cu msuri sau cu intervale, se poate considera c fiecare
nregistrare este un punct n spaiu, ale crui coordonate sunt exprimate de vectorul format de
valorile cmpurilor sale. Pentru a msura apropierea dintre ele se pot folosi diverse metode,
dintre care cea mai utilizat se bazeaz pe distana euclidian. Aceasta se determin calculnd
ptratele diferenelor dintre fiecare pereche de coordonate ale celor dou puncte comparate i
extrgnd apoi rdcina ptrat din suma acestora.
Uneori, comparaiile directe sunt irelevante. Apropierea este exprimat de similitudinea
raporturilor sau corelaiilor dintre valorile cmpurilor nregistrrilor i nu de mrimea lor
absolut. Una dintre soluiile preferate n asemenea circumstane const n interpretarea valorilor
drept vectori i nu drept puncte n spaiu. n aceste condiii, ceea ce se compar sunt unghiurile
dintre vectori sau sinusul acestor unghiuri, care are avantajul suplimentar de a produce
ntotdeauna rezultate cuprinse ntre 0 i 1. Unghiul vectorilor permite o evaluare a apropierii
care nu este influenat de diferenele de talie dintre obiectele comparate. Relund un exemplu
din literatura de specialitate, comparaia direct dintre lungimea corpului, a cozii i a ghearelor
unui leu i a unei pisici va indica fr ndoial puncte situate la mare distan ntre ele. Dac
raporturile dintre lungimea diverselor pri ale corpului i lungimea total sunt similare la leu i
la pisic, atunci vectorii vor fi aproape paraleli, indicnd acum asemnarea dintre acetia.
Pentru valorile de tip enumerativ, msura cea mai simpl a distanei se obine prin
raportarea numrului de cmpuri similare din cele dou nregistrri comparate la numrul
total de cmpuri. n funcie de circumstane, se poate amplifica sau, dimpotriv, diminua
rezoluia cu care sunt examinate similitudinile dintre nregistrri.
Detecia supl este o variant a metodei celor k medii, bazat pe utilizarea de distribuii
gauss n repartizarea punctelor n cluster-e. n aceast abordare, un punct poate aparine, cu
probabiliti diferite, mai multor cluster-e n acelai timp.
Detecia grupurilor prin aglomerare
Acest demers acioneaz n sens contrar celui prezentat anterior: se pornete de la o stare
iniial n care fiecare punct este considerat a fi un cluster i se execut aglomerri succesive
pn cnd se obine un singur cluster, care reunete toate punctele. Toate variantele generate n
cursul acestor iteraii sunt conservate astfel nct, printr-o analiz ulterioar, s se poat reine
configuraia cea mai bun, cea mai relevant n raport cu scopul cutrii.
Procesul debuteaz prin construirea unei matrici de similitudine, n care figureaz
distanele sau gradele de asociere dintre toate punctele. Din matricea de similitudini, se extrage
perechea de puncte cu valoarea cea mai mic - cele mai apropiate - care sunt grupate mpreun
ntr-un cluster distinct. Matricea se reconstruiete, nlocuind cele dou puncte prin cluster-ul lor
i recalculnd distanele de la cluster la celelalte puncte. Procesul se reia, ntr-o manier
similar, pn cnd se ajunge la un singur cluster. ncepnd cu a doua iteraie, devine necesar i
msurarea distanei dintre cluster-e. Pentru aceasta exist mai multe variante:
distana dintre dou cluster-e este distana dintre cele mai apropiate puncte ale
acestora;
distana dintre dou cluster-e este distana dintre cele mai
ndeprtate puncte ale acestora;
distana dintre dou cluster-e este distana dintre centrele (centroidele) lor.
La fiecare iteraie, se memoreaz cluster-le obinute i distana dintre ele, n vederea
analizei ulterioare.
Datele comerciale asupra creia se aplic metoda sunt, ca i n cazul anterior, reprezentate
prin nregistrri. Variantele de msurare a asocierii menionate anterior - distana euclidian,
unghiul vectorilor, numrul cmpurilor similare raportat la numrul total de nregistrri - pot fi
utilizate la fel de bine i n aceleai condiii i aici.
dificil n virtutea faptului c este vorba despre o cutare nedirijat. Proprietile care au stat la
baza constituirii grupurilor trebuie gsite printr-o analiz suplimentar a componenei fiecrui
grup, tehnica neavnd capacitatea de a furniza cunotine explicite n aceast privin.
Detectarea automat de cluster-e este recomandabil ca tehnic de debut pentru un proiect
de data mining. Rezultatele furnizate de aceasta urmeaz a fi explorate n continuare cu alte
tehnici pentru a obine informaii mai complete.