Documente Academic
Documente Profesional
Documente Cultură
Cig Siad Cursul 9 10
Cig Siad Cursul 9 10
PENTRU EXTRAGEREA
CUNOTINJELOR
DATA MINING
l
Data mining : un proces de extragere de informafii noi din colecfiile de date existente.
Principiul de funcionare : Prelucrarea datelor referitoare la perioadele trecute pentru a eviden^a caracteristicile acestora i a permite elaborarea unui model. Odat construit, modelul poate fi aplicat situaiilor noi de acelai tip.
Informaliile obinute prin data mining sunt de natur predictiv sau descriptiv.
firmele au acumulat volume foarte mari de date, stocate pe suporturi informatice, privitoare la tranzacjii de diverse tipuri, derulate de-a lungul mai multor ani. maturizarea algoritmilor i a produselor program dedicate creterea capacitii de memorare i prelucrare a calculatoarelor, care permite tratarea n cordage a volumelor foarte mari de date. au aprut firme care ofer spre vnzare colec*ii de date istorice de uz general - cum ar fi, spre exemplu, evoluia indicatorilor bursieri din ultimii 20 de ani -special constituite pentru asemenea utilizri.
4 Data mining
Oportunitate de afaceri
Decizie i ac^iune
Data mining
verificarea ipotezelor
cutarea de cunotine
dirijat
nedirijat
Aplicarea tehnicilor de data mining poate fi fcut din perspectiva unui demers ascendent sau descendent. n abordarea descendent, efortul este orientat spre confinnarea sau infirmarea unor idei (ipoteze) formulate n prealabil prin alte mijloace. Abordarea ascendent* urmrete extragerea de cunotin|e sau informal noi din datele disponibile. Cutarea poate fi dirijat sau nedirijat
Cutarea dirijat ia n considerare un atribut sau un cmp, ale crui valori ncearc s le explice prin celelalte cmpuri. Este cea mai folosit n practic. Cutarea nedirijat are ca scop identificarea relajiilor sau structurilor existente n ansamblul datelor examinate, fr a acorda prioritate unui cmp sau altul. Dei mai spectaculoas, n practic se recurge mult mai pujin la ea dect la cutarea dirijat.
Tehnici i iiciuni
Explorarea datelor n vederea obinerii de informal recurge la diverse tehnici, printre cele mai folosite aflnduse: reelele neuronale arborii de decizie algoritmii genetici analiza grupurilor raionamentele bazate pe cazuri analiza legturilor La acestea se pot asocia i tehnici statistice, cum sunt, spre exemplu, regresiile, analiza factorial etc.
1. Clasificarea
2. Estimarea
3. Predicfia 4. Gruparea
5. Analiza gruprilor
1. Clasificarea urmrete s plaseze obiectele prelucrate ntr-un grup limitat de clase predefinite.
Dintre tehnicile de data mining, cele mai adecvate clasificrii sunt arborii de decizie i raionamentul bazat pe cazuri.
2. Estimarea urmrete s atribuie o valoare unei variabile, pe baza celorlalte date de intrare. Reelele neuronale sunt printre cele mai bune tehnici de data mining pentru acest gen de prelucrri.
11
3. Predicfia urmrete s claseze nregistrrile tratate n funcie de un comportament sau o valoare estimate viitoare. o colecie de exemple, bazate pe date din trecut, n care valorile variabilei de previzionat sunt deja cunoscute. se construiete un model care s explice comportamentul observat. Aplicnd acest model asupra nregistrrilor de prelucrat, se ob^ine o predict a comportamentului sau valorilor acestora n viitor. Tehnicile de clasificare sau estimare pot fi folosite i pentru predict
12
4. Gruparea urmrete s determine care sunt obiectele care apar eel mai frecvent mpreun. Exemplul tipic pentru acest gen de ac^iune este determinarea mrfurilor care se cumpr uzual mpreun, de unde i denumirea de analiz a coului gospodinei.
5. Analiza grupurilor urmrete s divid o populate eterogen n grupuri mai omogene, numite cluster. nu exist un set predeterminat de clase ca n cazul clasificrii i nici exemple trecute; segmentarea se face n exclusivitate pe baza similitudinilor sesizate ntre obiecte.
13
14
ETAPE:
A.
Defmirea problemei
6.
C.
D.
Pregtirea datelor
E.
Construirea modelului
F.
Evaluarea modelului
G.
Integrarea modelului
15
A. Deflnirea problemei
declanarea procesului este determinate de sesizarea unei oportunitati sau necesitati de afaceri.
n cadrul acesteia, este nevoie s se delimiteze exact ce urmeaz a fi rezolvat prin data mining, care sunt obiectivele urmrite i rezultatele ateptate.
16
B. Identificarea surselor de date stabilirea structurii generale a datelor necesare regulile de constitute a datelor localizarea surselor acestora. -date dispersate n diverse sisteme informatice operaional stocate n formate diferite administrate cu produse software diferite uneori disponibile numai pe hrtie. eventualele incoerene sau probleme de defmire, care pot compromite rezultatele analizelor urmtoare.
17
un eantion reprezentativ
18 D. Pregtirea
datelor
E. Construirea modelului
Crearea modelului informatic care va efectua explorarea propriu-zis. n cazul cutrii de informaii, dirijate sau nu, construirea modelului este acompaniat de o faz de instruire, de Tnvatare. nvatarea un ansamblu de exemple complete identificarea relaiilor care leag Tntre ele valorile diferitelor elemente Testarea date diferite de cele folosite pentru Tnvatare, dar aparjinnd aceleiai populaii Evaluarea faz de reajustare a modelului
Obinerea de explicaii privitoare la modul n care un element variaz n funcie de valoarea altor elemente
20
Set de date preclasate i distribuirea acestora, dup colectare i pregtire, n trei seturi: de nva{are, de testare i de evaluare 70-80% din date sunt alocate nva{arii, restul rmnnd pentru testare sau fiind mpact egal ntre aceasta i evaluare. Datele colectate
F. Evaluarea modelului evaluarea are scopul de a stabili capacitatea modelului de a determina corect valorile pentru cazuri noi. in general, performance unui model se apreciaz cu ajutorul unei matrice de confuzie, care compar situa|ia real cu cea furnizat de acesta. calitatea global se exprim prin raportul dintre numrul de predict exacte i numrul total de predict
22
G. Integrarea modelului
Aceast etap finalizeaz procesul, prin includerea modelului obinut ntr-un SIAD sau ntr-un proces decizional mai general din ntreprindere.
Observaii : orice model are o durat de viaj limitat. (modelele trebuie actualizate permanent, pentru a putea urmrile schimbrile survenite n domeniul la care se refer). rezolvarea unei probleme se obine prin combinarea mai multor tehnici.
23
1.
Reelele neuronale
2.
Arborii de decizie
3.
Algoritmii genetici
4.
Analiza grupurilor
5.
6.
Analiza legturilor
24
1. Reelele neuronale pot furniza soluii, n special de natur predictiv, pentru probleme de mare complexitate sau volatilitate. cazuri tipice de utilizare cu succes a reelelor neuronale includ: stabilirea preurilor pe piaja imobiliar, evoluia cotaiilor pe pieele fmanciare, analiza cererilor de creditare etc. O re^ea neuronal dobndete capacitatea de a rezolva un anumit tip de problem n urma unui proces de nvare. Procesul de nva^are permite re^elei s identifice automat un set de corelaii utilizate ulterior pentru a face predicii.
25
2. Arborii de decizie
rezultatul ia forma unei arborescenje care prezint o ierarhie de reguli logice stabilite automat prin explorarea unei baze de exemple.
exemplele au forma unor nregistrri compuse din mai multe atribute. regulile se ob^in ca efect al subdivizrii din ce n ce mai detaliate a ansamblului exemplelor, n funcjie de coninutul atributelor.
Ex. Daca locuinta inchiriata si venit anuaK 5.000 lei Atunci probleme la rambursarea creditului
26
3. Algoritmii genetici
aplic principalele mecanisme ale seleciei naturale pentru a favoriza conservarea i reproducerea, dintr-o populate numeroas, a celor mai performani, mai bine adaptaji indivizi. popula^ia este format din ansamblul de solujii posibile ale unei probleme; eel mai adaptat individ este prin urmare, cea mai bun solujie. algoritmii genetici permit gsirea soluiei optime (efectuarea de predict sau clasificri).
27
28
rajionamentul bazat pe cazuri caut rspunsurile la problemele noi n experience acumulate n trecut. in faa unei situajii noi, vor fi cutate cazurile asemntoare cunoscute iar concluziile acestora vor fi aplicate i n noua situate. metoda este aplicabil att pentru clasificri ct i pentru predict
29
6. Analiza legaturilor
analiza asocierilor, denumit i analiza coului gospodinei urmrete s gseasc regulile care descriu aparijia frecvent mpreun a unor obiecte eterogene. rezultatele generate primesc o form explicit i simpl, care favorizeaz nelegerea i aplicarea lor concret. tehnica se poate aplica pentru cutarea nedirijat de informaii (poate fi aplicat oricror tranzac^ii comerciale, putnd servi pentru analiza vnzrilor din supermarket-uri, analiza micrilor de fonduri dintr-o banc, analiza incidentelor de asigurare etc.) 30
sisteme complexe care integreaz mai multe tehnici i algoritmi diferii (IBM Intelligent Miner for Data, care acoper ntregul proces de data mining, oferind nu numai algoritmi de explorare a datelor ci i instrumente de pregtire i interpretare a rezultatelor, Predictive Dynamix, care integreaz reele neuronale, algoritmi genetici, algoritmi de clustering i instrumente de vizualizare.
31
7. 8.
Interogari ad-hoc si de analiza (SQL) Analiza multidimensionala (limbaje care opereaza pe cuburi:MDX, Express)
9.
32