Sunteți pe pagina 1din 33

TEHNOLOGII

PENTRU EXTRAGEREA

CUNOTINJELOR

DATA MINING
l

Data mining : un proces de extragere de informafii noi din colecfiile de date existente.

Principiul de funcionare : Prelucrarea datelor referitoare la perioadele trecute pentru a eviden^a caracteristicile acestora i a permite elaborarea unui model. Odat construit, modelul poate fi aplicat situaiilor noi de acelai tip.

Informaliile obinute prin data mining sunt de natur predictiv sau descriptiv.

Fundamentele explorrii datelor. Premize:

firmele au acumulat volume foarte mari de date, stocate pe suporturi informatice, privitoare la tranzacjii de diverse tipuri, derulate de-a lungul mai multor ani. maturizarea algoritmilor i a produselor program dedicate creterea capacitii de memorare i prelucrare a calculatoarelor, care permite tratarea n cordage a volumelor foarte mari de date. au aprut firme care ofer spre vnzare colec*ii de date istorice de uz general - cum ar fi, spre exemplu, evoluia indicatorilor bursieri din ultimii 20 de ani -special constituite pentru asemenea utilizri.

O explorare dirijat de oportunitati


Utilizarea data mining: Ciclu n cursul cruia se parcurg patru etape: identificarea oportunitafii comerciale i a datelor pe care se poate baza explorarea extragerea de informajii din colecpe de date existente prin tehnici adecvate de data mining adoptarea de decizii i ntreprinderea de acfiuni pe baza informafiilor obfinute msurarea rezultatelor concrete pentru a identifica i alte modalita|i de exploatare a datelor disponibile

4 Data mining

Oportunitate de afaceri

Decizie i ac^iune

Ciclul de utilizare a data mining

Verificarea ipotezelor i cutarea cunotinelor

Data mining

verificarea ipotezelor

cutarea de cunotine

dirijat

nedirijat

Aplicarea tehnicilor de data mining poate fi fcut din perspectiva unui demers ascendent sau descendent. n abordarea descendent, efortul este orientat spre confinnarea sau infirmarea unor idei (ipoteze) formulate n prealabil prin alte mijloace. Abordarea ascendent* urmrete extragerea de cunotin|e sau informal noi din datele disponibile. Cutarea poate fi dirijat sau nedirijat

Cutarea dirijat ia n considerare un atribut sau un cmp, ale crui valori ncearc s le explice prin celelalte cmpuri. Este cea mai folosit n practic. Cutarea nedirijat are ca scop identificarea relajiilor sau structurilor existente n ansamblul datelor examinate, fr a acorda prioritate unui cmp sau altul. Dei mai spectaculoas, n practic se recurge mult mai pujin la ea dect la cutarea dirijat.

Tehnici i iiciuni
Explorarea datelor n vederea obinerii de informal recurge la diverse tehnici, printre cele mai folosite aflnduse: reelele neuronale arborii de decizie algoritmii genetici analiza grupurilor raionamentele bazate pe cazuri analiza legturilor La acestea se pot asocia i tehnici statistice, cum sunt, spre exemplu, regresiile, analiza factorial etc.

Aciuni Data mining:

1. Clasificarea

2. Estimarea
3. Predicfia 4. Gruparea

5. Analiza gruprilor

1. Clasificarea urmrete s plaseze obiectele prelucrate ntr-un grup limitat de clase predefinite.
Dintre tehnicile de data mining, cele mai adecvate clasificrii sunt arborii de decizie i raionamentul bazat pe cazuri.

2. Estimarea urmrete s atribuie o valoare unei variabile, pe baza celorlalte date de intrare. Reelele neuronale sunt printre cele mai bune tehnici de data mining pentru acest gen de prelucrri.

11

3. Predicfia urmrete s claseze nregistrrile tratate n funcie de un comportament sau o valoare estimate viitoare. o colecie de exemple, bazate pe date din trecut, n care valorile variabilei de previzionat sunt deja cunoscute. se construiete un model care s explice comportamentul observat. Aplicnd acest model asupra nregistrrilor de prelucrat, se ob^ine o predict a comportamentului sau valorilor acestora n viitor. Tehnicile de clasificare sau estimare pot fi folosite i pentru predict

12

4. Gruparea urmrete s determine care sunt obiectele care apar eel mai frecvent mpreun. Exemplul tipic pentru acest gen de ac^iune este determinarea mrfurilor care se cumpr uzual mpreun, de unde i denumirea de analiz a coului gospodinei.

5. Analiza grupurilor urmrete s divid o populate eterogen n grupuri mai omogene, numite cluster. nu exist un set predeterminat de clase ca n cazul clasificrii i nici exemple trecute; segmentarea se face n exclusivitate pe baza similitudinilor sesizate ntre obiecte.

13

Etapele procesului de explorare a datelor


Condiii necesare Existenja programelor pentru implementarea algoritmilor specifici tehnicilor de data mining Pregtire prealabil a datelor, de curajare i uniformizare. Rezultatele trebuie analizate i interpretate pentru a identifica informaiile pertinente pe care le conin. Selectia tehnicilor adecvate naturii problemei vizate

14

ETAPE:

A.

Defmirea problemei

6.

Identificarea surselor de date

C.

Colectarea i selectarea datelor

D.

Pregtirea datelor

E.

Construirea modelului

F.

Evaluarea modelului

G.

Integrarea modelului

15

A. Deflnirea problemei
declanarea procesului este determinate de sesizarea unei oportunitati sau necesitati de afaceri.

n cadrul acesteia, este nevoie s se delimiteze exact ce urmeaz a fi rezolvat prin data mining, care sunt obiectivele urmrite i rezultatele ateptate.

16

B. Identificarea surselor de date stabilirea structurii generale a datelor necesare regulile de constitute a datelor localizarea surselor acestora. -date dispersate n diverse sisteme informatice operaional stocate n formate diferite administrate cu produse software diferite uneori disponibile numai pe hrtie. eventualele incoerene sau probleme de defmire, care pot compromite rezultatele analizelor urmtoare.

17

C. Colectarea i selecfia datelor


Aceast etap urmrete extragerea i plasarea ntr-o baz comun a tuturor datelor ce urmeaz a fi folosite . Problema : alegerea ntre prelucrarea ntregului fond de date disponibil

un eantion reprezentativ
18 D. Pregtirea

datelor

Transformri comune care vizeaz:

valorile extreme sau aberante


valorile lips valorile de tip text

rezumarea codificarea incoerent incompatibile arhitecturile informatice


19

E. Construirea modelului
Crearea modelului informatic care va efectua explorarea propriu-zis. n cazul cutrii de informaii, dirijate sau nu, construirea modelului este acompaniat de o faz de instruire, de Tnvatare. nvatarea un ansamblu de exemple complete identificarea relaiilor care leag Tntre ele valorile diferitelor elemente Testarea date diferite de cele folosite pentru Tnvatare, dar aparjinnd aceleiai populaii Evaluarea faz de reajustare a modelului

Obinerea de explicaii privitoare la modul n care un element variaz n funcie de valoarea altor elemente

20

Set de date preclasate i distribuirea acestora, dup colectare i pregtire, n trei seturi: de nva{are, de testare i de evaluare 70-80% din date sunt alocate nva{arii, restul rmnnd pentru testare sau fiind mpact egal ntre aceasta i evaluare. Datele colectate

Schema procesului de creare a modelelor de cutare a informa0or 21

F. Evaluarea modelului evaluarea are scopul de a stabili capacitatea modelului de a determina corect valorile pentru cazuri noi. in general, performance unui model se apreciaz cu ajutorul unei matrice de confuzie, care compar situa|ia real cu cea furnizat de acesta. calitatea global se exprim prin raportul dintre numrul de predict exacte i numrul total de predict

22

G. Integrarea modelului
Aceast etap finalizeaz procesul, prin includerea modelului obinut ntr-un SIAD sau ntr-un proces decizional mai general din ntreprindere.

Observaii : orice model are o durat de viaj limitat. (modelele trebuie actualizate permanent, pentru a putea urmrile schimbrile survenite n domeniul la care se refer). rezolvarea unei probleme se obine prin combinarea mai multor tehnici.

23

1.

Reelele neuronale

2.

Arborii de decizie

3.

Algoritmii genetici

4.

Analiza grupurilor

5.

Raionamentele bazate pe cazuri

6.

Analiza legturilor

24

1. Reelele neuronale pot furniza soluii, n special de natur predictiv, pentru probleme de mare complexitate sau volatilitate. cazuri tipice de utilizare cu succes a reelelor neuronale includ: stabilirea preurilor pe piaja imobiliar, evoluia cotaiilor pe pieele fmanciare, analiza cererilor de creditare etc. O re^ea neuronal dobndete capacitatea de a rezolva un anumit tip de problem n urma unui proces de nvare. Procesul de nva^are permite re^elei s identifice automat un set de corelaii utilizate ulterior pentru a face predicii.

25

2. Arborii de decizie

tehnic aplicabil att pentru clasificare ct i pentru predicjie.

rezultatul ia forma unei arborescenje care prezint o ierarhie de reguli logice stabilite automat prin explorarea unei baze de exemple.

exemplele au forma unor nregistrri compuse din mai multe atribute. regulile se ob^in ca efect al subdivizrii din ce n ce mai detaliate a ansamblului exemplelor, n funcjie de coninutul atributelor.

Ex. Daca locuinta inchiriata si venit anuaK 5.000 lei Atunci probleme la rambursarea creditului
26

3. Algoritmii genetici

aplic principalele mecanisme ale seleciei naturale pentru a favoriza conservarea i reproducerea, dintr-o populate numeroas, a celor mai performani, mai bine adaptaji indivizi. popula^ia este format din ansamblul de solujii posibile ale unei probleme; eel mai adaptat individ este prin urmare, cea mai bun solujie. algoritmii genetici permit gsirea soluiei optime (efectuarea de predict sau clasificri).

27

4. Analiza grupurilor (clustering)


permite identificarea automat a grupurilor existente n ansamblul datelor analizate (poate fi aplicata n cutarea nedirijat). grupurile rezult automat n urma procesului de prelucrare, fr a avea ca punct de pornire un anumit criteriu sau proprietate. este o tehnic ce are capacitatea de a releva realmente caracteristici ascunse - sub volumul i diversitatea detaliilor - ntr-un anumit set de nregistrri. detectarea automat de cluster-e este recomandabil ca tehnic de debut pentru un proiect de data mining. Rezultatele furnizate de aceasta urmeaz a fi explorate n continuare cu alte tehnici pentru a obine informal mai complete.

28

5. Rajionamente bazate pe cazuri

rajionamentul bazat pe cazuri caut rspunsurile la problemele noi n experience acumulate n trecut. in faa unei situajii noi, vor fi cutate cazurile asemntoare cunoscute iar concluziile acestora vor fi aplicate i n noua situate. metoda este aplicabil att pentru clasificri ct i pentru predict

29

6. Analiza legaturilor
analiza asocierilor, denumit i analiza coului gospodinei urmrete s gseasc regulile care descriu aparijia frecvent mpreun a unor obiecte eterogene. rezultatele generate primesc o form explicit i simpl, care favorizeaz nelegerea i aplicarea lor concret. tehnica se poate aplica pentru cutarea nedirijat de informaii (poate fi aplicat oricror tranzac^ii comerciale, putnd servi pentru analiza vnzrilor din supermarket-uri, analiza micrilor de fonduri dintr-o banc, analiza incidentelor de asigurare etc.) 30

Oferta de produse program pentru data mining


aplicaii adijionale sau ncorporate n produse mai mari, eel mai frecvent n sisteme de gestiune a bazelor de date sau de data warehouse i OLAP( SQL Server 2000 al firmei Microsoft, care ncorporeaz algoritmi de clustering i de arbori de decizie, ce pot fi aplicai att asupra bazelor de date relaional ct i a surselor de date OLAP).

sisteme complexe care integreaz mai multe tehnici i algoritmi diferii (IBM Intelligent Miner for Data, care acoper ntregul proces de data mining, oferind nu numai algoritmi de explorare a datelor ci i instrumente de pregtire i interpretare a rezultatelor, Predictive Dynamix, care integreaz reele neuronale, algoritmi genetici, algoritmi de clustering i instrumente de vizualizare.

produse specializate pentru o singur tehnic de data mining

31

Explorarea datelor din depozite:

7. 8.

Interogari ad-hoc si de analiza (SQL) Analiza multidimensionala (limbaje care opereaza pe cuburi:MDX, Express)

9.

Tehnici speciale de Data Mining

32

S-ar putea să vă placă și