Sunteți pe pagina 1din 30

TEHNOLOGII PENTRU EXTRAGEREA CUNOTINELOR

DATA MINING
1

Data mining : un proces de extragere de informaii noi din coleciile de date existente.

Principiul de funcionare :
Prelucrarea datelor referitoare la perioadele trecute pentru a evidenia caracteristicile acestora i a permite elaborarea unui model. Odat construit, modelul poate fi aplicat situaiilor noi acelai tip. Informaiile obinute prin data mining sunt de natur predictiv sau descriptiv. de

Fundamentele explorrii datelor. Premize: firmele au acumulat volume foarte mari de date, stocate pe suporturi informatice, privitoare la tranzacii de diverse tipuri, derulate de-a lungul mai multor ani. maturizarea algoritmilor i a produselor program dedicate creterea capacitii de memorare i prelucrare a calculatoarelor, care permite tratarea n corelaie a volumelor foarte mari de date. au aprut firme care ofer spre vnzare colecii de date istorice de uz general cum ar fi, spre exemplu, evoluia indicatorilor bursieri din ultimii 20 de ani special constituite pentru asemenea utilizri. 3

O explorare dirijat de oportuniti Utilizarea data mining: Ciclu n cursul cruia se parcurg patru etape: identificarea oportunitii comerciale i a datelor pe care se poate baza explorarea extragerea de informaii din coleciile de date existente prin tehnici adecvate de data mining adoptarea de decizii i ntreprinderea de aciuni pe baza informaiilor obinute msurarea rezultatelor concrete pentru a identifica i alte modaliti de exploatare a datelor disponibile

Data mining

Oportunitate de afaceri

Decizie i aciune

Evaluare rezultate

Ciclul de utilizare a data mining

Verificarea ipotezelor i cutarea cunotinelor


Data mining

verificarea ipotezelor

cutarea de cunotine

dirijat

nedirijat

Aplicarea tehnicilor de data mining poate fi fcut din perspectiva unui demers ascendent sau descendent. n abordarea descendent, efortul este orientat spre confirmarea sau infirmarea unor idei (ipoteze) formulate n prealabil prin alte mijloace. Abordarea ascendent urmrete extragerea de cunotine sau informaii noi din datele disponibile. Cutarea poate fi dirijat sau nedirijat
7

Cutarea dirijat ia n considerare un atribut sau un cmp, ale crui valori ncearc s le explice prin celelalte cmpuri. Este cea mai folosit n practic. Cutarea nedirijat are ca scop identificarea relaiilor sau structurilor existente n ansamblul datelor examinate, fr a acorda prioritate unui cmp sau altul. Dei mai spectaculoas, n practic se recurge mult mai puin la ea dect la cutarea dirijat.
8

Tehnici i aciuni Explorarea datelor n vederea obinerii de informaii recurge la diverse tehnici, printre cele mai folosite aflndu-se: reelele neuronale arborii de decizie algoritmii genetici analiza grupurilor raionamentele bazate pe cazuri analiza legturilor La acestea se pot asocia i tehnici statistice, cum sunt, spre exemplu, regresiile, analiza factorial etc.
9

Aciuni Data mining: 1. Clasificarea 2. Estimarea 3. Predicia 4. Gruparea 5. Analiza gruprilor

10

1. Clasificarea urmrete s plaseze obiectele prelucrate ntr-un grup limitat de clase predefinite. Dintre tehnicile de data mining, cele mai adecvate clasificrii sunt arborii de decizie i raionamentul bazat pe cazuri. 2. Estimarea urmrete s atribuie o valoare unei variabile, pe baza celorlalte date de intrare. Reelele neuronale sunt printre cele mai bune tehnici de data mining pentru acest gen de prelucrri.

11

3. Predicia urmrete s claseze nregistrrile tratate n funcie de un comportament sau o valoare estimat viitoare. o colecie de exemple, bazate pe date din trecut, n care valorile variabilei de previzionat sunt deja cunoscute. se construiete un model care s explice comportamentul observat. Aplicnd acest model asupra nregistrrilor de prelucrat, se obine o predicie a comportamentului sau valorilor acestora n viitor. Tehnicile de clasificare sau estimare pot fi folosite i pentru predicii
12

4. Gruparea urmrete s determine care sunt obiectele care apar cel mai frecvent mpreun. Exemplul tipic pentru acest gen de aciune este determinarea mrfurilor care se cumpr uzual mpreun, de unde i denumirea de analiz a coului gospodinei. 5. Analiza grupurilor urmrete s divid o populaie eterogen n grupuri mai omogene, numite cluster. nu exist un set predeterminat de clase ca n cazul clasificrii i nici exemple trecute; segmentarea se face n exclusivitate pe baza similitudinilor sesizate ntre obiecte.
13

Etapele procesului de explorare a datelor


Condiii necesare Existena programelor pentru implementarea algoritmilor specifici tehnicilor de data mining Pregtire prealabil a datelor, de curare i uniformizare. Rezultatele trebuie analizate i interpretate pentru a identifica informaiile pertinente pe care le conin. Selectia tehnicilor adecvate naturii problemei vizate
14

ETAPE: A. Definirea problemei B. Identificarea surselor de date C. Colectarea i selectarea datelor D. Pregtirea datelor E. Construirea modelului F. Evaluarea modelului G. Integrarea modelului
15

A. Definirea problemei declanarea procesului este determinat de sesizarea unei oportuniti sau necesiti de afaceri. n cadrul acesteia, este nevoie s se delimiteze exact ce urmeaz a fi rezolvat prin data mining, care sunt obiectivele urmrite i rezultatele ateptate.

16

B. Identificarea surselor de date stabilirea structurii generale a datelor necesare regulile de constituire a datelor localizarea surselor acestora. -date dispersate n diverse sisteme informatice operaionale - stocate n formate diferite - administrate cu produse software diferite - uneori disponibile numai pe hrtie. eventualele incoerene sau probleme de definire, care pot compromite rezultatele analizelor urmtoare.
17

C. Colectarea i selecia datelor Aceast etap urmrete extragerea i plasarea ntr-o baz comun a tuturor datelor ce urmeaz a fi folosite . Problema : alegerea ntre prelucrarea ntregului fond de date disponibil un eantion reprezentativ

18

D. Pregtirea datelor Transformri comune care vizeaz: valorile extreme sau aberante valorile lips valorile de tip text rezumarea codificarea incoerent arhitecturile informatice incompatibile

19

E. Construirea modelului
Crearea modelului informatic care va efectua explorarea propriu-zis. n cazul cutrii de informaii, dirijate sau nu, construirea modelului este acompaniat de o faz de instruire, de nvare. nvarea un ansamblu de exemple complete identificarea relaiilor care leag ntre ele valorile diferitelor elemente Testarea date diferite de cele folosite pentru nvare, dar aparinnd aceleiai populaii Evaluarea faz de reajustare a modelului

Obinerea de explicaii privitoare la modul n care un element variaz n funcie de valoarea altor elemente

20

Set de date preclasate i distribuirea acestora, dup colectare i pregtire, n trei seturi: de nvare, de testare i de evaluare 70-80% din date sunt alocate nvrii, restul rmnnd pentru testare sau fiind mprit egal ntre aceasta i evaluare.
Datele colectate Date de test Date de nvare Date de evaluare

Model utilizabil

Schema procesului de creare a modelelor de cutare a informaiilor


21

F. Evaluarea modelului evaluarea are scopul de a stabili capacitatea modelului de a determina corect valorile pentru cazuri noi. in general, performanele unui model se apreciaz cu ajutorul unei matrice de confuzie, care compar situaia real cu cea furnizat de acesta. calitatea global se exprim prin raportul dintre numrul de predicii exacte i numrul total de predicii
22

G. Integrarea modelului Aceast etap finalizeaz procesul, prin includerea modelului obinut ntr-un SIAD sau ntr-un proces decizional mai general din ntreprindere. Observaii : orice model are o durat de via limitat. (modelele trebuie actualizate permanent, pentru a putea urmrile schimbrile survenite n domeniul la care se refer). rezolvarea unei probleme se obine prin combinarea mai multor tehnici.
23

1. Reelele neuronale 2. Arborii de decizie 3. Algoritmii genetici 4. Analiza grupurilor 5. Raionamentele bazate pe cazuri 6. Analiza legturilor

24

1. Reelele neuronale pot furniza soluii, n special de natur predictiv, pentru probleme de mare complexitate sau volatilitate. cazuri tipice de utilizare cu succes a reelelor neuronale includ: stabilirea preurilor pe piaa imobiliar, evoluia cotaiilor pe pieele financiare, analiza cererilor de creditare etc. O reea neuronal dobndete capacitatea de a rezolva un anumit tip de problem n urma unui proces de nvare. Procesul de nvare permite reelei s identifice automat un set de corelaii utilizate ulterior pentru a face predicii.
25

2. Arborii de decizie tehnic aplicabil att pentru clasificare ct i pentru predicie. rezultatul ia forma unei arborescene care prezint o ierarhie de reguli logice stabilite automat prin explorarea unei baze de exemple. exemplele au forma unor nregistrri compuse din mai multe atribute. regulile se obin ca efect al subdivizrii din ce n ce mai detaliate a ansamblului exemplelor, n funcie de coninutul atributelor. Ex. Daca locuinta inchiriata si venit anual< 5.000 lei Atunci probleme la rambursarea creditului
26

3. Algoritmii genetici aplic principalele mecanisme ale seleciei naturale pentru a favoriza conservarea i reproducerea, dintr-o populaie numeroas, a celor mai performani, mai bine adaptai indivizi. populaia este format din ansamblul de soluii posibile ale unei probleme; cel mai adaptat individ este prin urmare, cea mai bun soluie. algoritmii genetici permit gsirea soluiei optime (efectuarea de predicii sau clasificri).
27

4. Analiza grupurilor (clustering) permite identificarea automat a grupurilor existente n ansamblul datelor analizate (poate fi aplicata n cutarea nedirijat). grupurile rezult automat n urma procesului de prelucrare, fr a avea ca punct de pornire un anumit criteriu sau proprietate. este o tehnic ce are capacitatea de a releva realmente caracteristici ascunse sub volumul i diversitatea detaliilor ntr-un anumit set de nregistrri. detectarea automat de cluster-e este recomandabil ca tehnic de debut pentru un proiect de data mining. Rezultatele furnizate de aceasta urmeaz a fi explorate n continuare cu alte tehnici pentru a obine informaii mai complete. 28

5. Raionamente bazate pe cazuri


raionamentul bazat pe cazuri caut rspunsurile la problemele noi n experienele acumulate n trecut. in faa unei situaii noi, vor fi cutate cazurile asemntoare cunoscute iar concluziile acestora vor fi aplicate i n noua situaie. metoda este aplicabil att pentru clasificri ct i pentru predicii
29

6. Analiza legaturilor analiza asocierilor, denumit i analiza coului gospodinei urmrete s gseasc regulile care descriu apariia frecvent mpreun a unor obiecte eterogene. rezultatele generate primesc o form explicit i simpl, care favorizeaz nelegerea i aplicarea lor concret. tehnica se poate aplica pentru cutarea nedirijat de informaii (poate fi aplicat oricror tranzacii comerciale, putnd servi pentru analiza vnzrilor din supermarket-uri, analiza micrilor de fonduri dintr-o banc, analiza incidentelor de asigurare etc.)
30