Sunteți pe pagina 1din 30

TEHNOLOGII PENTRU

EXTRAGEREA CUNOŞTINŢELOR

DATA MINING

1
Data mining : un proces de extragere de
informaţii noi din colecţiile de date existente.

Principiul de funcţionare :
Prelucrarea datelor referitoare la perioadele trecute
pentru a evidenţia caracteristicile acestora
şi a permite elaborarea unui model.

Odată construit, modelul poate fi aplicat situaţiilor noi de


acelaşi tip.

Informaţiile obţinute prin data mining sunt de natură


predictivă sau descriptivă.

2
Fundamentele explorării datelor. Premize:

• firmele au acumulat volume foarte mari de date,


stocate pe suporturi informatice, privitoare la
tranzacţii de diverse tipuri, derulate de-a lungul mai
multor ani.
• maturizarea algoritmilor şi a produselor program
dedicate
• creşterea capacităţii de memorare şi prelucrare a
calculatoarelor, care permite tratarea în corelaţie a
volumelor foarte mari de date.
• au apărut firme care oferă spre vânzare colecţii de date
istorice de uz general – cum ar fi, spre exemplu,
evoluţia indicatorilor bursieri din ultimii 20 de ani -
special constituite pentru asemenea utilizări.

3
O explorare dirijată de oportunităţi

Utilizarea data mining: Ciclu în cursul căruia se parcurg patru


etape:
 identificarea oportunităţii comerciale şi a datelor pe care
se poate baza explorarea
 extragerea de informaţii din colecţiile de date existente
prin tehnici adecvate de data mining
 adoptarea de decizii şi întreprinderea de acţiuni pe baza
informaţiilor obţinute
 măsurarea rezultatelor concrete pentru a identifica şi alte
modalităţi de exploatare a datelor disponibile

4
Data mining

Oportunitate de Decizie şi acţiune


afaceri

Evaluare rezultate

Ciclul de utilizare a data mining

5
Verificarea ipotezelor şi căutarea cunoştinţelor
Data mining

verificarea ipotezelor căutarea de cunoştinţe

dirijată nedirijată

6
Aplicarea tehnicilor de data mining poate fi
făcută din perspectiva unui demers
ascendent sau descendent.
În abordarea descendentă, efortul este
orientat spre confirmarea sau infirmarea
unor idei (ipoteze) formulate în prealabil
prin alte mijloace.
Abordarea ascendentă urmăreşte extragerea
de cunoştinţe sau informaţii noi din datele
disponibile. Căutarea poate fi dirijată sau
nedirijată

7
• Căutarea dirijată ia în considerare un
atribut sau un câmp, ale cărui valori
încearcă să le explice prin celelalte câmpuri.
Este cea mai folosită în practică.
• Căutarea nedirijată are ca scop
identificarea relaţiilor sau structurilor
existente în ansamblul datelor examinate,
fără a acorda prioritate unui câmp sau altul.
Deşi mai spectaculoasă, în practică se
recurge mult mai puţin la ea decât la
căutarea dirijată.

8
Tehnici şi acţiuni
Explorarea datelor în vederea obţinerii de
informaţii recurge la diverse tehnici, printre cele
mai folosite aflându-se:
• reţelele neuronale
• arborii de decizie
• algoritmii genetici
• analiza grupurilor
• raţionamentele bazate pe cazuri
• analiza legăturilor
La acestea se pot asocia şi tehnici statistice, cum
sunt, spre exemplu, regresiile, analiza factorială
etc.

9
Acţiuni Data mining:

1. Clasificarea
2. Estimarea
3. Predicţia
4. Gruparea
5. Analiza grupărilor

10
1. Clasificarea urmăreşte să plaseze obiectele
prelucrate într-un grup limitat de clase predefinite.
Dintre tehnicile de data mining, cele mai adecvate
clasificării sunt arborii de decizie şi raţionamentul
bazat pe cazuri.

2. Estimarea urmăreşte să atribuie o valoare unei


variabile, pe baza celorlalte date de intrare.
Reţelele neuronale sunt printre cele mai bune
tehnici de data mining pentru acest gen de
prelucrări.

11
3. Predicţia urmăreşte să claseze înregistrările tratate
în funcţie de un comportament sau o valoare
estimată viitoare.
• o colecţie de exemple, bazate pe date din trecut, în
care valorile variabilei de previzionat sunt deja
cunoscute.
• se construieşte un model care să explice
comportamentul observat. Aplicând acest model
asupra înregistrărilor de prelucrat, se obţine o
predicţie a comportamentului sau valorilor
acestora în viitor.
Tehnicile de clasificare sau estimare pot fi folosite şi
pentru predicţii

12
4. Gruparea urmăreşte să determine care sunt
obiectele care apar cel mai frecvent împreună.
Exemplul tipic pentru acest gen de acţiune este
determinarea mărfurilor care se cumpără uzual
împreună, de unde şi denumirea de “analiză a
coşului gospodinei”.

5. Analiza grupurilor urmăreşte să dividă o


populaţie eterogenă în grupuri mai omogene,
numite “cluster”.
• nu există un set predeterminat de clase ca în cazul
clasificării şi nici exemple trecute;
• segmentarea se face în exclusivitate pe baza
similitudinilor sesizate între obiecte.

13
Etapele procesului de explorare a datelor
Condiţii necesare
• Existenţa programelor pentru implementarea
algoritmilor specifici tehnicilor de data mining
• Pregătire prealabilă a datelor, de curăţare şi
uniformizare.
• Rezultatele trebuie analizate şi interpretate pentru
a identifica informaţiile pertinente pe care le
conţin.
• Selectia tehnicilor adecvate naturii problemei
vizate

14
ETAPE:
A. Definirea problemei
B. Identificarea surselor de date
C. Colectarea şi selectarea datelor
D. Pregătirea datelor
E. Construirea modelului
F. Evaluarea modelului
G. Integrarea modelului

15
A. Definirea problemei
• declanşarea procesului este determinată de
sesizarea unei oportunităţi sau necesităţi de
afaceri.
• În cadrul acesteia, este nevoie să se
delimiteze exact ce urmează a fi rezolvat
prin data mining, care sunt obiectivele
urmărite şi rezultatele aşteptate.

16
B. Identificarea surselor de date
• stabilirea structurii generale a datelor necesare
• regulile de constituire a datelor
• localizarea surselor acestora.
-date dispersate în diverse sisteme informatice
operaţionale
- stocate în formate diferite
- administrate cu produse software diferite
- uneori disponibile numai pe hârtie.
• eventualele incoerenţe sau probleme de definire,
care pot compromite rezultatele analizelor
următoare.
17
C. Colectarea şi selecţia datelor
Această etapă urmăreşte extragerea şi plasarea
într-o bază comună a tuturor datelor ce
urmează a fi folosite .
Problema : alegerea între
• prelucrarea întregului fond de date
disponibil
• un eşantion reprezentativ

18
D. Pregătirea datelor
Transformări comune care vizează:
• valorile extreme sau aberante
• valorile lipsă
• valorile de tip text
• rezumarea
• codificarea incoerentă
• arhitecturile informatice incompatibile

19
E. Construirea modelului

Crearea modelului informatic care va efectua explorarea propriu-zisă.


În cazul căutării de informaţii, dirijate sau nu, construirea modelului este
acompaniată de o fază de instruire, de învăţare.

Învăţarea
• un ansamblu de exemple complete
• identificarea relaţiilor care leagă între ele valorile diferitelor elemente

Testarea
• date diferite de cele folosite pentru învăţare, dar aparţinând aceleiaşi
populaţii

Evaluarea
• fază de reajustare a modelului

Obţinerea de explicaţii privitoare la modul în care un element variază în


funcţie de valoarea altor elemente

20
Set de date preclasate şi distribuirea acestora, după colectare şi
pregătire, în trei seturi: de învăţare, de testare şi de evaluare
70-80% din date sunt alocate învăţării, restul rămânând pentru
testare sau fiind împărţit egal între aceasta şi evaluare.
Datele colectate

Date de test
Date de evaluare
Date de învăţare

Model utilizabil

Schema procesului de creare a modelelor de căutare a informaţiilor


21
F. Evaluarea modelului
• evaluarea are scopul de a stabili capacitatea
modelului de a determina corect valorile
pentru cazuri noi.
• in general, performanţele unui model se
apreciază cu ajutorul unei „matrice de
confuzie”, care compară situaţia reală cu
cea furnizată de acesta.
• calitatea globală se exprimă prin raportul
dintre numărul de predicţii exacte şi
numărul total de predicţii

22
G. Integrarea modelului
Această etapă finalizează procesul, prin includerea
modelului obţinut într-un SIAD sau într-un proces
decizional mai general din întreprindere.

Observaţii :
• orice model are o durată de viaţă limitată.
(modelele trebuie actualizate permanent, pentru a
putea urmările schimbările survenite în domeniul
la care se referă).
• rezolvarea unei probleme se obţine prin
combinarea mai multor tehnici.

23
1. Reţelele neuronale
2. Arborii de decizie
3. Algoritmii genetici
4. Analiza grupurilor
5. Raţionamentele bazate pe cazuri
6. Analiza legăturilor

24
1. Reţelele neuronale
• pot furniza soluţii, în special de natură predictivă,
pentru probleme de mare complexitate sau
volatilitate.
• cazuri tipice de utilizare cu succes a reţelelor
neuronale includ: stabilirea preţurilor pe piaţa
imobiliară, evoluţia cotaţiilor pe pieţele financiare,
analiza cererilor de creditare etc.
• O reţea neuronală dobândeşte capacitatea de a
rezolva un anumit tip de problemă în urma unui
proces de învăţare. Procesul de învăţare permite
reţelei să identifice automat un set de corelaţii
utilizate ulterior pentru a face predicţii.

25
2. Arborii de decizie

• tehnică aplicabilă atât pentru clasificare cât şi


pentru predicţie.
• rezultatul ia forma unei arborescenţe care prezintă
o ierarhie de reguli logice stabilite automat prin
explorarea unei baze de exemple.
• exemplele au forma unor înregistrări compuse din
mai multe atribute.
• regulile se obţin ca efect al subdivizării din ce în
ce mai detaliate a ansamblului exemplelor, în
funcţie de conţinutul atributelor.
Ex. Daca locuinta inchiriata si venit anual< 5.000 lei
Atunci probleme la rambursarea creditului
26
1. Algoritmii genetici

• aplică principalele mecanisme ale selecţiei


naturale pentru a favoriza conservarea şi
reproducerea, dintr-o populaţie numeroasă, a
celor mai performanţi, mai bine adaptaţi indivizi.
• populaţia este formată din ansamblul de soluţii
posibile ale unei probleme; cel mai adaptat
individ este prin urmare, cea mai bună soluţie.
• algoritmii genetici permit găsirea soluţiei optime
(efectuarea de predicţii sau clasificări).

27
1. Analiza grupurilor (clustering)
• permite identificarea automată a grupurilor existente
în ansamblul datelor analizate (poate fi aplicata în
căutarea nedirijată).
• grupurile rezultă automat în urma procesului de
prelucrare, fără a avea ca punct de pornire un anumit
criteriu sau proprietate.
• este o tehnică ce are capacitatea de a releva realmente
caracteristici ascunse – sub volumul şi diversitatea
detaliilor – într-un anumit set de înregistrări.
• detectarea automată de cluster-e este recomandabilă
ca tehnică de debut pentru un proiect de data mining.
Rezultatele furnizate de aceasta urmează a fi explorate
în continuare cu alte tehnici pentru a obţine informaţii
mai complete.

28
5. Raţionamente bazate pe cazuri

• raţionamentul bazat pe cazuri caută


răspunsurile la problemele noi în
experienţele acumulate în trecut.
• in faţa unei situaţii noi, vor fi căutate
cazurile asemănătoare cunoscute iar
concluziile acestora vor fi aplicate şi în
noua situaţie.
• metoda este aplicabilă atât pentru
clasificări cât şi pentru predicţii
29
1. Analiza legaturilor

• analiza asocierilor, denumită şi “analiza coşului


gospodinei” urmăreşte să găsească regulile care
descriu apariţia frecventă împreună a unor obiecte
eterogene.
• rezultatele generate primesc o formă explicită şi
simplă, care favorizează înţelegerea şi aplicarea
lor concretă.
• tehnica se poate aplica pentru căutarea nedirijată
de informaţii (poate fi aplicată oricăror tranzacţii
comerciale, putând servi pentru analiza vânzărilor
din supermarket-uri, analiza mişcărilor de fonduri
dintr-o bancă, analiza incidentelor de asigurare
etc.)
30

S-ar putea să vă placă și