Documente Academic
Documente Profesional
Documente Cultură
EXTRAGEREA CUNOŞTINŢELOR
DATA MINING
1
Data mining : un proces de extragere de
informaţii noi din colecţiile de date existente.
Principiul de funcţionare :
Prelucrarea datelor referitoare la perioadele trecute
pentru a evidenţia caracteristicile acestora
şi a permite elaborarea unui model.
2
Fundamentele explorării datelor. Premize:
3
O explorare dirijată de oportunităţi
4
Data mining
Evaluare rezultate
5
Verificarea ipotezelor şi căutarea cunoştinţelor
Data mining
dirijată nedirijată
6
Aplicarea tehnicilor de data mining poate fi
făcută din perspectiva unui demers
ascendent sau descendent.
În abordarea descendentă, efortul este
orientat spre confirmarea sau infirmarea
unor idei (ipoteze) formulate în prealabil
prin alte mijloace.
Abordarea ascendentă urmăreşte extragerea
de cunoştinţe sau informaţii noi din datele
disponibile. Căutarea poate fi dirijată sau
nedirijată
7
• Căutarea dirijată ia în considerare un
atribut sau un câmp, ale cărui valori
încearcă să le explice prin celelalte câmpuri.
Este cea mai folosită în practică.
• Căutarea nedirijată are ca scop
identificarea relaţiilor sau structurilor
existente în ansamblul datelor examinate,
fără a acorda prioritate unui câmp sau altul.
Deşi mai spectaculoasă, în practică se
recurge mult mai puţin la ea decât la
căutarea dirijată.
8
Tehnici şi acţiuni
Explorarea datelor în vederea obţinerii de
informaţii recurge la diverse tehnici, printre cele
mai folosite aflându-se:
• reţelele neuronale
• arborii de decizie
• algoritmii genetici
• analiza grupurilor
• raţionamentele bazate pe cazuri
• analiza legăturilor
La acestea se pot asocia şi tehnici statistice, cum
sunt, spre exemplu, regresiile, analiza factorială
etc.
9
Acţiuni Data mining:
1. Clasificarea
2. Estimarea
3. Predicţia
4. Gruparea
5. Analiza grupărilor
10
1. Clasificarea urmăreşte să plaseze obiectele
prelucrate într-un grup limitat de clase predefinite.
Dintre tehnicile de data mining, cele mai adecvate
clasificării sunt arborii de decizie şi raţionamentul
bazat pe cazuri.
11
3. Predicţia urmăreşte să claseze înregistrările tratate
în funcţie de un comportament sau o valoare
estimată viitoare.
• o colecţie de exemple, bazate pe date din trecut, în
care valorile variabilei de previzionat sunt deja
cunoscute.
• se construieşte un model care să explice
comportamentul observat. Aplicând acest model
asupra înregistrărilor de prelucrat, se obţine o
predicţie a comportamentului sau valorilor
acestora în viitor.
Tehnicile de clasificare sau estimare pot fi folosite şi
pentru predicţii
12
4. Gruparea urmăreşte să determine care sunt
obiectele care apar cel mai frecvent împreună.
Exemplul tipic pentru acest gen de acţiune este
determinarea mărfurilor care se cumpără uzual
împreună, de unde şi denumirea de “analiză a
coşului gospodinei”.
13
Etapele procesului de explorare a datelor
Condiţii necesare
• Existenţa programelor pentru implementarea
algoritmilor specifici tehnicilor de data mining
• Pregătire prealabilă a datelor, de curăţare şi
uniformizare.
• Rezultatele trebuie analizate şi interpretate pentru
a identifica informaţiile pertinente pe care le
conţin.
• Selectia tehnicilor adecvate naturii problemei
vizate
14
ETAPE:
A. Definirea problemei
B. Identificarea surselor de date
C. Colectarea şi selectarea datelor
D. Pregătirea datelor
E. Construirea modelului
F. Evaluarea modelului
G. Integrarea modelului
15
A. Definirea problemei
• declanşarea procesului este determinată de
sesizarea unei oportunităţi sau necesităţi de
afaceri.
• În cadrul acesteia, este nevoie să se
delimiteze exact ce urmează a fi rezolvat
prin data mining, care sunt obiectivele
urmărite şi rezultatele aşteptate.
16
B. Identificarea surselor de date
• stabilirea structurii generale a datelor necesare
• regulile de constituire a datelor
• localizarea surselor acestora.
-date dispersate în diverse sisteme informatice
operaţionale
- stocate în formate diferite
- administrate cu produse software diferite
- uneori disponibile numai pe hârtie.
• eventualele incoerenţe sau probleme de definire,
care pot compromite rezultatele analizelor
următoare.
17
C. Colectarea şi selecţia datelor
Această etapă urmăreşte extragerea şi plasarea
într-o bază comună a tuturor datelor ce
urmează a fi folosite .
Problema : alegerea între
• prelucrarea întregului fond de date
disponibil
• un eşantion reprezentativ
18
D. Pregătirea datelor
Transformări comune care vizează:
• valorile extreme sau aberante
• valorile lipsă
• valorile de tip text
• rezumarea
• codificarea incoerentă
• arhitecturile informatice incompatibile
19
E. Construirea modelului
Învăţarea
• un ansamblu de exemple complete
• identificarea relaţiilor care leagă între ele valorile diferitelor elemente
Testarea
• date diferite de cele folosite pentru învăţare, dar aparţinând aceleiaşi
populaţii
Evaluarea
• fază de reajustare a modelului
20
Set de date preclasate şi distribuirea acestora, după colectare şi
pregătire, în trei seturi: de învăţare, de testare şi de evaluare
70-80% din date sunt alocate învăţării, restul rămânând pentru
testare sau fiind împărţit egal între aceasta şi evaluare.
Datele colectate
Date de test
Date de evaluare
Date de învăţare
Model utilizabil
22
G. Integrarea modelului
Această etapă finalizează procesul, prin includerea
modelului obţinut într-un SIAD sau într-un proces
decizional mai general din întreprindere.
Observaţii :
• orice model are o durată de viaţă limitată.
(modelele trebuie actualizate permanent, pentru a
putea urmările schimbările survenite în domeniul
la care se referă).
• rezolvarea unei probleme se obţine prin
combinarea mai multor tehnici.
23
1. Reţelele neuronale
2. Arborii de decizie
3. Algoritmii genetici
4. Analiza grupurilor
5. Raţionamentele bazate pe cazuri
6. Analiza legăturilor
24
1. Reţelele neuronale
• pot furniza soluţii, în special de natură predictivă,
pentru probleme de mare complexitate sau
volatilitate.
• cazuri tipice de utilizare cu succes a reţelelor
neuronale includ: stabilirea preţurilor pe piaţa
imobiliară, evoluţia cotaţiilor pe pieţele financiare,
analiza cererilor de creditare etc.
• O reţea neuronală dobândeşte capacitatea de a
rezolva un anumit tip de problemă în urma unui
proces de învăţare. Procesul de învăţare permite
reţelei să identifice automat un set de corelaţii
utilizate ulterior pentru a face predicţii.
25
2. Arborii de decizie
27
1. Analiza grupurilor (clustering)
• permite identificarea automată a grupurilor existente
în ansamblul datelor analizate (poate fi aplicata în
căutarea nedirijată).
• grupurile rezultă automat în urma procesului de
prelucrare, fără a avea ca punct de pornire un anumit
criteriu sau proprietate.
• este o tehnică ce are capacitatea de a releva realmente
caracteristici ascunse – sub volumul şi diversitatea
detaliilor – într-un anumit set de înregistrări.
• detectarea automată de cluster-e este recomandabilă
ca tehnică de debut pentru un proiect de data mining.
Rezultatele furnizate de aceasta urmează a fi explorate
în continuare cu alte tehnici pentru a obţine informaţii
mai complete.
28
5. Raţionamente bazate pe cazuri