Sunteți pe pagina 1din 29

Data Mining

un proces de extragere de informaii noi din coleciile de


date existente.
dat - descriere a unui eveniment precis, produs n lumea
real i verificabil prin raportare la aceasta.
informaia (cunoaterea transmis)-descrierea unei
categorii abstracte, ce acoper mai multe evenimente sau
exemple concrete
reorientare semnificativ n utilizarea volumelor de date
stocate, de la un proces de explorare retrospectiv spre
unul cu caracter prospectiv.

Data Mining
Utilizeaza metode statistice, matematice si
tehnologii IA pentru a identifica si a extrage
informatii utile si cunostinte din colectii de
date (reguli, corelatii, trenduri, predictii)
Termenul DM KDD acopera astazi toate
tipurile de analiza automata a datelor

Data Mining
Premise
existena coleciilor de date istorice memorate pe
suporturi informatice
maturizarea algoritmilor i a produselor program
dedicate
creterea capacitii de memorare i prelucrare a
calculatoarelor, care permite tratarea n corelaie a
volumelor foarte mari de date.

Data Mining
Reducerea costurilor de stocare si procesare a datelor
Competitia
Tendinta de demasificare a practicilor de afaceri
Consolidarea inregistrarilor in bazele de date ( o
singura perspectiva pentru utilizator) si a bazelor de
date (depozite de informatii)

Data Mining
Datele analizate sunt stocate intr-un depozit de
date
Mediul DM este de regula o arhitectura clientserver sau bazata pe Web
Presupune utilizarea unor instrumente si tehnici
sofisticate inclusiv de vizualizare si prezentare a
informatiilor

Data Mining
Analiza datelor este realizata direct de
utilizatorul final decidentul
Instrumentele DM sunt de obicei corelate cu
alte instrumente soft pentru a permite o
analiza rapida a informatiilor obtinute
Procesare paralela

Data Mining
Principiul de funcionare :
se prelucreaz datele referitoare la perioadele trecute,
examinnd o varietate de situaii care s-au produs i ale
cror rezultate sau consecine cunoscute
se evideniaza caracteristicile acestora,
se elaboreaza un model, care poate fi aplicat
situaiilor noi de acelai tip.
Informaiile obinute prin data mining sunt
de natur predictiv descoperirea de comportamente viitoare
de narur descriptiv caracterizarea generala a datelor
(comportamente individuale)

Data Mining
ciclu n utilizarea data mining
identificarea oportunitii comerciale i a datelor pe care
se poate baza explorarea
extragerea de informaii din coleciile de date existente
prin tehnici adecvate de data mining
adoptarea de decizii i ntreprinderea de aciuni pe baza
informaiilor obinute
msurarea rezultatelor concrete pentru a identifica i alte
modaliti de exploatare a datelor disponibile

Data mining

Oportunitate de afaceri

Decizie i aciune

Evaluare rezultate

Data Mining
Aplicarea tehnicilor de data mining :
Abordarea descendent

: efortul este orientat spre

confirmarea sau infirmarea unor idei (ipoteze) formulate n


prealabil prin alte mijloace. Un demers asemntor se aplic n
statistic i n analiza datelor, dar folosind alte tehnici i metode

Abordarea ascendent

: se urmrete extragerea de

cunotine sau informaii noi din datele disponibile

Data Mining
Data mining

verificarea ipotezelor

cutarea de cunotine

dirijat

nedirijat

Cutarea dirijat ia n considerare un atribut sau un cmp, ale


crui valori ncearc s le explice prin celelalte cmpuri.
Cutarea nedirijat are ca scop identificarea relaiilor sau
structurilor existente n ansamblul datelor examinate, fr a
acorda prioritate unui cmp sau altul.

Data Mining -Tehnici i aciuni


Explorarea datelor n vederea obinerii de informaii recurge la
diverse tehnici:

reelele neuronale
arborii de decizie
algoritmii genetici
analiza grupurilor
raionamentele bazate pe cazuri
analiza legturilor
tehnici statistice- regresiile, analiza factorial etc

Data Mining -Tehnici i aciuni


Metode utilizate in DM:
Metode simple (SQL, OLAP, judecata
umana)
Metode intermediare (regresie, arbori de
decizie, clustering)
Metode complexe (retele neuronale,
inductie atomata)

Data Mining -Tehnici i aciuni


Clasificarea - plasarea obiectelor prelucrate ntr-un grup
limitat de clase predefinite. Obiectele clasificate sunt
reprezentate, n general, sub form de nregistrri, compuse din
atribute sau cmpuri.
Tehnici:arborii de decizie, raionamentul bazat pe cazuri,
retele neuronale.

Estimarea - atribuirea unei valori unei variabile, pe baza


celorlalte date de intrare. Rezultatele obinute prin estimare sunt
valori continue.
Tehnici : Reelele neuronale

Data Mining -Tehnici i aciuni


Predicia urmrete s claseze nregistrrile tratate n funcie de
un comportament sau o valoare estimat viitoare.
n acest scop, se recurge la o colecie de exemple, bazate pe date din
trecut, n care valorile variabilei de previzionat sunt deja cunoscute.
Cu ajutorul acestora se construiete un model care s explice
comportamentul observat. Aplicnd acest model asupra nregistrrilor
de prelucrat, se obine o predicie a comportamentului sau valorilor
acestora n viitor.
Tehnici: arborii de decizie
raionamentul bazat pe cazuri
reelele neuronale

Data Mining -Tehnici i aciuni


Gruparea urmrete s determine care sunt obiectele care apar
cel mai frecvent mpreun.

Analiza grupurilor urmrete s divid o populaie eterogen


n grupuri mai omogene, numite cluster.
Spre deosebire de celelalte tipuri de aciuni asemntoare, aici nu
exist un set predeterminat de clase ca n cazul clasificrii i nici
exemple trecute. Segmentarea se face n exclusivitate pe baza
similitudinilor sesizate ntre obiecte

Data mining utilizare


Finante
Comert
Medicina

DM mituri si realitati
DM ofera instantaneu
predictii
DM nu este deocamdata
viabil pentru afaceri
Doar profesionistii pot
utiliza DM
DM necesita un DD
separat
Doar pentru firme mari,
care dispun de foarte
multe date

DM este un proces
iterativ, proiectat si utilizat
proactiv
DM este aplicabil in orice
domeniu
Toti decidentii pot utiliza
DM
Nu este necesar un DD
separat
Orice companie poate
utiliza DM, indiferent de
marimea sa

Etapele procesului de explorare a


datelor
Definirea problemei
declanarea procesului este determinat de sesizarea unei
oportuniti sau necesiti de afaceri.
ce urmeaz a fi rezolvat prin data mining
obiectivele urmrite
rezultatele ateptate.
Problema de rezolvat prin data mining contribuie, ca parte component,
la valorificarea oportunitii sesizate de ntreprindere, dar nu se identific
cu ea. n plus, trebuie s primeasc o form n care s poat fi tratat prin
aceste tehnici

Etapele procesului de explorare a


datelor
Identificarea surselor de date
stabilirea structurii generale a datelor necesare rezolvrii sale i a
regulilor de constituire a acestora.
localizarea surselor acestora.
examinarea coninutului fiecreia dintre surse, pentru o
familiarizare cu coninutul su i pentru identificarea, ct mai
precoce, a eventualelor incoerene sau probleme de definire, care pot
compromite rezultatele analizelor urmtoare

Etapele procesului de explorare a


datelor
Colectarea i selecia datelor
extragerea i plasarea ntr-o baz comun a tuturor datelor
ce urmeaz a fi folosite.
- prelucrarea ntregului fond de date disponibil
- prelucrarea unui eantion.

Etapele procesului de explorare a


datelor
Pregtirea datelor - transformri comune care vizeaz:
valorile extreme sau aberante
- ncadrarea ntre limitele cuprinse ntre medie i un anumit
numr de abateri standard prin excludere sau plafonare
- izolarea vrfurilor

valorile lips
- eliminarea nregistrrilor avnd cmpuri cu valori nule
- completarea datelor omise cu valori medii, cu valoarea cea
mai frecvent sau cu valori calculate dup alte relaii

valorile de tip text


-codificarea prin tabele de corespondene, n care s figureze
toate irurile valide de caractere.

Etapele procesului de explorare a


datelor
rezumarea
-detaliile coninute n date sunt nesemnificative pentru
rezolvarea problemei abordate,
-numrul de exemple analitice este insuficient
-datele sunt prea numeroase

codificarea incoerent
- obiecte identice sunt reprezentate diferit n unele dintre
sursele folosite

arhitecturile informatice incompatibile


- diferenele n modul de reprezentare intern a
valorilor ( date create cu sisteme din generaii diferite).

Etapele procesului de explorare a


datelor
Construirea modelului - crearea modelului informatic
care va efectua explorarea propriu-zis
Datele colectate
Date de test
Date de nvare

Date de evaluare

Model utilizabil

Etapele procesului de explorare a


datelor
Evaluarea modelului

: stabilirea capacitii

modelului de a determina corect valorile pentru


cazuri noi.
Performanele unui model se apreciaz cu ajutorul
unei matrice de confuzie, care compar situaia
real cu cea furnizat de acesta. Calitatea global se
exprim prin raportul dintre numrul de predicii
exacte i numrul total de predicii

Etapele procesului de explorare a


datelor
Integrarea modelului -

includerea modelului obinut


ntr-un SIAD, sau integrarea sa ntr-un proces decizional
mai general din ntreprindere.
Orice model are o durat de via limitat; modelele trebuie
actualizate permanent, pentru a putea urmrile schimbrile
survenite n domeniul la care se refer.
Rezolvarea unei probleme se obine prin combinarea mai
multor tehnici..

Integrarea DM in aplicatiile tip


SIAD
Procesul DM situat deasupra DD
Procesul DM situat in afara DD server
dedicat DM
Procesul DM integrat cu DD

Produse program pentru Data


Mining
aplicaii adiionale sau ncorporate n produse mai
mari, cel mai frecvent n SGBD sau de data
wharehouse i OLAP
- SQL Server 2008 care ncorporeaz algoritmi de clustering i de
arbori de decizie, ce pot fi aplicai att asupra bazelor de date
relaionale ct i a surselor de date OLAP.

Produse program pentru Data


Mining
sisteme complexe (suite), care integreaz mai multe
tehnici i algoritmi diferii
IBM Intelligent Miner for Data, care acoper ntregul proces de
data mining, oferind nu numai algoritmi de explorare a datelor ci i
instrumente de pregtire i interpretare a rezultatelor
Clementine, produs de SPSS
Alice, produs de firma Isoft, cu faciliti pentru tratarea datelor
provenind de pe Web
Predictive Dynamix, care integreaz reele neuronale, algoritmi
genetici, algoritmi de clustering i instrumente de vizualizare