Documente Academic
Documente Profesional
Documente Cultură
1. Introducere
1.1. Definirea domeniului Data Mining
n ultimii ani a continuat creterea dimensiunii bazelor de date (curent
acestea ajung la o mrime de terabytes 1,000,000,000,000 bytes de
date). In interiorul acestei mase de date, pot apare informaii importante
care nu sunt detectabile la o analiza obinuita. Cu alte cuvinte Exista Riscul
de a nu vedea pdurea din cauza copacilor Domeniul a demarat in 1989 si
a cunoscut un impuls puternic ncepnd cu 1995.
Exemple
Interferometrul European are 16 telescoape, fiecare dintre acestea
produce
1 Gigabit/secund de date astronomice intr-o sesiune de 25- zile
de observaie, ceea ce creeaz mari probleme de stocare si analiza ;
DATA MINING
SISTEME DE DESCOPERIRE A CUNOTINELOR
INTRODUCERE
Denumirea de Data Mining (minarea de date, sau extragerea de date)
sau Descoperirea de cunotine din baze de date (Knowledge Discovery in
Data KDD), a fost adoptat pentru domeniul de cercetare avnd ca scop
descoperirea de informaii sau cunotine din date coninute n una sau mai
multe structuri de date (tabele de date).
Sistemul de descoperire a cunotinelor (Knowledge Discovery systems) care
e capabil s opereze pe o baz de date de dimensiune mare, este numit
sistem de descoperire a cunotinelor din baze de date (knowledge discovery
in database systems - KDD).
KDD a fost conceput n 1989 pentru a desemna o zon de cercetare
bazat pe
metode de Data Mining, recunoaterea formelor, nvare
automat i tehnici de baze de date n contextul bazelor de date de
dimensiuni mari. Prima conferin internaional pe Knowledge Discovery i
Data Mining a avut loc n 1995 (KDD95).
KDD/Data Mining este un domeniu interdisciplinar care dezvolt
algoritmi i procese pentru descoperirea cunotinelor (categorii, tipare,
concepte, relaii i tendine), construind modele i fcnd preziceri din date
structurate, semi-structurate sau nestructurate. De asemenea extrage
informaii de interes sau tipare din baze de date mari. Acest proces a fost
formalizat de un grup industrial numit CRISP-DM, ( CRoss Industry Standard
Process for Data Mining).
Definiii Data Mining / KDD
Activitatea de extragere a informaiei a crui scop este acela de a
descoperi aspecte necunoscute din bazele de date;
Procesul de analiza a unor cantiti mari de date in scopul determinrii de
relaii care apar intre elementele prezente in bazele de date si a
determinrii de machete (potenial utile) care pot caracteriza global
bazele de date. (din Advances in Knowledge Discovery and Data Mining,
Fayyad, Piatetsky-Shapiro, Smyth, and Uthurusamy, (Chapter 1),
AAAI/MIT Press 1996.
In CONCLUZIE Data Mining este un proces care utilizeaz o varietate de
unelte de analiz a datelor pentru a descoperi machete (patterns) si relaii n
date, care pot fi utilizate pentru predicii valide. In ultim instan,
machetele si relaiile care se determin vor defini un model al datelor in
cauz. Grafic acest proces apare in figura de mai jos:
DATA MINING
SISTEME DE DESCOPERIRE A CUNOTINELOR
INTRODUCERE
Date
Data
Mining
Cunostinte
DATA MINING
SISTEME DE DESCOPERIRE A CUNOTINELOR
INTRODUCERE
Web: maini de cutare
Guvernamental
combaterea terorismului, legislaie, combaterea evaziuni fiscale
Data mining si legtura cu alte domenii
Este ilustrata in figura 1.1-1. domeniul data mining aprnd la
intersecia a trei mari domenii : machine learning, statistica si baze de date.
Interfaa cu aceste domenii presupune utilizarea de tehnici specifice, care
aparin domeniilor in cauza si care sunt particularizate pentru analiza
masivelor mari de date.
DATA MINING
SISTEME DE DESCOPERIRE A CUNOTINELOR
INTRODUCERE
Date surs
Integrarea
Date
Integrate
Date
relevante
activitii
Selecia
Minarea
Tipare
Evaluarea
DATA MINING
SISTEME DE DESCOPERIRE A CUNOTINELOR
INTRODUCERE
Minarea datelor, etapa const n alegerea algoritmilor de Data
Mining i gsirea tiparelor de interes.
Evaluarea tiparelor i prezentarea cunotinelor, etap ce const
n vizualizarea, transformarea i eliminarea tiparelor redundante
precum i utilizarea cunotinelor descoperite.
DATA MINING
SISTEME DE DESCOPERIRE A CUNOTINELOR
INTRODUCERE
reducerea setului de date de test i reducerea corespunztoare a spaiului de
date ce urmeaz a fi supus prelucrrii in cadrul tehnicilor de data mining.
Aceast faz implic de obicei multe interaciuni cu utilizatorul prin browsere
i unelte de vizualizare a datelor.
Analiza datelor, este faza in care se aplica funcie de natura datelor
care urmeaz a fi prelucrate (categorice, nominale sau mixte) diverse tehnici
specifice statisticii matematice sau AI. In urma acestei prelucrri se obine
un ablon (model) al datelor analizate.
1.4. Tipuri de cunotine descoperite
Tipul de cunotine care este descoperit din baza de date i forma sa
de reprezentare variaz mult, depinznd att de zona de aplicaie ct i de
tipul bazei de date.
Cunotinele nvate din seturi de date mari pot lua mai multe forme
incluznd cunotine de clasificare, reguli caracteristice, reguli de asociere,
relaii funcionale, dependine funcionale i reguli cauzale. n tabelul
Tabel1.4-1 sunt indicate tipurile de cunotine care sunt suportate explicit de
ctre o selecie de unelte de Data Mining curente. Scopul acestei vederi de
ansamblu este de a demonstra marea diversitate a uneltelor de DM i nu
aceea de a forma o baz a unor comparri sau evaluri a uneltelor.
Grupare
Temporale
Reguli
cauzale
X
X
Dependine
funcionale
X
X
X
Relaii
funcionale
Reguli de
caracteriza
re
Clasificare
Clementine
DBMiner(Han, i al. 1996)
Emerald
Explora(Klsgen 1995)
Mine Rule (Meo, Psaila and
Ceri 1996)
MineSet 1.1
Posch (Long, Irani and
Slagle 1991)
Quest (Agrawal, et al.
1996)
RX Project (Blum 1982)
Savnik & Flach (Savnik
and Flach 1993)
Reguli de
asociere
Sisteme
X
X
X
X
X
X
X
X
X
X
DATA MINING
SISTEME DE DESCOPERIRE A CUNOTINELOR
INTRODUCERE
1.4.1. Cunotine de clasificare
Cunotinele de clasificare pot fi folosite pentru a categorisi noi
exemple n clase pe baza unor proprieti cunoscute.
DATA MINING
SISTEME DE DESCOPERIRE A CUNOTINELOR
INTRODUCERE
DATA MINING
SISTEME DE DESCOPERIRE A CUNOTINELOR
INTRODUCERE
1.4.2. Reguli de caracterizare
O regul de caracterizare poate fi definit :
O afirmaie care caracterizeaz conceptul satisfcut de toate datele
relevante din baza de date.
Regulile de caracterizare sunt reguli eseniale care descriu
caracteristicile unui concept, printr-o abstractizare bazat pe datele din baza
de date. Regulile de caracterizare nu fac referire explicit la relaiile dintre
entiti sau la uneltele de clasificare a lor. Cunotinele caracteristice sunt
utile pentru a oferi o descriere abstract sau sumar a datelor, care poate fi
folosit la aplicaii cum ar fi optimizarea interogrilor, asigurarea integritii
sau la descoperirea automat a dependinelor.
De exemplu atributele care caracterizeaz un element din setul de
date aparin unor domenii a cror dimensiune se cunoate (domeniile
caracterizeaz setul in cauza).
1.4.3. Reguli de asociere
Descoperirea de reguli de asociere n baze de date de dimensiuni mari
a fost descris prima dat de Agrawal (1993). Motivaia iniial pentru
regulile de asociere a fost s ajute n analiza bazelor de date cu tranzacii
mari, ca de exemplu acele existente n supermarketuri. Descoperirea de
asocieri ntre cumprarea de articole de linie divers poate fi un potenial
ajutor pentru luarea unei decizii de ctre organizaiile de comer cu
amnuntul. Bazele de date de tranzacii sunt de aceea inta principal pentru
descoperirea regulilor de asociere.
De exemplu, ntr-o baz de date care conine detalii de vnzri despre
produse utiliznd regulile de asociere permitem utilizatorului s obin
cunotine cum ar fi:
Gsete toate regulile care au Diet Lemonade ca i consecin.
Astfel de cunotine dau posibilitatea analitilor de vnzri s gseasc
factori care afecteaz vnzarea de Diet Lemonade. n schimb nvarea
cererilor cu privire la condiie poate fi pus astfel:
Gsete toate regulile care au Fish ca i condiie.
Cereri de exemplul acesteia, care implic gsirea regulilor care au
anumit atribut n condiie pot s ajute analitii n determinarea modului n
care un articol special poate fi asociat cu cumprarea de alte articole sau mai
general, indic cercettorilor corelrile posibile care pot fi valoroase n
viitoarele investigaii. Acest exemplu simplu, poate semnala care decizie
oprete vnzrile de Fish.
10
DATA MINING
SISTEME DE DESCOPERIRE A CUNOTINELOR
INTRODUCERE
1.4.4. Relaii funcionale
Relaiile funcionale ntre date descriu valoarea uneia sau mai multor
atribute n funcie de alte atribute. De exemplu, un atribut y poate fi descris
n funcie de alte dou atribute x i z, astfel: y = 2 x * 7 z . Astfel de relaii
sunt importante n domeniul tiinific unde relaiile funcionale dintre dou
atribute ale datelor pot s reflecte relaii din domeniu.
Cu toate acestea, dei ele pot fi presupuse ca o relaie existent ntre
un set de date, relaia exact poate fi necunoscut. Deoarece setul de date
din ntrebare poate fi foarte mare i complex, extracia manual a relaiilor
din date poate fi impracticabil. De aceea descoperirea automat de relaii
funcionale, utiliznd tehnicile inteligenei artificiale (AI) este un domeniu de
aplicaie folositor.
1.4.5. Dependine funcionale
Dependinele funcionale descriu relaiile care apar intre tranzaciile dintr-o
baza de date, relaii care pot fi utilizate pentru a caracteriza respectiva baza
de date.
Un exemplu de dependin funcional poate fi:
Cod_curs Nume_curs
Adic dac noi tim codul unui curs, atunci noi putem s-i determinm
numele acelui curs. Implicarea acesteia ntr-o baz de date relaional este
c noi avem nevoie s depozitm numai odat fiecare Nume_curs cu
corespondena sa Cod_curs. Datorit acestei proprieti, dependinele
funcionale sunt utilizate la proiectarea structurii bazei de date relaionale,
ajutnd la eliminarea datelor redundante.
1.4.6. Reguli cauzale
Regulile cauzale descriu relaii unde schimbri efectuate ntr-o parte a
realitii modelate provoac schimbri ulterioare n alte pri ale domeniului.
Blum a dat urmtoarea definiie operaional a cauzalitii:
A se spune c provoac B dac dup observaii repetate
(1) A n general precede B,
(2) intensitatea lui A este corelat cu intensitatea lui B i
(3) nu exist o a treia variabil C cunoscut, responsabil pentru
corelare.
Descoperirea de relaii cauzale este important n multe domenii de
investigare tiinific, n special n medicin. Cutarea de reguli cauzale
n baze de date ofer de asemenea oportuniti de descoperirea unor
cunotine folositoare n nelegerea operrii organizaiilor. Lucrrile lui
Roddick i alii, au de asemenea relevan n relaiile cauzale,
11
DATA MINING
SISTEME DE DESCOPERIRE A CUNOTINELOR
INTRODUCERE
deoarece dependenele temporale pot fi rezultatul unor relaii cauzale.
Cu toate acestea, dependenele temporale nu implic relaii cauzale.
Relaiile cauzale n mod tipic cer dovezi statistice semnificative, din
aceast cauz, odat detectate prin descoperire de cunotine, pot necesita
investigaii adiionale. Cu toate acestea, uneltele KDD sunt folositoare n
primul rnd pentru descoperirea unor posibile relaii cauzale.
1.4.7. Cunotine temporale
O caracteristic principal a KDD i Data Mining este prezena unui
domeniu dinamic unde datele sunt actualizate ntr-un mod regulat. Astfel,
este adesea folositor examinarea modului n care datele i cunotinele
derivate din acestea se schimb de-a lungul timpului. Pot aprea, tendine,
cicluri i tipare iar detectarea lor poate fi folositoare n analiza datelor
istorice i prezicerea comportrii viitoare. De menionat este c aceste tipare
pot exista att n cunotinele descoperite ct i n datele pe care se
bazeaz. Pe cnd cunotinele temporale pot descrie un domeniu larg de
tipuri diferite de reguli derivate din diferite tipuri de date, componenta
comun este considerarea dimensiunii temporale i influena sa asupra
comportrii entitilor din cadrul domeniului modelat. O form comun de
cunotine temporale este existena schimbrilor n seturile de reguli
derivate de-a lungul timpului. Detecia de tipare din cadrul seriilor de date
temporale a atras o atenie semnificativ. Tipurile de date considerate sunt
de obicei numerice, continue i folosesc algoritmi compleci pentru a detecta
tipare n cadrul acestor serii. Aa cum a fost observat de Keogh i Smyth
cele mai multe abordri pentru rezolvarea acestor tipuri de probleme
necesit trei componente fundamentale:
(1) o tehnic pentru reprezentarea unor obiecte abstracte
(2) o msur de distan pentru compararea a dou secvene i
(3) un mecanism pentru gsirea unor secvene potrivite n cadrul
unor baze de date de serii temporale mari.
1.4.8. Gruparea cunotinelor
Gruparea este o form de nvare nesupervizat care partiioneaz
observaiile n clase sau grupuri (colecii numite grupri) (Fisher 1995).
Datorit modului de nvare nesupervizat gruparea este aplicabil n
aplicaii unde utilizatorul are cunotine de domeniu limitate. Un exemplu de
aplicaie este gruparea rezultatelor cutrii pe WEB.
Pe lng o strategie de control corespunztoare i o funcie obiectiv
este nevoie s se gseasc metode pentru determinarea numrului optim de
grupri ntre date. Obiectivele pot fi unite cu tehnica de clasificare a celor
mai apropiai vecini, gsind un punct de oprire pentru acest proces, crend
astfel o tehnic care poate estima numrul optimal de grupri ale datelor.
Smyth introduce o nou tehnic bazat pe validarea ncruciat Monte Carlo
pentru determinarea numrului optim de grupri (Smyth 1996)
12