Documente Academic
Documente Profesional
Documente Cultură
Data Mining, în traducere liberă, înseamnă minerit în date. În literatura de specialitate poate fi
întâlnit şi sub forma unor formulări echivalente: knowledge extraction, information discovery,
data archeology , data pattern processing, information harvesting etc.
Data mining este doar un pas al unui proces laborios de descoperire a cunoştinţelor din date.
Modelele rezultate din derularea acestui proces se numesc modele KDP (Knowledge Discovery
Process). Un model KDP se defineşte ca un proces de identificare a paternurilor (tiparelor)
valide, noi şi potenţial utile şi pline de înţeles din date. Scopul realizării unui astfel de model
este de a se defini proceduri care să ghideze utilizatorul tehnicilor de data mining în activitatea
de de extragere a cunoştinţelor din date.
modele academice
modele industriale.
Modele academice apar la sfârşitul secolului trecut. Modelul elaborat în 1996 de Fayyad şi
colaboratorii săi este un model care are 9 paşi şi este, alături de modelul alcătuit din 8 paşi de
către Annand şi Buchner în 1998, printre primele realizări în acest domeniu.
Dintre modelele KDP industriale amintim modelulul alcătuit din 5 paşi elaborat de Cabena şi
colaboratorii săi şi modelul CRISP-DM pe 6 paşi dezvoltat de un consorţiu european de
companii. Numele modelului este abrevierea pentru CRoss-Industry Standard Process for Data
Mining, iar consorţiu cuprindea următoarele firme:
Integral Solution LTD , furnizor de servicii de Data Mining
NCR, furnizor de baze de date
Daymler Chrysler, producător de automobile
OHRA, companie de asigurări
definirea problemei,
precizarea persoanele de bază implicate,
analiza soluţiile curente ale problemei,
înţelegerea şi învăţarea terminologiei specifice domeniului problemei
descrierea problemei şi a restricţiilor sale
orientarea iniţială spre alegerea unui algoritm de data mining (DM) adecvat, de
rezolvare a problemei.
Pasul 3, Pregătirea datelor are în vedere precizarea operaţiilor care trebuie să fie făcute
asupra datelor colectate, astfel încât să poată fi utilizate ca date de intrare pentru pasul
următor, adică, pentru Data Mining. La acest pas pot fi enumerate operaţii cum ar fi:
selecţia datelor, execuţia unor teste statistice prin care să se verifice, de exemplu, gradul de
corelaţie al valorilor unor variabile, corectarea erorilor, completarea unor valori lipsă etc.
După aceste operaţii prin care se obţin “date curate” , dacă este cazul, se pot aplica metode
pentru reducerea dimensionalităţii datelor sau pentru derivarea altor atribute (de exemplu
prin discretizare).
Pasul 4. Utilizarea unui algoritm de Data Mining adecvat (poate fi cel ales iniţial sau altul)
pentru extragera cunoştinţelor din date
Pasul 5. Evaluarea cunoştinţelor descoperite, este pasul prin care sunt validate sau respinse
rezultatele obţinute. Aceste rezultate sunt evaluate din diverse perspective, cum ar fi:
gradul de îndeplinire al indicatorilor de validare ai modelului, noutatea, impactul şi
relevanţa acestor rezultate pentru domeniul din care provine problema etc. Dacă modelul
nu îndeplineşte standardele cerute, atunci se încearcă îmbunătăţirea rezultatelor prin
reluarea procesului de la început, după ce au fost făcute corecţiile care ar putea conduce la
variante mai bune.
Observaţii. Obţinerea unui model KDP bun nu este rezultatul aplicării mecanice a unei
scheme de lucru. În figura de mai jos este ilustrat prin săgeţi faptul că, ori de câte ori este
nevoie, data-minerul (persoana care utilizează tehnicile de data mining) poate oricând să
reia paşii anterori dacă rezultatele parţiale nu corespud standardelor de calitate impuse.
Înţelegerea domeniului
problemei
DATE DE INTRARE(BAZE DE
INTELEGEREA DATELOR DATE,IMAGINI,IMAGINI
<-------------------------VIDEO,DATE
----------------------------
SEMISTRUCTURATE,ETC)
PREGATIREA DATELOR
DATA MINING
CUNOSTINTE
EVALUAREA
(TIPARE,REGULI,ASOCIERI,
CUNOSTINTELOR
----------------------- CLASIFICARI,ETC)
-----------------------------
DESCOPERITE
EXTINDEREA
UTILIZAREA CUNOSTINTELOR
CUNOSTINTELOR LA ALTE
DESCOPERITE ----------------------- ---- ----------->
DOMENII
FORMA STANDARD DE PREZENTARE A DATELOR ÎN DATA MINING
Concluzii
Există două categorii mari de modele KDP: modele academice şi modele industriale
Modelele KDP sunt alcătuite din mai mulţi paşi, care pregătesc sau valorifică
rezultatele obţinute la pasul de Data Mining
Forma de organizare a datelor de antrenament trebuie să fie corespunzătoare
tipulului de metodă utilizată (învăţare supervizată sau nesupervizată)