Sunteți pe pagina 1din 4

Data mining

Extragerea de cunotine din date, n englez: data mining (n traducere liber:


minerit din date), este un proces de analiz a unor cantiti mari de date i de extragere
a informaiilor relevante din acestea folosind metode matematice i statistice.
Termenul este utilizat de obicei de ctre organizaiile ce se ocup cu prelucrarea
informaiilor despre companii i de ctre analitii financiari, dar este folosit din ce n ce mai
mult i n domeniul tiinific pentru extragerea informaiilor din volumuri mari de date,
generate de exemplu de experimente moderne.
Data mining a fost descris ca "extragerea netrivial a informaiilor implicite, anterior
necunoscute i potenial utile din date", precum i ca "tiina extragerii informaiilor utile din
volume de date mari sau din baze de date".
Data mining, referitor la planificarea resurselor economice, este analiza statistic i
logic a unor mari volume de date despre tranzacii, n cutarea unor abloane care pot ajuta
procesul de luare a deciziilor.
Existenta unor volume imense de date a pus problema reorientarii utilizarii lor de la un
proces de exploatare retrospectiv catre unul prospectiv. Data Mining poate avea mai multe
definitii, insa toate converg in esenta catre miezul problemei, si anume ca acest concept
reprezinta un proces de extragere de informatii noi din colectiile de date existente.
Termenul de data are semnificatia de descriere a unui eveniment bine determinat care
se produce in lumea reala si este perfect verificabil.
Prin tehnologia Data Mining se prelucreaza date care refera perioade anterioare (date
istorice), care sunt examinate si sunt deja cunoscute, pe baza lor constituindu-se un model.
Acest model va putea fi aplicat situatiilor noi deacelasi tip cu cele deja cunoscute.
Informatiile care se pot obtine prin Data Mining sunt predictive sau descriptive.
De exemplu directionarea actiunilor demarketing pot constitui o problema tipica
predictiva.
Detectarea fraudelorproduse cu carduri bancare reprezinta o problema tipica de aplicatie
descriptiva.
Dezvoltarea tehnicilor de Data Mining se explica prin acumularea de volume pe care
acestea le-au derulat de-a lungul anilor. De asemenea, concurenta tot mai acerba precum si
cresterea exigentelor pietei au determinat firmele sa ia tot mai mult in considerare potentialul
urias pe care il ofera arhivele de date. Alaturi de arhivele de date memorate pe suporturi
informatice mai exista inca doi factori care au dus la necesitatea Data Mining: existenta si
perfectionarea algoritmilor si a produselor program dedicate precum si cresterea capacitatii de
memorare si prelucrare a calculatoarelor care permit tratarea corelativa a volumelor mari de
date.
Prin tehnologia Data Mining se prelucreaz date care refer perioade anterioare (date
istorice), care sunt examinate si sunt deja cunoscute, pe baza lor constituindu-se un model.

Acest model va putea fi aplicat situatiilor noi de acelasi tip cu cele deja cunoscute.
Informatiile care se pot obtine prin Data Mining sunt predictive sau descriptive. De exemplu
directionarea actiunilor de marketing pot constitui o problem tipic predictiv. Detectarea
fraudelor produse cu carduri bancare reprezint o problem tipic de aplicatie descriptiv.
Dezvoltarea tehnicilor de Data Mining se explic prin acumularea de volume pe care
acestea le-au derulat de-a lungul anilor. De asemenea, concurenta tot mai acerb precum si
cresterea exigentelor pietei au determinat firmele s ia tot mai mult n considerare potentialul
urias pe care l ofer arhivele de date.
Alturi de arhivele de date memorate pe suporturi informatice mai exist nc doi
factori care au dus la necesitatea Data Mining: existenta si perfectionarea algoritmilor si a
produselor program dedicate precum si cresterea capacittii de memorare si prelucrare a
calculatoarelor care permit tratarea corelativ a volumelor mari de date.
Este de remarcat c depozitele de date pot fi surse pentru Data Mining, iar rezultatele
obtinute pot completa cmpurile nregistrrilor din depozitele de date, care apoi pot fi
valorificate prin proiectiile multidimensionale specifice OLAP.
Potentialul oferit de Data Mining se ncorporeaz n procesele comerciale ale firmelor,
iar cutarea informatiilor nu devine un scop n sine ci este util doar dac este transformat ca
actiune. Astfel firmele pot alege s reactioneze sau nu la situatiile diverse create de realitate
(diminuarea numrului de clienti, scderea vnzrilor, pierderea unor piete de desfacere etc.).
Pasul urmtor dup aceast alegere este exploatarea propriu-zis a datelor utiliznd diversi
algoritmi.
De multe ori, actiunea de Data Mining poate fi un esec si nu o reusit, fiind posibil ca
msurile luate s nu fie adecvate informatiilor obtinute.
Toate elementele considerate anterior conduc spre ideea de ciclu n utilizarea Data
Mining n cursul cruia sunt patru etape:
- definirea oportunittilor comerciale si a datelor;
- obtinerea de informatii din colectiile de date existente prin tehnici Data Mining;
- adoptarea deciziilor si actiunilor n urma informatiilor rezultate;
- cuantificarea ct mai corect a rezultatelor concrete pentru a identifica si alte ci de
exploatare a datelor.
Cutarea cunostintelor si verificarea ipotezelor
Tehnicile de Data Mining se pot aplica att ascendent, ct si descendent. Pentru abordarea
descendent se iau n considerare ipotezele formulate n prealabil prin alte mijloace.
Abordarea ascendent urmreste extragerea de cunostinte sau informatii noi din date
disponibile, aceast cutare putnd fi dirijat sau nedirijat.
Cutarea dirijat presupune c se ia n considerare un atribut sau un cmp, ale crui
valori se explic prin celelalte cmpuri. Cutarea nedirijat identific relatiile sau structurile
din datele examinate fr a asigura prioritate unui cmp sau a altuia. Ceea ce se exploateaz
prin Data Mining sunt colectii de date constituite pentru alte scopuri (exemplu tranzactii
derulate pe o perioad de timp). Deseori la acest tip de date se adaug si cele provenite din
alte surse cum statistici oficiale care privesc evolutia n ansamblu a economiei, date privind
concurenta sau msuri legislative. De aceea se foloseste tot mai des notiunea de informatie
ascuns n sensul c este aproape imposibil detectarea corelatiilor sau raporturile pe care
datele le ncorporeaz n mod intrinsec.
Rezultatele obtinute sunt cu att mai relevante cu ct ele se bazeaz pe un volum mare
de date. Datele pot fi exploatate pentru a obtine informatii prin diverse tehnici cum sunt:
retele neuronale, arbori de decizie, algoritmi genetici, analiza grupurilor, rationamente bazate
pe cazuri, analiza legturilor. Aceste tehnici pot fi asociate cu tehnici statistice cum sunt

regresiile sau analiza factorial. Data Mining nu este capabil, ca tehnic, s rezolve orice
problem de
gestiune. De fapt ceea ce poate oferi se rezum la cteva actiuni cum sunt: clasificarea,
estimarea, predictia, gruparea, analiza gruprilor, care folosite la locul potrivit pot deveni utile
pentru o multime de probleme din domeniul decizional.
Destinatia si caracteristicile actiunilor oferite de Data Mining
Clasificarea are ca scop plasarea obiectelor prelucrate ntr-un grup limitat
de clase predefinite. De exemplu, vnzarea unui produs nou se poate ncadra ntr-una din
urmtoarele categorii de risc: sczut, mediu, ridicat. Obtinute n mod clasificat vor fi
reprezentate sub form de nregistrri care la rndul lor sunt compuse din atribute sau
cmpuri. Ca tehnici de Data Mining pentru clasificare sunt arborii de decizie si rationamentul
bazat pe cazuri.
Estimarea va atribui o valoare unei variabile pe baza celorlalte date de intrare.
Rezultatele obtinute n urma estimrii sunt valori continue. Pentru acest tip de prelucrri se
pot utiliza retelele neuronale.
Predictia poate clasa nregistrrile luate n considerare n functie de un anumit comportament
sau o valoare viitoare estimat. De aceea se va recurge la o colectie de exemple care vizeaz
date din trecut, n care valorile variabilei de previzionat sunt deja cunoscute. Cu ajutorul lor se
va construi un model care va putea explica comportamentul observat. Aplicnd acest model
nregistrrilor care fac obiectul prelucrrii, se va obtine o predictie a comportamentului sau a
valorilor acestora n viitor.
Gruparea poate duce la determinarea acelor obiecte care apar cel mai frecvent mpreun.
Un exemplu este analiza cosului gospodriei n evalurile statistice.
Analiza grupului urmreste o dividere a populatiei eterogene n grupuri
mai omogene, care poart numele de clustere. n aceast tehnic nu se pleac de la un set
predeterminat de clase si nici din exemple din trecut. Segmentarea pe grupuri se face n
functie de similitudinile obiectelor.
Explorarea datelor continut si etape
Programele care realizeaz implementarea algoritmilor pentru Data Mining nu sunt
suficiente. Ele trebuie alimentate cu date care provin din diverse surse organizate pentru alte
scopuri. De aceea este necesar un proces de curatare a acestora si de uniformizare pentru a fi
explorate asa cum sunt ele furnizate de programe, continutul lor trebuind a fi analizat de
specialisti care vor identifica informatiile utile pe care acestea (rezultatele) le conin. Avnd
n vedere aceste particularitti, tehnicile de Data Mining se pot utiliza numai n procese
specifice complexe si de cele mai multe ori neliniare.
Se pot astfel distinge etapele:
- definirea problemei;
- identificarea surselor de date;
- colectarea si selectarea datelor;
- pregtirea datelor;
- definirea si construirea modelului;
- evaluarea modelului;
- integrarea modelului.
Definirea problemei const n sesizarea unei oportunitti sau necesitti de afaceri. De
aceea se va delimita ceea ce urmeaz a fi rezolvat prin Data Mining, obiective urmrire si
rezultate scontate. Problema ce urmeaz a fi rezolvat prin Data Mining este o parte

component a oportunittii organizatiei, dar nu se identific cu ea. De asemenea problema


trebuie s primeasc o form adecvat pentru a putea fi tratat cu aceast tehnic.
Identificarea surselor de date const n stabilirea structurii generale a datelor necesare
pentru rezolvarea problemei, precum si regulile de constituire a acestora si localizarea lor.
Fiecare surs de date va fi examinat pentru o familiarizare cu continutul su si pentru
identificarea incoerentelor sau a problemelor de definire.
Colectarea si selectia datelor este etapa n care se face extragerea si depunerea ntr-o
baz comun a datelor care urmeaz a fi utilizate ulterior. Aceast etap ocup un timp mare,
cam 80% din timpul total, iar existenta depozitelor de date constituie un real avantaj.

S-ar putea să vă placă și