Sunteți pe pagina 1din 10

Tehnologia Data Mining

Concepte. Generalitati

Tehnologia cloud computing reprezinta un produs sau model informatic ce transforma


internetul intr-un depozit urias in care resursele de calcul diferite sunt disponibile pentru toata
lumea sub forma unor servicii.
Avantajele fundamentale oferite de cloud computing includ aspecte precum flexibilitatea
mediului de lucru, accesul la orice resursa de calcul, partajarea resurselor, flexibilitatea ridicata,
administrarea automizata a intregului mediu de lucru sau protectia datelor.
Pentru a beneficia de toate avantajele oferite de cloud computing, resursele stocate pot fi
accesate prin intermediul tehnologiei data mining, in speta cu ajutorul metodelor si algoritmilor
ce definesc aceasta tehnologie.
Data mining reprezinta procesul de extragere a unor informatii precise, necunoscute in
prealabil, dintr-un volum foarte mare de date cu scopul de a fi intelese, prelucrate si utilizate ca
suport pentru decizii. Mai mult decat atat, data mining reprezinta un set de tehnologii precum:
depozitele de date (data warehouse), baze de date, algoritmi pentru analiza si vizualizarea datelor
etc.
Tehnologia Data Mining utilizeaza metode de cautare complexe ce au drept scop
identificarea unor modele si grupari ale datelor, a unor tendinte neprevazute in comportamentul
consumatorului ce pot fi utilizate pentru a anticipa comportamentul viitor al acestuia.

Printre caracteristicile acestei tehnologii se numara urmatoarele :

- are la baza experienta acumulata de produsele software utilizate pentru foile de calcul
(calcul tabelar)
- trateaza exceptiile de la regula
- utilizeaza metode de cautare complexa in scopul identificarii unor modele si grupari ale
datelor
- extrapoleaza si adauga la cazurile similare
- poate sa invete in orice situatie si sa ofere o solutie cu un anumit grad de siguranta
- poate identifica tendinte nesuspectate in comportamentul consumatorului, care, potential,
pot fi utilizate pentru a prevedea comportamentul viitor
- utilizeaza o multitudine de algoritmi de cautare si extragere precum: arbori de diferite
tipuri, retele neuronale, cautare aleatorie, probabilitati, predictii etc

Metodele de extragere a cunostintelor din date, specifice acestei tehnologii, reprezinta


clase de probleme asupra carora se aplica diferiti algoritmi de rezolvare. La baza metodelor stau
tipurile de invatare care au un impact direct asupra metodelor prin cerintele legate de forma
intrarilor, algoritmul aplicat si forma iesirilor. Prin invatare, se intelege procesul de
imbunatatire, schimbare a comportamentului intr-un mod favorabil iar in contextul unei aplicatii
de data mining reprezinta de fapt o extragere a regularitatilor din setul de exemple disponibil.

In functie de tipul de invatare, metodele de extragere a cunostintelor din date se pot


clasifica in doua mari categorii dupa cum urmeaza:
- invatare supervizata: ce implica furnizarea initiala a unor informatii despre conceptele
ce urmeaza a fi invatate
- invatare nesupervizata: ce porneste direct de la extragerea de cunostinte si obtinerea de
rezultate ; elementele de baza in acest caz sunt reprezentate de observarea regularitatilor
si formularea diferitelor ipoteze

Pe de alta parte, in functie de tipul prelucrarilor se disting doua categorii de metode de


extragere, in speta: mecanismele de invatare neuronala si respectiv mecanismele de invatare
simbolica.

Pe baza acestor doua clasificari, se disting urmatoarele metode principale de extragere a


informatiilor utile :

1
- clusterizarea: constituie procesul de grupare a elementelor similare in grupuri omogene
denumite clustere. Mai mult decat atat, constituie o clasa de probleme ce utilizeaza
mecanisme de invatare nesupervizata avand in vedere faptul ca informatiile initiale
despre clustere nu sunt cunoscute apriori aplicarii procesului de invatare.

- clasificarea: constituie procesul de stabilire a apartenentei unui element la o clasa dintr-


un set de clase discrete. Aceste grupuri sunt proiectate inca de la inceput iar elementele
sunt asociate in functie de diferite criterii.

- asocierea: reprezinta procesul de stabilire a asocierilor dintre atribute si este utilizat in


conditiile in care nu sunt specificate clase.

- predictia: reprezinta procesul ce are la baza dependentele detectate in datele istorice ale
caror intensitate este modelata pentru a stabili valori viitoare ale unor atribute.

Prin urmare, functionalitatea principala a tehnologiei data mining este reprezentata de


aplicarea unor astfel de metode si algoritmi in vederea identificarii si extragerii unor modele
(pattern-uri) din datele stocate.
Data mining s-a dezvoltat la confluenta dintre mai multe discipline, printre acestea
numarandu-se: managementul sistemelor de baze de date (DBMS), statistica, inteligenta
artificiala, “machine learning” (ML ) , matematica etc.

Initial, tehnologia data mining a fost utilizata pentru colectarea datelor numerice dintr-o
singura baza de date iar numeroase tehnici au evoluat pentru fisierele de tip flat sau pentru bazele
de date relationale, unde datele se caracterizau printr-o structura tabulara.
Ulterior, prin integrarea tehnicilor specifice unor domenii precum ML sau statistica, s-
au dezvoltat algoritmi pentru extragerea informatiilor non-numerice.

In procesul de utilizare a tehnologiei Data Mining, ilustrat in figura 1, un rol important il


prezinta procesul de selectie/prelucrare/transformare a datelor. Astfel, datele selectate din diferite

2
baze de date sunt ulterior prelucrate si transformate in functie de cerinte iar in final accentul este
comutat la nivelul procesului de vizualizare a datelor – important pentru utilizatorii finali.

Figura 1. Data Mining


(Ballard,C. , Data Modeling Techniques for Data Warehousing)

3
In functie de formatul datelor extrase, se evidentiaza urmatoarele tipuri de data mining :

Hypermedia Data Mining

- are la baza tipuri de date precum hypertext si hypermedia ce reprezinta colectii de


date precum cataloage online, librarii digitale si informatii online ce includ
hyperlink-uri, marcaje html sau alte formate similare
- aplicatia de tip Data Mining specifica este reprezentata de “Web Mining” utilizata pentru
descoperirea unor modele la nivelul datelor de tip Web
- sunt utilizate tehnici precum clusterizare sau clasificare; un algoritm specific este
reprezentat de PageRank
- domeniile de activitate vizate: aplicatii de tip Internet/Intranet

Ubiquitous Data Mining (UDM)

- are la baza evolutia unor dispozitive precum: laptopuri ,telefoane mobile sau alte
dispozitive portabile
- UDM-ul reprezinta procesul de analiza a datelor in vederea extragerii informatiilor
utile specifice ubicom-ului ( ubiquitous computing)
- domenii de activitate vizate: aplicatii pentru dispozitivele mobile, PDA-uri etc

Multimedia Data Mining

- datele de tip multimedia sunt reprezentate de cele audio, video, imagine sau animatii
- tehnicile de tip Data Mining care sunt aplicate asupra acestor date de tip
multimedia sunt algoritmi precum retele neuronale, SVM ( Support Vector
Machine) , metodele de clusterizare etc
- domeniile de activitate vizate sunt: aplicatii de tip audio/video

4
Spatial Data Mining

- datele spatiale sunt constituite din linii, suprafete, volume si obiecte de dimensiuni
superioare utilizate in aplicatiile de proiectare asistata de calculator, cartografie,
sisteme informatice georgrafice etc
- printre tehnicile utilizate se numara cele specifice bazelor de date spatiale , OLAP spatial,
sau metode de clusterizare spatiala
- printre aplicatiile vizate se numara: teledetectia, GIS etc

Time series Data Mining

- o serie de date este reprezentata de o serie de puncte aflate la intervale uniforme de


timp precum: volumul productiei vandute, stocul actiunilor, ratele de schimb
valutar, date biomedicale etc
- printre algoritmii utilizati se numara C4.5
- printre aplicatiile specifice se numara: aplicatiile financiare

Aplicatiile de tip Data Mining sunt data-driven (figura 2), existand un nivel ridicat de
complexitate la nivelul datelor stocate sau a interrelatiilor dintre datele prezente intr-un depozit
de date care sunt dificil de identificat prin intermediul unor alti algoritmi sau tehnici.

Figura 2. Data Mining – aplicatie de tip data-driven


*Ballard,C. , Data Modeling Techniques for Data Warehousing

5
Din acest punct de vedere, aplicatiile de tip Data Mining se caracterizeaza prin urmaroarele
aspecte:

- acces usor la o cantitate mare de date


- necesita multe resurse de diferite tipuri
- poate prelua date din surse interne sau externe ale sistemului
- se pot realiza regasiri si analize complexe ale datelor si modelelor

Printre aspectele importante legate de dezvoltarea tehnologiei data mining se numara:

- standardizarea limbajelor specifice Data Mining: exista numeroase tool-uri ce


trebuiesc standardizate
- preprocesarea datelor : importanta pentru identificarea pattern-urilor la nivelul datelor
distribuite, complexe, largi sau temporale
- web mining: dezvoltarea unor seturi de metrici de tip Web necesare pentru procesul de
extragere a datelor
- complexitatea obiectelor de date: aplicarea tehnologiei Data Mining asupra unor tipuri
de date complexe precum: date temporale, multidimensionale, stream-uri de tip high
speed etc
- resursele hardware si software ale sistemelor de calcul: de exemplu, viteza conexiunii
de internet faciliteaza analiza datelor captate de pachetele IP cu scopul detectarii DoS-
urilor ( Denial of Service) sau a altora tipuri de atacuri.

6
Concluzii

Functionalitatea principala a tehnologiei data mining este reprezentata de aplicarea unor


metode si algoritmi in vederea identificarii si extragerii unor modele (pattern-uri) din datele
stocate in volume mari de date. Un rol important in acest demers il prezinta procesul de
selectie/prelucrare/transformare a datelor – datele sunt selectate din diferite baze de date, ulterior
prelucrate si transformate in functie de cerinte iar in final accentul este comutat la nivelul
procesului de vizualizare a datelor.
Domeniul data mining a cunoscut o evolutie considerabila datorata succesului obtinut in
termeni de aplicatii de clasificare sau de progres stiintific. O gama variata de aplicatii de tip data
mining au fost implementate cu succs in domenii diferite precum – medicina, finante, analiza
riscului, vanzari, telecomunicatii sau detectarea fraudelor. Dezvoltarea continua a
tehnologiei si cresterea complixitatii diferitelor domenii de activitate reprezinta noi provocari
pentru data mining, fiind necesara continua imbunatatire si dezvoltare a tehnicilor si algoritmilor
de extragere a informatiilor utile din cadrul datelor complexe.
Astfel, un accent important trebuie pus pe standardizarea limbajelor utilizate de data
mining, pe imbunatatirea procesului de preprocesare a datelor in vederea extragerii datelor din
obiecte din ce in ce mai complexe si nu in ultimul rand pe dezvoltarea resurselor de calcul ale
sistemelor utilizate.

7
Bibliografie

[web 1] Documentatie IBM - Data mining and analytics


http://publib.boulder.ibm.com/infocenter/db2luw/v9r7/index.jsp?topic=
%2Fcom.ibm.im.model.doc%2Fc_dataminingoverview.html
http://www.ibm.com/developerworks/industry/library/ind-PMML1/
[web 2] Ballard,C. , Data Modeling Techniques for Data Warehousing
http://www.redbooks.ibm.com/redbooks/pdfs/sg242238.pdf
[web 3]Haide,M.,Using DB2 XQuery to extract data mining results stored as PMML
http://www.ibm.com/developerworks/data/library/techarticle/dm-
0905dataminingxquery/index.html
http://www.dpi.inpe.br/~tkorting/projects/c45/material.pdf
[web 4]Weiming,H. AdaBoost-Based Algorithm for Network Intrusion Detection
http://atl-svn.assembla.com/svn/odinIDS/Egio/temp/04454220.pdf
[web 5] A Review on Data mining from Past to the Future, International Journal of Computer
Applications (0975 – 8887), Volume 15– No.7, February 2011
[web 6] Documentatie IBM - CART Algorithms
http://publib.boulder.ibm.com/infocenter/spssstat/v20r0m0/index.jsp?topic=
%2Fcom.ibm.spss.statistics.help%2Falg_tree-cart.htm
[web 7] Documentatie IBM - Data Mining - An Industrial Research Perspective

8
9