Sunteți pe pagina 1din 8

Iakab Kinga-Erika, Ioni Iulia-Diana

Grupa 244

Data mining n contextul cloud computing


Introducere
Internetul a devenit un instrument vital in viata noastra de zi cu zi, atat in viata
profesionala cat si in cea personala. Avand in vedere acest fapt nu este de mirare ca afacerile au
inceput sa migreze din mediul traditional catre Internet. Se poate afirma ca unul dintre cele mai
revolutionare concepte aparute in ultimii ani in domeniul Internetului este Cloud Computing.
Tehnologia cloud computing reprezinta un model informatic ce transforma internetul intrun depozit urias in care resursele de calcul diferite sunt disponibile pentru toata lumea sub forma
unor servicii. Dezvoltarea acesteia a avut la baza dezvoltarea sistemelor distribuite, a conceptelor
de virtualizare, prelucrarea paralela, grid computing sau SOA (service-oriented architecture).
Avantajele fundamentale oferite de cloud computing includ aspecte precum flexibilitatea
mediului de lucru, accesul la orice resursa de calcul, partajarea resurselor, flexibilitatea ridicata,
administrarea automizata a intregului mediu de lucru sau protectia datelor.
Pentru a beneficia de toate avantajele oferite de cloud computing, resursele stocate pot fi
accesate prin intermediul tehnologiei data mining, cu ajutorul metodelor si algoritmilor ce
definesc aceasta tehnologie.
Data Mining
Gasirea de modele utile sau tendinte din cantitati mari de date se numeste data mining.
Este definita ca un tip de analiza a bazei de date, care incearca sa descopere tipare utile sau
legaturi intr-un grup de date. Aceasta analiza utilizeaza metode de statistica avansata, cum ar fi
analiza de clustere, inteligenta artificiala si uneori chiar tehnici de retele neuronale. Scopul
principal este sa descopere legaturi nestiute intre date, in special cand datele vin din baze de date
diferite. [1]
Rezultatele obtinute prin procesul de data mining sunt intotdeauna valoroase, deoarece nu
se urmareste verificarea sau confirmarea de ipoteze, ci se vrea descoperirea unor cunostinte noi,
#1

care pot contrazice perceptia intuitiva, fiind deci informatii complet necunoscute la momentul
realizarii procesului.
Este deseori utilizat impreuna cu tehnici traditionale de interogare sau de analiza a
datelor. Din aceasta cauza, data mining-ul este frecvent asociat cu: interogari SQL, regasiri de
date, analize in sisteme de baze de date multidimensionale, rapoarte si grafice de prezentare a
datelor, prelucrari statistice traditionale ale datelor. Diferenta majora este ca aceste tehnici nu
permit descoperirea de cunostinte fara formularea prealabila de ipoteze.
Metode principale de extragere a informatiilor utile [2]:

Clasificarea: stabilirea apartenentei unui element la o clasa dintr-un set de clase discrete
Clusterizare: gruparea elementelor similare in grupuri omogene
Asociere: stabilirea asocierilor dintre atribute este utilizat in conditiile in care nu sunt
specificate clase

Predictie: are la baza dependentele detectate in datele istorice ale caror intensitate este
modelata pentru a stabili valori viitoare ale unor atribute
Data mining are ca functionalitate principala aplicarea unor astfel de metode si algoritmi
in vederea identificarii si extragerii unor modele din datele stocate. Data mining s-a dezvoltat la
confluenta dintre mai multe discipline, cum ar fi: inteligenta artificiala, machine
learning (ML), managementul sistemelor de baze de date (DBMS), matematica, etc.
Initial a fost utilizata pentru colectarea datelor numerice dintr-o singura baza de date iar
numeroase tehnici au evoluat pentru fisierele de tip flat sau pentru bazele de date relationale,
unde datele se caracterizau printr-o structura tabulara. Ulterior, prin integrarea tehnicilor
specifice unor domenii precum machine learning, s-au dezvoltat algoritmi si pentru extragerea
informatiilor non-numerice.
In functie de formatul datelor extrase, se diferentiaza urmatoarele tipuri de data mining:
Hypermedia Data Mining. Are la baza tipuri de date precum hypertext si hypermedia. Aplicatia
de tip Data Mining specifica este reprezentata de Web Mining, utilizata pentru descoperirea
unor modele la nivelul datelor de tip Web. Sunt utilizate tehnici precum clusterizare sau
clasificare.
#2

Multimedia Data Mining. Tehnicile de tip Data Mining care sunt aplicate asupra datelor
multimedia sunt algoritmi precum retele neuronale, SVM (Support Vector Machine), metodele
de clusterizare, etc.
Spatial Data Mining. Datele spatiale sunt constituite din linii, suprafete, volume si obiecte de
dimensiuni superioare utilizate in aplicatii de proiectare. Tehnicile utilizate sunt cele specifice
bazelor de date spatiale, OLAP(online analytical processing) spatial, sau metode de
clusterizare spatiala.
Time series Data Mining. O serie de date este reprezentata de o serie de puncte aflate la
intervale uniforme de timp, precum: volumul productiei vandute, stocul actiunilor, ratele de
schimb valutar, etc. Printre algoritmii utilizati se numara C4.5.

Ubiquitous Data Mining (UDM). Are la baza evolutia unor dispozitivelor portabile (laptopuri,
telefoane mobile, etc.). Reprezinta procesul de analiza a datelor in vederea extragerii
informatiilor utile specifice ubicom-ului (ubiquitous computing).
Cloud computing
Cloud Computing se defineste ca un model de arhitectura de calcul, care permite accesul
printr-o retea de calculatoare la un fond comun de resurse de calcul, dinamic configurabil. Aceste
resurse pot fi gasite rapid si usor prin interactiunea cu un furnizor de resurse si servicii.
Cloud computing este compus din cinci caracteristici esentiale, trei modele de servicii si
patru modele de implementare [3]. Caracteristici esentiale sunt:
serviciu la cerere
acces prin retea
punere in comun a resurselor
elasticitate
control si optimizare a resurselor

#3

Cele trei modele de servicii sunt urmatoarele:

Software as a Service (SaaS) aplicatiile informatice si datele aferente sunt stocate intr-un
centru de date si sunt oferite utilizatorilor, la cerere, prin Internet (cu un navigator specializat).
Acest serviciu ofera un stadiu de lucru ridicat. Se foloseste pentru aplicatii colaborative,
mobile etc., mai putin pentru aplicatii in timp real.

Infrastructure as a Service (IaaS) un ansamblu de componente hardware (servere, medii de


stocare, retele etc.) impreuna cu anumite componente software (sisteme de operare,
virtualizare, clusterizare etc. ) ce este oferit utlizatorilor. Acest model ofera un stadiu
intermediar ce se foloseste pentru cereri volatile, nu se foloseste atunci cand se cer multe
standarde.

Platform as a Service (PaaS) mediile pentru dezvoltarea si inplementarea aplicatiilor


informatice sunt oferite dezvoltatorilor.
Modele de implementare:

Servicii private Private cloud infrastructura este disponibila doar in interiorul unei
organizatii ce inglobeaza mai multi consumatori. Poate fi cazul unei retele de magazine de
retail. Infrastructura poate fi detinuta, configurata si utilizata de organizatia respectiva sau de
terti, ori combinatii ale celor doua variante.

Servicii comunitare Community cloud infrastructura este utilizata de entitati diferite ce


impartasesc o parte din scopuri. Poate fi exemplul serviciilor de urgenta politia, pompierii,
ambulanta.

Servicii publice Public cloud infrastructura este deschisa utilizarii de catre publicul larg in
scopuri academice sau guvernamentale. Presupune existenta unui tert care sa furnizeze fizic
infrastructura cloud.

Servicii mixte Hybrid cloud - infrastructura este o combinatie de servicii private, comunitare
si publice care isi pastreaza caracterul unitar, dar sunt unite printr-o tehnologie ce asigura
portabilitatea informatiilor si a aplicatiilor software utilizate.
Data Mining si Cloud Computing
Tehnicile de data mining si aplicatiile acestora au un rol foarte important in contextul
cloud computing. Deoarece cloud computing isi face simtita prezenta din ce in ce mai mult in
#4

toate ariile de afaceri cele de cercetari stiintifice, acesta devine o zona de interes pentru
implementarea tehnicilor de data mining. Cloud computing devine noul trend in serviciile ce
utilizeaza Internetul pentru a indeplini sarcini cu ajutorul serverelor.
Procesul de extragere a informatiilor structurate din surse de date nestructurate sau
semistructurate din domeniul web se numeste data mining in cloud computing. Folosirea
procesului de data mining impreuna cu cloud computing ofera organizatiilor posibilitatea de a-si
centraliza managementul produselor software pe care le foloseste si a spatiilor de stocare pentru
date virtuale, cu asigurarea unor servicii eficiente, fiabile i sigure pentru utilizatorii lor [4].
Asadar software-ul pentru data mining poate fi oferit utilizatorilor ca orice alt software.
Data mining este folosita pe o scara larga in domenii ca medicina, biologie, ecologie,
criptanaliza si altele. Odata cu avansul cloud computingului si a disponibilitatii publice a
servicilor data mining, institutii, companii si persoane pot inchiria putere de calcul pentru calcule
de scara-larga, fara a plati costurile enorme ale creerii si mentinerii unor supercomputere.
Computerele acestea de obicei sunt disponibile doar pentru marile laboratoare de cercetare.
Principalele avantaje ale folosirii unui instrument de data mining prin intermediul unui
serviciu cloud sunt urmatoarele [5]:

Clientii platesc doar pentru instrumentele de data mining de care au nevoie la un moment dat,
astfel se reduc costurile companiei privind licentele de software. Acestia nu mai trebuie sa
plateasca pentru suite complexe de software specializate in data mining.

Clientii nu mai trebuie sa aiba o intreaga infrastructura hardware, deoarece pot avea acces la
servicii de data mining doar cu ajutorul unui navigator specializat. Asadar costurile companiei
scad, deoarece se platesc doar costurile generate de folosirea serviciului de cloud computing.

Clientii au acces la serviciile de data mining oriunde si oricand daca acestea sunt disponibile
prin cloud computing. Astfel pot fi accesate de pe orice dispozitiv care are conexiune la
Internet.

Companiile mici si mijlocii pot si ele beneficia de instrumentele de data mining, datorita
costurilor mai mici fata de suitele traditionale.

#5

Implementarea tehnicilor de data mining prin intermediul cloud computing, ofera utilizatorilor
posibilitatea de a extrage informatii importante din depozite de date integrate virtual prin
cloud computing. Astfel se reduc costurile generate de infrastructura si spatiul de stocare al
datelor.
Pe de alta parte folosirea Cloud Computing aduce cu sine si anumite riscuri, dintre care
cele mai importante sunt: [6]

Problemele de confidenialitate: Firmele i plaseaz toate documentele despre companie n


norul de stocare pe care furnizorul de cloud i angajaii si l pot accesa oricnd. De asemenea,
majoritatea serviciilor Cloud Conmputing nici nu folosesc un protocol sigur, cum este
protocolul HTTPS, existnd un mare risc ca orice Internet Service Provider s acceseze
pachetele transmise n cloud.

Riscuri legate de securitate: De exemplu, orice aplicaie, sistem de operare sau site a fost
atacat de hackeri, avnd numeroase bug-uri i din acest motiv furnizorii de servicii cloud nu
ofer garanii n cazul n care apar astfel de pagube. n cloud exist mereu riscul ca
informaiile firmelor s devin publice sau s fie furate de hackeri i vndute.

Probleme de disponibilitate: Un astfel de risc face referire la faptul c furnizorii de cloud pot
da faliment sau i pot ntrerupe activitatea din cauza unor probleme de fuziune sau din cauza
unor anchete realizate de autoriti care pot aduce firmelor indisponibiliate la documentele din
cloud, acces ngreunat sau foarte lent.
Concluzie
Tehnologiile data mining puse la dispozitie prin servicii de cloud computing sunt o
carcateristica absolut necesara pentru zona de afaceri din zilele noastre, ajutand companiile sa ia
decizii proactive, bazate pe cunoastere si oferind acestora tendintele viitoare si comportamente
predictibile in dezvoltarea mediului de afaceri.
Ofera deasemenea posibilitatea nu numai a companiilor mari sa aiba acces la data mining,
dar si companiilor mici si mijlocii, care nu isi puteau permite sa cumpere solutii de data mining
foarte costisitoare.

#6

Folosirea serviciilor de cloud computing devine din ce in ce mai populara, in ultimii ani
facandu-si aparitia in domeniul afacerilor afirmatia If you are not in the cloud, you are not
going to be in business.
Nevoia companiilor de servicii de data mining creste pe zi ce trece, astfel incat
necesitatea integrarii serviciilor de data mining in serviciile de cloud computing devine o
problema din ce in ce mai stringenta.

#7

Bibliografie
[1] Merriam-Webster Dictionary, Definition of data mining, http://www.merriam-webster.com/
dictionary/data%20mining.
[2] Raport de cercetare sinteza IDEI-2007 Prelucrarea genomurilor biologice prin tehnici de
data mining - http://mercur.utcluj.ro/bioinf_dm/bioinf_dm_files/Sinteza_ID_903-2007.pdf
[3] Peter Mell, Timothy Grance, The NIST Definition of Cloud Computing , http://
csrc.nist.gov/publications/nistpubs/800-145/SP800-145.pdf.
[4] Bhagyashree Ambulkar, Vaishali Borkar Data Mining in Cloud Computing - MPGI
National Multi Conference 2012 - http://research.ijcaonline.org/ncrtc/number6/
mpginmc1047.pdf.
[5] Ruxandra-Stefania Petre Data mining in Cloud Computing Database Systems Journal
vol. III, no. 3/2012 - http://www.dbjournal.ro/archive/9/9_7.pdf
[6] https://jurnalulpublicului.wordpress.com/2013/06/06/riscuri-ale-sistemelor-informationalebazate-pe-cloud-computing/

#8