Curs 5

Curs 5.
Big Data, Data Warehouse si OLAP, Data Mining,

Cloud Computing
Aplicatii (Laborator 5)
Cursul 5 abordeaza tehnologii cu mare impact in domeniul afacerilor pentru urmatoarea decada: Big Data,
Data Mining, Cloud Computing. Veti studia caracteristicile acestor tehnologii care suporta dezvoltarea
unor Sisteme informatice pentru afaceri performante, in contextul globalizarii si digitalizarii economiei.
1. Big Data
Big data este o tehnologie nouă care se focusează atât pe ştiinţă cât şi pe industrie şi motivează
schimbarea tehnologiei către arhitectura data centric şi modelele operaţionale. Există o nevoie vitală de a
defini informaţiile care stau la baza a ceea ce numim Ecosistemul Big Data. Acest raport de cercetare
reprezintă o descriere a domeniului actual în care se află Big Data precum şi domeniile în care această
nouă tehnologie îşi găseşte aplicabilitatea. Totodată sunt abordate şi câteva dintre tehnologiile în plină
dezvoltare care sunt utilizate odată cu Big Data. De asemenea sunt discutate câteva aspecte legate de cum
poate Big Data să soluţioneze anumite provocări actuale, folosindu-se de componentele descrise.
Statisticile ultimilor ani arată o imensă avalanşă de date existentă în lume, 90% dintre acestea fiind
generate în ultimii doi ani. În fiecare zi este creat un volum de date foarte mare, volum care a ajuns la 2,5
exabytes, iar la fiecare 40 de luni, acest număr se dublează (fiecare secundă aduce cu ea mai multe date
decât existau în tot Internetul acum 20 de ani). Marile companii, în speţă, cele ştiinţifice, lucrează cu
volume enorme de informaţii. De exemplu, pentru Cern s-a folosit spaţiu cât pentru a scrie 100.000 de
DVD-uri în fiecare an, 1 terrabyte pentru proiecte ca Sloan Digital Survey şi chiar 200 de terrabytes
pentru proiectul celor o mie de genoame. În ultimii ani, companiile au fost „obligate” să asculte de
nevoile curente ale oamenilor mereu pe fugă, oferindu-le acestora servicii diverse şi mult mai
personalizate.
Din acest punct intervine Big Data, ca o sursă continuă de direcţionare a companiilor în adoptarea celor
mai potrivite decizii pentru livrarea eficientă a produselor lor. Estimările arată că fiecare organizaţie va
creşte volumul de date produse cu 53% în următoarele 18 luni (de la 194 terabytesm la 296.7 terabytes).
Scopul cercetării la acest stadiu este de a înţelege natura Big Data, caracteristicile principale precum şi
noi posibilităţi în dezvoltarea Big Data, abordând şi definind arhitectura sa în rezolvarea provocărilor
existente. Big Data a devenit o problemă în afaceri, sau cel puţin o problemă pe care oamenii de afaceri
încep să o conştientizeze. Presa începe să aloce din ce în ce mai mult spaţiu acestui subiect. Pornind cu
Wall Street Journal "Companiile sunt inundate cu date" (“Companies are being inundated with data") la
Financial Times "Din ce în ce în afaceri sunt aplicate analize din mass-media, cum ar fi Facebook şi
Twitter" ("Increasingly businesses are applying analytics to social media such as Facebook and Twitter"),
Forbes "Big Date a ajuns la Seton Health Care Family" ("Big Data has arrived at Seton Health Care
Family").
De ce atâtea articole pe aceasta temă? Deoarece BIG DATA are potenţialul de a afecta profund modul în
care facem afaceri, şi chiar modul de a trăi. Se spune că Big Data a fost conceput special pentru cloud, iar
mulţi oameni nu îşi pot închipui cum ar putea stoca local avalanşa de date din ziua de astăzi fără simbioza
cloud – Big Data. Însuşirile principale ale cloud computing arată că acesta a fost proiectat pentru a
gestiona eficient volumul masiv, complexitatea şi dinamica datelor create la nivel mondial în ultimul
deceniu. În acest sens, înlocuirea modelului de hardware limitat, cu ajutorul virtualizării, elasticităţii şi
1
capacităţilor de cloud, duce la obţinerea de resurse nelimitate, proporţionate în funcţie de necesitate şi
totodată la costuri optime; Big Data nu poate exista fără aceste oportunităţi furnizate de cloud.
Big Data este un domeniu dedicat analizei, procesării şi stocării unei mari cantitati de date care provin de
regula din surse disparate. Folosirea tehnologiei Big Data poate sa aducă o serie larga de beneficii, printre
care:
1. Optimizarea operaţiunilor
2. Extragerea informaţiilor utile
3. Identificarea de noi pieţe
4. Predicţii mult mai precise
5. Detectarea greşelilor şi fraudelor
6. Înregistrări mult mai detaliate
7. Îmbunătăţirea deciziilor
8. Descoperiri ştiinţifice
Principalele caracteristici ale unui dataset Big Data
Figura 1.
Volumul: depinde de tipul datelor; cele mai mari volume sunt generate de datele nestructurate. În fiecare
zi volumul de date generat este de aproximativ 2.5EB (2500PB).
Exemple de surse de date de volum ridicat:
1. tranzacţiile online
2. date de cercetare ştiinţifica şi experimentala (CERN / Atacama Array Telescope / etc.)
3. social media (Facebook / Twitter / etc.)
4. senzori de diverse tipuri (GPS / RFID / telemetrie / etc.)
Viteza: determina timpul necesar procesării datelor intrate într-o entitate Date cu viteza ridicata: generate
în 60secunde
1. 350.000 tweets
2. 300 ore de video
3. 171 milioane email-uri
4. 330GB generate de senzorii unui motor cu reacţie
Varietatea: diferite tipuri (structurate / nestructurate / structurate parţial şi formate (text, audio, imagini,
video, etc.).
Veracitate (veridicitatea): se refera la calitatea şi fidelitatea unui set de date. Se poate face o analogie cu
raportul semnal / zgomot din electronica; zgomotul este reprezentat de datele care nu pot fi convertite în
informaţie utila, respectiv fără valoare în timp ce semnalul reprezintă informaţia utila. Datele cu un raport
ridicat semnal / zgomot au un grad de veracitate ridicat. Datele obţinute într-o maniera controlata (sisteme
online de comanda/înregistrare) au un raport semnal/zgomot ridicat pe când cele din surse necontrolate
(blog-uri / social media).
Valoarea este definita ca utilitatea pentru o anume entitate. Valoarea este legata intuitiv de veracitate în
sensul ca datele cu veracitate ridicata au o valoare mare. Valoarea depinde însă şi de timpul de procesare.
2
Spre exemplu, indici bursieri obţinuţi după 20 minute au o valoare foarte mica sau chiar zero fata de cei
obţinuţi după 20ms.
Figura 2.
Cu expertiza în domeniul Cluster HPC şi Big Data, PRO SYS oferta solutii optimizate necesitaţilor şi
bugetului fiecărei companii sau instituţie.
Big Data System - TRUSTER DX220

 poate fi configurat de la 4 până la 44 noduri
 până la 4.2PB capacitate de stocare
 interconectare: 10Gb Ethernet
Specificatie nod:
 2U rackmount
 Dual Intel® Xeon E5-26xx v4 series, with QPI up to 9.6GT/s
 Up to 512GB DDR4 2133MHz ECC REG
 Dual-Port 10Gigabit SFP+
 12 HDDs SAS hot-swap 3.5" / 2.5"
 900W 1+1 hot-swap redundant power supply
Software: CentOS, Bright Big Data Manager
EXEMPLU: Big Data Apache Hadoop

Apache Hadoop este un framework care facilitează procesarea unor seturi de date mari şi foarte mari, pe
mai multe calculatoare folosind un model de programare simplu: paradigma map/reduce. Este proiectat în
aşa fel, încât să scaleze de o maşină la mii de maşini, fiecare din ele punând la dispoziţie putere de
procesare şi spaţiu de stocare. În loc să se bazeze efectiv pe hardware pentru "high-availability",
framework-ul în sine este proiectat în aşa fel încât să detecteze erorile la nivel de aplicaţie.
Este un proiect open source aflat sub tutela Apache Foundation, cu o comunitate globală de contributori,
dintre care cel mai semnificativ la dezvoltarea lui a fost Yahoo!. Apache Hadoop este folosit de Yahoo!
pentru motorul de căutare, Facebook se laudă cu cel mai mare cluster de Hadoop (30 petabytes de date),
folosit pentru printre altele şi la Facebook Messaging. Amazon pune la dispoziţie o platformă de tip
MapReduce ca parte a Amazon Web Services numită Amazon Elastic MapReduce. Numeroase alte firme
din IT şi nu doar folosesc Apache Hadoop (Twitter, IBM, HP, Fox, American Airlines, Foursquare,
Linkedin, Chevron, etc), pentru a-i ajuta în rezolvarea problemelor de diverse tipuri: călătorii online, e-
commerce, detectare de fraude, procesare de imagini, sănătate, etc
3
Istoric. Hadoop a fost creat de către Doug Cutting, care l-a numit după jucăria de pluş a fiului lui. A fost
dezvoltat iniţial pentru a oferi un sistem distribuit pentru motorul de căutare Nutch, prin anii 2004-2006 şi
se bazează pe articolele despre GFS (Google File System) şi MapReduce făcute publice de către Google
în perioada respectivă. În anul 2006 Yahoo! a angajat o echipă dedicată (inclusiv pe Doug), care a
contribuit semnificativ la dezvoltarea frameworkului, care între timp a devenit un proiect de sine stătător,
independent de Nutch.
Figura 3.
Arhitectura. Apache Hadoop este dezvoltat în Java şi are două componente principale:
 HDFS (Hadoop Distributed File System)
 MapReduce
HDFS. Este un sistem de fişiere distribuit care pune la dispoziţie acess, cu throughput ridicat, la datele
aplicaţiilor. HDFS dispune de o arhitectură de tip master/slave. Un cluster HDFS este compus (de obicei)
dintr-un singur Namenode, un server master care gestionează namespace-ul sistemului de fişiere şi
reglementează accesul clienţilor la fişiere. În plus, există un număr de servere Datanode, de obicei unul
pentru fiecare maşină din cluster, care gestionează spaţiul de stocare al maşinii pe care rulează. HDFS
expune un namespace al sistemului de fişiere şi permite stocarea datelor utilizator în fişiere. Intern, un
fişier este împărţit în unul sau mai multe blocuri (dimensiunea blocului este configurabilă, de obicei este
între16-128 MB), iar aceste blocuri sunt stocate pe Datanode-uri. Namenode-ul execută operaţii asupra
sistemului de fişiere, precum: deschiderea, ştergerea, redenumirea fişierelor şi a directoarelor. Totodată
determină şi maparea blocurilor de date la Namenode-uri. Datanodurile sunt responsabile pentru servirea
cererilor de citire şi scriere primite de la clienţii sistemului de fişiere. De asemenea, Datanode-urile
execută operaţii de creare, ştergere şi replicare de blocuri, ca urmare a comenzilor primite de la
Namenode. HDFS implementează un model de permişi pentru fişiere şi directoare care împărtăşeşte mult
cu modelul POSIX.
MapReduce. MapReduce este un framework care permite scrierea de aplicaţii care procesează cantităţi
mari de date, în paralel, într-un mod sigur şi cu toleranţă la erori. Un job MapReduce împarte setul de
date de intrare în părţi independente care sunt procesate de task-urile de map în paralel. Framework-ul
sortează şi concatenează output-ul task-urilor de map fiind pe urma folosit ca şi date de intrare pentru
task-ul de reduce. Tipic, atât datele de intrare cât şi cele de ieşire sunt stocate în HDFS. Framework-ul are
grijă de planificarea rulării task-urilor, monitorizarea lor, precum şi re-executarea task-urilor cu erori.
De obicei, nodurile de calcul şi cele care stochează datele (Datanode) sunt aceleaşi. Cu alte cuvinte,
framework-ul MapReduce şi HDFS-ul rulează pe acelaşi set de noduri. Această configuraţie permite
4
framework-ului să planifice rularea task-urilor pe nodurile pe care datele de intrare sunt deja prezente,
rezultând în optimizarea traficului de date din reţeaua cluster-ului. MapReduce constă dintr-un singur
proces master JobTracker, şi câte un proces TaskTracker pentru fiecare nod din cluster. JobTracker-ul
este responsabil cu planificarea task-urilor pe TaskTracker-e. Totodată ţine evidenţa taskurilor de
MapReduce care rulează pe diferite TaskTracker-e, dacă vreunul din aceste task-uri nu reuşeşte, realocă
task-ul altui TaskTracker. În termeni simpli JobTracker trebuie să se asigure ca un query pe un set de date
mare se execută cu succes şi că rezultatul ajunge la client într-un mod sigur. TaskTracker excută task-
urile de map şi reduce, care-i sunt asignate de către JobTracker. Totodată TaskTracker trimite constant
mesaje de heartbeat către JobTracker, fapt care ajută JobTracker-ul să decidă dacă poate delega un nou
task nodului respectiv, sau dacă trebuie să re-execute respectivul task pe alt nod din cauza erorilor.
Pentru a specifica un job MapReduce, aplicaţiile trebuie să specifice cel puţin următoarele: locaţia în
HDFS a datelor de intrare, locaţia unde vor fi stocate datele de ieşire, o funcţie de map şi o funcţie de
reduce. Acestea precum şi alţi parametri ai jobului alcătuiesc configuraţia jobului. Odată ce sunt create
jobul şi configuraţia, utilizatorul le poate înainta JobTracker-ului, care îşi va asuma responsabilitatea
pentru planificarea rulării jobului, precum şi a distribuirii şi rulării pe node-urile TaskTracker,
monitorizarea lor, precum şi expunerea statusului către utilizator. Datele de intrare sunt trimise către
funcţia map ca perechi cheie-valoare, care la rândul ei produce perechi cheie-valoare, posibil de alt tip.
Odată ce partea de map s-a terminat, rezultatele, de tip cheie-valoare, de la toate map-urile sunt
concatenate şi mai apoi ordonate servind ca date de intrare pentru funcţia de reduce, aceasta va produce
rezultate tot de tip perechi cheie-valoare.
Limitări. Implementarea curentă a framework-ului MapReduce începe să-şi arate vârsta. Observând
trendurile în dimensiunea şi puterea de procesare a clusterelor Hadoop, componenta JobTracker are
nevoie de o drastică reproiectare pentru a adresa deficienţele de scalabilitate, memorie consumata, model
de threading şi performanţă. Cerinţele pentru framework-ul MapReduce, care să satisfacă toate limitările
menţionate anterior ar fi: siguranţă (reliability), disponibilitate (availability), scalabilitate (clustere de
~10000 de maşini), implementarea curentă suportă cam 4000 de maşini, evoluţie, latenţă predictibilă,
utilizarea optimă a clusterului, suport pentru paradigme alternative la MapReduce
MapReduce 2.0 (YARN sau MRv2)

Următoarea generaţie MapReduce a fost proiectată pentru a adresa limitările menţionate anterior şi
totodată să satisfacă cerinţele de mai sus. Ideea fundamentală a rearhitecturării, a fost sa se împartă cele
doua funcţii majore ale JobTracker, managementul resurselor şi programarea/monitorizarea joburilor, în
componente separate. Noul ResourceMananger se ocupă de alocarea globală a resurselor de calcul pentru
aplicaţii, iar câte un ApplicationMaster per aplicaţie se ocupă de coordonarea/planificarea aplicaţiei. O
aplicaţie este fie un singur job MapReduce sau un DAG (directed acyclic graph) de joburi.
ResourceManager-ul şi serverul slave NodeManager, al fiecărei maşini, care dirijează procesele user de
pe maşina respectivă, formează structura de calcul. ApplicationMaster-ul, per aplicaţie, este de fapt o
librărie a framework-ului a cărei rol este de a negocia resursele de la ResourceManager, şi a lucra cu
NodeManger(i) pentru a executa şi monitoriza task-urile.
ResourceManager-ul are doua componente principale:
 Scheduler (S)
 ApplicationsManager (ASM)
Scheduler-ul este responsabil cu alocarea resurselor pentru diferitele aplicaţii care rulează, supuse
constrângerilor de capacitate, cozi, etc. Scheduler-ul este un planificator pur, în sensul că nu se ocupă de
monitorizarea sau urmărirea statusului aplicaţiei. Totodată nu oferă nici o garanţie cu privire la restartarea
taskurilor cu erori, datorate fie erorilor hardware sau la nivel de aplicaţie.
5
Scheduler-ul îşi executa funcţia de planificator bazat pe nevoile de resurse ale aplicaţiilor, şi face asta
bazându-se pe noţiunea de Resource Container, care încorporează elemente ca memorie, procesor, disc,
reţea, etc. Scheduler-ul permite o politică de tip plug-în, responsabilă cu împărţirea resurselor clusterului
între diferitele cozi, aplicaţii, etc. Scheduler-ul standard foloseşte FIFO. Planificatoarele MapReduce
existente, precum CapacityScheduler şi FairScheduler ar fi exemple plugin-uri.
CapacityScheduler-ul permite cozi ierarhice, pentru a oferi o mai predictibilă partajare a resurselor
clusterului. A fost dezvoltat de către Yahoo!. Menirea FairScheduler-ului este să ofere timpi de execuţie
rapizi pentru joburile mici şi QoS (quality of service) pentru joburile de producţie.
ApplicationsManager-ul este responsabil cu acceptarea joburilor, negocierea primului container pentru
execuţia ApplicationMaster-ului specific aplicaţiei, şi oferă serviciul pentru restartarea Application
Master-ului în caz de eroare. NodeManager-ul este, procesul, per maşină, responsabil cu lansarea
containerelor aplicaţiilor, monitorizarea utilizării resurselor, de către aplicaţii, şi raportarea către
Scheduler.
Figura 4. Arhitectura MRv2
ApplicationMaster-ul, per aplicaţie, este responsabil cu negocierea de containere de resurse de la Scheduler,

urmărirea statusului şi monitorizarea progresului. MRv2 face parte dintr-un release major de Hadoop (2.x) care
pe lângă MRv2 include şi HDFS Federation. HDFS Federation vine să rezolve o altă posibila limitare a
framework-ului, şi anume natura singulară a Namenode-ului. Pentru a putea scala orizontal serviciul de nume,
federaţia foloseşte mai multe Namenode-uri independente, fiecare din ele având un namespace, al sistemului
de fişiere, diferit. Namenode-urile sunt independente şi nu necesită o coordonare a lor. Datanode-urile sunt
folosite ca şi spaţiu comun de stocare al blocurilor de date, de către toate Namenod-urile. Fiecare Datanode se
înregistrează la toate Namenode-urile din cluster şi răspunde la comenzile primite de la acestea. Totodata trimit
periodic heartbeat-uri, precum şi rapoarte la Namenode-uri.
Tools-uri (Instrumente) adiacente

Dezvoltarea Apache Hadoop a dus cu sine şi la dezvoltarea unui adevărat eco-system de tool-
uri/framework-uri adiacente, unele bazate pe Hadoop altele folosite pentru a facilita anumite aspecte ale
folosirii Hadoop. Enumerăm mai jos câteva dintre cele mai importante.
 Scribe - este un server pentru agregarea fluxilor de loguri, care se poate integra cu HDFS (fişiere de loguri care
mai apoi pot fi folosite ca şi date de intrare pentru joburi MapReduce).
6
 Sqoop - este un tool folosit pentru a transfera (importa şi exporta) date, în masa, între HDFS şi datastores
structurate, precum baze de date relaţionale.
 Hive - un tool, de tip data warehouse, care oferă posibilitatea de interogări ad-hoc (prin intermediul HiveQL) a
seturilor de date stocate în HDFS.
 HBase - bază de date de tip NoSQL, având la baza modelul Google BigTable, care foloseşte ca şi mediu de
stocare HDFS.
 Pig- este o platformă folosită pentru analizarea unor seturi de date mari având un limbaj propriu, pentru
descrierea programelor de analiză a datelor. Caracteristica principală a Pig este că prin natura programelor Pig,
permite paralelizarea lor la momentul rulării. Complilatorul Pig produce joburi MapReduce.
 ZooKeper - este un serviciu de coordonare pentru aplicaţiile distribuite
 Oozie - este un tool pentru managementul workflowului/coordonarea joburilor MapReduce.
 Cascading - este un nivel de abstracţie soft pentru Apache Hadoop. Este folosit pentru a crea şi executa
workflowuri de procesare a datelor într-un cluster Hadoop, astfel ascunzând complexitatea joburilor
MapReduce.
 Mahout - este o librărie ce conţine algoritimi de "machine learning" şi "data mining", bazată pe MapReduce.
 Chukwa - este un tool pentru monitorizarea aplicaţiilor distribuite, bazându-se pe arhitectura HDFS şi
MapReduce.
Concluzii
Acest exemplu este o introducere în ceea ce înseamnă Apache Hadoop şi a unor tehnologii ce-l
înconjoară. Pentru cei interesaţi de mai multe detalii, numeroase surse sunt disponibile pe internet
începând cu http://hadoop.apache.org. De asemenea, există o mulţime de soluţii comerciale bazate pe
Apache Hadoop, una din cele mai cunoscute fiind cea oferită de Cloudera (www.cloudera.com - aici
existând şi numeroase prezentări precum şi traininguri). Ştim că revoluţia industrială care a luat startul în
secolul XVIII şi s-a extins în secolul XIX a reprezentat un proces de durată, în cadrul căruia s-a încercat
înlocuirea operaţiunilor manuale şi a forţei de muncă umană prin sisteme automate. În prezent, luăm parte
la o acţiune de înlocuire a analizei manuale a informaţiilor cu o prelucrare automată prin sisteme de calcul
cu o putere de procesare şi stocare ridicată. Evoluţia tehnologiei până în prezent a avut ca rezultat
creşterea capacităţii de stocare a informaţiilor precum şi reducerea costurilor aferente necesare. Costurile
realizării unui cluster care pune la dispoziţia utilizatorilor săi sute de TB nu mai reprezintă un
impediment. Efectele s-au resimţit puternic în cadrul mediului de afaceri. Având la dispoziţie resurse
nelimitate în materie de stocare, a fost necesară crearea de medii destinate analizei rapide a informaţiilor.
Astfel, a luat apariţie conceptul de "big data". Un concept care defineşte seturi mari de date, imposibil de
analizat utilizând procese şi aplicaţii tradiţionale.
De ce e importantă analiza informaţiilor? Principalul motiv al analizei de datelor este acela de a
supravieţui schimbărilor care pot afecta performanţele şi stabilitatea mediului de afaceri şi totodată,
descoperirea de noi oportunităţi şi noi pieţe de dezvoltare. Procesul de analiză trebuie să fie unul cât mai
rapid iar timpii de reacţie cât mai scurţi, rezultatele putând fi utilizate chiar şi în timp real. În cele ce
urmează, vom prezenta o parte din scopurile şi destinaţiile utilizării tehnologiilor Big data în lumea
contemporană pentru a influenţa într-un mod pozitiv diferite modele de business.
Campanii de promovare şi marketing. Pentru a realiza campanii adaptate fiecărui utilizator în parte
putem implementa un sistem de monitorizare a istoricului cumpărăturilor şi a căutărilor efectuate. Pe baza
rezultatelor avem posibilitatea de a crea oferte personalizate spre client. Pentru a putea urmări efectele
unei campanii personalizate, putem realiza rapoarte de activitate pentru a descoperi posibile probleme în
procesul de cumpărare. El este reprezentat de multitudinea paşilor necesari, de la adăugarea unui produs
în coş până la cumpărarea şi efectuarea plăţii acestuia. În cazul pierderii clienţilor este posibilă existenţa
unei concurenţe puternice. Aceasta poate fi analizată utilizând sisteme de tipul "big data" şi efectuarea de
7
rapoarte comparative. Totodată putem realiza o monitorizare a comportamentului clienţilor în cadrul
reţelelor de socializare.
Identificarea riscurilor financiare. Piaţa financiară întâmpină riscuri precum cele operaţionale, de
oferire a creditelor şi cele legate de administrarea lichidităţilor. În mediul pieţelor financiare putem realiza
analize complexe cu privire la managementul creditelor pentru identificarea riscurilor oferirii unui credit
neperformant. Acest lucru poate fi realizat prin analiza comportamentului unui client pe o perioadă mai
lungă de timp precum şi legături conexe cu alţi clienţi. În cazul lipsei unui contact direct cu acesta, este
importantă identificarea fraudelor. Această identificare poate fi realizată în timp real pe baza analizei
fişierelor de loguri, precum şi a posibilelor neconcordanţe în timpul transferurilor bancare. Totodată,
existenţa unor factori conecşi care pot influenţa piaţa financiară trebuie luată în calcul. Aceştia trebuie
monitorizaţi constant pentru identificarea cât mai rapidă a dezechilibrelor financiare posibile.
Managementul traficului aerian şi terestru. În fiecare zi sunt efectuate transferuri financiare
reprezentând despăgubiri din cauza problemelor întâmpinate în cadrul transportului în comun. Putem
discuta despre posibile întârzieri în cadrul transportului aerian, efecte ale condiţiilor nefavorabile.
Întârzieri ce pot fi prevăzute prin intermediul unor servere de Big data destinate analizei informaţiilor
meteorologice. Deoarece în anumite situaţii, aceste întârzieri sunt iminente, necesitatea utilizării
transportului urban şi interurban reprezintă singură soluţie. Datele preluate din cadrul senzorilor plasaţi în
oraşe sau a telefoanelor mobile, pot fi utilizate în realizarea unei rute optime pentru transportori.
Totodată, prin efectuarea unei analize constante a informaţiilor din senzorii amplasaţi în aparatura de bord
a mijloacelor de transport, pot fi evitate posibile viitoare defecţiuni care se pot transforma în întârzieri.
Îmbunătăţirea liniilor de producţie. Pentru creşterea productivităţii este foarte importantă calcularea
procentuală din punct de vedere temporar a fiecărui stadiu de producţie. Acest proces poate fi analizat
prin utilizarea unor sisteme de monitorizare a timpilor petrecuţi în fiecare stadiu de realizare a produsului,
iar ulterior luarea de măsuri pentru reducerea lor. Scăderea timpului de producţie vine împreună cu riscul
creşterii numărului de produse care nu corespund cerinţelor de calitate. Pentru creşterea calităţii, utilizarea
de noi senzori şi analiza informaţiilor obţinute pot duce la identificarea zonelor unde procesele
defectuoase au ca urmare scăderea calităţii. Tehnologiile Big data vor continua să aibă o influenţă
crescută în strategiile de marketing ale companiilor, unul din principalele obiective fiind furnizarea
conţinutului strict spre publicul ţintă şi interesat de cumpărarea unui produs sau serviciu. Orientarea
tehnologiilor Big data spre tehnologiile mobile şi telefoanele inteligente poate reprezenta un pas spre
viitor. În concluzie, toate aceste domenii se află într-un proces de dezvoltare şi perfecţionare.
Tehnologiile specifice Big data ne ajută la creşterea eficienţei proceselor necesare în luarea deciziilor
precum şi la o analiză mai detaliată a acestora. Reducerea timpilor necesari luării unei decizii poate face
diferenţa între succesul unei afaceri şi o înfrângere.
2. Tehnologia Data Mining

Ce este Data Mining?
Descoperirea cunoştinţelor şi data mining-ul (Knowledge Discovery and Data mining - KDD) au emers
ca un domeniu interdisciplinar aflat într-o dezvoltare rapida ce fuzionează baze de date, statistici, domenii
de activitate aflate în strânsa legătura în dorinţa de a extrage informaţii valoroase şi cunoştinţe într-un
volum cât mai mare. Exista o diferenţa în înţelegerea termenilor "descoperirea de cunoştinţe" şi "data
mining". Descoperirea informaţiei (Knowledge Discovery) în baza de date este un proces de identificare a
unor modele/şabloane de date valide, novatoare, folositoare şi, în ultima măsura, de înţeles.
Data mining este un pas în procesul de descoperire a informaţiei constând într-un set de algoritmi data
mining care, în limite acceptate, descoperă "şabloane" (patterns) semnificative în structura datelor, care să
indice în general tendinţe ale pieţei.
8
Data mining descoperă modele în interiorul datelor utilizând tehnici predictive. Aceste modele joaca un
rol foarte important în luarea deciziilor deoarece ele evidenţiază arii unde procesele de business necesita
îmbunătăţire. Utilizând soluţiile de data mining, organizaţiile îsi pot marii profitabilitatea interacţionării
cu clienţii lor, pot detecta fraude, pot îmbunătăţii managementul activităţilor cu risc mare, etc. Modelele
descoperite utilizând soluţiile de data mining ajuta organizaţiile sa ia decizii mai bune şi într-un timp mai
scurt. Marea majoritate a analiştilor separa softurile data mining în doua grupe:
 instrumente de data mining - pun la dispoziţia utilizatorului un număr de tehnici care pot fi
aplicate oricărei probleme de business;
 aplicaţii de data mining - încorporează tehnici în interiorul unei aplicaţii special construita pentru
a se adresa unei probleme specifice de business. Indiferent daca realizam sau nu, viata noastră
zilnica este influenţata de o aplicaţie de data mining. De exemplu, aproape orice tranzacţie
financiara este procesata de către o aplicaţie de data mining pentru a detecta daca exista vro
frauda. Din ce în ce mai mult organizaţiile utilizează instrumente şi aplicaţii de data mining
împreuna pentru a dezvolta analize predictive.
Instrumentele de data mining sunt utilizate pentru a asigura flexibilitate şi exactitate în analize. Acestea
cresc eficacitatea aplicaţiilor de data mining.
Componentele Data Mining şi KDD (Knowledge Discovery and Data

mining)
Funcţia principala a DM este, deci, de a extrage modele de cunoştinţe din date. Pentru aceasta, DM
utilizează o varietate de algoritmi din statistica, recunoaşterea formelor, clasificare, logica fuzzy, machine
learning, algoritmi genetici, reţele neuronale, vizualizarea datelor, etc. Varietatea de algoritmi poate fi
grupata în principalele componente ale DM. Numărul acestor componente diferă de la un autor la altul.
Astfel, unii considera ca DM are 3 componente, alţii, 4, etc.
Principalele componente ale DM sunt:
 modelul - care, ca orice model informatic, se reprezintă printr-o funcţie într-un spaţiu unidimensional
sau multidimensional (un ansamblu de funcţii), depinzând de parametri. El poate fi reprezentat fie ca
o funcţie liniara de parametri, fie ca o funcţie de probabilitate (de exemplu normala), fie ca o funcţie
fuzzy, etc. Obţinerea modelului se realizează prin diferiţi algoritmi, cum ar fi cei de clasificare şi
clusterizare;
 criteriile de preferinţa - care pot fi de natura diferită, unele dintre acestea bazându-se pe ordonare,
altele pe interpolare sau cea mai buna aproximare;
 algoritmi de selecţie - care conduc la selectarea a trei elemente importante care apar în DM, şi anume:
modelul, care se selectează din baza de modele, datele, care se selectează din baza de date şi
constituie parametrii, şi criteriul sau criteriile de preferinţe, care se selectează din baza de criterii;
 stabilirea abaterilor - care consta în general în algoritmi de determinare a deviaţiei şi stabilităţii; o
categorie specifica de astfel de algoritmi sunt cei statistici, prin care se stabilesc abaterile modelului
fata de ideal.
Procesul Knowledge Discovery. Bineînţeles ca fiecare produs comercial utilizează mai mulţi
algoritmi şi în fiecare dintre ei se regăsesc o parte sau toate componentele de mai sus în diferite proporţii.
Autorii care fac deosebire între DM şi KDD considera KDD ca fiind un proces iterativ şi interactiv
complex, care include DM. Astfel, în cadrul KDD se considera ca extragerea cunoştinţelor se realizează
în următorii paşi:
9
- Primul pas este cel înţelegere al domeniului de aplicabilitate şi al formulării problemei. Acest pas este o
condiţie esenţiala pentru extragerea cunoştinţelor utile şi pentru alegerea celor mai potrivite metode de
data mining pentru etapa a treia, conforme cu destinaţia aplicaţiei şi cu natura datelor.
- Al doilea pas este cel de colectare şi reprocesare a datelor, inclusiv selecţia surselor de date, eliminarea
straturilor exterioare, tratamentul datelor lipsa, transformarea şi reducerea datelor. Acest pas consuma cel
mai mult timp din întreg procesul KDD.
- Pasul trei îl reprezintă data mining, procesul de extragere a modelelor sau pattern-urilor ascunse în date.
Un model reprezintă: o reprezentare globala a unei structuri ce rezuma componenta sistematica ce sta la
baza datelor sau care descrie cum pot rezulta datele. În contrast, un pattern este o structura locala, asociata
probabil cu câteva variabile şi câteva condiţii (cazuri). Cele mai importante metode data mining sunt
modelarea predictiva cu clasificarea şi regresia, clustering-ul, modelarea dependentei cu modele grafice şi
estimarea densităţii, etc.
- Al patrulea pas, este cel de interpretare (post-procesare) a cunoştinţelor descoperite, în mod special
interpretarea în termeni de descriere şi prezicere - cele doua scopuri principale ale sistemului de
descoperire în practica. Experienţa arata ca modele sau şabloanele din date nu sunt direct folosite şi ca
procesul KDD este inevitabil reiterat prin prisma cunoştinţelor descoperite. Un mod standard de evaluare
este de a diviza datele în doua seturi, lucrând pe un set de date şi testând pe cel de-al doilea. Putem repeta
procesul de un număr de ori, împărţind datele de fiecare data altfel. Media rezultatelor o vom folosi
pentru a estima regulile de performanta.
- Pasul final este de a pune în practica cunoştinţele descoperite. În unele cazuri, se poate folosi aceasta
descoperire fără a o îngloba într-un sistem integrat, în alte cazuri, utilizatorul foloseşte aceasta
descoperire pentru a o exploata prin intermediul unor soft-uri specializate. Punerea în practica a
rezultatelor este scopul final al KDD-ului.
Figura 5. Extragerea cunostintelor pentru procesul KDD. Relatia Data Warehouse,

OLTP, OLAP şi Data Mining
O baza de date relaţionala este proiectata cu un anumit scop. Deoarece scopul unui depozit de date (data
warehouse) difera de cel al unui OLTP, caracteristicile de proiectare ale unei baze de relaţionale ce
suporta un data warehouse diferă de cele ale unei baze OLTP.
Tabelul 1. Relatia Data Warehouse, OLTP, OLAP şi Data Mining

Baze de date Data warehouse Baze de date OLTP
Proiectata pentru analiza dimensiunilor unei Proiectata pentru operaţiuni de afaceri în
afaceri pe categorii şi pe atribute. timp real.
10
Baze de date Data warehouse Baze de date OLTP
Optimizata pentru încărcări mari şi interogări Optimizata pentru un set normal de
mari, complexe, neaşteptate ce accesează mai tranzacţii, de obicei, adăugând sau ştergând
multe înregistrări dintr-o tabela. o singura înregistrare la un moment dat pe
tabela.
Încărcata cu date consistente, valide; nu solicita Optimizata pentru validarea datelor de
validare în timp real. intrare în timpul tranzacţiilor; utilizează
validarea datelor în tabele.
Suporta câţiva utilizatori curenţi în comparaţie cu Suporta mii de utilizatori curenţi.

OLTP.
Data Mining un instrument Data Warehouse?

Data mining este o tehnologie ce foloseste algoritmi complexi şi sofisticaţi pentru a analiza date şi a
releva informaţii interesante şi necesare analizei realizate de către decidenţi. În vreme ce OLAP
organizează datele într-un model potrivit pentru exploatare de către analişti, data mining realizează
analize pe date şi furnizează rezultate celor care iau decizii. Astfel, OLAP permite analiza orientata pe un
model, iar data mining facilitează analiza orientata pe date. Data mining a operat în mod tradiţional numai
pe înregistrari din bazele de date de tip data warehouse sau pe fişiere text extrase din baza de date data
warehouse. În SQL Server 2000, Analysis Services furnizează tehnologie data mining ce permite analiza
datelor în cuburi OLAP, la fel ca şi datele din bazele de date relaţionale data warehouse. În plus,
rezultatele data mining pot fi încorporate în cuburi OLAP pentru a da capabilitati noi analizei orientate pe
model oferind un punct de vedere dimensional în modelul OLAP. De exemplu, data mining poate fi
folosita pentru a analiza vânzările în contrapartida cu atributele cumparatorilor şi a crea o noua
dimensiune a cubului, pentru a asista analistul în descoperirea informaţiilor înglobate în cubul de date.
Tehnologia cloud computing reprezintă un produs sau model informatic ce transforma internetul intr-un
depozit uriaş în care resursele de calcul diferite sunt disponibile pentru toata lumea sub forma unor
servicii. Dezvoltarea acesteia a avut la baza dezvoltarea sistemelor distribuite, a conceptelor de
virtualizare, prelucrarea paralela, grid computing sau SOA.
Avantajele fundamentale oferite de cloud computing includ aspecte precum flexibilitatea mediului de
lucru, accesul la orice resursa de calcul, partajarea resurselor, flexibilitatea ridicata, administrarea
automizata a întregului mediu de lucru sau protecţia datelor. Pentru a beneficia de toate avantajele oferite
de cloud computing, resursele stocate pot fi accesate prin intermediul tehnologiei data mining, în speţa cu
ajutorul metodelor şi algoritmilor ce definesc aceasta tehnologie. Data mining reprezintă procesul de
extragere a unor informaţii precise, necunoscute în prealabil, dintr-un volum foarte mare de date cu
scopul de a fi înţelese, prelucrate şi utilizate ca suport pentru decizii. Mai mult decât atât, data mining
reprezintă un set de tehnologii precum: depozitele de date (data warehouse), baze de date, algoritmi
pentru analiza şi vizualizarea datelor etc. Tehnologia Data Mining utilizează metode de căutare complexe
ce au drept scop identificarea unor modele şi grupări ale datelor, a unor tendinţe neprevăzute în
comportamentul consumatorului ce pot fi utilizate pentru a anticipa comportamentul viitor al acestuia.
Printre caracteristicile acestei tehnologii se număra următoarele:
- are la baza experienţa acumulata de produsele software utilizate pentru foile de calcul (calcul
tabelar)
- tratează excepţiile de la regula
- utilizează metode de căutare complexa în scopul identificării unor modele şi grupări ale datelor
11
- extrapolează şi adaugă la cazurile similare
- poate sa înveţe în orice situaţie şi sa ofere o soluţie cu un anumit grad de siguranţa
- poate identifica tendinţe nesuspectate în comportamentul consumatorului, care, potenţial, pot fi
utilizate pentru a prevedea comportamentul viitor
- utilizează o multitudine de algoritmi de căutare şi extragere precum: arbori de diferite tipuri,
reţele neuronale, căutare aleatorie, probabilităţi, predicţii etc
Metodele de extragere a cunoştinţelor din date, specifice acestei tehnologii, reprezintă clase de
probleme asupra cărora se aplica diferiţi algoritmi de rezolvare. La baza metodelor stau tipurile de
învăţare care au un impact direct asupra metodelor prin cerinţele legate de forma intrărilor, algoritmul
aplicat şi forma ieşirilor.
Prin învăţare, se înţelege procesul de îmbunătăţire, schimbare a comportamentului intr-un mod favorabil
iar în contextul unei aplicaţii de data mining reprezintă de fapt o extragere a regularităţilor din setul de
exemple disponibil. În funcţie de tipul de învăţare, metodele de extragere a cunoştinţelor din date se pot
clasifica în doua mari categorii după cum urmează:
- învăţare supervizata: ce implica furnizarea iniţiala a unor informaţii despre conceptele ce urmează
a fi învăţate
- învăţare nesupervizata: ce porneşte direct de la extragerea de cunoştinţe şi obţinerea de rezultate ;
elementele de baza în acest caz sunt reprezentate de observarea regularităţilor şi formularea
diferitelor ipoteze
Pe de alta parte, în funcţie de tipul prelucrărilor se disting doua categorii de metode de extragere, în speţa:
mecanismele de învăţare neuronala şi respectiv mecanismele de învăţare simbolica. Pe baza acestor doua
clasificări, se disting următoarele metode principale de extragere a informaţiilor utile
1. clusterizarea: constituie procesul de grupare a elementelor similare în grupuri omogene denumite
clustere. Mai mult decât atât, constituie o clasa de probleme ce utilizează mecanisme de învăţare
nesupervizata având în vedere faptul ca informaţiile iniţiale despre clustere nu sunt cunoscute apriori
aplicării procesului de învăţare.
2. clasificarea: constituie procesul de stabilire a apartenenţei unui element la o clasa dintr-un set de
clase discrete. Aceste grupuri sunt proiectate încă de la început iar elementele sunt asociate în funcţie
de diferite criterii.
3. asocierea: reprezintă procesul de stabilire a asocierilor dintre atribute şi este utilizat în condiţiile în
care nu sunt specificate clase.
4. predicţia: reprezintă procesul ce are la baza dependentele detectate în datele istorice ale căror
intensitate este modelata pentru a stabili valori viitoare ale unor atribute.
Prin urmare, funcţionalitatea principala a tehnologiei data mining este reprezentata de aplicarea unor
astfel de metode şi algoritmi în vederea identificarii şi extragerii unor modele (pattern-uri) din datele
stocate. Data mining s-a dezvoltat la confluenta dintre mai multe discipline, printre acestea numărându-se:
managementul sistemelor de baze de date (DBMS), statistica, inteligenta artificiala, “machine learning”
(ML ) , matematica etc.
Iniţial, tehnologia data mining a fost utilizata pentru colectarea datelor numerice dintr-o singura baza de
date iar numeroase tehnici au evoluat pentru fişierele de tip flat sau pentru bazele de date relaţionale, unde
datele se caracterizau printr-o structura tabulara. Ulterior, prin integrarea tehnicilor specifice unor
domenii precum ML sau statistica, s-au dezvoltat algoritmi pentru extragerea informaţiilor non-numerice.
În procesul de utilizare a tehnologiei Data Mining, ilustrat în figura 6, un rol important îl prezintă
procesul de selecţie/prelucrare/transformare a datelor. Astfel, datele selectate din diferite baze de date
12
sunt ulterior prelucrate şi transformate în funcţie de cerinţe iar în final accentul este comutat la nivelul
procesului de vizualizare a datelor – important pentru utilizatorii finali.
Figura 6. Data Mining
Tipuri şi tehnologii de Data Mining. Exemplu de aplicatie

Tipuri DM
În funcţie de formatul datelor extrase, se evidenţiază următoarele tipuri de data mining:
 Hypermedia Data Mining.

- are la baza tipuri de date precum hypertext şi hypermedia ce reprezintă colecţii de date precum
cataloage online, librarii digitale şi informaţii online ce includ hyperlink-uri, marcaje html sau alte
formate similare
- aplicaţia de tip Data Mining specifica este reprezentata de “Web Mining” utilizata pentru
descoperirea unor modele la nivelul datelor de tip Web
- sunt utilizate tehnici precum clusterizare sau clasificare; un algoritm specific este reprezentat de
PageRank
- domeniile de activitate vizate: aplicaţii de tip Internet/Intranet
 Ubiquitous Data Mining (UDM)

- are la baza evoluţia unor dispozitive precum: laptopuri, palm,telefoane mobile sau alte dispozitive
portabile
- UDM-ul reprezintă procesul de analiza a datelor în vederea extragerii informaţiilor utile specifice
ubicom-ului (ubiquitous computing)
- domenii de activitate vizate: aplicaţii pentru dispozitivele mobile, PDA-uri etc
13
 Multimedia Data Mining
- datele de tip multimedia sunt reprezentate de cele audio, video, imagine sau animaţii
- tehnicile de tip Data Mining care sunt aplicate asupra acestor date de tip multimedia sunt algoritmi
precum retele neuronale, SVM (Support Vector Machine), metodele de clusterizare etc
- domeniile de activitate vizate sunt: aplicaţii de tip audio/video
 Spaţial Data Mining

- datele spaţiale sunt constituite din linii, suprafeţe, volume şi obiecte de dimensiuni superioare
utilizate în aplicaţiile de proiectare asistata de calculator, cartografie, sisteme informatice geografice
etc
- printre tehnicile utilizate se număra cele specifice bazelor de date spaţiale , OLAP spaţial, sau metode
de clusterizare spaţiala
- printre aplicaţiile vizate se număra: teledetecţia, GIS etc
 Time series Data Mining

- o serie de date este reprezentata de o serie de puncte aflate la intervale uniforme de timp precum:
volumul producţiei vândute, stocul acţiunilor, ratele de schimb valutar, date biomedicale etc
- algoritmii utilizaţi specifici
- printre aplicaţiile specifice se număra: aplicaţiile financiare
Aplicaţiile de tip Data Mining sunt data-driven (figura 7), existând un nivel ridicat de complexitate la
nivelul datelor stocate sau a interrelatiilor dintre datele prezente intr-un depozit de date care sunt dificil de
identificat prin intermediul unor alţi algoritmi sau tehnici.
Figura 7. Data Mining – aplicatie de tip data-driven
Din acest punct de vedere, aplicaţiile de tip Data Mining se caracterizează prin următoarele aspecte:
- acces uşor la o cantitate mare de date
- necesita multe resurse de diferite tipuri
- poate prelua date din surse interne sau externe ale sistemului
- se pot realiza regăsiri şi analize complexe ale datelor şi modelelor
Printre aspectele importante legate de dezvoltarea tehnologiei data mining se număra:

 standardizarea limbajelor specifice Data Mining: exista numeroase tool-uri ce trebuiesc standardizate
 preprocesarea datelor: importanta pentru identificarea pattern-urilor la nivelul datelor distribuite, complexe,
largi sau temporale
 web mining: dezvoltarea unor seturi de metrici de tip Web necesare pentru procesul de extragere a datelor
 complexitatea obiectelor de date: aplicarea tehnologiei Data Mining asupra unor tipuri de date complexe
precum: date temporale, multidimensionale, stream-uri de tip high speed etc
 resursele hardware şi software ale sistemelor de calcul: de exemplu, viteza conexiunii de internet facilitează
analiza datelor captate de pachetele IP cu scopul detectării DoS-urilor (Denial of Service) sau a altora tipuri de
atacuri.
14
EXEMPLU de Aplicatie de DM
Pieţele financiare şi tehnicile de Data Mining
În ultimii zece ani colectarea datelor a devenit un fenomen normal pentru tot mai multe companii, în
special date cu privire la comportamentul consumatorilor: cumpărături, locuri vizitate, tranzacţii
efectuate. În 1999 una dintre cele mai mari bănci de investiţii americane, Goldman Sachs urmărea mai
multe de un milion de serii temporale, de la informaţii privitoare la instrumente financiare cum sunt
acţiunile sau obligaţiunile la informaţii mai personale ale clienţilor lor, cum ar fi cheltuielile de vacanţă.
În acelaşi timp, o altă bancă, Morgan Stalney, colecta zilnic 10 Gigabytes de date. Este dificil de estimat
astăzi care este dimensiunea datelor colectate şi analizate de către cele două companii, dar ne putem face
o imagine despre amploarea lor, privind rata de creştere a afacerilor în sectorul de e-banking în ultimii 10
ani: de la o valoare de 27 miliarde dolari în 2000 la 176 miliarde dolari în 2011 (US Census Bureau,
2011).
În domeniul tranzacţiilor financiare situaţia este şi mai impresionantă. În ultima decadă pieţele financiare
au devenit aproape în totalitate electronice. Schimbările au fost atât de masive încât, la nivel mondial, cea
mai mare parte a tranzacţionării se face automat, pe baza algoritmilor de tranzacţionare. În opinia noastră,
există o serie de factori care au făcut evoluţia atât de rapidă.
Dintre ei menţionăm:
1. Unul dintre cei mai importanţi factori este maturizarea Internetului, societatea modernă fiind familiară
cu acesta şi dezvoltarea rapidă a tehnologiei a dus şi la dezvoltarea tehnologiilor pentru tranzacţionare.
2. În acelaşi timp cu inovaţiile tehnologice, investitorii au devenit mai sofisticaţi, având nevoie de
executare rapidă a tranzacţiilor şi instrumente de analiză puternice pentru a face faţă competiţiei.
3. Globalizarea acestui domeniu a adus ca şi consecinţă tranzacţii mai ieftine şi acces la pieţele mondiale
pentru investitori. Fuziunile şi achiziţiile burselor au determinat o dezvoltare fluentă a sistemelor de
tranzacţionare, direcţia fiind una de compatibilizare între diferitele sisteme utilizate în lume. Pieţele
emergent au luat modelul pieţelor dezvoltate şi au creat structuri asemănătoare.
4. Perioada a fost şi de maturizare a modelelor de afaceri pentru băncile de investiţii care au evoluat rapid,
creând o gamă largă de produse, multe dintre ele exotice, pentru a satisface nevoile investitorilor şi de a
alinia riscul la nivele predefinite.
5. Varietatea de instrumente a aut nevoie de unelte puternice de calcul şi reacţie rapidă, multe dintre ele
fiind interrelaţionate şi acţionând în cascadă. Analiza relaţiei dintre pieţe a devenit o preocupare a
analiştilor financiare, cu posibilitatea de rebalansare rapidă a portofoliilor.
Tranzacţionare cantitativă
Despre Tranzacţionarea Algoritmică
Tranzacţionarea cantitativă reprezintă procesul de tranzacţionare a valorilor mobiliare în mod automat, în
funcţie de un algoritm, fără interacţiunea directă umană, sau potrivit lui (Chan, 2008), tranzacţionarea
bazată strict pe semnalele de vânzare/cumpărare ale unui algoritm. Un raport publicat de către Aite Group
(Aite Group, 2009) arată că în ultimii trei ani tranzacţionarea algoritmică a devenit dominantă în pieţele
financiare, cu o creştere impresionantă de la an la an. În 2009 estimarea făcută a fost că aproximativ 70%
din volumul zilnic de tranzacţionare realizat în Statele Unite s-a realizat în acest mod automat.
Expansiunea din ultimii ani a fost stimulată de către profitabilitatea ridicată pe care aceşti algoritmi o
aduc. Conform unui raport FixProtocol (Donefer, 2008) totalul profiturilor realizate anual din
tranzacţionarea cantitativă automată a fost de aproximativ 20 miliarde de dolari în Statele Unite.
15
Algoritmii sunt dezvoltaţi în funcţie de strategii utilizate de către specialişti, bazându-se pe datele istorice
disponibile, testate şi îmbunătăţite. În acest fel, au fost create strategii competitive, obţinându-se în mod
automat soluţii care pot reacţiona rapid la modificarea condiţiilor din piaţă. Cei mai mulţi dintre algoritmi
sunt din categoria celor cu frecvenţă mare a tranzacţiilor. Diferenţa dintre cele două categorii, cu
frecvenţă ridicată şi scăzută a tranzacţiilor este că în primul caz se urmăreşte realizarea unui profit scăzut
pe fiecare tranzacţie, fiind însă în final consistent datorită numărului mare de tranzacţii şi exploatând o
mare parte din mişcările pieţei.
Chiar dacă se bazează pe date istorice, nu trebuie făcută confuzia cu analiza tehnică. Aceasta poate fi o
parte a unei strategii dacă semnalele sale pot fi utilizate ca date de intrare utilizând un limbaj de
programare. De asemenea, date fundamentale pot fi încorporate într-o strategie, ştiri sau comentarii
despre o anumită companie. Puterea computaţională poate fi utilizată pentru a realiza comparaţii a mii de
companii sau pentru a interpreta ştiri mult mai rapid decât o persoană le-ar putea citi sau înţelege. O
consecinţă a dezvoltării tranzacţionării algoritmice este că pieţele pe care activează devin mai eficiente.
Algoritmii de tranzacţionare tind să exploateze cât mai multe dintre ineficienţele pieţei, informaţia nouă
fiind absorbită mai repede.
O altă urmare este creşterea lichidităţii, generată de 14 tranzacţiile frecvente, în beneficiul pieţelor.
Lichiditatea crescută în pieţele unde este prezentă tranzacţionarea cu frecvenţă ridicată determină şi
costuri mai scăzute pentru toţi investitorii, datorită diferenţei mai scăzute între cerere şi ofertă şi un risc
mai scăzut al investiţiilor, în principal al celui de contraparte. În acelaşi timp, tranzacţionarea algoritmică
a dus la dezvoltarea domeniului de cercetare pentru creşterea puterii de calcul, determinând progrese
tehnologice privind eficienţa sistemelor de tranzacţionare. În ultimii ani, timpul de execuţie al
tranzacţiilor a scăzut, în special datorită cerinţelor venite din partea algoritmilor de tranzacţionare.
Competiţia dintre dezvoltatorii de algoritmi, persoane fizice sau instituţii are loc nu doar la nivelul pieţei
dar şi al infrastructurii construite pentru a susţine eficacitatea algoritmilor. O consecinţă directă a
dezvoltării tehnologiei este şi scăderea dramatică a timpului de menţinere a unei investiţii.
Tranzacţionarea algoritmică este întâlnită pe pieţele valutare internaţionale, acţiuni şi derivate, în ultimii
ani fiind dezvoltate tot mai multe produse exotice destinate atât acoperirii riscului dar şi pentru a produce
un levier ridicat. Diseminarea ştirilor, viteza şi calitatea analizei datelor, a posibilităţii de reacţie rapidă la
ştiri a dus la creşterea transparenţei pieţelor.
Conform unui raport realizat în 2010 (Aite Group, 2010), în Europa tranzacţiile realizate prin intermediul
algoritmilor sau a accesului direct în piaţă a crescut la mai mult de 50%, în timp ce în America
procentajul este de peste 70. Sofisticarea investitorilor tradiţionali a determinat diversificarea ofertelor.
Trendul crescător al tranzacţionării electronice este unul care tinde să se menţină, acelaşi raport estimând
că în 2010, aproape în totalitate, acţiunile au fost tranzacţionate în mod electronic în Statele Unite.
Strategie automată destinată tranzacţionării acţiunilor pe BVB

Utilizarea unor indicatori analiză tehnică în luarea deciziilor pentru investiţii rămâne un subiect
controversat, fiind apreciata de unii investitori, dar a fost respinsă de alţii (Edwards, Magee, & Bassetti,
2007). În timp ce specialişti şi cercetători din lumea academică au dezvoltat noi metode şi indicatori, teste
în timp real sau simulate sunt necesare pentru a le valida (Silaghi & Robu, 2005).
Predicţia preţului este o problemă foarte complexă, şi selectarea indicatorilor tehnici potriviţi pentru o
anumită acţiune este una dintre primele preocupări ale investitorilor care utilizează analiza tehnică. O
dificultate este de reglarea parametrilor acestor indicatori într-un mod care semnalele lor să fie corecte
într-un procent cât mai mare posibil (Bodas-Sagi, Fernández, Hidalgo, Soltero, & RiscoMartin, 2009). În
timp ce comportamentul acţiunilor este diferit şi suferă schimbări în timp, alegerea valorilor parametrilor
devine o sarcină dificilă fără ajutorul unei metode avansate de calcul.
16
Metodele de data mining sunt considerate a fi o alegere inteligentă pentru selectarea indicatorilor tehnici
potriviţi, permiţând teste pe seturi de date foarte mari (o condiţie esenţială, ţinând cont de volumul mare
de date financiare disponibile), precum şi multe combinaţii ale valorilor parametrilor, combinând valori
orare, zilnice sau săptămânale pentru teste (Bodas-Sagi, Fernández, Hidalgo, Soltero, & Risco-Martin,
2009) (Silaghi & Robu, 2005). Obiectivul nostru este de a propune o metodologie care combină indicatori
tehnici diferiţi, bazată pe teste efectuate pe seturi de date colectate de pe pieţele de acţiuni internaţionale
sau locale, precum şi obţinerea de semnale de tranzacţionare cu o precizie îmbunătăţită în comparaţie cu
rezultatele obţinute prin utilizarea utilizarea unui singur indicator, şi compararea rezultatelor cu alte
cercetări efectuate. Am considerat o combinaţie de indicatori utilizaţi frecvent în analiza tehnică având ca
şi scop demonstrarea eficacităţii semnalului agregat faţă de utilizarea singulară a indicatorilor. Cei trei
indicatori sunt MACD (Moving Average Convergence-Divergence), ROC (Price Rate of Change) şi STS
(Oscilatorul Stochastic). • MACD este un indicator utilizat pe scară largă şi urmăreşte schimbările în
forţa, direcţia, ritmul şi direcţia de o tendinţă. Se calculează luând în considerare Media mobilă
exponenţială (EMA), pentru două perioade diferite.
2.Rezultate experimentale
Pentru implementarea metodologiei am utilizat AFL – Amibroker Formula Language (Amibroker), un
limbaj de programare utilizat pentru dezvoltarea de indicatori personalizaţi, setarea parametrilor de
management a riscului şi testare pe date istorice. Pentru testarea metodologiei propuse am ales un grup de
unsprezece companii listate la Bursa de Valori Bucureşti, componente ale indicilor BET şi BET-FI, ele
numărându-se printre cele mai lichide acţiuni de pe piaţă; din acest motiv am considerat utilizarea lor ca
fiind relevantă pentru testarea strategiei. Seriile de timp utilizate conţin date de tranzacţionare istorice
începând cu ianuarie 2007 şi până în iulie 2011, având un număr de aproximativ 50000 de înregistrări
fiecare. Datele înregistrate au o frecvenţă de cinci minute pe întreaga perioadă menţionată mai sus.
Pentru a defini termenii de comparaţie a performanţei metodologiei am considerat mai multe abordări. În
primul rând, am testat strategia având ca şi comparaţii strategii similare care ţin cont numai de câte unul
dintre indicatorii tehnici utilizaţi, în concordanţă cu scopul declarat de a obţine rezultate superioare
tranzacţionării pe baza semnalelor unui singur indicator.
În al doilea rând, am comparat rezultatele cu performanţele celor doi indici, BET şi BET-FI. Am analizat
rezultatele pe diferite intervale de timp, pe de o parte pentru fiecare an şi apoi global, pentru întreaga
perioadă, pentru a identifica performanţele pe diferite faze ale pieţei. Strategia de comparaţie a presupus
investirea la începutul perioadei de referinţă şi menţinerea acesteia până la finalul perioadei.
Datorită faptului că pe piaţa pe care a fost strategia testată este permisă intrarea numai pe poziţii de
cumpărare (nu este permisă vânzarea în lipsă), parametrii indicatorilor tehnici au fost modelaţi
corespunzător pentru a identifca trendurile de creştere şi a încerca să capteze cât mai mult din aceste
perioade, în acelaşi timp să evite cât mai mult posibil investirea în perioadele de scădere. Din aceste
motive, sistemul are anumite limitări, nefiind testat şi pentru cazul în care vânzările în lipsă ar fi permise.
19 Suma virtuală iniţială pentru tranzacţii a fost definită la 100000 RON, considerând lichiditatea destul
de redusă a pieţei. Indicatorii tehnici utilizaţi au fost calculaţi folosind serii orare de timp, generând astfel
un număr relevant de tranzacţii pentru concluziona asupra performanţelor sistemului. În ceea ce priveşte
managementul riscului, am calculat ca tranzacţiile să fie limitate la suma de 10000 RON şi variaţia
maximă permisă pentru o tranzacţie la 5%.
Testele au fost realizate în două direcţii, prima considerând investiţiile pentru o perioadă de un an,
portofoliile fiind reactualizate la suma iniţială la începutul fiecărui an, neincluzând performanţa anului
precedent; în al doilea caz a fost luată în calcul întreaga perioadă, asumând faptul că profiturile obţinute
sunt reinvestite, fără a lua în calcul retrageri sau alimentări de bani. De asemenea a fost luat în calcul un
comision de 0.3% pe fiecare tranzacţie. În tabelul următor prezentăm performanţele strategiilor luate în
calcul, adăugând şi rata dobânzii bancare, calculată pentru fiecare an în parte şi global.
Valorile utilizate pentru rata dobânzii fără risc au fost cele determinate de către Banca Naţională a
României pentru politica monetară. 2007 2008 2009 2010 2011 Overall Rata dobânzii 7.42% 9.75%
17
9.06% 6.26% 6.25% 41.15% BET 16.29% -69.68% 57.2% 10.89% -15.15% -44.36% BET-FI 14.95%
-83.62% 83.33% -10.09% -21.02% -74.19% MACD 19.73% -53.88% 73.85% -30.75 -19.16% -45.13%
ROC -2.74% -8.35% 14.43% -34.94% -35.4% -60.3% Oscilatorul stochastic 18.9% -21.88% 86% -3.93%
-7.03% 53.13% Metodologia propusă 13.98% 8.27% 81.81% 3.45% 14.26% 146%. Putem observa, că în
ansamblu, cei doi indici utilizaţi ca termeni de comparaţie au avut performanţe negative, investiţia în
companiile componente ale indicilor generând pierderi semnificative. Se pot identifica însă şi perioade
intermediare de timp cu performanţe pozitive. Dintre strategiile având la bază indicatori tehnici, numai
cea care utilizează Oscilatorul Stochastic s-a dovedit a fi câştigătoare pe întreaga perioadă analizată.
Concluzii
Utilizarea indicatorilor analizei tehnice în luarea deciziilor de investiţii în acţiuni rămâne un subiect
controversat, fiind apreciat de o parte a investitorilor, dar respins de alţii. În timp ce profesioniştii în 20
domeniu şi cercetători din mediul academic dezvoltă noi metode şi indicatori, acestea au nevoie de o
testare intensivă pe date reale sau simulate pentru a fi validate. Urmărind testele statistice care au fost
aplicate asupra rentabilităţilor zilnice ale indicelui BET-FI, au fost identificate corelaţii liniare şi
neliniare, preţul acţiunilor fiind influenţat de informaţiile noi apărute în piaţă, ipoteza de mers aleatoriu
fiind respinsă. Nu poate fi susţinută existenţa unei forme slabe de eficienţă informaţionale, nefiind în
acest fel respinsă utilitatea analizei tehnice. Combinarea a trei indicatori de analiză tehnică prin semnalele
lor de tranzacţionare a fost testată cu succes prin utilizarea în implementare a limbajului AFL
(Amibroker). Testele au fost efectuate pe serii de timp din perioada 2007-2011, reprezentând date de
tranzacţionare ale unor acţiuni tranzacţionate la Bursa de Valori Bucureşti, obţinând rezultate superioare
strategiilor luate ca referinţă, cu toate că au fost impuse condiţii prudenţiale, iar controlul tranzacţiilor cu
pierdere a fost corespunzător. Chiar dacă în unele cazuri strategiile cu care a concurat au înregistrat
performanţe superioare, global, strategia propusă a avut performanţe mai consistente, dovedind că
semnalele agregate pentru tranzacţionare dau rezultate mai bune comparativ cu semnalele individuale ale
indicatorilor tehnici. Pentru optimizarea sistemului, propunem integrarea unui Algoritm Genetic sau a
unei alte metode adaptive pentru modelarea parametrilor indicatorilor tehnici într-o manieră rapidă şi
funcţională şi pentru învăţarea automată de noi reguli de tranzacţionare. O combinaţie între reguli de
tranzacţionare descoperite automat şi regulile definite de către experţi în domeniu ar putea îmbunătăţi în
ansamblu performanţele sistemului.
3. Data mining în contextul cloud computing

Introducere
Internetul devine din ce în ce mai pronunţat un instrument vital în viata noastră de zi cu zi, atât în viata
profesionala cât şi în viata personala, acesta atrăgând din ce în ce mai mulţi utilizatori noi. Având în
vedere acest fapt nu este de mirare ca afacerile au început sa migreze din mediul tradiţional către Internet.
Poate unul dintre cele mai revoluţionare concepte apărute în domeniul Internetului în ultimii ani este
conceptul de Cloud Compuţing. Termenul “Cloud Computing”- greu de tradus astfel încât sa sune bine în
limba romana, defineşte un concept IT dezvoltat în ultimii ani. Mai clar, cloud computing, se refera la
un serviciu de închiriere a unor resurse virtuale hardware şi software. Prin acest serviciu, clientul nu
va obţine fizic serverele pe care urmează sa fie instalate anumite aplicaţii software ci nişte capacitaţi
virtuale de procesare şi stocare pe care le poate accesa online. Din ce în ce mai multe companii aleg ca
alternativa la construirea propriilor infrastructuri IT, sa-şi depoziteze bazele de date sau programele de tip
software pe servicii de tip cloud, astfel avand acces la date şi programe prin intermediul Internetului.
18
Folosirea serviciilor de Cloud Compuţing capata popularitate datorita mobilităţii, disponibilităţii şi
preţului scăzut. Pe de alta parte folosirea Cloud Compuţing aduce cu sine şi anumite amenintari de
securitate la adresa datelor şi informaţiilor companiei. În acelasi timp, tehnicile de Data Mining au
evoluat intr-un ritm comparativ cu evoluţia Cloud Compuţing, acestea fiind folosite în scoaterea de
informaţii din baze de date în domenii precum afacerile, medicina, ştiinţa şi ingineria, date spaţiale etc.
Tendinţele emergente Cloud Computing furnizează utilizatorilor săi beneficiul unic de acces fără
precedent la date valoroase, care pot fi transformate în informaţii utile, ce îi poate ajuta sa-şi atingă
obiectivele de afaceri.
Cloud Compuţing
Cloud Compuţing – model de arhitectura de calcul (Figura 9), ce permite accesul printr-o reţea de
calculatoare, convenabil şi la cerere, la un fond comun de resurse de calcul, dinamic configurabil. Aceste
resurse pot fi găsite rapid şi uşor prin interacţiunea cu un furnizor de resurse şi servicii (provider). Acest
model este compus din cinci caracteristici esenţiale, trei modele de servicii şi patru modele de
implementare. Caracteristici esentiale: serviciu la cerere, acces prin retea, punere în comun a resurselor,
elasticitate, control şi optimizare a resurselor. Modele de servicii (Figura 8):
 Software as a Service (SaaS) – aplicaţiile informatice şi datele aferente sunt stocate intr-un centru de
date şi sunt oferite utilizatorilor, la cerere, prin Internet (cu un navigator specializat). Acest serviciu
oferă un stadiu de lucru ridicat. Se foloseşte pentru aplicaţii colaborative, mobile etc., mai puţin
pentru aplicaţii în timp real.
 Infrastructure as a Service (IaaS) – un ansamblu de componente hardware (servere, medii de stocare,
retele etc.) impreuna cu anumite componente software (sisteme de operare, virtualizare, clusterizare
etc.) ce este oferit utlizatorilor. Acest model oferă un stadiu intermediar ce se foloseşte pentru cereri
volatile, nu se foloseşte atunci când se cer multe standarde.
 Platform as a Service (PaaS) – mediile pentru dezvoltarea şi implementarea aplicaţiilor informatice
sunt oferite dezvoltatorilor.
Figura 8. Modele de servicii Cloud Compuţing
Modele de implementare:
 Servicii private – Private cloud – infrastructura este disponibila doar în interiorul unei organizaţii ce
înglobează mai mulţi consumatori. Poate fi cazul unei reţele de magazine de retail. Infrastructura
poate fi deţinuta, configurata şi utilizata de organizaţia respectiva sau de terţi, ori combinaţii ale celor
doua variante.
19
 Servicii comunitare – Community cloud – infrastructura este utilizata de entitati diferite ce
impartasesc o parte din scopuri. Poate fi exemplul serviciilor de urgenta – politia, pompierii,
ambulanta.
 Servicii publice – Public cloud – infrastructura este deschisa utilizării de către publicul larg în scopuri
academice sau guvernamentale. Presupune existenta unui terţ care sa furnizeze fizic infrastructura
cloud.
 Servicii mixte – Hybrid cloud - infrastructura este o combinaţie de servicii private, comunitare şi
publice care îşi păstrează caracterul unitar, dar sunt unite printr-o tehnologie ce asigura portabilitatea
informaţiilor şi a aplicaţiilor software utilizate.
Figura 9. Arhitectura Cloud Compuţing
Data mining reprezintă găsirea de modele utile sau tendinţe din cantitati mari de date. Data mining este
definita ca un tip „de analiza a bazei de date, care încearcă sa descopere tipare utile sau legături intr-un
grup de date. Aceasta analiza utilizează metode de statistica avansata, cum ar fi analiza de clustere,
inteligenta artificiala şi uneori chiar tehnici de reţele neuronale. Scopul principal al data minig este sa
descopere legături neştiute între date, în special când datele vin din baze de date diferite.”
Prin data mining nu se urmăreşte verificarea sau confirmarea/infirmarea de ipoteze, ci se intenţionează
descoperirea unor cunoştinţe noi, neintuitive, care pot contrazice percepţia intuitiva, fiind deci informaţii
complet necunoscute la momentul realizării procesului de data mining. Din acest motiv rezultatele
obţinute sunt cu adevărat valoroase.
Procesul de data minig este deseori utilizat împreuna cu tehnici tradiţionale de interogare sau de analiza a
datelor. Din aceasta cauza, data minig-ul este asociat frecvent cu: interogări SQL, regăsiri de date, cu
ajutorul unor instrumente avansate precum agenţii inteligenţi, analize în sisteme de baze de date
multidimensionale cu ajutorul sistemelor OLAP, rapoarte şi grafice de prezentare a datelor, prelucrări
statistice tradiţionale ale datelor. Insa aceste tehnici nu permit descoperirea de cunoştinţe fără formularea
prealabila de ipoteze.
Funcţii specifice procesului de data minig:
 Clasificarea: grupează articolele în clase discrete şi prezice cărei clase îi aparţine un articol
 Regresia: aproximarea şi prezicerea valorilor comune
 Importanta atributelor: identificarea celor mai importante atribute în prezicerea rezultatelor
 Detecţia anomaliilor: identificarea articolelor ce nu satisfac caracteristicile datelor normale (articole
ce prezintă caracteristici străine)
 Clusterizare: găsirea grupărilor naturale între date
 Modele asociate: analizarea costului pieţei
 Extragere de caracteristici: crearea de noi atribute caracteristice folosind combinaţii ale atributelor
originale
20
Data mining şi cloud computing
Tehnicile de data mining şi aplicaţiile acestora au un rol foarte important în contextul cloud computing.
Deoarece cloud computing îşi face simţita prezenta din ce în ce mai mult în toate ariile de afaceri şi chiar
ale cercetării ştiinţifice, acesta devine o zona de interes pentru implementarea tehnicilor de data minig.
Cloud computing devine noul trend în serviciile ce utilizează Internetul pentru a îndeplini sarcini cu
ajutorul serverelor. Data mining în cloud computing este procesul de extragere a informaţiilor structurate
din surse de date nestructurate sau semistructurate din domeniul web. Folosirea procesului de data mining
împreuna cu cloud computing oferă organizaţiilor posibilitatea de a-şi centraliza managementul
produselor software pe care le foloseşte şi a spatiilor de stocare pentru date virtuale, cu asigurarea unor
servicii eficiente, fiabile şi sigure pentru utilizatorii lor. Deoarece scopul principal al cloud computing
este sa ofere software şi hardware, ca şi servicii, prin intermediul Internetului, software-ul pentru data
minig va fi oferit utilizatorului în aceeaşi maniera.
Principalele avantaje ale folosirii unui instrument de data minig prin intermediul unui serviciu cloud sunt
următoarele:
 Clienţii plătesc doar pentru instrumentele de data mining de care au nevoie la un moment dat, ceea ce duce la
reducerea costurilor companiei cu licenţele de software. Aceştia nu mai trebuie sa plătească pentru suite
complexe de software specializat în data minig.
 Clienţii nu mai trebuie sa aibă o întreaga infrastructura hardware, deoarece pot avea acces la servicii de data
mining doar cu ajutorul unui navigator specializat. Iarăşi costurile companiei scad deoarece se plătesc doar
costurile generate de folosirea serviciului de cloud computing.
 Clienţii au acces la serviciile de data mining oriunde şi oricând deoarece acestea sunt disponibile prin cloud
computing şi pot fi accesate de pe orice dispozitiv cu legătura la Internet, prin intermediul unui browser (Figura
10).
 Utilizarea serviciilor de data mining prin intermediul cloud computing darama bariera ce ţinea departe
companiile mici şi mijlocii de beneficiile date de instrumentele de data minig, datorita costurilor mai mici fata
de suitele tradiţionale de data minig.
 Implementarea tehnicilor de data mining prin intermediul cloud computing, oferă utilizatorilor posibilitatea de a
extrage informaţii importante din depozite de date integrate virtual prin cloud computing, ceea ce duce la
reducerea costurilor cu infrastructura şi spaţiul de stocare al datelor.
Figura 10. Accesul la Cloud Compuţing
21
Concluzii
Tehnologiile data mining puse la dispozitie prin servicii de cloud computing sunt o caracteristica absolut
necesara pentru zona de afaceri din zilele noastre, ajutând companiile sa ia decizii proactive, bazate pe
cunoastere şi oferind acestora tendinţele viitoare şi comportamente predictibile în dezvoltarea mediului de
afaceri. Folosirea tehnologiilor de data mining împreuna cu mediul cloud computing oferă posibilitatea nu
numai a companiilor mari sa aibă acces la data mining, dar şi companiilor mici şi mijlocii, care nu îşi
puteau permite sa cumpere soluţii de data mining foarte costisitoare. Folosirea serviciilor de cloud
computing devine din ce în ce mai populara, în ultimii ani făcându-şi apariţia în domeniul afacerilor
sintagma „If you are not în the cloud you are not going to be în business”. Nevoia companiilor de servicii
de data mining creste pe zi ce trece, astfel încât necesitatea integrării serviciilor de data mining în
serviciile de cloud computing devine o problema din ce în ce mai stringenta. Companiile continuă să
integreze inteligenţa artificială (AI) în operaţiunile de afaceri, spun specialiştii EY după cum sondaj
efectuat în rândul a 200 profesionişti seniori din zona AI privind gradul de adopţie şi de integrare a AI. Iar
acest lucru se întâmplă deşi este o lipsă acută a talentelor, după cum spun reprezentanţii companiilor.
Talentul reprezintă principala preocupare pentru respondenţii din cadrul sondajului. 56% dintre aceştia
declară că lipsa de experţi AI reprezintă cea mai înaltă barieră în calea implementării AI în operaţiunile
curente de afaceri. În acelaşi timp, organizaţiile sunt îngrijorate de lipsa de diversitate din rândul
talentelor disponibile, 41% atrăgând atenţia că diversitatea de gen poate influenţa prejudecăţile pe care
maşinile le vor asimila în procesul de învăţare (machine learning). "În acest an, pe măsură ce au elaborat
strategii de integrare a inteligenţei artificiale în operaţiunile curente, companiile s-au confruntat cu lipsa
experţilor matematicieni şi statisticieni care ştiu să creeze seturile de reguli şi algoritmi care trebuie
implementate în tehnologiile AI. Acest fapt demonstrează clar că o abordare AI de succes nu se referă
doar la tehnologie, ci mai ales la oameni inteligenţi. Privind înspre 2018, organizaţiile ar trebui să aibă ca
prioritate atragerea şi cultivarea de talente – atât prin recrutarea de persoane cu o pregatire adecvată, cât şi
prin investiţii în programe de instruire şi cultivare de talente”, afirmă Carmen Adamescu, Partener EY
România.
TAS9.
1. Caracterizati si exemplificati conceptul de Big Data. Dati un exemplu de SI care
integreaza o astfel de structura.
2. Ce reprezinta Data Mining? Precizati doua metode de Data Mining.
3. Descrieti arhitectura de Cloud Computing si rolul ei in sustinerea afacerilor. Exemplu
22

Curs 5

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Curs 5

Încărcat de

Drepturi de autor:

Formate disponibile

Curs 5.

Big Data, Data Warehouse si OLAP, Data Mining,

Principalele caracteristici ale unui dataset Big Data

Big Data System - TRUSTER DX220

EXEMPLU: Big Data Apache Hadoop

MapReduce 2.0 (YARN sau MRv2)

Figura 4. Arhitectura MRv2

ApplicationMaster-ul, per aplicaţie, este responsabil cu negocierea de containere de resurse de la Scheduler,

Tools-uri (Instrumente) adiacente

2. Tehnologia Data Mining

Componentele Data Mining şi KDD (Knowledge Discovery and Data

Figura 5. Extragerea cunostintelor pentru procesul KDD. Relatia Data Warehouse,

Tabelul 1. Relatia Data Warehouse, OLTP, OLAP şi Data Mining

Suporta câţiva utilizatori curenţi în comparaţie cu Suporta mii de utilizatori curenţi.

Data Mining un instrument Data Warehouse?

Figura 6. Data Mining

Tipuri şi tehnologii de Data Mining. Exemplu de aplicatie

 Hypermedia Data Mining.

 Ubiquitous Data Mining (UDM)

 Spaţial Data Mining

 Time series Data Mining

Figura 7. Data Mining – aplicatie de tip data-driven

Printre aspectele importante legate de dezvoltarea tehnologiei data mining se număra:

Strategie automată destinată tranzacţionării acţiunilor pe BVB

3. Data mining în contextul cloud computing

Figura 8. Modele de servicii Cloud Compuţing

Figura 9. Arhitectura Cloud Compuţing

Figura 10. Accesul la Cloud Compuţing

S-ar putea să vă placă și