Sunteți pe pagina 1din 15

Sisteme de baze de date

Curs 5

Cloud Computing
Big Data
Despre Cloud Computing
• Este un termen folosit pentru a o infrastructura
care nu se afla la sediul firmei (on-premises) ci
este operata de o alta companie
• Aceasta se ocupa de mentenanta arhitecturii care
trebuie sa poate fi accesata si operata la
perfomanta dorita
• Plata se face in functie de cat se foloseste
(infrastructura de calcul, comunicatie, stocare,
etc)
• Ofera scalare orizontala
Despre Cloud Computing
• IaaS – Infrastructure as a Service
• PaaS – Platform as a Service
– Database as a service (DBaaS)
• SaaS – Software as a Service
Cloud Computing
Gartner Cloud quadrant
DBaaS
• AWS:
– Relationale: Aurora, Redshift, RDS (Oracle, MySQL,
MariaDB, SQL Server)
– Non-relationale
• Cheie valoare: DynamoDB
• In memory: Amazon ElastiCache for Memcached, Amazon
ElastiCache for Redis
• Documente: DocumentDB
• Grafuri: Amazon Neptune
• Oracle Cloud:
– Autonomous Transaction Processing
– Autonomous Data Warehouse
RDS - Oracle
DynamoDB
Volume mari de date
• Cantități mari de date sunt produse și utilizate în fiecare zi
de oameni care interacționează cu diferite aplicații și
dispozitive sau pentru a susține o gamă largă de activități,
cum ar fi prognoza meteo, evaluarea urmărilor dezastrelor
naturale, detectarea fraudelor, detectarea ineficienței sau
evaluarea stării de sănătate
• 90% din datele existente in lume au fost create in ultimii 2
ani
• Putem considera Big Data acele seturi de date care necesita
stocare si procesare folosind o soluție distribuita deoarece
abordările centralizate nu mai fac fata dat fiind numărul de
surse de date necesare firmelor și numărul de utilizatori
care le accesează
Volume mari de date
• Datele pot fi stoacate on-premises, cloud si
hybrid
• Au aparut noi modele de date dar, pe parcurs,
granita dintre bazele de date relationale si cele
non-relatioanale, din punct de vedere a
cazurilor de utilizare, a devenit din ce in ce
mai neclara
• De multe ori, nu mai este necesara o solutie
separata pentru OLAP
Volume mari de date
• Are avantaje asupra vitezei de procesare, 200 GB de
date pot fi parcurse pe un server într-o ora însă dacă
am folosi 100 de noduri, putem face aceeași
operațiune în sub 1 minut.
• Arhitectura este cel mai adesea formată din mai multe
servere (noduri), conectate într-o rețea.
• Domeniul Big Data nu se referă doar la dimensiunea
foarte mare a datelor analizate, are legătură și cu
complexitatea algoritmilor aplicați pe respectivele
date, pe agregările, comparările și joncțiunile realizate
pentru a obține informații utile și valoarea adăugată.
Exemple
• Un zbor cu Boeing 787 -
½ TB
• Large Hadron Collinder
– 1 PB/sec
• NASA – 1.73 GB/h
• eBay – 40PB cluster
• Facebook – 30 PB
cluster, 130TB loguri/zi
Analiza volumelor mari de date
• Într-un magazin sau într-o agenție de turism online putem știi ce a
cumpărat un client dar poate nu știm si dintre ce produse a ales
• Daca aflam si „meniul” putem asocia fiecare vânzare cu produsele
vizionate sau cu diverse statistici descriptive – putem deduce cum
fac clienții anumite alegeri
• Putem afla produsele ce au fost vizualizate, chiar adăugate in cos
dar nu si achiziționate
• Putem afla combinațiile de produse cele mai uzual vizualizate sau
comandate împreuna astfel determina reguli de asociere
(algoritmul Apriori)
• Se pot căuta tipare care să sugereze o schimbare majoră, spre
exemplu daca se modifica preferințele clienților sau daca sunt
elemente în cadrul companiile care trebuie evaluate până nu este
prea târziu.
5V
• Volum (Volume)
• Viteza crestere (Velocity)
• Varietate (Variety)
• Corectitudine (Veracity)
• Valoare (Value)
Volume mari de date
• ACID
• CAP
• BASE