Pdi Notes

Big data reprezint, prin excelen, seturi de date nestructurate, aflate sau nu n prop
rietatea unei companii, generate anonim sau nu, att de utilizatori, via web, dar i
de senzori, camere, soluii de monitorizare, echipamente etc., n cele mai diverse
formate i standarde.
Big Data este definit de obicei folosind cei trei Vs, definiti de Gartner1 dupa cu
m urmeaza:
Volum: Cresterea volumelor de date in sisteme de tip enterprise este cauzata de
volumul tranzactiilor si a altor tipuri de date traditionale, precum si de noi t
ipuri de date. Un volum prea mare de date reprezinta o problema de stocare, dar
prea multe date, de asemenea, presupun o problema masiva de analiza a datelor.
Viteza: Acest lucru implica fluxuri de date, crearea de inregistrari structurate
, precum si disponibilitatea pentru acces si livrare. Viteza inseamna atat rapid
itatea cu care datele sunt produse cat si rapiditatea cu care datele trebuie sa
fie prelucrate pentru a satisface cererea.
Varietate: Varietatea include date tabelare (baze de date), date ierarhice, docu
mente, e-mailuri, date de contorizare, video-uri, imagini statice, audio, date s
toc ticker, tranzactii financiare si altele.
Miza big data o reprezint captarea informaiilor despre pia, clieni, produse i servicii
, analiza acestora i obinerea unui avantaj competitiv.
==================================================================
Apache Spark a inceput ca un proiect de cercetare la UC Berkeley in
AMPLab, si se baza pe analiza volumelor mari de date.
Scopul lor era sa implementeze un model de programare care sa
suporte o clasa mai larga de aplicatii decat MapReduce si in acelasi
timp sa pastreze toleranta automata la erori.
In special, MapReduce este ineficient pentru aplicatii multi-pass ce
necesita latenta mica in operatiuni paralele multiple.
Pentru a atinge aceste scopuri, Spark introduce un nivel de
abstractizare numit Seturi de date Distribuite Reziliente (RDD). RDD= o colec ie r
ead-only de obiecte repartizate pe un set de maini, ce poate fi recuperat dac o pa
rti ie este pierdut
Utilizatorii pot cacheui n mod explicit un RDD pentru a fi reutilzat n multiple op
era ii paralele RDD-urile nu sunt memorii partajate ci o mbinare ntre expresivitate,
scalabilitate i fiabilitate
Poate fi de 10x mai rapid dect Hadoop pentru mainile iterative (39GB- <1sec)
==========================================================================
Retelele P2P sunt, prin natura lor, sisteme distribuite fara organizare ierarhic
a sau control centralizat. Peer-urile formeaza o retea auto-organizata peste pro
tocolul internet (IP). Acest ansamblu de calculatoare conectate la internet folo
seste aplicatii P2P. Caracteristicile peer-to-peer includ arhitecturi robuste de
rutare pe arie larga (wide-area), cautare eficienta a datelor, selectia clienti
lor aflati in vecinatatea imediata, stocare redundata, permanenta, nomenclator i
erarhic, incredere si autentificare, anonimat, scalabilitate si toleranta la er
ori sau esecuri.
Sistemele P2P manifesta o simetrie in rolurile client-server intre peers.
Chord foloseste hashing consistent pentru a asigna chei catre peer-urile sale. H
ashing-ul consistent este proiectat pentru a permite peer-urilor sa intre si sa
iasa din retea cu minimum de intreruperi [1, 3]. Aceasta schema descentralizata
tinde sa balanseze incarcarea sistemului, atat timp cat fiecare peer primeste ap
roximativ acelasi numar de chei si nu se fac prea multe mutari de chei atunci ca
nd un peer intra sau iese din sistem.
Urmatoarele aplicatii exemplifica utilizarea sistemului Chord [1].
Sistemul de fisiere cooperativ
DNS-ul bazat pe Chord ofera un serviciu de lookup folosind numele gazdelor drept
chei si adresele IP (si alte informatii specifice serverelor) drept valori
Churn este definit de dinamica participarii peer in retelele peer-to-peer. Nu es
te usor de gasit un model ce descrie acurat acest comportament. Este folositor p
entru proiectarea si evaluarea retelelor peed-to-peer.
===================================
Tehnologia grid se poate defini ca o evolutie a modului de accesare si utilizare
a resurselor de calcul, acestea fiind partajate si disponibile la cerere utiliz
atorilor ce sunt autorizati in baza asocierii lor la o masina virtuala VO. Fiind
realizata prin interconectarea mai multor centre de calcul, tehnologia Grid rep
rezinta o componenta esentiala pentru infrastructurile de calcul distribuit evol
uate.
Grid computing este o forma de calcul distribuit in care un supercomputer virtua
l este prezentat in forma de clustere conectate de o retea, care lucreaza impreu
na pentru a efectua un numar mare de workeri. Aceasta tehnologie este utilizata
penteu rezolvarea problemelor stiintifice, matematice, care necesita resurse sem
nificative de calcul.
Grid-ul reprezinta o forma de calculator distribuit, unde super calculatorul este
format dintr-o multime de noduri cuplate intre ele printr-o retea. Este importan
t
de retinut faptul ca aceste noduri nu trebuie sa fie pozitionate in aceeasi zona
geografica si nu trebuie sa aiba aceeasi putere de calcul. Desi slab cuplate si
heterogene
nodurile(calculatoarele) vor functiona impreuna pentru a rezolva task-ul ce le-a
fost asignat. Daca facem o analiza a acestui sistem ne dam seama ca nu poate fi
impartit ca si
in cazul cloud pe 2 nivele, totusi putem considera aplicatia ce utitlizeaza grid
-ul ca fiind
front end-ul, iar structura de tip grid ca fiind backend-ul tehnologiei.
Cloud computing (pronun at n englez /kla d kmpjut/, literal computerizare n nori, e

ept modern n domeniul computerelor i informaticii, reprezentnd un ansamblu distribu
it de servicii de calcul, aplica ii, acces la informa ii i stocare de date, fr ca utili
zatorul s aib nevoie s cunoasc amplasarea i configura ia fizic a sistemelor care furniz
az aceste servicii. Pentru cloud computing nc nu exist un nume romnesc ncet enit.
Dup livrare:
Software as a service - Software ca serviciu
Platform as a service - Platform ca serviciu
Infrastructure as a service - Infrastructur ca serviciu
Dup implementare:
Cloud
Cloud
Cloud
Cloud
Avantaje:
public
privat
hibrid
pentru o comunitate (community cloud)
Sincronizarea datelor utilizatorului care folosete mai multe dispozitive lega

te la cloud (de ex. un smartphone, o tablet, un notebook, dar i un PC) este simpli
ficat
Documentele online din cloud se pot prelucra cu ajutorul unor aplica ii web
Vitez de calcul i capacitate de stocare sporite, dar fr investi ii n propria config
ura ie
Datele nu pot fi furate, purttorul de date nu se poate defecta etc.
Dezavantaje:
E necesar o legtur la Internet rapid
Securitatea necesar a datelor din cloud
e nencrederea utilizatorilor
Situa ia legal este de obicei complex,
r sau n ce ri (!) se afl serverele care
i stabil
poate prezenta probleme i poate produc
deoarece utilizatorul nu afl nici mcar n ce
i gzduiesc datele sale.

Pdi Notes

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Pdi Notes

Încărcat de

Drepturi de autor:

Formate disponibile

Big data reprezint, prin excelen, seturi de date nestructurate, aflate sau nu n prop

Cloud computing (pronun at n englez /kla d kmpjut/, literal computerizare n nori, e

Sincronizarea datelor utilizatorului care folosete mai multe dispozitive lega

S-ar putea să vă placă și