Pdi

Big data reprezintă, prin excelenţă, seturi de date nestructurate, aflate sau nu în
proprietatea unei companii, generate anonim sau nu, atât de utilizatori, via web,
dar şi de senzori, camere, soluţii de monitorizare, echipamente etc., în cele mai
diverse formate şi standarde.
Big Data este definit de obicei folosind cei trei “V”s, definiti de Gartner1 dupa
cum urmeaza:
Volum: Cresterea volumelor de date in sisteme de tip enterprise este cauzata de
volumul tranzactiilor si a altor tipuri de date traditionale, precum si de noi
tipuri de date. Un volum prea mare de date reprezinta o problema de stocare, dar
prea multe date, de asemenea, presupun o problema masiva de analiza a datelor.
Viteza: Acest lucru implica fluxuri de date, crearea de inregistrari structurate,

precum si disponibilitatea pentru acces si livrare. Viteza inseamna atat
rapiditatea cu care datele sunt produse cat si rapiditatea cu care datele trebuie
sa fie prelucrate pentru a satisface cererea.
Varietate: Varietatea include date tabelare (baze de date), date ierarhice,

documente, e-mailuri, date de contorizare, video-uri, imagini statice, audio, date
stoc ticker, tranzactii financiare si altele.
Miza big data o reprezintă captarea informaţiilor despre piaţă, clienţi, produse şi
servicii, analiza acestora şi obţinerea unui avantaj competitiv.
==================================================================
Apache Spark a inceput ca un proiect de cercetare la UC Berkeley in

AMPLab, si se baza pe analiza volumelor mari de date.
Scopul lor era sa implementeze un model de programare care sa
suporte o clasa mai larga de aplicatii decat MapReduce si in acelasi
timp sa pastreze toleranta automata la erori.
In special, MapReduce este ineficient pentru aplicatii multi-pass ce
necesita latenta mica in operatiuni paralele multiple.
Pentru a atinge aceste scopuri, Spark introduce un nivel de
abstractizare numit Seturi de date Distribuite Reziliente (RDD). RDD= o colecție
read-only de obiecte repartizate pe un set de mașini, ce poate fi recuperat dacă o
partiție este pierdută
Utilizatorii pot cacheui în mod explicit un RDD pentru a fi reutilzat în multiple
operații paralele RDD-urile nu sunt memorii partajate ci o îmbinare între
expresivitate, scalabilitate și fiabilitate
Poate fi de 10x mai rapid decât Hadoop pentru mașinile iterative (39GB- <1sec)
==========================================================================
Retelele P2P sunt, prin natura lor, sisteme distribuite fara organizare ierarhica
sau control centralizat. Peer-urile formeaza o retea auto-organizata peste
protocolul internet (IP). Acest ansamblu de calculatoare conectate la internet
foloseste aplicatii P2P. Caracteristicile peer-to-peer includ arhitecturi robuste
de rutare pe arie larga (wide-area), cautare eficienta a datelor, selectia
clientilor aflati in vecinatatea imediata, stocare redundata, permanenta,
nomenclator ierarhic, incredere si autentificare, anonimat, scalabilitate si
toleranta la erori sau esecuri.
Sistemele P2P manifesta o simetrie in rolurile client-server intre peers.
Chord foloseste hashing consistent pentru a asigna chei catre peer-urile sale.
Hashing-ul consistent este proiectat pentru a permite peer-urilor sa intre si sa
iasa din retea cu minimum de intreruperi [1, 3]. Aceasta schema descentralizata
tinde sa balanseze incarcarea sistemului, atat timp cat fiecare peer primeste
aproximativ acelasi numar de chei si nu se fac prea multe mutari de chei atunci
cand un peer intra sau iese din sistem.
Urmatoarele aplicatii exemplifica utilizarea sistemului Chord [1].
Sistemul de fisiere cooperativ
DNS-ul bazat pe Chord ofera un serviciu de lookup folosind numele gazdelor drept
chei si adresele IP (si alte informatii specifice serverelor) drept valori
Churn este definit de dinamica participarii peer in retelele peer-to-peer. Nu este

usor de gasit un model ce descrie acurat acest comportament. Este folositor pentru
proiectarea si evaluarea retelelor peed-to-peer.
===================================
Tehnologia grid se poate defini ca o evolutie a modului de accesare si utilizare a
resurselor de calcul, acestea fiind partajate si disponibile la cerere
utilizatorilor ce sunt autorizati in baza asocierii lor la o masina virtuala VO.
Fiind realizata prin interconectarea mai multor centre de calcul, tehnologia Grid
reprezinta o componenta esentiala pentru infrastructurile de calcul distribuit
evoluate.
Grid computing este o forma de calcul distribuit in care un supercomputer virtual
este prezentat in forma de clustere conectate de o retea, care lucreaza impreuna
pentru a efectua un numar mare de workeri. Aceasta tehnologie este utilizata penteu
rezolvarea problemelor stiintifice, matematice, care necesita resurse semnificative
de calcul.
Grid-ul reprezinta o forma de calculator distribuit, unde ”super calculatorul” este

format dintr-o multime de noduri cuplate intre ele printr-o retea. Este important
de retinut faptul ca aceste noduri nu trebuie sa fie pozitionate in aceeasi zona
geografica si nu trebuie sa aiba aceeasi putere de calcul. Desi slab cuplate si
heterogene
nodurile(calculatoarele) vor functiona impreuna pentru a rezolva task-ul ce le-a
fost asignat. Daca facem o analiza a acestui sistem ne dam seama ca nu poate fi
impartit ca si
in cazul cloud pe 2 nivele, totusi putem considera aplicatia ce utitlizeaza grid-ul
ca fiind
front end-ul, iar structura de tip grid ca fiind backend-ul tehnologiei.
Cloud computing (pronunțat în engleză /klaʊd kəmˈpjuːtɪŋ/, literal „computerizare

în nori”, este un concept modern în domeniul computerelor și informaticii,
reprezentând un ansamblu distribuit de servicii de calcul, aplicații, acces la
informații și stocare de date, fără ca utilizatorul să aibă nevoie să cunoască
amplasarea și configurația fizică a sistemelor care furnizează aceste servicii.
Pentru cloud computing încă nu există un nume românesc încetățenit.
După livrare:
Software as a service - Software ca serviciu

Platform as a service - Platformă ca serviciu
Infrastructure as a service - Infrastructură ca serviciu
După implementare:
Cloud public
Cloud privat
Cloud hibrid
Cloud pentru o comunitate (community cloud)
Avantaje:
Sincronizarea datelor utilizatorului care folosește mai multe dispozitive

legate la cloud (de ex. un smartphone, o tabletă, un notebook, dar și un PC) este
simplificată
Documentele online din cloud se pot prelucra cu ajutorul unor aplicații web
Viteză de calcul și capacitate de stocare sporite, dar fără investiții în
propria configurație
Datele nu pot fi furate, purtătorul de date nu se poate defecta etc.
Dezavantaje:
E necesară o legătură la Internet rapidă și stabilă

Securitatea necesară a datelor din cloud poate prezenta probleme și poate
produce neîncrederea utilizatorilor
Situația legală este de obicei complexă, deoarece utilizatorul nu află nici
măcar în ce țară sau în ce țări (!) se află serverele care îi găzduiesc datele
sale.

Pdi

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Pdi

Încărcat de

Drepturi de autor:

Formate disponibile

Big data reprezintă, prin excelenţă, seturi de date nestructurate, aflate sau nu în

Viteza: Acest lucru implica fluxuri de date, crearea de inregistrari structurate,

Varietate: Varietatea include date tabelare (baze de date), date ierarhice,

Apache Spark a inceput ca un proiect de cercetare la UC Berkeley in

Churn este definit de dinamica participarii peer in retelele peer-to-peer. Nu este

Grid-ul reprezinta o forma de calculator distribuit, unde ”super calculatorul” este

Cloud computing (pronunțat în engleză /klaʊd kəmˈpjuːtɪŋ/, literal „computerizare

Software as a service - Software ca serviciu

Sincronizarea datelor utilizatorului care folosește mai multe dispozitive

E necesară o legătură la Internet rapidă și stabilă

S-ar putea să vă placă și