Documente Academic
Documente Profesional
Documente Cultură
Apache
HBase
Realizat de: Dombrovschi Iulia,Danu Rodion
Istoria
Ce reprezinta HBase?
Avantaje
Exemple
Apache HBase a început ca un
proiect al companiei Powerset din
nevoia de a procesa cantități
masive de date în scopul căutării
în limbaj natural . Din 2010 este un
proiect Apache de nivel superior.
Facebook a ales să implementeze noua sa platformă de mesagerie folosind HBase în noiembrie 2010,
dar a migrat de la HBase în 2018.
ISTORIA
Ce este baza de date HBase?
01 02 03
ARE SECURITATE OFERĂ UN POATE FI UTILIZAT
RIDICATĂ ȘI RANDAMENT ATÂT PENTRU TIPURILE
ADMINISTRARE REMARCABIL DE INFORMAȚII
SIMPLĂ A RIDICAT. ORGANIZATE CÂT ȘI
INFORMAȚIILOR. PENTRU CELE
SEMIORGANIZATE.
De ce avem nevoie de HBase?
O coloană HBase reprezintă un atribut al unui obiect; dacă tabelul stochează jurnalele de diagnosticare de
la serverele din mediul dvs., fiecare rând ar putea fi o înregistrare de jurnal, iar o coloană tipică ar putea fi
marcajul de timp când a fost scrisă înregistrarea de jurnal sau numele serverului de unde a provenit
înregistrarea.
HBase permite ca multe atribute să fie grupate împreună în familii de coloane, astfel încât elementele unei
familii de coloane să fie toate stocate împreună. Aceasta este diferită de o bază de date relațională
orientată pe rând, în care toate coloanele unui rând sunt stocate împreună. Cu HBase trebuie să predefiniți
schema tabelului și să specificați familiile de coloane. Cu toate acestea, coloane noi pot fi adăugate
familiilor în orice moment, făcând schema flexibilă și capabilă să se adapteze la cerințele în schimbare ale
aplicației.
În HBase, un nod master gestionează clusterul și serverele de regiune stochează porțiuni din tabele și
efectuează lucrul asupra datelor.
Casssandra VS HBASE
Cassandra și HBase sunt considerate cele mai populare SGBD NoSQL din lumea Big Data. Astăzi
vom vorbi despre ce au în comun și despre cum diferă aceste baze de date non-relaționale,
comparându-le pe 10 parametri cheie: de la arhitectură la instrumente.
Istoricul dezvoltării -
ambele SGBD-uri luate în considerare au fost scrise în limbajul de
programare Java aproximativ în același timp: Cassandra a fost creată în
2008 la Facebook, iar HBase în 2007 la Powerset. Aceste produse au
devenit proiecte de nivel superior ale Apache Software Foundation în
2009 și 2010. respectiv.
Model de date
- ambele sisteme se bazează pe conceptele Google Big Table și sunt stocări orientate pe
coloane în care informațiile sunt stocate în celule grupate în coloane și nu în rânduri de date .
În același timp, coloanele (column) în sine sunt grupate în familii (Column Family), iar în
stocarea generală sunt denumite „cheie-valoare” . În ciuda termenilor generali,
implementarea lor în sistemele luate în considerare sunt diferite: coloana Cassandra este mai
mult ca o celulă în HBase, iar familia de coloane este mai mult ca un tabel.
Viteză mare de lucru - în ciuda faptului că ambele SGBD funcționează rapid, aproape în timp
real, în ceea ce privește performanța operațiunilor de citire și scriere, ele diferă. În special,
datorită caracteristicilor sale arhitecturale, despre care am vorbit aici, Kassandra lucrează mai
repede decât concurentul său . Totuși, în cazul accesului aleatoriu la date sub forma unui set
de operații de citire consistente, HBase poate funcționa mai eficient decât Cassandra datorită
blocului cache HDFS, filtrelor Bloom și propriului sistem de indexare
Securitatea informațiilor - ambele baze de date suportă autentificarea, autorizarea și criptarea între
noduri, oferind nu numai controlul general al accesului, ci și granularitatea la nivelul elementelor
individuale ale modelului de date. În special, Cassandra oferă acces la nivel de rând, iar HBase oferă chiar
acces individual la nivel de celulă. În același timp, Cassandra vă permite să definiți rolurile utilizatorilor,
stabilind condiții pentru vizibilitatea datelor pentru aceștia. În schimb, în HBase, un administrator atribuie
o etichetă de vizibilitate seturilor de date și apoi le extinde la grupuri de utilizatori și clienți individuali
- HBase și Cassandra se scalează liniar pentru a adăuga noi servere și, astfel, crește clustere până la sute de noduri. În
același timp, ambele sisteme garantează siguranța informațiilor, chiar și în cazul defecțiunii nodurilor individuale din
cauza replicării datelor
Arhitectură - Clusterul HBase funcționează pe bază de master / slave, cu Nodul Master gestionând
restul nodurilor. Prin urmare, o defecțiune a serverului principal va duce la eșecul întregului
cluster. Apache Cassandra, organizat sub forma unui inel de noduri echivalente peste care sunt
distribuite datele, este lipsit de acest dezavantaj.
Infrastructură
- Kassandra este autosuficientă, adică nu are nevoie de stocare suplimentară de fișiere și alte
componente externe, oferind atât management, cât și stocare de date. Interacțiunea dintre nodurile
cluster se bazează pe protocolul peer-to-peer Gossip . Iar pentru ca HBase să funcționeze, sunt
necesare componente Apache Hadoop: un sistem de fișiere distribuit HDFS pentru stocarea datelor și
un serviciu Zookeeper pentru coordonarea muncii între servicii, gestionarea configurațiilor și
sincronizarea acestora.
Avantaje
Multumim
pentru
atentie!