Sunteți pe pagina 1din 18

PAP1913 SGBD

Apache
HBase
Realizat de: Dombrovschi Iulia,Danu Rodion
Istoria

Ce reprezinta HBase?

Ce poți face cu HBase?

Cuprins Unde il putem utiliza?

De ce ar trebui să folosim HBase?

De ce avem nevoie de HBase?

Avantaje

Exemple
Apache HBase a început ca un
proiect al companiei Powerset din
nevoia de a procesa cantități
masive de date în scopul căutării
în limbaj natural . Din 2010 este un
proiect Apache de nivel superior.

Facebook a ales să implementeze noua sa platformă de mesagerie folosind HBase în noiembrie 2010,
dar a migrat de la HBase în 2018.

ISTORIA
Ce este baza de date HBase?

HBase este o bază de


date distribuită non-
relațională open-
source, modelată după
Bigtable de la Google și
scrisă în Java . Aceasta
baza de date deservește
acum mai multe site-
uri web bazate pe date.
Ce poți face cu
HBase?
În timp ce trebuie să avem acces neregulat, continuu de
citire / compunere la Big Data, folosim Apache HBase.

Este de conceput să existe tabele excepțional de uriașe pe


grupuri de echipamente de articole cu Apache HBase.

După Bigtable Google, HBase este o bază de date non-


socială demonstrată.
Utilizați Hbase dacă:

Aveți nevoie de scriere


aleatorie, citire aleatorie sau
ambele
Trebuie să faceți multe mii de
operații pe secundă pe mai
mulți TB de date
Tiparele dvs. de acces sunt
simple
De ce ar trebui să
folosim HBase?

01 02 03
ARE SECURITATE OFERĂ UN POATE FI UTILIZAT
RIDICATĂ ȘI RANDAMENT ATÂT PENTRU TIPURILE
ADMINISTRARE REMARCABIL DE INFORMAȚII
SIMPLĂ A RIDICAT. ORGANIZATE CÂT ȘI
INFORMAȚIILOR. PENTRU CELE
SEMIORGANIZATE.
De ce avem nevoie de HBase?

HBase este o bază de date


NoSQL dinamică, care se
extinde în această zi și vârstă,
care este supraîncărcată cu
Big Data. Are rădăcini de
programare Java extrem de
simple, care pot fi trimise
pentru scalarea HBase la o
scară majoră.
Cum sunt stocate informațiile în Nosql DBMS: model de date
Modelul de date HBASE diferă de DBM-urile clasice relaționale, implementarea tipului de valoare cheie - <Tabel,
RowKey, Familia de coloană, coloană, Timestamp> -> Valoare [2]:

Datele sunt organizate în tabele, indexate de cheia primară (RowKey);


Pentru fiecare cheie primară, poate fi stocat un set nelimitat de atribute (coloane);
Coloanele sunt organizate în grupuri de coloane (familia de coloană). De obicei, coloanele cu același șablon pentru utilizare și
depozitare sunt combinate într-un singur grup. Lista și numele grupurilor de coloane sunt fixate și au o schemă clară. La
nivelul grupului de coloane, parametrii sunt stabiliți ca timp pentru a trăi (TTL) și numărul maxim de versiuni stocate.
Pentru fiecare atribut, pot fi stocate mai multe versiuni diferite. Versiuni diferite au o timbru de timp diferit (Timestamp, TS).
Un exemplu de HBază

O coloană HBase reprezintă un atribut al unui obiect; dacă tabelul stochează jurnalele de diagnosticare de
la serverele din mediul dvs., fiecare rând ar putea fi o înregistrare de jurnal, iar o coloană tipică ar putea fi
marcajul de timp când a fost scrisă înregistrarea de jurnal sau numele serverului de unde a provenit
înregistrarea.

HBase permite ca multe atribute să fie grupate împreună în familii de coloane, astfel încât elementele unei
familii de coloane să fie toate stocate împreună. Aceasta este diferită de o bază de date relațională
orientată pe rând, în care toate coloanele unui rând sunt stocate împreună. Cu HBase trebuie să predefiniți
schema tabelului și să specificați familiile de coloane. Cu toate acestea, coloane noi pot fi adăugate
familiilor în orice moment, făcând schema flexibilă și capabilă să se adapteze la cerințele în schimbare ale
aplicației.

În HBase, un nod master gestionează clusterul și serverele de regiune stochează porțiuni din tabele și
efectuează lucrul asupra datelor.
Casssandra VS HBASE

Cassandra și HBase sunt considerate cele mai populare SGBD NoSQL din lumea Big Data. Astăzi
vom vorbi despre ce au în comun și despre cum diferă aceste baze de date non-relaționale,
comparându-le pe 10 parametri cheie: de la arhitectură la instrumente.

Istoricul dezvoltării -
ambele SGBD-uri luate în considerare au fost scrise în limbajul de
programare Java aproximativ în același timp: Cassandra a fost creată în
2008 la Facebook, iar HBase în 2007 la Powerset. Aceste produse au
devenit proiecte de nivel superior ale Apache Software Foundation în
2009 și 2010. respectiv.
Model de date
- ambele sisteme se bazează pe conceptele Google Big Table și sunt stocări orientate pe
coloane în care informațiile sunt stocate în celule grupate în coloane și nu în rânduri de date .
În același timp, coloanele (column) în sine sunt grupate în familii (Column Family), iar în
stocarea generală sunt denumite „cheie-valoare” . În ciuda termenilor generali,
implementarea lor în sistemele luate în considerare sunt diferite: coloana Cassandra este mai
mult ca o celulă în HBase, iar familia de coloane este mai mult ca un tabel.

Viteză mare de lucru - în ciuda faptului că ambele SGBD funcționează rapid, aproape în timp
real, în ceea ce privește performanța operațiunilor de citire și scriere, ele diferă. În special,
datorită caracteristicilor sale arhitecturale, despre care am vorbit aici, Kassandra lucrează mai
repede decât concurentul său . Totuși, în cazul accesului aleatoriu la date sub forma unui set
de operații de citire consistente, HBase poate funcționa mai eficient decât Cassandra datorită
blocului cache HDFS, filtrelor Bloom și propriului sistem de indexare
Securitatea informațiilor - ambele baze de date suportă autentificarea, autorizarea și criptarea între
noduri, oferind nu numai controlul general al accesului, ci și granularitatea la nivelul elementelor
individuale ale modelului de date. În special, Cassandra oferă acces la nivel de rând, iar HBase oferă chiar
acces individual la nivel de celulă. În același timp, Cassandra vă permite să definiți rolurile utilizatorilor,
stabilind condiții pentru vizibilitatea datelor pentru aceștia. În schimb, în ​HBase, un administrator atribuie
o etichetă de vizibilitate seturilor de date și apoi le extinde la grupuri de utilizatori și clienți individuali

- HBase și Cassandra se scalează liniar pentru a adăuga noi servere și, astfel, crește clustere până la sute de noduri. În
același timp, ambele sisteme garantează siguranța informațiilor, chiar și în cazul defecțiunii nodurilor individuale din
cauza replicării datelor
Arhitectură - Clusterul HBase funcționează pe bază de master / slave, cu Nodul Master gestionând
restul nodurilor. Prin urmare, o defecțiune a serverului principal va duce la eșecul întregului
cluster. Apache Cassandra, organizat sub forma unui inel de noduri echivalente peste care sunt
distribuite datele, este lipsit de acest dezavantaj.

Infrastructură
- Kassandra este autosuficientă, adică nu are nevoie de stocare suplimentară de fișiere și alte
componente externe, oferind atât management, cât și stocare de date. Interacțiunea dintre nodurile
cluster se bazează pe protocolul peer-to-peer Gossip . Iar pentru ca HBase să funcționeze, sunt
necesare componente Apache Hadoop: un sistem de fișiere distribuit HDFS pentru stocarea datelor și
un serviciu Zookeeper pentru coordonarea muncii între servicii, gestionarea configurațiilor și
sincronizarea acestora.
Avantaje

Acest lucru este


HBase a lucrat în util pentru elită
Aceasta acceptă
ajutor pentru pentru întrebări
recuperarea
presiunea totale (de
rapidă a
productivă și exemplu, COUNT,
informațiilor.
informațională. Total, MIN și
MAX).
Concluzie

DUPĂ CE AȚI ÎNVĂȚAT HBASE, VEȚI EFECTUA ÎN MARE PARTE DIFERITE


SARCINI, TRIMITEȚI LOAD UTILITY PENTRU A STIVA O ÎNREGISTRARE, O
VEȚI ÎNCORPORA CU HIVE, AFLAȚI DESPRE HBASE API ȘI HBASE SHELL.
ACEST LUCRU VĂ POATE AJUTA ENORM ÎN PROFESIA DVS. SĂ VĂ DUCEȚI
VOCAȚIA LA URMĂTOAREA DIMENSIUNE.

Multumim
pentru
atentie!

S-ar putea să vă placă și