Sunteți pe pagina 1din 18

Curs 4. Baze de Date/Cunostinte, Big Data, Analitice pentru Date.

Definitii si semantica datelor/cunostintelor pentru Ecosistemul Economic Digital


(EED). Baze de Date: concepte generale. Organizarea datelor. Sisteme de Gestiune a
Bazelor de Date (DBMS). Baze de Date distribuite. Procesarea algoritmica a datelor.
Baze de Cunostinte. Big Data: definitii, arhitecturi. Analitice pentru Date (Data
Analytics)

Definitii si semantica datelor/cunostintelor pentru EED

Datele sunt caracteristici, de obicei numerice, care sunt colectate prin observare. Într-un sens mai
tehnic, datele sunt un set de valori ale variabilelor calitative sau cantitative despre una sau mai multe
persoane sau obiecte, în timp ce o referință (singularul datelor) este o singură valoare a unei singure
variabile. Deși termenii „date” și „informații” sunt adesea folosiți interschimbabil, acești termeni au
semnificații distincte. Datele sunt utilizate în cercetarea științifică, gestionarea întreprinderilor (de
exemplu, date despre vânzări, venituri, profituri, prețul acțiunilor), finanțe, guvernanță (de exemplu,
rate ale criminalității, rate ale șomajului, rate de alfabetizare) și practic în orice altă formă de
activitate organizațională umană. Datele sunt măsurate, colectate și raportate și analizate, după care
pot fi vizualizate folosind grafice, imagini sau alte instrumente de analiză. Datele ca concept general
se referă la faptul că unele informații sau cunoștințe existente sunt reprezentate sau codificate într-o
formă adecvată pentru o mai bună utilizare sau prelucrare. Datele brute („date neprelucrate”)
reprezintă o colecție de numere sau caractere înainte de a fi „curățate” și corectate de cercetători.
Datele brute trebuie corectate pentru a elimina valorile aberante sau erorile evidente de introducere
a instrumentelor sau a datelor (de exemplu, un termometru care citește dintr-o locație arctică în aer
liber care înregistrează o temperatură tropicală). Prelucrarea datelor are loc în mod obișnuit pe
etape, iar „datele procesate” dintr-o etapă pot fi considerate „datele brute” din etapa următoare.
Datele de teren sunt date brute care sunt colectate într-un mediu "in situ" necontrolat. Datele
experimentale sunt date care sunt generate în contextul unei investigații științifice prin observare și
înregistrare. Datele sunt descrise ca fiind noul petrol al economiei digitale.
Un tip de date poate fi caracterizat printr-o mulţime de valori ce reprezintă domeniul tipului de date
şi o mulţimede operaţii definite peste acest domeniu. Tipurile de date pot fi organizate în
următoarelecategorii: 1.tipuri de date elementare (de exemplu tipul întreg, tipulreal) - valorile sunt
unităţi atomice de informaţie; 2.tipuri de date structurate (de exemplu tipul tablou, tipul înregistrare)
- valorile suntstructuri relativ simple rezultate în urma combinaţiei unor valori elementare; 3.tipuri de
date structurate de nivel înalt (de exemplu stiva) - se pot descrie independent de limbaj iar valorile
au o structură mai complexă.
Cunoştinţele reprezintã un amestec fluid de experienţã conceptualizatã (adicã cãreia i s-a gãsit la un
moment dat o reprezentare suficientã din punct de vedere a unei semantici operatorii), valori,
informaţie contextualizatã, capacitate de tip expert şi intuiţie, care împreunã trebuie sã permitã
generarea de experienţã nouã şi inovatoare.

1
Semantica este studiul sensului, adică modul în care sensul este construit, interpretat, clarificat, ascuns,
ilustrat, simplificat, negociat, contrazis și parafrazat. Acesta a fost tratat diferit în comunitatea
științifică, de exemplu, în zona bazelor de cunoștințe și de către utilizatorii bazelor de date.
Comunitatea științifică preferă tratamentul semanticii „întotdeauna valabile” bazat pe logica
matematică. O constrângere este valabilă dacă acesta este cazul într-o bază de date corectă.
Modelatorii de baze de date folosesc adesea o semantică „puternică” pentru mai multe clase de
constrângeri. Constrângerile de cardinalitate se bazează pe cerința existenței bazelor de date pentru
ambele cazuri, pentru cazul minim și pentru cel maxim. Exploatarea bazelor de date se bazează pe o
semantică „poate fi valabilă”. O constrângere este considerată a fi un candidat pentru o formulă validă.
Utilizatorii folosesc de obicei o semantică slabă „în majoritatea cazurilor valabilă”. Ei consideră că o
constrângere este valabilă dacă acesta este cazul obișnuit. Diferite grupuri de utilizatori folosesc o
semantică „epistemică”. Pentru fiecare grup, setul său de constrângeri este valid în datele sale. Diferite
seturi de constrângeri pot chiar să contrazică. Semantica este în prezent una dintre noțiunile cele mai
folosite în literatura modernă de informatică. Înțelegerea sa se întinde de la sinonime pentru
structurare sau sinonime pentru structurare pe baza cuvintelor la o semantică precisă definită. Această
utilizare abuzivă parțială are ca rezultat o nepotrivire a limbilor, neglijarea bazelor formale și definiții cu
forță brută a semnificației construcțiilor sintactice.
DBE (Digital Business Ecosystem) este o platformă software gratuită, open source și
distribuită, bazată pe tehnologii de internet. Este conceput pentru a permite IMM-urilor, în mod
specific, să creeze, să integreze și să ofere servicii (atât lumea reală, cât și software) mai eficient și mai
efectiv. A fost conceput astfel încât IMM-urile să poată, la un cost minim, să reducă decalajul digital pe
care mulți îl experimentează atunci când încearcă să-și ofere bunurile și serviciile pe Internet. În
termeni practici, aceasta înseamnă că puteți utiliza software-ul disponibil pe DBE pentru a face
publicitate ofertelor existente de produse sau servicii, a crea servicii noi și a combina propriile servicii cu
cele ale altor IMM-uri pentru a crea noi oferte. De asemenea, puteți să vă integrați propriul software cu
cel al altor IMM-uri din DBE pentru a vă îmbunătăți procesele de afaceri. Ecosistemele digitale de
afaceri reprezintă un răspuns inevitabil, adaptativ, la modificările tipurilor de valoare la care oamenii
țin și interacțiunea de inovație tehnologică, așteptări comportamentale, schimbări de reglementare și
noi modele de afaceri. Toate acestea conduc la o serie de considerații importante în ceea ce privește
modul în care organizațiile trebuie să se gândească la strategie și inovație în anii următori. În ceea ce
privește strategia, întrebările și considerațiile sunt numeroase: Ce procent din investiții ar trebui să
meargă în modelele de afaceri ale ecosistemelor? Ce tipuri de ecosisteme ar trebui luate în
considerare? Când ar trebui o organizație să aleagă o strategie hub vs. strategie orala. Care este o
strategie de preț adecvată care va stimula creșterea ecosistemului sau a platformei? O organizație ar
trebui să își protejeze pariurile jucând în cadrul ecosistemelor concurente? Ce avantaj competitiv
durabil și diferențiere pot fi obținute dintr-un model de ecosistem față de un model de afaceri
tradițional orientat spre lanțul valoric? Implicațiile asupra strategiei și execuției revin și la inovația
corporativă. Așa cum planificarea strategică corporativă va trebui să răspundă la noul mediu (adică,
ecosistemul în creștere și economia platformei), la fel și programele de inovare corporativă trebuie sa o
faca. Ecosistemele de afaceri creează valoare consumatorului final prin utilizarea unei relații simbiotice
prin care proprietarii de platforme (de exemplu Microsoft) permit altora (de exemplu, dezvoltatori de
software) să creeze produse pe platforma (Windows), care au potențialul pentru a consolida
ecosistemul (Windows), oferind astfel tuturor celor implicați „un avantaj colectiv față de rețelele
concurente”. Valoarea se creează reciproc atât consumatorului final, proprietarului platformei, cât și
participanților la ecosistem. Fiecare participant la ecosistem beneficiază de interacțiunea în ecosistem
și, prin urmare, este stimulat să participe în continuare. Acest lucru implică o îndepărtare de a crea
valoare prin intermediul lanțului valoric integrat al unei singure firme, către crearea de valoare de către
multe firme permise și orchestrate de o platformă. Aceasta a fost descrisă ca o „firmă inversată” , care
la rândul său contribuie la creșterea valorii totale create. Platforma este elementul cheie al
ecosistemului; facilitatorul pe care partenerii ecosistemului își pot construi produsele sau serviciile.

2
Baze de Date: concepte generale. Organizarea datelor. Sisteme de Gestiune a
Bazelor de Date (DBMS). Baze de Date distribuite. Procesarea algoritmica a
datelor

Definiţie: O bază de date (BD, eng. DB) este un ansamblu structurat de date înregistrat pe
suporturi accesibile calculatorului pentru a satisface simultan cerintele mai multori utilizatori intr-un
mod selectiv şi în timp util. O Bază de Date este o colecție organizată de informații sau de date
structurate, stocate electronic într-un computer. O bază de date este controlată, de regulă,
de un sistem de management al bazelor de date (DBSM). Cumulat, datele, DBMS și aplicațiile
asociate reprezintă un sistem de baze de date, denumit prescurtat bază de date. Datele din
cele mai obișnuite tipuri de baze de date sunt distribuite de regulă pe linii și coloane, în
diferite tabele, pentru eficientizarea procesării și interogării datelor. Datele pot fi accesate,
gestionate, modificate, actualizate, controlate și organizate cu ușurință. Majoritatea bazelor
de date utilizează un limbaj structurat de interogare (SQL) pentru scrierea și interogarea BD.
Evoluția bazelor de date. De la apariția lor, la începutul anilor 1960, bazele de date au
evoluat semnificativ. Bazele de date pentru navigare, precum cele cu o structură ierarhică,
(care se bazau pe un model arborescent și permiteau numai interacțiuni de acest tip) și
bazele de date în rețea (un model mai flexibil, care permite interacțiuni mai complexe), au
constituit sistemele inițiale de stocare și gestionare a datelor. Deși erau simple, aceste
sisteme nu erau flexibile. În anii 1980, bazele de date relaționale au devenit populare, fiind
urmate de bazele de date orientate pe obiecte, în anii 1990. Ulterior au apărut bazele de
date NoSQL, ca rezultat al dezvoltării internetului și a necesității de procesare mai rapidă a
datelor nestructurate. Astăzi, bazele de date în cloud și bazele de date autonome
revoluționează modul în care datele sunt colectate, stocate, gestionate și utilizate.

Tipuri de baze de date. Există multe tipuri de baze de date. Cea mai bună baze de date
pentru o anumită organizație depinde de modul în care organizația intenționează să o
utilizeze: Baze de date relaționale. Bazele de date relaționale au avut cea mai mare pondere
în anii 1980. Elementele dintr-o bază de date relațională sunt organizate ca un set te tabele,
cu rânduri și coloane. Tehnologia bazelor de date relaționale oferă cel mai eficient și flexibil
mod de a accesa informațiile structurate // Baze de date orientate pe obiecte Informațiile
dintr-o bază de date orientată pe obiecte sunt reprezentate sub formă de obiecte, așa cum
se întâmplă în programarea orientată pe obiecte // Baze de date distribuite O bază de date
distribuită constă în două sau mai multe fișiere aflate în site-uri diferite. Baza de date poate
fi stocată pe mai multe computere aflate în aceeași locație fizică sau aflate în diferite rețele
// Depozite de date. Un depozit central de date, reprezentând un tip de baze de date creat
special pentru interogări și analize rapide // Baze de date NoSQL. O bază de date NoSQL,
sau o bază de date non-relațională, permite stocarea și gestionarea datelor nestructurate
sau semi-structurate (spre deosebire de o bază de date relațională, care definește modul în
care trebuie compuse toate datele introduse). Bazele de date NoSQL au fost populare ca
aplicații web, devenind din ce în ce mai uzuale și mai complexe // Baze de date grafice. O
bază de date grafice stochează datele sub forma unor entități și a relațiilor dintre acestea //
Baze de date OLTP O bază de date OLTP este o bază de date rapidă, pentru analize, destinată
rulării unui număr mare de tranzacții efectuate de mai mulți utilizatori.
În plus față de diferitele tipuri de baze de date, schimbările în abordarea dezvoltării
tehnologice și progresele substanțiale precum cloudul și automatizarea, propulsează bazele
de date în direcții complet noi. Unele dintre cele mai recente baze de date includ: Baze de
3
date open source Un sistem de baze de date open source are codul sursă de tip open
source, de exemplu bazele de date SQL sau NoSQL // Baze de date în cloud. O bază de date
în cloud este o colecție de date structurată sau nestructurată, aflată pe o platformă de calcul
în cloud privată, publică sau hibridă. Există două tipuri de modele de baze de date în cloud:
bazele de date tradiționale și bazele de date ca serviciu (DBaaS). Cu DBaaS, activitățile
administrative și de mentenanță sunt efectuare de furnizorul serviciului // Baze de date
multi-model Bazele de date multi-model combină diferite tipuri de modele de baze de date
într-un singur sistem back-end integrat. Acest lucru înseamnă că puteți acomoda diverse
tipuri de date // Baze de date autonome. Cel mai nou și mai revoluționar tip de baze de
date, bazele de date autonome funcționează în cloud și utilizează machine learning pentru a
automatiza reglarea, securizarea, backupul, actualizarea și alte activități obișnuite de
management, efectuate de regulă de către administratorii bazelor de date.

Modele de organizare a bazelor de date


Regulile şi conceptele care permit descrierea structurii unei BD formează modelul datelor.
Au fost definite trei astfel de modele: Modelul ierarhic în care datele erau organizate sub forma unui
arbore, nodurile constând din înregistrari iar arcele referinte catre alte noduri // Modelul retea în
care datele erau organizate sub forma unui graf orientat. Nodurile şi arcele au aceeasui semnificaţie
ca mai sus // Modelul relaţional în care, intuitiv, datele sunt organizate sub forma de tabele.
Un model de date este un set de noţiuni, concepte şi reguli pentru structurarea şi prelucrarea datelor
cu ajutorul calculatorului. În istoria bazelor de date se cunosc mai multe modele de date: - modelul
ierarhic, - modelul reţea, - modelul relaţional, - modelul obiectual. Dacă modelul ierarhic şi reţea de
organizare a bazelor de date reprezintă trecutul în istoria bazelor de date, modelul relaţional face
istoria prezentului, iar modelul obiectual bate la uşa istoriei bazelor de date. Modelul de date este
o colecţie integrată de concepte necesare descrierii datelor, relaţiilor dintre date şi constrângerilor
impuse datelor.

Modelul ierarhic. În modelul ierarhic fiecare nod din arbore corespunde unei clase de entitati din
lumea reala, iar drumurile dintre noduri reprezinta legaturile existente între obiecte. Într-o asemenea
structura fiecare 'parinte' poate avea mai multi 'copii', dar un 'copil' nu poate avea decât un singur
'parinte'.

Modelul relaţional (E.F.Codd în anul 1970) se bazează pe Algebra Relaţională. Aceste prelucrări
implică: - o colecţie de obiecte numite entitati, - un set de operatori care acţionează asupra
entitatilor pentru a produce noi relaţii. O relaţie poate fi văzută ca o tabelă (cu linii şi coloane) şi
reprezentă forma principală de organizare a datelor într-o bază de date de tip relaţional (in figura de
mai jos este prezentata o entitate - Angajat).

4
RELAŢIE. Termenul de relaţie (care da denumirea modelului) provine din matematica iar
reprezentarea intuitiva a unei relaţii este o tabela. În cazul modelului relaţional descrierea structurii
unei baze de date consta în principal din descrierea tabelelor componente: denumire, lista de
coloane şi tipul datelor din acestea.
CONSTRÂNGERI DE INTEGRITATE. De asemenea descrierea poate include informaţii despre
elementele de identificareale înregistrarilor dintr-o tabela (cheieprimara), a coloanelor comune cu
alte tabele(chei straine) şi a altor restricţii şi verificari de corectitudine pentru datele stocate.
Acesteinformaţii sunt cunoscute sub numele generic de constrangeri de integritate.

MODELUL ENTITATE-ASOCIERE (EA). Operaţiile de proiectare şi descriere a structurii unei baze de


date sunt facute îngeneral cu ajutorul modelului entitate-asociere. Acesta este un model generic de
descriere a datelor sub forma grafica –diagrame entitate asociere - din care se poate trecepe baza
unor reguli de transformare în alte modele de date.

Modelul retea folosit intens pentru realizarea bazelor de date în anii '70 si având un domeniu de
aplicabilitate mult extins fata de modelul ierarhic, a fost propus de CODASYL(Conference of Data
System Languages), un organism international de lucru pentru baze de dateIDMS (Integrated
Database Management System) realizat de firma Cullinet Software Inc., este cel mai utilizat SGBD
pentru baza de date retea destinat sa functioneze pe calculatoare IBM.

Modelul ierarhic si cel în retea, stau la baza primei generatii de SGBD-uri. Schema conceptuala
descrisa cu un SGBD retea este compusa din definitii de înregistrari ce reprezinta entitatile si
legaturile dintre ele, precum si din ansamblurile care exprima legaturile multi valoare dintre
înregistrari. Ea reprezinta o colectie de noduri si legaturi (un graf), fiecare nod putând fi legat de
oricare altul. Modelul este destul de performant dar foarte complicat si dificil de implementat.
Legaturile formeaza trasee care permit o regasire usoara a informatiilor de pe orice nivel., însa o
actualizare a structurii (modificare nodurilor sau legaturilor) creeaza probleme deosebit de
complicate si complexe. Ca si modelul ierarhic modelul retea rezolva problema redundantei.

5
Arhitectura bazei de date cu 3 nivele. Asigurarea independenţei fizice şi logice a datelor
impune adoptarea unei arhitecturi organizată pe cel puţin 3 nivele (arhitectura ANSI-SPARC):
1.nivelul intern (baza de date fizică) 2.nivelul conceptual 3.nivelul extern. Obiectivul arhitecturii cu 3
nivele este separarea vederii fiecărui utilizator asupra bazei de date de modul în care este ea
reprezentată fizic.

Modul în care utilizatorii percep datele este numit nivel extern. Modul în care SGBD şi sistemul de
operare percep datele este numit nivel intern. Nivelul conceptual realizează atât transpunerea cât şi
independenţa dorită dintre nivelul extern şi cel intern.
Nivelul intern. Reprezentarea fizică a bazei de date pe calculator. Acest nivel descrie CUM sunt
stocate datele în baza de date. Nivelul intern (baza de date fizică) este o colecţie de fişiere conţinând
datele fizice la care se adaugă diverse structuri auxiliare menite să asigure accesul operativ la date.
Structurile auxiliare pot fi: directoare, indexuri, pointeri, tabele de dispersie. Modul de organizare a
bazei de date fizice este în mare măsură influienţat de configuraţia echipamentelorhardware care
suportă baza de date şi de sistemul de operare. Schimbarea sistemului de operare sau modificări în
configuraţia hardware pot atrage modificări ale bazei de date fizice. Dacă este satisfăcutăcondiţia de
independenţă fizică, aceste modificări în nivelul intern al bazei de date nu vor ataca nivelele
superioare ale acesteia. Nivelul intern tratează chestiuni cum ar fi: •alocarea spaţiului de stocare
pentru date şi indexuri •descrierea înregistrărilor pentru stocare (cu dimensiunile de stocare pentru
date) •plasarea înregistrărilor •tehnici de comprimare a datelor şi de codificare a acestora.
Nivelul conceptual. Este o vedere generală a bază de date. Acest nivel descrie CE date sunt stocate
în bază de date şi RELAŢIILE dintre acestea. Nivelul conceptual conţine structura logicăa bazei de
date, aşa cum este ea văzută de administratorul bazei de date. Fiecare bază de date are un model
conceptual propriu prin care sunt numite şi descrise toate entităţile logice din baza de date împreună
cu legăturile dintre acestea. El reprezintă o imagine completă a cerinţelor organizaţiei privind datele.
Exemplu: în descrierea bazei de date a unei intreprinderi pot apărea concepte ca: angajat, produse,
furnizor, beneficiar, etc. Modelul conceptual integrează viziunile tuturor utilizatorilor asupra bazei de
date, fiind rezultatul unui compromis între cerinţele diferiţilor utilizatori. Nivelul conceptual
reprezintă: •toate entităile, atributele şi relaţiile dintre ele; •constrângeri asupra datelor; •informaţii
semnatice asupra datelor; •informaţii privind securitatea şi integritatea. De reţinut că modelul
conceptual este o descriere a conţinutului de date din baza de date şi NU cuprinde nici un fel de
referire la modul de memorare a datelor sau la strategia de acces.
Nivelul extern. Reprezintă vederea utilizatorului asupra bază de date. Acest nivel descrie acea
partea bazei de date care este relevantă pentru fiecare utilizator. Nivelul extern este cel mai apropiat

6
utilizatorului. Este ceea ce vede acesta din baza de date, sau modul cum vede acesta baza de date.
Modelul extern este derivat din cel conceptual dar poate prezenta deosebiri substanţiale faţă de
acesta. Un termen deseori folosit pentru modelul extern este acela de vedere sau viziune. Prin aceste
viziuni, utilizatorii au acces doar la părţi bine definite din baza de date, fiindu-le ascunse părţile care
nu interesează. Prin modelul extern se realizeazăi independenţa logică a datelor. Fiecărei viziuni îi
corespunde o descriere în termenii entităţilor logice din modelul conceptual. Diferite vederi pot avea
reprezentări diferite ale aceloraşi date. De exemplu un utilizator poate vedea datele calendaristice în
format an-lună-zi, altul le poate vedea ca zi-lună-an. Vederile pot include chiar date combinate sau
derivate din entităţi diferite.

Definiţie: Un Sistem de Gestiune a Bazelor de Date (SGBD/DBMS) este ansamblul de


programe care permit utilizatorului sa interacţioneze cu o bază de date.
O bază de date necesită, de regulă, un software cuprinzător pentru aceasta, program
cunoscut drept sistem de management al bazei de date (DBMS=SGBD). Un DBMS servește
drept interfață între baza de date și utilizatori finali sau programe, permițând utilizatorilor să
preia, să actualizeze și să gestioneze modul în care informațiile sunt organizate și optimizate.
De asemenea, un DBMS facilitează supravegherea și controlul bazei de date, permițând
operațiuni administrative precum monitorizarea performanței, reglarea, backupul și
recuperarea. Exemplele de software-uri cunoscute de baze de date sau DBMS includ MySQL,
Microsoft Access, Microsoft SQL Server, FileMaker Pro, Oracle Database și dBASE.

Funcţiile unui SGBD. Au fost stabilite 8 servicii pe care trebuie să le furnizeze un SGBD complet.
1. stocarea, regăsirea şi reactualizarea datelor. Aceasta este funcţia fundamentală a unui SGBD.
Pentru asigurarea ei, SGBD trebuie să ascundă faţă de utilizator detaliile privind implementarea fizică
internă (organizarea fişierelor şi structurile de stocare).
2. catalog accesibil utilizatorului
3. asigurarea tranzacţiilor. Un SGBD trebuie să furnizeze un mecanism care să garanteze că sunt
efectuate toatereactualizările corespunzătoare unei anumite tranzacţii sau că nu se efectueazănici
una. O tranzacţie constă într-o serie de acţiuni realizate de un singur utilizator sau un program
aplicaţie, prin care se accesează sau se schimbă conţinutul bazei de date.
4. servicii de control concurente. Un SGBD trebuie să furnizeze un mecanism care să garanteze că
baza de date este corect reactualizată, atunci când mai mulţi utilizatori efectuează simultan astfel de
operaţii
5. servicii de reconstituire. Un SGBD trebuie să furnizeze un mecanism de reconstituire a bazei de
date dacă aceasta este deteriorată într-un fel oarecare.
6. servicii de autorizare. Un SGBD trebuie să furnizeze un mecanism care să garanteze că numai
utilizatorii autorizaţi pot accesa baza de date.
7. suport pentru comunicarea datelor. Un SGBD trebuie să poată fi integrat unui software de
comunicaţie.
8. servicii de integritate. Un SGBD trebuie să furnizeze mijloace care să asigure că, atât datele din
baza de date, cât şi modificările acestora respectă anumite reguli. Integritatea se referă la
corectitudineaşi coerenţadatelor stocate.

Componentele software ale unui SGBD. Din punct de vedere software, sistemele SGBD
sunt foarte complexe şi sofisticate, deoarece modulele software din componenţa unui SGBD trebuie
să permită furnizarea tuturor serviciilor analizate în paragraful precedent. Structura componentelor
software ale unui SGBD nu poate fi generalizată, deoarece ea variază foarte mult de la un sistem de
gestiune la altul. Totuşi este util să încercăm o trecere în revistă a componentelor soft şi a relaţiilor
dintre ele. În acest scop vom prezenta o posibilă arhitectură pentru un SGBD. Un SGBD este
partiţionat în diverse componente software (module), responsabile de câte o operaţie specifică.

7
Câteva dintre funcţiile SGBD sunt susţinute de sistemul de operare. Dar sistemul de operare oferă
numai serviciile de bază, iar SGBD trebuie construit peste acesta. Principalele componente software
ale unui mediu SGBD sunt: •Procesorul de interogare transformă interogările într-o serie de
instrucţiuni de nivel jos, adresate administratorului bazei de date // •Administratorul bazei de date
realizează interfaţa bazei de date cu programele aplicaţie şi interogările lansate de utilizatori //
•Administratorul de fişiere manipulează fişierele de stocare aflate la bazăşi administrează alocarea
spaţiului de stocare pe disc. El stabileşte şi menţine lista de structuri şi indexuri definite în schema
internă. El nu gestionează direct intrările şi ieşirile de date, ci transmite cererea către o metodă de
acces corespunzătoare, care fie citeşte datele din bufferul sistemului, fie le scrie în acesta //
•Preprocesorul DML. Acest modul converteşte instrucţiunile DML încorporate într-un program
aplicaţie în apelări de funcţii standard din limbajul gazdă. Preprocesorul DML trebuie să
interacţioneze cu procesorul de interogare, pentru a genera codul corespunzător // •Compilatorul
DDL transformă instrucţiunile DDL într-un set de tabele care conţin meta-datele. Aceste tabele sunt
ulterior stocate în catalogul de sistem, iar informaţiile de control sunt stocate în anteturile fişierelor
de date // •Administratorul de catalog gestionează accesul şi întreţinerea catalogului de sistem.
Catalogul de sistem este accesat de majoritatea componentelor sistemului SGBD

Limbajele bazelor de date. Limbajele bazelor de date sunt împărţite în 2 categorii: limbaje de
definire a datelor (DDL) şi limbaje de manipulare a datelor (DML). DDL este utilizat pentru a specifica
schema bazei de date, iar DML este utilizat pentru citirea şi reactualizarea bazei de date. Aceste
limbaje sunt numite sublimbaje de date deoarece ele nu includ construcţii pentru toate necesităţile
de calcul, cum sunt cele asigurate de limbajele de nivel înalt. Multe SGBD au o facilitate de
încorporare a sublimbajului într-un limbaj de programare de nivel înalt, cum sunt COBOL, Pascal, C,
etc. În acest caz, limbajul de nivel înalt se numeşte limbaj gazdă. Pentru a compila fişierul încorporat,
mai întâi comenzile specifice sublimbajului de date sunt înlocuite prin apelări de funcţii. Apoi fişierul
preprocesat este compilat şi rezultatul este plasat într-un modul obiect, legat la o librărie care
conţine funcţiile inlocuite.
Ce este limbajul structurat de interogare (SQL)? SQL este un limbaj de programare
utilizat de aproape toate bazele de date relaționale, pentru interogarea, gestionarea și
definirea datelor, precum și pentru controlul oferirii accesului. SQL a fost dezvoltat mai întâi
de IBM în anii 1970, cu ajutorul esențial al companiei Oracle, ceea ce a condus la
implementarea standardului SQL ANSI, ulterior SQL extinzându-se de la companii precum
IBM, Oracle și Microsoft. Deși SQL este în continuare utilizat la scară largă, apar în continuare
noi limbaje de programare.
Bază de date MySQL. MySQL este un sistem open source de management al bazelor de
date relaționale bazat pe SQL. A fost proiectat și optimizat pentru aplicațiile web și poate
rula pe orice platformă. Odată cu apariția noilor cerințe de pe internet, MySQL a devenit
platforma preferată a dezvoltatorilor web și pentru dezvoltarea aplicațiilor bazate pe web.
Deoarece este creat pentru a procesa milioane de interogări și mii de tranzacții, MySQL
reprezintă o opțiune populară pentru companiile de comerț electronic, care trebuie să
gestioneze numeroase transferuri de bani. Caracteristica principală a MySQL este
flexibilitatea on-demand. MySQL este sistemul DBMS care stă la baza unor site-uri și aplicații
bazate pe web cunoscute în lume: Airbnb, Uber, LinkedIn, Facebook, Twitter și YouTube.

Bazele de date autonome sunt pregătite să stimuleze semnificativ aceste funcționalități.


Deoarece bazele de date autonome automatizează procesele manuale costisitoare și
consumatoare de timp, eliberează timpul utilizatorilor business, permițându-le să devină mai
proactivi în relație cu datele lor. Baza de date autonomă reprezintă o clasă de servicii absolut

8
nouă, care necesită zero administrare operațională din partea clientului, oferind o găzduire a datelor
în cloud. Bazele de date ale companiilor mari de astăzi acceptă frecvent interogări foarte
complexe și se așteaptă de la acestea să furnizeze aproape instantaneu răspunsuri la acele
interogări. Ca rezultat, administratorii bazelor de date trebuie în mod constant să utilizeze
diverse metode pentru a îmbunătăți performanța. Provocările obișnuite pe care aceștia le
înfruntă includ: absorbția creșterilor semnificative ale volumelor de date. Explozia de date
provenite de la senzorii, mașinile conectate și de la zecile de alte surse obligă administratorii
să depună eforturi considerabile pentru a gestiona și organiza eficient datele companiei //
Asigurarea securității datelor. În prezent, breșele de securitate apar oriunde și hackerii
devin din ce în ce mai inventivi. Este mai important ca niciodată să vă asigurați că datele sunt
securizate, dar și accesibile utilizatorilor // Menținerea ritmului cu cererea. În mediile de
afaceri de astăzi, în continuă schimbare, companiile au nevoie de acces în timp real la date,
pentru a accelera procesul de luare a deciziilor la timp și pentru a profita de oportunități noi.
Managementul și menținerea bazelor de date și a infrastructurii. Administratorii bazelor de date
trebuie să le supravegheze permanent, pentru a preveni apariția problemelor și pentru a efectua
activități de mentenanță preventivă, actualizări de software și corecții. Pe măsură ce bazele de date
au devenit din ce în ce mai complexe și volumele de date au crescut, companiile se confruntă cu
cheltuielile legate de angajarea talentelor, pentru monitorizarea și reglarea bazelor de date //
Eliminarea limitelor de scalabilitate. Pentru a supraviețui, o afacere trebuie să se dezvolte, odată cu
sistemul acesteia de management al datelor. Dar este foarte greu pentru administratorii bazelor de
date să anticipeze volumul de care va avea nevoie compania, în special în cazul bazelor de date on-
premises. Abordarea tuturor acestor provocări poate consuma timp și poate împiedica
administratorii bazelor de date să efectueze activități mult mai strategice.

Exemplu: Oracle Autonomous Data Warehouse Cloud oferă toate capacitățile


analitice, același nivel de securitate și disponibilitatea excepțională a Oracle Database fără
dificultatea configurării, ajustării și administrării - chiar și în cazul în care volumele de lucru din
depozite și, implicit, volumele de date se schimbă: 1.Ușoară: Prima ofertă de găzduire într-un singur
pas din acest domeniu presupune un depozit de date securizat cu back-up automat, criptare și o
arhitectură cu grad ridicat de disponibilitate, în câteva secunde. Migrarea către cloud este simplă
datorită compatibilității integrale cu bazele de date existente. // 2.Rapidă: Performanță în
interogarea datelor neegalată, fără necesitatea unor reglaje și ajustări. Oracle Autonomous Data
Warehouse Cloud este atât de rapid față de alte servicii de găzduire în cloud încât Oracle garantează
același volum de muncă la jumătate din costurile AWS // 3.Elastică: Scalare online independentă
puterii de calcul și a găzduirii. Abilitatea de a mări sau micșora, în mod dinamic, accesul la resurse,
permite facturarea în funcție de consum, reducând mult costurile. Cea mai populară bază de date cu
găzduire a datelor din lume este acum și cea mai simplă și mai rapidă. Integrând experiența de zeci
de ani a companiei Oracle și munca sa de pionierat în domeniul tehnologiei pentru a transforma
modul în care clienții săi beneficiază de bazele de date, Oracle Autonomous Data Warehouse Cloud
este doar primul din serviciile Oracle Autonomous Database Cloud ce urmează să fie lansate. Dintre
serviciile care vor fi lansate în viitor enumerăm Oracle Autonomous Database pentru procesarea
tranzacțiilor, Oracle Autonomous NoSQL Database pentru scriere și citire rapidă la scară mare (o
cerință comună pentru Internetul obiectelor), și Oracle Autonomous Graph Database pentru analiza
rețelei. Fiecare dintre aceste servicii se ajustează la volumul de muncă necesar, și deține
caracteristicile definitorii ale serviciilor Oracle Autonomous Database: 4.Autonomie: Elimină efortul
uman și erorile umane din serviciile de furnizare, securizare, monitorizare, back-up, recuperare,
mentenanță și personalizare a bazei de date. Se actualizează și repară automat pe parcursul rulării.
5.Autosecurizare: Protejează împotriva atacurilor externe și a utilizatorilor interni rău intenționați.
Aplică automat actualizări de securitate în timpul operării pentru a proteja împotriva atacurilor
cibernetice și criptează automat toate datele // 6.Automentenanță. Oferă protecție automată

9
împotriva timpilor morți planificați și neplanificați, cu disponibilitate 99,995%, ceea ce înseamnă sub
2,5 minute durată nefuncțională pe lună, incluzând mentenanța planificată. Oracle Autonomous Data
Warehouse este construit pe Oracle Database 18c și este primul serviciu lansat în cadrul modelului
Oracle de lansare anuală de noi versiuni software ale bazelor de date. Un catalizator de inovație cu
peste 100 de caracteristici noi, Oracle Database 18c este acum disponibil pe Oracle Cloud Services.

Baze de date distribuite. Atunci când o organizație este dispersată geografic, poate alege
să-și stocheze bazele de date pe un server central de baze de date sau să le distribuie serverelor
locale (sau combinarea ambelor). O bază de date distribuită este o singură bază de date logică care
se răspândește fizic pe computere din mai multe locații conectate prin rețeaua de comunicații adata.
Subliniem că o bază de date distribuită este cu adevărat o bază de date, nu o colecție liberă de
fișiere. Baza de date distribuită este încă administrată central ca resursă corporativă, oferind în
același timp flexibilitate locală și personalizare. Rețeaua trebuie să permită utilizatorilor să partajeze
datele; astfel, un utilizator (sau un program) din locația A trebuie să poată accesa (și poate actualiza)
locația de date B. Site-urile unui sistem distribuit pot fi răspândite pe o zonă mare (de exemplu,
Statele Unite sau lumea) sau suprafață mică (de exemplu, o clădire sau un campus). Calculatoarele
pot varia de la PC-uri la servere la scară largă sau chiar supercomputere. O bază de date distribuită
necesită mai multe instanțe ale unui sistem de gestionare a bazei de date (sau a mai multor SGBD),
care rulează la fiecare site la distanță. Gradul în care aceste instanțe DBMS cooperează sau
funcționează în parteneriat și dacă există un site master care coordonează cererile care implică date
de pe mai multe site-uri distinge diferite tipuri de medii de baze de date distribuite. Este important
să se facă distincția între bazele de date distribuite și descentralizate, stocate pe computere în
locații multiple; totuși, computerele nu sunt interconectate prin rețea și software de bază de date
care fac ca datele să pară să fie într-o singură bază de date logică. Astfel, utilizatorii de pe diferite
site-uri nu pot partaja date. O bază de date descentralizată este cel mai bine privită ca o colecție de
baze de date independente, mai degrabă decât având distribuția geografică a unei singure baze de
date. Diferite condiții de afaceri încurajează utilizarea bazelor de date distribuite:
• Distribuirea și autonomia unităților de afaceri Diviziile, departamentele și facilitățile din
organizațiile moderne sunt adesea distribuite geografic, adesea peste granițele naționale. Adesea,
fiecare unitate are autoritatea de a-și crea propriile sisteme de informație și adesea aceste unități
doresc date locale asupra cărora pot avea control. Fuziunile și achizițiile de afaceri creează adesea
acest mediu.
• Partajarea datelor. Chiar și deciziile de afaceri moderat complexe necesită partajarea datelor între
unitățile de afaceri, deci trebuie să fie convenabil să se consolideze datele la baza de date locale la
cerere. rețea sau pentru a gestiona un volum mare de tranzacții din surse la distanță pot fi încă mari,
chiar dacă costurile comunicării datelor au scăzut substanțial recent. În multe cazuri, este mai
economic să localizați datele și aplicațiile aproape de locul în care acestea sunt necesare. De
asemenea, dependența de comunicațiile de date implică întotdeauna un element de risc, astfel încât
păstrarea copiilor locale sau a fragmentelor de date poate fi o modalitate fiabilă de a sprijini nevoia
de acces rapid la date din întreaga organizație.
• Mediu de furnizori de aplicații multiple. Astăzi, multe organizații cumpără software de aplicații
pachet de la mai mulți furnizori diferiți. Fiecare pachet „cel mai bun din rasă” este conceput pentru a
funcționa cu propria bază de date și, eventual, cu diferite sisteme de gestionare a bazelor de date. O
bază de date distribuită poate fi definită pentru a oferi funcționalități care întrerup aplicațiile
separate. • Recuperarea bazei de date. Replicarea datelor pe computere separate este o strategie
pentru a asigura că o bază de date deteriorată poate fi recuperată rapid și că utilizatorii pot avea
acces la date în timp ce site-ul principal este restaurat. Replicarea datelor pe mai multe site-uri de
calculatoare este o formă naturală a unei baze de date distribuite.
• Satisfacerea atât a tranzacțiilor, cât și a procesării analitice. Cerințele pentru gestionarea bazelor
de date variază în funcție de aplicațiile OLTP și OLAP. Cu toate acestea, aceleași date sunt comune

10
între cele două baze de date care susțin fiecare tip de aplicație. Tehnologia bazei de date distribuite
poate fi utilă pentru sincronizarea datelor între platformele OLTP și OLAP.

Procesarea algoritmica a datelor. Procesarea datelor este fundamentul transformarii


datelor de intrare in rezultate (iesiri) avand la baza algorimi secventiali, paraleli, euristici, etc.
Algoritmul constituie o reprezentare finită a unei metode de calcul ce per-mite rezolvarea unei
anumite probleme. Se poate spune că un algoritm reprezintă o secvenţăfinită de operaţii, ordonată şi
complet definită, care, pornind de la datele de intrare, produce rezultate. Fiecare propoziţie ce face
parte din descrierea unui algoritm este, de fapt, o comandă ce trebuie executată de cineva, acesta
putând fi o persoană sau o maşină de calcul. De altfel,un algoritm poate fi descris cu ajutorul oricărui
limbaj, de la limbajul natural şi până lalimbajul de asamblare al unui calculator. Denumim limbaj
algoritmic un limbaj al cărui scop este acela de a descrie algoritmi. Algoritmul specifică succesiuni
posibile de transformări ale datelor. Cele mai importante proprietăți ale unui algoritm, sunt
următoarele: Corectitudinea - este proprietatea algoritmului de a furniza o soluție corectă a problemei date.
În acest sens este de dorit ca algoritmii să se bazeze pe fapte și relații matematice demonstrabile // Finitudinea
- este proprietatea algoritmului de a se termina într-un număr finit de pași. Există și algoritmi care nu se
termină într-un număr mărginit de pași, dar aceștia se numesc "metode algoritmice // Eficiența - este
proprietatea unui algoritm de a se termina nu numai într-un număr finit, ci și "rezonabil" de pași, chiar dacă
acesta nu este cel mai mic posibil (nu este optim). Algorimul este ineficient și dacă rezultatul se obține într-un
timp mai lung decât cel dorit sau permis.

Alte tipuri de Baze de Date


Baze de date federative (FMDBS1) este o colecţie de sisteme de baze de date colaborative care sunt
autonome şi posibil heterogene. Cât timp bazele de date rămân rămân autonome, federalizarea
constituie o alternativă viabilă în raport cu principiul centralizării. Cea mai sugestivă exemplificare a
conceptului o reprezintă însuşi Internetul, care, la rândul său, reprezintă un sistem federativ de
dimensiuni mari, chiar dacă au la bază tehnologii diferite. Există trei elemente esenţiale care
caracterizează sistemele federative: autonomia, heterogenitatea şi distribuirea.
Baze de date Web. O bază de date Web este o aplicație de bază de date concepută pentru a fi
gestionată și accesată prin Internet. Operatorii de site-uri web pot gestiona această colecție de date
și pot prezenta rezultate analitice pe baza datelor din aplicația bazei de date web. Bazele de date
web permit organizarea și catalogarea temeinică a datelor colectate în cadrul a sute de parametri.
Baza de date Web nu necesită cunoștințe avansate de calculator și multe programe software de baze
de date oferă un stil ușor de „clic-și-creați” fără codificare complicată. Completați câmpurile și salvați
fiecare înregistrare. Organizați datele după cum doriți, cum ar fi cronologic, alfabetic sau după un set
specific de parametri. Întreprinderile mari și mici pot folosi baze de date web pentru a crea sondaje
pe site-uri, formulare de feedback, clienți sau liste de inventariere. Utilizarea bazei de date personale
Web poate varia de la stocarea conturilor de e-mail personale la un inventar de acasă până la analiza
personală a site-ului web. Baza de date Web este complet personalizabilă în funcție de nevoile unei
persoane sau ale unei companii.

Baze de Cunostinte
O bază de cunoștințe este un depozit centralizat și online unde puteți stoca și prelua cunostinte
factuale, proceduri, informatii structurate. Cunoștințele pe care le conține pot fi de orice fel legate
de un anumit departament, subiect sau proiect. Baza de cunostinte este „... o resursă care poate fi
citită de mașină pentru diseminarea informațiilor, în general online sau cu capacitatea de a fi puse
online ... o bază de cunoștințe este utilizată pentru a optimiza colectarea, organizarea și recuperarea
informațiilor structurate semantic pentru o organizație sau pentru publicul larg." Pentru a o înțelege
mai bine, trebuie să știți că există două tipuri de baze de cunoștințe: Baza de cunoștințe interne
oferă tot felul de informații angajaților companiei dvs.: politicile companiei, procesul de resurse
umane, lansări de produse noi, integrarea angajaților etc. Bazele de cunoștințe externe vizează

11
deservirea clienților dvs. și, prin urmare, sunt făcute publice. Aceasta este de obicei întrebări
frecvente, ghiduri de utilizare, note de lansare și centre de ajutor pe site-urile web ale companiilor.
Fiecare zi aduce o cantitate enormă de date și informații care sunt adesea stocate (dacă există
vreodată) în mai multe locuri diferite: de la instrumente diferite la mintea diferitelor persoane.
Informațiile se pierd adesea și sunt uitate rapid. Este o risipă uriașă de potențial: o bună gestionare a
informațiilor structurate provenite din expertiza angajatilor poate face echipele mai eficiente. Îi
poate ajuta să găsească mai repede răspunsuri la întrebările lor recurente, îi poate împiedica să
repete aceleași greșeli și poate distruge silozurile între departamente.O bună cunoaștere este aici
pentru a permite toate aceste lucruri, făcând cunoștințele ușor de organizat și de găsit, făcând la
rândul lor echipa mai eficientă. De exemplu o bună bază de cunoștințe interna vă va ajuta angajații să
găsească rapid informațiile corecte, fără a fi nevoie să atingeți umerii colegilor de echipă punând
întrebări și distrăgându-i în mod repetat. In plus, păstrează pe toată lumea pe aceeași pagină și
împinge în mod constant spre aceeași direcție. Raționamentul este procesul mental de a obține
concluzii logice și de a face predicții din cunoștințele, faptele și credințele disponibile. Sau putem
spune: Raționamentul este o modalitate de a deduce fapte noi din celeexistente folosind inferente
logice. Este un proces general de gândire rațională, pentru a găsi concluzii valide. Raționamentul este
esențial, astfel încât mașina să poată gândi, de asemenea, rațional, ca un creier uman și să poată
funcționa ca un om. În inteligența artificială, raționamentul poate fi împărțit în următoarele categorii:
deductiv, inductiv, abductiv, monoton, non-monoton, etc. Bazele de cunostinte se proceseaza
folosind algoritmi de rationament, adica realizand siruri de operatii logice (inferente) pe structuri
simbolice (cunostinte). Cunoașterea este una dintre cele cinci domenii de cercetare interdependente
din umbrela de calcul cognitiv: Percepţie, Interacţiune, Raţionament, Învăţare, Calculul cognitiv.

Big Data: definitii, arhitecturi


Astăzi, la fiecare două zile, creăm la fel de multe date ca de la începutul timpului până în 2000. Așa
este, la fiecare două zile. Iar cantitatea de date pe care o creăm continuă să crească rapid; până în
acest an 2020, cantitatea de informații digitale disponibile a crescut de la 5 zettabytes acum 7 ani si
astăzi la 50 de zettabytes.
1000 kB kilobyte
10002 MB megabyte
10003 GB gigabyte
10004 TB terabyte
10005 PB petabyte
10006 EB exabyte
10007 ZB zettabyte
10008 YB yottabyte

În zilele noastre, aproape fiecare acțiune pe care o întreprindem lasă o urmă digitală. Generăm date
ori de câte ori intrăm online, când ne purtăm smartphone-urile echipate cu GPS, când comunicăm cu
prietenii prin intermediul rețelelor sociale sau prin aplicații de chat și când facem cumpărături. Ai
putea spune că lăsăm amprente digitale cu tot ceea ce facem, care implică o acțiune digitală, care
este aproape totul. Pe lângă aceasta, și cantitatea de date generate de mașini crește rapid. Datele
sunt generate și partajate atunci când dispozitivele noastre „inteligente” comunică între ele sau cu
serverele lor de acasă. Mașinile industriale din fabricile din întreaga lume sunt din ce în ce mai
echipate cu senzori care colectează și transmit date.
Termenul „Big Data” se referă la colectarea tuturor acestor date și la capacitatea noastră de a le
utiliza în avantajul nostru într-o gamă largă de domenii, inclusiv de afaceri.
Big Data funcționează pe principiul conform caruia, cu cât știi mai multe despre orice situație, cu atât
mai fiabil puteți obține informații noi și face predicții despre ceea ce se va întâmpla în viitor. Prin

12
compararea mai multor puncte de date, încep să apară relații care anterior erau ascunse, iar aceste
relații ne permit să învățăm și să luăm decizii mai inteligente. Cel mai frecvent, acest lucru se
realizează printr-un proces care implică construirea de modele, bazate pe datele pe care le putem
colecta, și apoi rularea simulărilor, ajustarea valorii punctelor de date de fiecare dată și monitorizarea
modului în care aceasta ne afectează rezultatele. Acest proces este automat - tehnologia de analiză
avansată de astăzi va rula milioane de simulări, modificând toate variabilele posibile până când va
găsi un model - sau o perspectivă - care ajută la rezolvarea problemei la care lucrează. Până relativ
recent, datele erau limitate la foi de calcul sau baze de date - și toate erau foarte ordonate și îngrijite.
Orice lucru care nu a fost ușor organizat în rânduri și coloane a fost pur și simplu prea dificil de lucrat
și a fost ignorat. Acum, însă, progresele în stocare și analiză înseamnă că putem capta, stoca și lucra
cu multe, multe tipuri diferite de date. Prin urmare, „date” pot însemna acum orice, de la baze de
date la fotografii, videoclipuri, înregistrări sonore, text scris și date despre senzori. Pentru a înțelege
toate aceste date dezordonate, proiectele Big Data folosesc adesea analize de ultimă generație care
implică inteligență artificială și învățare automată. Învățând computerele să identifice ceea ce
reprezintă aceste date - de exemplu prin recunoașterea imaginilor sau prin prelucrarea limbajului
natural - pot învăța să identifice tiparele mult mai rapid și mai fiabil decât oamenii.

Big Data se caracterizează prin respectarea celor 5 «V», cele5 caracteristici ale acestei tehnologii:
Volum. Una dintre caracteristicile Big Data este că datele noi sunt generate constant. În plus,
deoarece sursele sunt diverse, volumul de date tinde să fie imens // Viteză. Nu numai că sunt
generate multe date și din multe surse, dar viteza cu care sunt generate aceste date tinde să fie
foarte mare. Acest lucru determină un flux de date foarte dificil de gestionat de software-ul
tradițional // Varietate. Datorită naturii unificatoare a Big Data, informațiile care provin din surse
foarte diferite trebuie gestionate. Aceasta înseamnă că, chiar dacă sunt date structurate, structura
este diferită la fiecare sursă, ceea ce reprezintă o nouă provocare pentru companie de rezolvat //
Valoare. Datorită cantității imense de date care trebuie prelucrate, trebuie acordată o atenție
deosebită alegerii datelor care sunt vitale pentru companie și pentru operațiunile sale viitoare. O
bună definiție a obiectivelor și a strategiei înainte de stocarea datelor va economisi mult timp de
calcul și va facilita gestionarea pe termen lung // Veridicitate. Big Data trebuie alimentat cu date
relevante și adevărate. Nu vom putea efectua analize utile dacă multe dintre datele primite provin
din surse false sau prezintă erori.
PROCESAREA DATELOR. O problemă obișnuită cu care se confruntă organizațiile este cum să
colecteze date din mai multe surse, în mai multe formate și să le mute într-unul sau mai multe
magazine de date. Este posibil ca destinația să nu fie același tip de magazin de date ca sursa și
deseori formatul este diferit sau datele trebuie să fie modelate sau curățate înainte de a le încărca în
destinația sa finală. Diverse instrumente, servicii și procese au fost dezvoltate de-a lungul anilor
pentru a ajuta la abordarea acestor provocări. Indiferent de procesul utilizat, există o nevoie comună
de a coordona activitatea și de a aplica un anumit nivel de transformare a datelor în cadrul
conductei de date.
Procesul de extragere, transformare și încărcare (ETL)
Extragerea, transformarea și încărcarea (ETL) este o conductă de date utilizată pentru a colecta date
din diverse surse, transforma datele în conformitate cu regulile comerciale și le încarcă într-un
magazin de date de destinație. Lucrarea de transformare în ETL are loc într-un motor specializat și

13
implică adesea utilizarea tabelelor de stocare pentru a păstra temporar datele pe măsură ce sunt
transformate și, în cele din urmă, încărcate la destinație. Transformarea datelor care are loc implică
de obicei diverse operații, cum ar fi filtrarea, sortarea, agregarea, îmbinarea datelor, curățarea
datelor, de duplicarea și validarea datelor. Cele trei faze ETL sunt executate în paralel pentru a
economisi timp. De exemplu, în timp ce datele sunt extrase, un proces de transformare ar putea
lucra la datele deja primite și le poate pregăti pentru încărcare, iar un proces de încărcare poate
începe să lucreze la datele pregătite, mai degrabă decât să aștepte finalizarea procesului de extracție.

Extragerea, încărcarea și transformarea (ELT) diferă de ETL numai în locul în care are loc
transformarea. În conducta ELT, transformarea are loc în depozitul de date țintă. În loc să utilizeze un
motor de transformare separat, capacitățile de procesare ale depozitului de date țintă sunt utilizate
pentru transformarea datelor. Acest lucru simplifică arhitectura prin eliminarea motorului de
transformare din conductă. Un alt beneficiu al acestei abordări este că scalarea depozitului de date
țintă scalează și performanța conductei ELT. Cu toate acestea, ELT funcționează bine numai atunci
când sistemul țintă este suficient de puternic pentru a transforma datele în mod eficient.

Cazurile de utilizare tipice pentru ELT se încadrează în domeniul Big data. De exemplu, ați putea
începe prin extragerea tuturor datelor sursă în fișiere plate în spațiul de stocare scalabil, cum ar fi
sistemul de fișiere distribuite Hadoop (HDFS) sau Magazinul Azure Data Lake. Tehnologii precum
Spark, Hive sau PolyBase pot fi apoi utilizate pentru interogarea datelor sursă. Punctul cheie al ELT
este că stocarea de date utilizată pentru efectuarea transformării este aceeași magazie de date în
care datele sunt consumate în cele din urmă. Acest depozit de date citește direct din spațiul de
stocare scalabil, în loc de a încărca datele în propriul spațiu de stocare proprietar. Această abordare
omite etapa de copiere a datelor prezentă în ETL, care poate fi o operație care necesită mult timp
pentru seturi de date mari. În practică, magazinul de date țintă este un depozit de date utilizând fie
un cluster Hadoop (utilizând Hive sau Spark). În general, o schemă este suprapusă pe datele fișierului
plat la momentul interogării și stocate ca un tabel, permițând ca datele să fie interogate ca orice alt
tabel din magazinul de date. Acestea sunt denumite tabele externe, deoarece datele nu se află în
stocarea gestionată chiar de stocarea de date, ci pe o anumită stocare externă scalabilă. Magazinul
de date gestionează doar schema datelor și aplică schema la citire. De exemplu, un cluster Hadoop
care utilizează Hive ar descrie un tabel Hive în care sursa de date este efectiv o cale către un set de
fișiere în HDFS. Odată ce datele sursă sunt încărcate, datele prezente în tabelele externe pot fi
procesate utilizând capacitățile depozitului de date. În scenariile de date mari, acest lucru înseamnă

14
că depozitul de date trebuie să fie capabil de procesare masivă în paralel (MPP), care împarte datele
în bucăți mai mici și distribuie procesarea bucăților în mai multe mașini în paralel. Faza finală a
conductei ELT este de obicei transformarea datelor sursă într-un format final mai eficient pentru
tipurile de interogări care trebuie acceptate. De exemplu, datele pot fi partiționate. De asemenea,
ELT ar putea utiliza formate de stocare optimizate, cum ar fi Parchet, care stochează date orientate
pe rând într-o manieră coloană și oferă indexare optimizată.

Exemple: Instrumente Big Data. Există diferite soluții pe piață pentru a gestiona Big Data.
Unele demne de menționat, cu o vastă experiență în acest domeniu, sunt Hadoop (cadrul standard
pentru stocarea volumelor mari de date și prelucrarea ulterioară distribuite în clustere) și Spark
(văzută ca o evoluție naturală a analizei Hadoop în căutarea unor modele mai optimizate). Ambele
cadre aparțin proiectului Apache și sunt Open Source.

Arhitectura pentru Bigdata

Arhitectură pentru Big Data este concepută pentru a gestiona achizitia, procesarea și analiza
datelor care sunt prea mari sau complexe pentru sistemele de baze de date tradiționale. Pragul la
care organizațiile intră în domeniul big data diferă, în funcție de capacitățile utilizatorilor și de
instrumentele acestora. Pentru unii, poate însemna sute de gigaocteți de date, în timp ce pentru alții
înseamnă sute de terabyți sau zettabyti. Pe măsură ce avansează instrumentele pentru lucrul cu
seturi de date mari, tot așa crește și semnificația datelor mari. Din ce în ce mai mult, acest termen se
referă la valoarea pe care o puteți extrage din seturile de date prin analize avansate, mai degrabă
decât strict la dimensiunea datelor, deși în aceste cazuri acestea tind să fie destul de mari.
De-a lungul anilor, peisajul datelor sa schimbat. Ceea ce puteți face sau este de așteptat să faceți cu
datele sa schimbat. Costul stocării a scăzut dramatic, în timp ce mijloacele prin care sunt colectate
datele continuă să crească. Unele date ajung într-un ritm rapid, cerând în mod constant să fie
colectate și observate. Alte date ajung mai încet, dar în bucăți foarte mari, adesea sub forma unor
decenii de date istorice. S-ar putea să vă confruntați cu o problemă de analiză avansată sau care
necesită învățare automată. Acestea sunt provocări pe care arhitecturile de date mari încearcă să le
rezolve. Soluțiile de date mari implică de obicei unul sau mai multe dintre următoarele tipuri de
sarcină de lucru :Prelucrarea în serie a surselor de date mari în repaus; Prelucrarea în timp real a
datelor mari în mișcare; Explorare interactivă a datelor mari; Analitică predictivă și învățare
automată. Luați în considerare arhitecturile de date mari atunci când trebuie: Stocați și prelucrați
date în volume prea mari pentru o bază de date tradițională; Transformați date nestructurate pentru
analiză și raportare; Capturați, procesați și analizați fluxuri nelimitate de date în timp real sau cu
latență scăzută. Următoarea diagramă prezintă componentele logice care se încadrează într-o
arhitectură de Big data. Soluțiile individuale pot să nu conțină fiecare articol din această diagramă.

15
Majoritatea arhitecturilor de date mari includ unele sau toate următoarele componente:
Surse de date. Toate soluțiile de date mari încep cu una sau mai multe surse de date. Exemplele
includ:Depozite de date ale aplicațiilor, cum ar fi baze de date relaționale. Fișiere statice produse de
aplicații, cum ar fi fișiere jurnal server web.Surse de date în timp real, cum ar fi dispozitivele IoT.
Stocare a datelor. Datele pentru operațiunile de procesare în serie sunt stocate de obicei într-un
magazin de fișiere distribuite care poate conține volume mari de fișiere mari în diferite formate.
Acest tip de magazin este adesea numit un lac de date. Opțiunile pentru implementarea acestui
spațiu de stocare includ Azure Data Lake Store sau containere blob în stocarea Azure.
Prelucrarea în serie. Deoarece seturile de date sunt atât de mari, adesea o soluție de date mari
trebuie să proceseze fișiere de date folosind joburi batch de lungă durată pentru a filtra, agrega și, în
caz contrar, să pregătească datele pentru analiză. De obicei, aceste lucrări implică citirea fișierelor
sursă, prelucrarea lor și scrierea rezultatului în fișiere noi. Opțiunile includ executarea de joburi U-
SQL în Azure Data Lake Analytics, utilizarea Hive, Pig sau Harta personalizată / Reducerea joburilor
într-un cluster HDInsight Hadoop sau utilizarea programelor Java, Scala sau Python într-un cluster
HDInsight Spark.

Ingerarea mesajelor în timp real. Dacă soluția include surse în timp real, arhitectura trebuie să
includă o modalitate de a captura și stoca mesaje în timp real pentru procesarea fluxului. Acesta ar
putea fi un simplu magazin de date, unde mesajele primite sunt aruncate într-un folder pentru
procesare. Cu toate acestea, multe soluții au nevoie de un depozit de ingestie de mesaje pentru a
acționa ca un tampon pentru mesaje și pentru a sprijini procesarea scalării, livrarea fiabilă și alte
semantice de așteptare a mesajelor. Această porțiune a arhitecturii de streaming este adesea
denumită buffer de flux. Opțiunile includ Azure Event Hubs, Azure IoT Hub și Kafka.
Procesarea fluxurilor. După captarea mesajelor în timp real, soluția trebuie să le proceseze prin
filtrare, agregare și, în caz contrar, pregătirea datelor pentru analiză. Datele fluxului procesat sunt
apoi scrise într-un sink de ieșire. Azure Stream Analytics oferă un serviciu de procesare a fluxului
gestionat bazat pe interogări SQL care rulează permanent, care operează pe fluxuri nelimitate. Puteți
utiliza, de asemenea, tehnologii open source Apache de streaming precum Storm și Spark Streaming
într-un cluster HDInsight.
Magazin de date analitice. Multe soluții de big data pregătesc datele pentru analiză și apoi servesc
datele procesate într-un format structurat care poate fi interogat folosind instrumente analitice.
Magazinul de date analitice utilizat pentru a răspunde acestor interogări poate fi un depozit de date
relaționale în stil Kimball, așa cum se vede în majoritatea soluțiilor tradiționale de business
intelligence (BI). Alternativ, datele ar putea fi prezentate printr-o tehnologie NoSQL cu latență
scăzută, cum ar fi HBase, sau o bază de date interactivă Hive care oferă o abstractizare a metadatelor
peste fișierele de date din magazinul de date distribuite. Azure Synapse Analytics oferă un serviciu

16
gestionat pentru depozitare de date pe scară largă, bazată pe cloud. HDInsight acceptă Interactive
Hive, HBase și Spark SQL, care pot fi, de asemenea, utilizate pentru a servi date pentru analiză.
Analiză și raportare. Scopul majorității soluțiilor de date mari este de a oferi informații despre date
prin analize și raportări. Pentru a permite utilizatorilor să analizeze datele, arhitectura poate include
un strat de modelare a datelor, cum ar fi un cub OLAP multidimensional sau un model de date
tabulare în Azure Analysis Services. S-ar putea să accepte BI de autoservire, utilizând tehnologiile de
modelare și vizualizare din Microsoft Power BI sau Microsoft Excel. Analiza și raportarea pot lua, de
asemenea, forma explorării interactive a datelor de către oamenii de știință sau analiștii de date.
Pentru aceste scenarii, multe servicii Azure acceptă blocnotesuri analitice, cum ar fi Jupyter,
permițându-le acestor utilizatori să își valorifice abilitățile existente cu Python sau R. Pentru
explorarea datelor pe scară largă, puteți utiliza Microsoft R Server, fie independent, fie cu Spark.
Orchestrarea. Majoritatea soluțiilor de date mari constau în operații repetate de procesare a datelor,
încapsulate în fluxuri de lucru, care transformă datele sursă, mută datele între mai multe surse și
chiuvete, încarcă datele procesate într-un depozit de date analitice sau împing rezultatele direct într-
un raport sau tablou de bord. Pentru a automatiza aceste fluxuri de lucru, puteți utiliza o tehnologie
de orchestrație precum Azure Data Factory sau Apache Oozie și Sqoop.

Analitice pentru Date (Data Analytics). Odată ce am colectat, unificat și curățat datele,
putem începe să analizăm informațiile într-un mod fiabil, cu ajutorul unui software specializat.
Analiza datelor. Aceasta este o etapă ulterioară gestionării datelor și, deși Big Data își propune să
stabilească o bază pe care să efectueze analize complexe, este un domeniu mai degrabă asociat cu
Business Intelligence. De aceea, multe dintre platformele sau soluțiile Big Data încorporează
instrumente de analiză integrate. Analiticele pentru Date se referă la tehnicile utilizate pentru a
analiza datele, a spori productivitatea și câștigul afacerii. Datele sunt extrase din diverse surse și sunt
curățate și clasificate pentru a analiza diferite tipare de comportament. Tehnicile și instrumentele
utilizate variază în funcție de organizație sau individ. Deci, pe scurt, dacă vă înțelegeți administrarea
afacerilor și aveți capacitatea de a efectua analize exploratorii de date, de a colecta informațiile
necesare, atunci sunteți bine să începeți o carieră în analiza datelor. Deci, acum, când știți ce este
Data Analytics, permiteți-mi să acoper rapid instrumentele de top utilizate în acest domeniu.

Care sunt instrumentele utilizate în Analiza Datelor?


Odată cu creșterea cererii de analize de date pe piață, au apărut multe instrumente cu diverse
funcționalități în acest scop. Fie open-source, fie ușor de utilizat, instrumentele de top de pe piața
analizei de date sunt următoarele: Limbajul de programare R - Acest instrument este cel mai
important instrument de analiză utilizat pentru statistici și modelarea datelor. R compilează și rulează
pe diverse platforme, cum ar fi UNIX, Windows și Mac OS. De asemenea, oferă instrumente pentru a
instala automat toate pachetele conform cerințelor utilizatorului. R is an limbaj de programare
interpretat - majoritatea functiilor sunt scrise in R - se pot combina cu proceduri in C, C+, or FORTRAN
- se pot apela comenzi de sistem din R. Limbajul R este folosit pentru manipulare de date, statistica si
grafice. Foloseste: - operatori (+ - <- * %*% .) pentru calcule - o colectie uriasa de functii - facilitati de
reprezentare grafica - pachete de functii scrise de utilizatori: 800+ // Python - Python este un limbaj
de programare open-source, orientat obiect, care este ușor de citit, scris și întreținut. Oferă diverse
biblioteci de învățare automată și vizualizare, cum ar fi Scikit-learn, TensorFlow, Matplotlib, Pandas,
Keras, etc. De asemenea, poate fi asamblat pe orice platformă precum serverul SQL, o bază de date
MongoDB sau JSON // SAS - Un limbaj de programare și mediu pentru manipularea și analiza datelor,
acest instrument este ușor accesibil și poate analiza date din diferite surse // Microsoft Excel - Acest
instrument este unul dintre cele mai utilizate instrumente pentru analiza datelor. Utilizat în principal
pentru datele interne ale clienților, acest instrument analizează sarcinile care rezumă datele cu o
previzualizare a tabelelor pivot // RapidMiner - O platformă puternică, integrată, care se poate
integra cu orice tip de sursă de date, cum ar fi Access, Excel, Microsoft SQL, date Tera, Oracle, Sybase
etc. Învăţare // Apache Spark - Unul dintre cele mai mari motoare de prelucrare a datelor pe scară

17
largă, acest instrument execută aplicații în clustere Hadoop de 100 de ori mai rapide în memorie și de
10 ori mai rapide pe disc. Acest instrument este, de asemenea, popular pentru conductele de date și
dezvoltarea modelelor de învățare automată // Depozit de date. Un Data Warehouse este un depozit
de date care stochează informații din diverse surse și sisteme ale companiei. Aceste depozite de date
se remarcă prin capacitatea lor mare și pentru asigurarea accesului optim la date, indiferent dacă
sunt la fața locului sau în cloud.

Termeni
1. Magazine de date locale (on-premise): este o metodă de implementare a software-ului. Cu on-
premise, programele de computer sunt instalate chiar pe computerul utilizatorului prin CD-uri
sau unități USB. În timp ce, în afara on-premise, programul de instalare poate fi oriunde pe Web.
Magazinele de date locale includ baze de date și fișiere. Pot exista mai multe motive pentru a
menține aceste magazine de date locale. Pot exista reglementări sau politici care nu permit
mutarea anumitor date sau sarcini de lucru în cloud. Suveranitatea datelor, confidențialitatea
sau problemele de securitate pot favoriza plasarea locală. În timpul unei migrații, poate doriți să
păstrați unele date locale într-o aplicație care nu a fost încă migrată.
2. Nor (Cloud): Termenul cloud este folosit pentru a se referi la utilizarea infrastructurilor terțe
(atât hardware, cât și software), pentru stocarea, gestionarea și prelucrarea datelor și aplicațiilor.
Cloud-ul, denumit adesea „cloud computing”, este de obicei un model de închiriere sau cu plata
pe utilizare, iar unele dintre companiile de top din acest sector sunt Microsoft, Amazon sau
Google.
3. Fișier: este un container dintr-un sistem informatic pentru stocarea informațiilor. Un fișier
trebuie să aibă un nume unic într-un anumit director de fișiere. Cu toate acestea, în timp ce
creați un nume de fișier, anumite caractere sunt considerate ilegale și, prin urmare, nu pot fi
utilizate. Un nume de fișier este format dintr-un nume cu sufix, care este, de asemenea, cunoscut
sub numele de extensie de fișier. Extensia de fișier este de două până la patru caractere după
perioada din numele complet al fișierului. Extensia de fișier ajută la identificarea tipului de fișier,
a formatului de fișier și a atributelor asociate fișierului. Majoritatea sistemelor informatice
moderne oferă măsuri de securitate sau protecție împotriva corupției sau deteriorării fișierelor.
Datele conținute în fișiere ar putea varia de la informații generate de sistem până la informații
specificate de utilizator. Gestionarea fișierelor se face cu ajutorul sistemelor de operare, a
instrumentelor terță parte sau se face manual uneori cu ajutorul utilizatorului. Operațiile de bază
care pot fi efectuate pe un fișier sunt: Crearea unui nou fișier, Modificarea atributelor de date
sau fișiere, Citirea datelor din fișier, Deschiderea fișierului pentru a face conținutul disponibil
altor programe, Scrierea datelor în fișier, Închiderea sau terminarea unei operații de fișier.
4. Piata electronica. O piață electronică, cunoscută și sub numele de e-marketplace poate fi văzută
ca un site web sau un set de site-uri conectate de interes comun pentru anumite tipuri de
participanți. Piața electronică ajută întreprinderile să facă afaceri în mai multe moduri, care sunt
descrise mai jos: • Tranzacționează și execută achiziții în numele participanților lor. Scopul
principal al acestor piețe electronice este de a îmbunătăți eficiența comenzilor de cumpărare și
de a ajuta clienții prin reducerea tranzacțiilor complexe pe hârtie între cumpărători și vânzători.
• Ajută clienții atunci când se confruntă cu un număr mare de furnizori, deoarece devine dificil să
ajungeți la acești furnizori off-line sau să îi contactați online. În acest caz, piețele electronice
oferă de obicei posibilitatea unei căutări parametrice între furnizori și informații detaliate despre
produs. În acest fel, îi ajută pe clienți să facă o analiză eficientă a costurilor și a calității și să
aleagă un produs care le convine cel mai bine. • Ajută la cumpărarea și vânzarea produselor
disponibile în volum redus și la schimbarea produsului atunci când este în garanție. În acest caz, o
piață electronică organizează de obicei un schimb on-line la fața locului pentru membrii săi și
ajută la consolidarea lichidității pieței. • Ajută la înființarea piețelor electronice care oferă o
platformă pentru comerțul colaborativ.

18

S-ar putea să vă placă și