Sunteți pe pagina 1din 20

18.11.

2015

ACADEMIA DE STUDII ECONOMICE BUCURETI


FACULTATEA DE CIBERNETIC, STATISTIC I INFORMATIC ECONOMIC

Obiectivul general al disciplinei


Programul de masterat profesional
BAZE DE DATE SUPORT PENTRU AFACERI

nsuirea de ctre studeni a unor noiuni


fundamentale privind gestiunea volumelor
mari de date, cu accent pe depozitele de
date, proiectarea, implementarea i
utilizarea acestora n contextul soluiilor de
Inteligena Afacerii.

GESTIUNEA VOLUMELOR
MARI DE DATE

BUCURETI
2015-2016

Desfurarea modulului GVMD


Cadre didactice

Mari, 17.11.2015 - Lect.univ.dr. Iuliana BOTHA, sala 2101 (1800-2100)

Aspecte fundamentale privind depozitele de date i realizarea acestora

Aspecte fundamentale privind conceptul Big Data

Lect.univ.dr. Iuliana Botha iuliana.botha@ie.ase.ro

Miercuri, 18.11.2015 - Lect.univ.dr. Iuliana BOTHA i invitat ORACLE Romania, sala 2101 (1800-2100)

Lect.univ.dr. Vlad Diaconia diaconita.vlad@ie.ase.ro

Joi, 19.11.2015 - Lect.univ.dr. Iuliana BOTHA i invitat ORACLE Romania, sala 2101 (1800-2100)

Lect.univ.dr. Alexandra Florea alexandra.florea@ie.ase.ro

Vineri, 20.11.2015 - Lect.univ.dr. Iuliana BOTHA i invitat ORACLE Romania, sala 2017 (1800-2100)

Workshop: Data warehouse tuning

Workshop: Data warehouse tuning

Workshop: Data warehouse tuning

Luni, 23.11.2015 - Lect.univ.dr. Iuliana BOTHA i invitat ORACLE Romania, sala 2017 (1800-2100)

Studiu de caz: Big Data. Depozite de date. Implementri practice.

Mari, 24.11.2015 - Seminar GVMD G1: Lect.univ.dr. Alexandra FLOREA, sala 2017 (1800-2100)
Miercuri, 25.11.2015 - Seminar GVMD G2: Lect.univ.dr. Vlad DIACONIA, sala 2017 (1800-2100)
Joi, 26.11.2015 - Seminar GVMD G1: Lect.univ.dr. Alexandra FLOREA, sala 2017 (1800-2100)
Vineri, 27.11.2015 - Seminar GVMD G2: Lect.univ.dr. Vlad DIACONIA, sala 2017 (1800-2100)
3

Smbt, 05.12.2015 - EXAMEN, sala 2203 (1030-1200)

18.11.2015

Modalitate evaluare

Examen final 70%

Modalitate evaluare

Subiecte tip gril

Seminar 30%

Activitate desfurat la seminar

Articolul tiinific

Se poate realiza n grup de cel mult 4 studeni

Va aborda problematica volumelor mari de date

Va trata n cel puin 10 pagini:

SAU

Articol tiinific

Reexaminare: se susine examenul (100%).

aspecte teoretice prezentate sintetic, comparaii

prezentri de produse informatice, cu exemplificri

Va conine referine la materiale de specialitate (cri, articole, resurse Web)


Se

redacteaz

limba

englez

conform

cerinelor

de

la:

http://dbjournal.ro/guide.html
Not: Se poate veni direct la examen, fr a avea activitate la seminar sau articol predat (nota final
va fi max.7)

n urma evalurii, poate fi publicat n revista Database Systems Journal


http://dbjournal.ro

Bibliografie

I.Lungu
(coord.),
A.Bra.
C.Bodea,
I.Botha,
V.Diaconia, A.Florea, A.Velicanu - Tratat de baze de
date. Vol I. Baze de date. Organizare, proiectare i
implementare, editura ASE, Bucureti, 2011, Romnia

M.Velicanu, I.Lungu, I.Botha, A.Bra, A.Velicanu,


E.Rednic Sisteme de baze de date evoluate, editura
ASE, Bucureti, 2009, Romnia

GESTIUNEA VOLUMELOR
MARI DE DATE

Resurse Web...

Depozite de date
Realizarea depozitelor de date
Big Data
Baze de date NoSQL

18.11.2015

Evoluia organizrii datelor


GESTIUNEA VOLUMELOR MARI DE DATE

Aspecte fundamentale privind


depozitele de date

Fiiere de
date

Baze de
date

Depozite
de date

Baze de
date
NoSQL

10

Evoluia organizrii datelor

Evoluia organizrii datelor

Depozitele de date reprezint rezultatul interferenei mediului


economic i al tehnologiilor informatice avansate.

Realizarea depozitelor de date trebuie privit n contextul


realizrii sistemelor destinate Inteligenei Afacerii, care
necesit abordri specifice ale ciclului de dezvoltare care s
se concentreze pe cerinele de afaceri ale organizaiei.

Aceste sisteme sunt orientate mai mult spre oportunitile de


afaceri dect spre cerinele sau nevoile curente i trebuie s
ofere suport decizional la nivel departamental sau chiar la
nivelul ntregii organizaii n funcie de scopul pentru care au
fost proiectate.

11

control operaional vs. asistarea deciziilor strategice

OLTP (On-Line Transaction Processing) vs. OLAP (On-Line Analytical Processing)

tranzacii vs. interogri

redundan controlat vs. redundan impus

date curente vs. date istorice

detaliu vs. agregare

relaional vs. multidimensional

12

18.11.2015

Modelul de date multidimensional

Structura modelului multidimensional

Este caracterizat prin elementele sale:

Structura modelului multidimensional

Operaiile realizate asupra datelor

Restriciile de integritate

Conine:
tabelele

de fapte cu atribute de tip msuri sau metrici

tabelele

de tip dimensiune n care regsim niveluri


ierarhice, atribute de identificare i atribute de
descriere

metadate

13

Dimensiuni

structuri compuse formate din atribute structurate pe diverse niveluri ierarhice n funcie de
care sunt grupate datele
conin atribute care sunt de obicei descriptive i sunt folosite ca surs pentru limitarea
nregistrrilor afiate n cadrul rapoartelor analitice

Ierarhii

structuri logice utilizate pentru ordonarea nivelurilor de reprezentare a datelor


sunt utilizate i pentru definirea cilor de navigare n interiorul dimensiunilor i ofer
instrumentelor de analiz OLAP posibilitatea de detaliere gradual a datelor n rapoarte

Niveluri

poziii n cadrul ierarhiilor


relaiile ntre diferite niveluri sunt relaii de tipul printe-copil
nivelurile unei ierarhii sunt eseniale pentru determinarea tipurilor de navigri care se pot
realiza n dimensiuni

Atribute

dimensiunile conin atribute care reprezint calificative specifice


exist dou tipuri de atribute: de identificare a dimensiunii i a fiecrui nivel n parte i
atribute descriptive

Tabele de
fapte

tabelele centrale care conin atribute de tip msuri (metrici) i chei externe ctre tabelele
dimensiuni
conin de obicei date numerice care pot fi nsumate i analizate pe fiecare nivel din ierarhiile
dimensiunilor

Msuri
(metrici)

corespund atributelor din tabelele de fapte i sunt de regul de natur numeric


se pot clasifica dup mai multe criterii: modalitatea de calcul, tipurile de funcii agregate
utilizate, modalitile de nsumare i agregare n funcie de dimensiuni.

Metadate

cea mai important component a depozitului de date


conin descrierea structurii de date, informaii despre proveniena datelor, algoritmii de agregare,
maprile de la mediul operaional la depozitul de date, statistici privind utilizarea depozitului etc.
se pot clasifica astfel: metadate administrative, pentru utilizatorii finali, pentru optimizare

14

Operaii realizate asupra modelului


multidimensional

Navigarea pe nivelurile ierarhice (drill down i roll up)

Rotaiile

Seciuni

Extensii ale operatorilor relaionali (operatorii CUBE i


ROLLUP)

16

18.11.2015

Modele de reprezentare a obiectelor


depozitelor de date

Restricii de integritate

restriciile de integritate structurale: restricia de unicitate a


cheii i restricia entitii aplicate n cazul atributelor de
identificare ale tabelelor de fapte i ale dimensiunilor,
restricia referenial aplicat pentru stabilirea legturii dintre
tabelele de fapte i dimensiuni i dependenele ntre date
pentru determinarea legturii existente ntre anumite atribute
sau metrici

restriciile de integritate de comportament: restricii de


domeniu i restricii temporale aplicate pentru valorile
atributelor i a metricilor

restricia de asociere a nivelurilor prin care se definete


realizarea legturilor unui nivel inferior cu nivelul superior n
cadrul unei ierarhii i se specific formula de agregare.
17

Exist dou variante de reprezentare a obiectelor


depozitelor de date:

Prin utilizarea extensiilor modelului relaional (model propus de


Ralph Kimball)

Prin structurarea obiectelor unui depozit sub forma elementelor


unui cub de date

Ambele variante reprezint obiectele modelului


multidimensional sub form de schem a depozitului de
date, coninnd colecii de tabele de fapte, dimensiuni
etc.
Exist mai multe tipuri de scheme utilizate n modelarea
multidimensional, diferena fiind dat de modurile n
18
care se pot aranja obiectele n cadrul acestora

Extensii ale modelului relaional

Extensii ale modelului relaional

Schema stea

Schema stea

Schema de tip stea are urmtoarele caracteristici:

ntre tabela de fapte i dimensiuni exist jonciuni de egalitate;

cheile primare ale dimensiunilor se regsesc printre atributele


cheii compuse a tabelei de fapte;

atributele tabelei de fapte care nu particip la jonciune pot fi


agregate.

Principalul avantaj al acestui model este optimizarea


performanei de rspuns la interogri

19

20

18.11.2015

Extensii ale modelului relaional

Extensii ale modelului relaional

Schema stea

Schema fulg de nea

Ierarhie n cadrul unei tabele dimensiune

Variant a modelului stea n care o parte din tabelele


dimensiune sunt normalizate, iar datele sunt distribuite n
tabele suplimentare

Diferena ntre modelul stea i modelul fulg de nea este


c tabelele dimensiune din acesta pot fi pstrate n
forma normalizat, ceea ce determin o redundan
controlat

Poate reduce performana extragerii de date deoarece


sunt necesare mai multe jonciuni ntre tabele la o
singur interogare

21

22

Extensii ale modelului relaional

Extensii ale modelului relaional

Schema fulg de nea

Schema galaxie

23

Asociere de scheme de tip stea, care conine tabele de


fapte suplimentare

Legtura dintre stele se realizeaz prin intermediul


dimensiunilor, astfel nct o dimensiune va face parte din
una sau mai multe stele

24

18.11.2015

Extensii ale modelului relaional

Modele bazate pe cuburi multidimensionale

Schema galaxie

Un mod mai simplu de vizualizare a datelor este


reprezentarea ntr-un spaiu cartezian definit pe toate
dimensiunile depozitului de date

Acesta poate fi numit cub de date, fiind un spaiu de date


logic i nu unul fizic

n analiza multidimensional cubul de date cu mai mult


de trei dimensiuni poart denumirea de cub ndimensional sau hipercub

25

Modele bazate pe cuburi multidimensionale

26

Definirea depozitelor de date

Depozitul de date (sens larg) - o baz de date de foarte mari


dimensiuni care este ntreinut separat de bazele de date
operaionale ale unei organizaii i care este construit din
date provenite din sisteme surs prin extragere, filtrare,
transformare i stocare n depozite speciale, n scopul
sprijinirii proceselor decizionale.

Depozitele de date sprijin prelucrarea informaiilor pentru


analiz, furniznd o platform solid de consolidare a datelor
istorice. Un depozit de date este un ansamblu de date
consistente, din punct de vedere semantic, care servete la o
implementare fizic a unui model de date pentru sprijinirea
deciziei i stocheaz informaii pe care o organizaie le solicit
n luarea deciziilor strategice.

PRODUS

LOCATIE

TIMP

furnizor F1

furnizor F2

furnizor F3

produs

locaie

T1

T2

T3
timp

27

28

18.11.2015

Definirea depozitelor de date

Aplicaii ale depozitelor de date

Depozitul de date (sens William Harvey Inmon:


printele noiunii de data warehouse) - un ansamblu
de colecii de date orientat pe subiecte, integrate, istorice
i nevolatile destinat sprijinirii procesului de luare a
deciziilor manageriale

29

Scopul organizrii datelor n


depozite de date

Domeniul telecomunicaiilor

analiza folosirii reelei

determinarea profilurilor clienilor

profitabilitatea serviciilor oferite

Domeniul bancar

managementul riscului

analiza profitabilitii

determinarea profilurilor clienilor

Domeniul comerului cu amnuntul

analiza trendului vnzrilor

campaniile de marketing

determinarea profilurilor consumatorilor

etc.

30

Obiectivele depozitelor de date

Scopul principal al realizrii depozitelor de date se refer

Asigurarea accesului ct mai rapid la datele organizaiei

Utilizarea datelor din depozite direct n analize, fr alte


prelucrri suplimentare

Stocarea de date istorice

Orientarea depozitului pe subiectele importante ale


procesului economic (clieni, furnizori, produse, activiti)
fa de datele operaionale (BD sau fiiere) care sunt
orientate pe aplicaii

la suportul pentru analize complexe i dinamice asupra


datelor istorice i curente ale organizaiei.

31

32

18.11.2015

Caracteristici ale depozitelor de date

Arhitectura depozitelor de date

Datele dintr-un depozit de date trebuie s fie consistente

Calitatea datelor din depozitele de date trebuie verificat i


asigurat, fiind un factor determinant pentru procesul de analiz
Redundana este creat n mod intenionat prin denormalizare i
agregare pentru a permite un acces mai rapid la date
Sursele de date pentru depozitul de date provin n principal din
datele importate din sistemul informatic operaional, dar mai pot
proveni i din datele de arhiv, precum i din surse externe
Integrarea datelor reprezint att o consecin important a realizrii
depozitului de date, ct i raiunea pentru care acesta este creat

Elementele care alctuiesc un depozit de date pot fi


interconectate n mai multe tipuri de arhitecturi n funcie
de rolul, funcionalitatea i de viziunea utilizatorilor
asupra acestora

Astfel se pot distinge urmtoarele tipuri de arhitecturi:

Actualizarea este foarte rar, deci dinamica lipsete


Din punctul de vedere al aplicaiilor care folosesc depozitul de date,
accesul la date este doar pentru citire
Mecanismele de integritate sunt inutile

arhitectura pe componente

arhitectura pe niveluri

arhitectura funcional a depozitelor de date

33

34

Arhitectura depozitelor de date

Arhitectura depozitelor de date

Arhitectura pe componente

Arhitectura pe componente

Arhitectura pe componente evideniaz componentele DD i legturile


dintre ele: depozitul de date, sursa de date, interfeele de analiz

35

Exist trei etape n procesul de realizare a unui depozit


de date:

extragere etapa n care datele sunt extrase din sursele de date

transformare etapa n care datele surs sunt transformate ntrun format adecvat

ncrcare etapa n care datele sunt ncrcate n depozitul de


date

36

18.11.2015

Arhitectura depozitelor de date

Procesul ETL (Extract-Transform-Load)

Arhitectura pe componente

Aciuni n procesul de realizare a unui depozit de date:

extragerea datelor din datele operaionale sau din surse externe,


urmat de copierea lor n depozitul de date. Acest proces trebuie,
cel mai adesea, s transforme datele n structura i formatul
intern al depozitului;

filtrarea datelor, pentru a exista certitudinea c datele sunt


corecte i pot fi utilizate pentru luarea deciziilor;

ncrcarea datelor corecte n depozitul de date;

agregarea datelor: totaluri precalculate, subtotaluri, valori medii,


sume etc., care se preconizeaz c vor fi cerute i folosite de
utilizatori. Aceste agregri sunt stocate n depozitul de date
mpreun cu datele importate din sursele interne i externe.
37

38

Arhitectura depozitelor de date

Procesul ELT (Extract-Load-Transform)

Arhitectura pe niveluri

Arhitectura pe niveluri evideniaz modul de implementare a DD ntr-un


mediu de reea de calculatoare, pe trei straturi: inferior, mediu, superior
Rapoarte, analize, interogri
Strat superior

extragere
Strat mediu

Servere specializate
(OLAP, DATA MINING)

Depozite de date

transformare
Strat inferior

39

Server de Date

Surse de date operaionale

40

10

18.11.2015

Arhitectura depozitelor de date

Tipuri de depozite de date

Arhitectura funcional

Arhitectura funcional mparte DD n trei module distincte: modulul


operaional, modulul central al depozitului de date i modulul strategic de
afaceri

Sisteme IA

Modulul
Strategic

Extragerea i procesarea datelor pentru analiz


Utilitare pentru accesul la date

Modulul
Central

Modulul
Operaional

Data Marts
Replicare i distribuire
Depozitul de date central
Extragere, Transformare i ncrcare (ETI)
Date operaionale: secveniale, nerelaionale, relaionale, fiiere,
surse externe

Sisteme operaionale, sisteme


informatice integrate
41

Aspecte comparative privind organizarea


datelor n baze de date i n depozite de date

Tipuri de depozite de date n funcie de aria de cuprindere

depozite la nivelul organizaiei (Enterprise Warehouse)

concentrri de date (Data Marts)

depozite virtuale de date (Virtual Data warehouse).

Tipuri de depozite de date n funcie de suportul decizional oferit

Depozitul de date de tip organizaional sau galactic (Galactic Data Warehouse)

Depozitul de date orientat pe procese de afacere (Business Process Data


Warehouse)

Depozitul de date departamental (Departamental Data Warehouse)

Concentrri de date de tip proces de afaceri (Business Process Data Mart)

Concentrri de date departamentale (Departamental Data Mart)

Tipuri de depozite de date n funcie de modelul de date


implementat

Depozitele de date relaionale

Depozitele de date multidimensionale

Depozitele de date hibride

42

Criterii de evaluare a depozitelor de date

performan depinde de dimensiunile depozitului de date i vizeaz


realizarea de analize complexe ntr-un timp ct mai scurt;

Operaionale
Tranzacii
Toate categoriile

Dimensiuni, tabele de fapte, cub de


date
Informaionale
Analize
Manageri, analiti de date

scalabilitate i mentenan depozitele trebuie s poat fi


redimensionate n funcie de structura i de mediul de afaceri fr a
pierde ns din performan;

Operaia tipic
Frecvena operaiilor

Actualizare
Zilnice

Raportare i analiz
Asistarea deciziei

Caracterul datelor
Nivelul de sintez
Acces
Focalizare
Sursa de date este
Volum de date
Prioriti

Curente
Primitive, detaliere
Citire, scriere
Culegere date
Validat
Redus, de ordinul GB
Performane, disponibilitate

Istorice
Sintetizare, consolidare
Citire
Furnizare informaii
Filtrat, transformat
Mare, de ordinul TB
Flexibilitate, autonomie

integrarea datelor sursele de date ale depozitului de date trebuie s


fie multiple i variate, bazate att pe date interne rezultate din
procesul operaional ct i pe date externe organizaiei, referitoare la
evoluia pieei, legislaie, concuren, relaii cu alte organizaii;

Software necesar

SGBD

Specializat, SGBD

suport pentru sistemele de Inteligena Afacerii depozitul de date


trebuie s permit extragerea datelor n vederea realizrii analizelor
multidimensionale de tip OLAP i a extragerii de cunotine din date
(data mining).

Criteriu

Modelul relaional

Organizarea datelor

Tabela

Procesele
Execuie
Utilizatori

Modelul multidimensional

43

44

11

18.11.2015

Faciliti oferite de depozitele de date


sistemelor de Inteligena Afacerii

Depozitele de date sunt destinate managerilor i analitilor


angrenai n luarea deciziilor strategice privind dezvoltarea i
viitorul organizaiilor

Pentru a obine informaiile dorite, depozitele de date sunt


supuse unor prelucrri complexe, cu ajutorul unor metode
specifice, cum ar fi: analiza multidimensional a datelor,
metode statistice superioare de prognoz, metode
matematice aplicate unui volum foarte mare de date.

Aceste metode presupun folosirea unui software specializat


deosebit de complex, bazat pe noi tehnologii informatice:
extrageri de cunotine din date (data mining), OLAP (Online
Analytical Processing).

GESTIUNEA VOLUMELOR MARI DE DATE

Realizarea depozitele de date

45

Metodologii utilizate la realizarea


depozitelor de date

Modaliti de realizare a depozitelor de date

Realizarea depozitelor de date este condiionat de o serie de


cerine specifice sistemelor de IA, iar ciclul de dezvoltare al
acestor sisteme i implicit al depozitelor de date, este iterativ
n ceea ce privete abordarea activitilor de realizare a
depozitului de date se alege una dintre variantele:

realizarea de sus n jos (top-down) care pornete cu proiectarea i


planificarea complet. Soluia este scump, solicit timp ndelungat pentru
dezvoltare i i lipsete flexibilitatea determinat de dificultile care pot
aprea la realizarea modelelor de date pentru ntreaga organizaie

realizarea de jos n sus (bottom-up) pornete cu experimente i prototipuri.


Permite unei organizaii s mearg nainte cu cheltuieli considerabil mai mici
i s evalueze beneficiile tehnologiei nainte de a face angajamente
semnificative n aceast direcie.

realizarea mixt presupune c o organizaie poate exploata caracterul


planificat i strategic al abordrii top-down att timp ct reine avantajele
implementrii rapide i oportune a aplicaiilor dup abordarea bottom-up. 47

Din punctul de vedere al ciclului de via putem aplica dou tipuri


de metode:

Metoda n cascad presupune o analiz structurat i sistematic pe fiecare


etap
Metoda n spiral implic generarea rapid de sisteme funcionale din ce n
ce mai complete, la intervale scurte, ntre dou versiuni succesive.

Din punctul de vedere al modului de abordare putem aplica:

metodologii structurate presupun diviziunea n subsisteme pe baza funciilor


identificate sau n funcie de date
metodologii orientate-obiect bazate pe conceptele de obiect i clas permit
utilizarea a trei tipuri diferite de modele pentru realizarea unui depozit de
date:

modelul static prin care se modeleaz obiectele i relaiile lor n cadrul


depozitului
modelul dinamic sunt descrise interaciunile dintre obiecte
modelul funcional prin care se realizeaz transformarea valorii datelor cu
48
ajutorul operaiilor i proceselor.

12

18.11.2015

Etape de realizare a depozitelor de date

Strategia de realizare a depozitelor de date

Din analiza diferitelor metodologii de realizare a depozitelor


de date se pot deduce o serie de activiti, care pot fi
sintetizate n necesitatea parcurgerii urmtorilor pai/etape:
1.

Strategia de realizare

2.

Planificarea (modelarea) cerinelor

3.

Implementarea

4.

Exploatarea

1.

Determinarea contextului organizaional

2.

Realizarea unei viziuni preliminare de ansamblu asupra


cerinelor

3.

Realizarea auditului preliminar referitor la sistemele surs

4.

Identificarea surselor de date externe

5.

Definirea versiunilor depozitului de date

6.

Definirea arhitecturii preliminare a depozitului de date

7.

Evaluarea mediilor de dezvoltare a depozitului de date

49

50

Implementarea depozitelor de date

Modelarea depozitelor de date


1.

1.

Alctuirea echipei de lucru

2.

Analiza cerinelor informaionale

3.

Auditarea sistemelor surs

2.

3.

4.

Proiectarea schemelor depozitului de date

5.

Transformarea cmpurilor surs n cmpurile destinaie

6.

ncrcarea datelor istorice n depozitul de date

a)
b)
c)
d)
e)
f)

4.

7.

Selectarea mediilor de dezvoltare

8.

Crearea prototipului pentru versiunea curent

Definirea ariei de cuprindere a depozitului de date i specificarea


modului de transformare a datelor surs
Crearea planului de implementare pentru versiunea curent a
depozitului
Implementarea propriu-zis a depozitului de date

5.
6.
7.
8.
51

9.

Achiziia i configurarea mediului de dezvoltare


Obinerea copiilor coleciilor de date operaionale
Finalizarea proiectrii schemei fizice a depozitului de date
Construirea sau configurarea subsistemelor de extragere i transformare
Construirea subsistemului pentru asigurarea calitii datelor
Construirea subsistemului pentru ncrcarea depozitului de date

Rafinarea schemei depozitului de date


Metadatele din depozitul de date
Modul de acces la date
ncrcarea depozitului de date
Instruirea utilizatorilor
Testarea depozitului de date

52

13

18.11.2015

Instrumente i medii de dezvoltare utilizate


pentru realizarea depozitelor de date

Exploatarea depozitelor de date


1.

ncrcarea periodic a depozitului de date

2.

Calcularea indicatorilor statistici referitori la depozitul de date

3.

Meninerea calitii datelor

4.

Evaluarea mrimii depozitului de date

5.

Refacerea datelor n caz de accidente

Instrumente Oracle: Discoverer Administrator, Oracle Warehouse


Builder, Oracle Data Integrator

Instrumente Microsoft: Microsoft SQL Server Analysis Services

Instrumente IBM: InfoSphere Warehouse

Instrumente SAP: Business Objects

53

54

Modelarea depozitului de date


GESTIUNEA VOLUMELOR MARI DE DATE

Studiu de caz.
Modelarea unui depozit de date

Definirea modelului conceptual (de afaceri)

Definirea modelului logic (dimensional)

Definirea modelului fizic

56

14

18.11.2015

Modelarea depozitului de date.

Modelarea depozitului de date.

Definirea modelului conceptual.

Definirea modelului conceptual.

Definirea cerinelor de afaceri

Identificarea msurilor de afaceri

Identificarea dimensiunilor

Stabilirea granularitii

Identificarea regulilor de afaceri

Verificarea surselor de date

Dimensiuni:
Produs
Client
Locaie
Timp

Msuri:
Volum vnzri
volum costuri

Ierarhii:
Categorie_produs > Grupa_produs > Subgrupa_produs > Produs
Tara > Regiune > Oras
An > Trimestru > Luna > Zi

57

58

Modelarea depozitului de date.

Modelarea depozitului de date.

Definirea modelului logic.

Definirea modelului logic.

Identificarea tabelelor de fapte:

Transformarea msurilor de afaceri n tabele de fapte

Analizarea sistemelor surs pentru identificarea altor eventuale msuri

Identificarea msurilor de baz i a celor derivate

Identificarea tabelelor dimensiune

Realizarea legturilor ntre tabelele dimensiune i cele de fapte

59

60

15

18.11.2015

You cant manage what you dont measure.


(Peter Drucker)

Modelarea depozitului de date.


Definirea modelului fizic.

Transformarea modelului logic ntr-unul fizic

Definirea strategiei de stocare

Definirea strategiei de indexare

Definirea strategiei de partiionare

Actualizarea metadatelor

GESTIUNEA VOLUMELOR MARI DE DATE

Aspecte fundamentale privind


conceptul Big Data

61

Big Data

Big Data

Desemneaz una din cele mai noi evoluii n


domeniul sistemelor de baze de date evoluate,
integrrii sistemelor i al Business Intelligence.
Descrie colecii de date de dimensiuni foarte mari i
care se afl n cretere exponenial n timp.
Pe scurt, astfel de date sunt att de mari i de
complexe, nct niciunul dintre instrumentele
tradiionale de gestiune al datelor nu este n msur
s le stocheze sau s le proceseze eficient.
63

Big Data se definete ca fiind tehnologia care permite


lucrul cu volume mari de date, care depesc
capacitatea uzual de stocare i de procesare oferit
de bazele de date, n scopul obinerii de avantaje
competitive.
Se pot stoca i analiza date provenite din fiiere de tip
log sau chiar text scris de utilizatori (n urma activitii
pe reele sociale sau forumuri, articole etc.) pentru a le
face folositoare n procesul de asistare a deciziilor.

64

16

18.11.2015

Big Data

Big Data

acele resurse informaionale de volum mare, vitez


crescut i varietate mare, care necesit noi forme
de prelucrare pentru a permite luarea unor decizii
avansate, descoperirea de noi perspective de
nelegere a lucrurilor i optimizarea proceselor
(Gartner Group, 2012)

date care depesc capacitatea convenional de


procesare a sistemelor de baze de date. Datele sunt
prea mari, se modific cu vitez crescut i nu
respect stricteea arhitecturilor de baze de date.
(Forbes, 2012)

65

Big Data - necesitate

66

Big Data sursele de date

prelucrarea unui volum mare de date aduce plus de


valoare companiilor.
se pune accentul pe completitudinea datelor, n
detrimentul acurateei lor.
ideea general este de a aduna date ct mai multe
i ct mai variate, chiar dac uneori nu se
cunoate nc utilitatea acestora i nici nu se poate
garanta exactitudinea lor.

Din punctul de vedere al poziionrii fa de


companie:

Din punctul de vedere al modului de generare:

67

date proprii (interne);


date provenind din exteriorul firmei (externe), dar care sunt
utile modelului de afaceri al firmei.

generate intenionat de om, prin evidenele n format digital


pe care le ine;
generate automat de diverse device-uri: senzori, telefoane
mobile, tablete, aparate foto digitale, satelii etc.
68

17

18.11.2015

Big Data sursele de date

Din punctul de vedere al dinamicii:

Big Data caracteristici

date statice;
date de flux (streaming).

Din punctul de vedere al structurii interne:

date structurate: respect o anumit regul sau model de


organizare intern;
date nestructurate: nu respect un model predefinit de
organizare;
date semi-structurate: prezint o form slab de
structurare, pe care o respect uneori doar aproximativ.

Caracteristici ale Big Data 3V > 5V > 7V:


1.

Volum

2.

Varietate

3.

Vitez

4.

Veridicitate

5.

Validitate

6.

Volatilitate

7.

Valoare

69

Big Data caracteristici

70

Big Data caracteristici

1.

Volumul. Este caracteristica esenial pentru Big


Data (de ordinul zettabytes).

3.

2.

Varietatea. Se refer la multitudinea surselor de


generare i a tipurilor de date (date de tip text,
numerice, imagini, audio, video, streaming, serii de
timp, date social media), precum i la varietatea
formatelor de lucru, structurare i forme de
prezentare a datelor.

4.

71

Viteza. Este legat de ritmul n care sursele


furnizeaz fluxuri continue de date i de
capacitatea de preluare, prelucrare i valorificare
(uneori n timp real) a acestor fluxuri.
Veridicitatea. Big Data reflect fapte reale n
care se poate avea ncredere, cu condiia s fie
luate n considerare eventualele abateri i
zgomotul informaional care caracterizeaz unele
tipuri de date.

72

18

18.11.2015

Big Data caracteristici


5.

6.

7.

Big Data aplicabilitate

Validitatea. Se definete prin corectitudinea i


acurateea datelor, n raport cu scopul n care sunt
utilizate.
Volatilitatea. Se refer la perioada de timp n care
datele rmn relevante i merit s fie pstrate,
inndu-se cont de volumul de stocat i de dificultatea
asigurrii securitii pe perioade mari de timp.
Valoarea. Exprim potenialul de a genera valoare
de business pentru companii, conferind avantaje
competitive acelor firme care gestioneaz Big Data.

Optimizarea proceselor de afaceri


Publicitatea orientata catre client
Imbunatatirea sanatatii si a serviciilor medicale
Imbunatatirea performantelor sportive
Imbunatatirea domeniului stiintei si al cercetarii
Optimizarea peformantei dispozitivelor si a masinariilor
Imbunatatirea sistemelor de securitate si a eficientei politiei
Imbunatatirea si optimizarea administrativa si de infrastructura a
oraselor si tarilor
Tranzactiile financiare
Imbunatatirea domeniului energetic

73

Evoluia organizrii datelor

74

Baze de date NoSQL

Fiiere de
date

Baze de
date

Depozite
de date

Baze de
date
NoSQL

75

Au aprut n contextul Big Data, pentru a rezolva


problema regsirilor rapide pe aceste volume mari
de date;
Permit lucrul eficient cu date nestructurate, precum
e-mail sau multimedia;
Lucreaz cu texte XML, CSV sau JSON,
stocheaz documente ntregi, obiecte, coloane cu
valori ale unor caracteristici etc.;
Folosesc mai multe limbaje de interogare diferite
(NoSQL - not only SQL).
76

19

18.11.2015

Tipuri de baze de date NoSQL


1.

BD care stocheaz asocieri cheie-valoare


(Cassandra, DyanmoDB, Azure Table Storage, Riak)

2.

BD pe coloane
(HBase, BigTable, HyperTable)

3.

BD organizate pe document
(MongoDB, CouchDB)

4.

BD organizate ca graf
(Neo4J, Polyglot)

77

20

S-ar putea să vă placă și