DD Prezentare

S-ar putea să vă placă și

Sunteți pe pagina 1din 30

DEPOZITE DE DATE

Note de curs

Prof.univ.dr. BRA Adela

Definire
Obiectivul principal al depozitelor de date l reprezint modelarea i
analiza datelor pentru luarea deciziilor.
W. H. Inmon: un depozit de date este o colecie de date orientate pe
subiecte, integrate, istorice i nevolatile destinat sprijinirii procesului de
luare a deciziilor manageriale [1].
Ralph Kimball : depozitul de date ofera acces la datele organizaionale; datele
coninute sunt consistente; datele pot fi separate i combinate n funcie de
fiecare dimensiune sau aspect al afacerii. Depozitul de date include, de
asemenea, un set de instrumente pentru interogare, analiz i prezentare a
informaiilor; reprezint locul n care sunt publicate datele folosite; calitatea
datelor coninute n depozit reprezinta o premis pentru reingineria afacerii" [2].
[1]

. Inmon, W.H., Building the Data Warehouse, New York, John Wiley & Sons,
1996.
[2]. Kimball, R., Reeves, L., Ross M., Thornthwaite, W., The Data Warehouse
Lifecycle Toolkit, John Wiley/Sons, Inc., New York, 1998.

Definire
Barry Devlin: un depozit de date nseamn o stocare a
datelor, unitar, complet i consistent, obinut dintr-o
varietate de surse, disponibil utilizatorilor finali ntr-un mod
uor perceptibil i utilizabil n contextul afacerii [3].
Sam Anahory subliniaz finalitatea depozitelor de date
preciznd c un depozit de date include datele i procesele
manageriale care fac informaiile disponibile, permind
managerilor s ia decizii corect fundamentate [4].
[3] Devlin, B., Data Warehouse from Architecture to Implementation, Addison
Wesley Longman, Reading, Mass, 1997
[4] Anahory, S., Dennis, M., Data Warehousing in the Real World, Addison
Wesley Longman, Reading, Mass, 1997

Definire
Corey si Abbey (Oracle) definesc depozitul de date ca fiind:o colectie
de informatii strategice derivate direct din sistemele OLTP si alte surse
externe. Scopul specific al depozitului de date este de a oferi suport de
decizie si nu suport pentru activitatea operativ.
Dupa Efraim Turban [5], scopul unui data (sau information)
warehouse este de a realiza un fond de date (data repository) care s
fac accesibile datele operaionale ntr-o form acceptabil pentru
asistarea deciziilor i pentru alte aplicaii".
[5] Turban, E., Aronson, J., Decision Support Systems and Intelligent Systems,

Sixth Edition, Prentice Hall International, Upper Saddle River, New Jersey, 2001,
p. 145

Caracteristici
Orientarea pe subiecte.

Un depozit de date este orientat pe subiecte ale activitii ntreprinderii ca


de exemplu: clieni, produse, servicii etc. Datele sunt preluate din toate
aplicaiile de tip OLTP (On Line Transaction processing) referitoare la
subiectul respectiv;
Pentru a fi elocvente, aceste subiecte trebuie s fie integrate din diferite
surse de date;
Depozitele de date ofer o viziune specific asupra subiectelor, excluznd
datele care nu sunt folositoare n procesul de luare a deciziiilor.

Integrarea.

Un depozit de date reprezint o stocare centralizat a datelor detaliate


provenite din toate sursele relevante din cadrul unei organizaii i permite
interogarea dinamic i analiza detaliat a tuturor informaiilor;
Sursele din care provin datele pot fi sursele operaionale ale organizaiei
sau surse externe;
Inconsistenele din datele surs sunt eliminate;
Integrarea datelor provenite din surse diferite presupune transformarea,
curarea, validarea i agregarea corect a acestora pentru a asigura
credibilitatea i consistena datelor.

Caracteristici
Caracterul istoric.
Datele sunt stocate pentru a furniza informaii n perspectiva
istoric (luni/ani). Astfel, decidenii pot consulta valorile succesive
ale acelorai date pentru a determina evoluia n timp i a calcula
anumii indicatori.

Persistena datelor.
Datele dintr-un depozit sunt permanente i nu pot fi modificate.
Atunci cnd datele surs se modific, depozitul de date este
actualizat, aceasta nsemnnd doar adaugarea noilor valori pentru
obiectele depozitului de date.

Cerine funcionale

depozitul de date asigur accesul la datele organizaiei.


Accesul trebuie s fie imediat, la cerere, i s fie performant;

datele sunt colectate dintr-o varietate de surse, sunt


corectate de erori, li se asigur calitatea necesar i abia apoi
devin utilizabile;

calitatea datelor din depozitele de date este un factor


determinant pentru procesul de reculegere a datelor. Se
ntlneste frecvent situaia n care datele sunt de bun calitate,
dar nu sunt colectate n ntregime sau sunt opionale.

Cerine funcionale

datele ntr-un depozit de date pot fi separate i combinate


cerina clasic de mprire i grupare a datelor;

accesul presupune existena unor utilitare/instrumente flexibile


i cu interfaa prietenoas pentru a interoga, analiza, prezenta
informaiile;

datele dintr-un depozit de date trebuie s fie consistente (de


exemplu atunci cnd dou persoane/aplicaii solicit date despre
vnzrile dintr-o anumit regiune s primeasc aceleai date, chiar
dac ele au fost cerute la momente de timp diferite);

Tipuri de depozite de date

Un depozit de ntreprindere colecteaz toate informaiile despre


subiecte care privesc ntreaga organizaie[6]:
furnizeaz un volum extins de date;
conine date detaliate, dar i date agregate, iar ca ordin de mrime
pornete de la civa gigabytes pn la sute de gigabytes,
terabytes sau mai mult.
poate fi implementat doar pe infrastructur hardware puternic
(servere UNIX sau pe platforme cu arhitecturi paralele). Acesta
necesit cheltuieli mari i perioad ndelungat (ani) pentru
proiectare i realizare.

[6] Ryan, J. Building and deploying an enterprise data warehouse , White Paper,
1999

Tipuri de depozite de date

Un data mart conine un subset al volumului de date din


organizaie, specific unui grup de utilizatori[7]:
Domeniul este limitat la subiecte specifice. De exemplu, un data mart
pentru marketing limiteaza subiectele la clienti, articole, vnzri. Datele
coninute n data mart sunt de obicei agregate;
Data marts sunt, n mod curent, implementate pe servere departamentale
mai ieftine care se bazeaza pe UNIX sau Windows/NT. Ciclul de
implementare a unui data mart este mai curnd msurat n sptmni
dect n luni sau ani. Ca atare, un data mart poate fi considerat un
subansamblu al unui depozit de date mai uor de construit i ntreinut i
mai puin scump.

[7] Inmon, B. Data mart does not equal data warehouse, DM Direct Newsletter, November,
1999

Tipuri de depozite de date

Un depozit virtual este un set de tabele virtuale (views) asupra


bazelor de date operaionale[8]:

Pentru eficiena procesrii interogrilor se pot utiliza tabelele


virtuale materializate.

Un depozit virtual este uor de construit, dar necesit capaciti


suplimentare pe serverele de baze de date relaionale.

[8] Holland, P. Traditional data warehouses vs virtual data warehouses , White


Paper, March, 2000

Arhitectura

Arhitectura unui depozit de date are trei componente principale:

depozitul de date propriu-zis i sistemul de gestiune a depozitului


de date
sistemul de achizitie a datelor din sistemele OLTP i din alte surse
sistemul de analiz i prezentare a datelor din depozitul de date

Arhitectura

sursele de date pentru depozit pot fi: bazele de date


operaionale curente, baze de date vechi arhivate i surse de date
externe (web, mail, senzori);

datele agregate folosite, dei determin creterea redundanei,


ele sunt foarte importante pentru a asigura un timp de rspuns
ct mai mic;

Totodat putem identifica care sunt etapele pentru


construierea depozitului de date:

extragerea datelor din bazele de date operaionale i sursele externe


organizaiei;
curarea i ncrcarea datelor corecte n cadrul depozitului de date;
obinerea datelor agregate cerute de utilizatori.

Arhitectura

O arhitectur mai complex este aceea n care se folosete un sistem


stocare intermediar (data stage) necesare procesului de curare i
integrare a datelor. Sursele de date pot fi sisteme operaionale i fiiere.
Acestea sunt extrase, curate, stocate i integrate n depozitul de date;

Datele din depozitul de date sunt organizate n mai multe sisteme data
mart proiectate pentru compartimentele nterprinderii;

Datele din data mart sunt n final folosite de utilizatori pentru efectuarea
de analiz, obinerea de rapoarte i transformarea datelor n cunotine
(mining).

MODELUL DE DATE
MULTIDIMENSIONAL
Structura

modelului constituit din obiectele


modelului precum i relaiile dintre ele;
Operatorii care acioneaz asupra structurii;
Restriciile
de integritate formate din
totalitatea de regului i constrngeri impuse
modelului pentru asigurarea corectitudinii
datelor.

MODELUL DE DATE MULTIDIMENSIONAL

Dimensiunile - un atribut structural al


unui cub ce const dintr-o list de membrii,
pe care utilizatorii i percepe ca fiind de
acelai tip (de exemplu toate lunile,
trimestrele, anii formeaz dimensiunea
Timp). Dimensiunile repreznint un mod
foarte concis, intuitiv de organizare i
selectare a datelor pentru explorare i
analiz.

MODELUL DE DATE MULTIDIMENSIONAL

Ierarhiile - membrii dimensiunilor pot fi


organizai pe baza relaiilor de tip printecopil, unde un membru printe reprezint
agregarea membrilor copil. Rezultatul este
o ierarhie i relaiile printe-copil sunt
relaii ierarhice

MODELUL DE DATE MULTIDIMENSIONAL

Nivelurile - reprezint poziii n cadrul


ierarhiilor. Relaiile ntre diferite nivele sunt
relaii de tipul printe-copil.
Atribute dimensiunile conin atribute care
reprezint calificative specifice.

MODELUL DE DATE MULTIDIMENSIONAL

Tabelele de fapte sunt tabelele centrale.


Acestea conin atribute de tip msuri
(metrici) i chei externe ctre tabelele
dimensiuni. Faptele sunt de obicei date
numerice care pot fi nsumate i analizate
pe diferite nivele.

MODELUL DE DATE MULTIDIMENSIONAL

Metricile (msurile) corespund atributelor


(faptelor) din tabelele de fapte i sunt de
regul de natur numeric (de exemplu:
volumul
vnzrilor,
costurile,
stocurile
disponibile).

MODELUL DE DATE MULTIDIMENSIONAL

Metadatele - date care descriu coninutul


depozitului i furnizeaz trimiteri directe la
date. Tot la nivelul metadatelor se definesc
i diverse tabele virtuale (views) asociate
unor categorii specifice de utilizatori.

MODELUL DE DATE
MULTIDIMENSIONAL

Schema modelului este o colecie de


obiecte, incluznd tabelele, viziunile,
indeci i sinonime.

MODELUL DE DATE MULTIDIMENSIONAL

Schema de tip Stea - este cel mai


simplu i mai frecvent utilizat model.
Obiectele sale sunt dispuse n form de
stea, n centru aflndu-se una sau mai
multe tabele de fapte de care sunt legate
dimensiunile. Suport dou tipuri de
interogri: consultare i jonciuni multiple.

MODELUL DE DATE MULTIDIMENSIONAL


Dimensiunea TIMP

Dimensiunea LOCATIE

Atribute ale dimensiunii TIMP


Atribute ale dimensiunii TIMP

Atribute ale dimensiunii LOCATIE


Atribute ale dimensiunii LOCATIE
Tabela de fapte

ID TIMP
ID LOCATIE
ID PRODUS
ID CLIENT
Vol vnzarilor
Vol discount

Dimensiunea PRODUS
Atribute ale dimensiunii PRODUS
Atribute ale dimensiunii PRODUS

Dimensiunea CLIENT
Atribute ale dimensiunii CLIENT
Atribute ale dimensiunii CLIENT

MODELUL DE DATE MULTIDIMENSIONAL


Schema de tip Fulg de Nea - este o
variant a modelului stea n care o parte din
tabelele dimensiune sunt normalizate, iar datele
sunt distrinuite n tabele suplimentare. Rezult o
schem reprezentat ntr-un grafic similar unui
fulg de zpad. Diferena ntre modelul stea i
modelul fulg de nea este c tabelele dimensiune
din acesta pot fi pstrate n forma normalizat,
ceea ce determin o redundan redus.

MODELUL DE DATE MULTIDIMENSIONAL


Dimensiunea TIMP

Dimensiunea CLIENT
Atribute ale dimensiunii CLIENT
Atribute ale dimensiunii CLIENT

Atribute ale dimensiunii TIMP


Atribute ale dimensiunii TIMP
Tabela de fapte
ID TIMP
ID REGIUNE
ID PRODUS
ID CLIENT
Vol vnzarilor
Vol discount
Dimensiunea PRODUS
Atribute ale dimensiunii PRODUS
Atribute ale dimensiunii PRODUS

Dimensiunea TIP_PRODUS
Atribute ale dimensiunii
Atribute ale dimensiunii
TIP_PRODUS
TIP_PRODUS

Dimensiunea REGIUNE
Atribute ale dimensiunii REGIUNE
Atribute ale dimensiunii REGIUNE

Dimensiunea LOCATIE
Atribute ale dimensiunii LOCATIE
Atribute ale dimensiunii LOCATIE

MODELUL DE DATE MULTIDIMENSIONAL


Cuburi de date - spaiu cartezian definit pe
toate dimensiunile depozitului de date. Acesta
poate fi numit cub de date, fiind un spaiu de
date logic i nu unul fizic. Seciunile
bidimensionale sunt numite tablouri. Axele
cubului sunt reprezentate de dimensiuni, la
intersecia
acestora
fiind
variabilele
sau
msurile.
Consiliul OLAP definete cubul n-dimensional ca
fiind un grup de celule de date aranjate dup
dimensiunile datelor. O matrice tridimensional
poate fi vizualizat ca un cub cu fiecare
dimensiune formnd o fa a cubului

MODELUL DE DATE MULTIDIMENSIONAL

PRODUS

LOCATIE

TIMP

MODELUL DE DATE MULTIDIMENSIONAL


furnizor F1

furnizor F2

furnizor F3

locatie

produs

T1

T2

T3

timp

Concluzii

Un depozit de date reprezint o stocare centralizat a


datelor detaliate provenite din toate sursele relevante
din cadrul unei organizaii i permite interogarea
dinamic i analiza detaliat a tuturor informaiilor.
Scopul principal n realizarea unui depozit de date este
de a integra datele din sistemele OLTP ( ON line
Transactional Processing) ntr-o singur arhitectur
consistent care s rspund fie cerinelor
operaionale de date integrate la nivelul sistemelor
OLTP, fie s constituie suportul pentru realizarea
analizelor i pentru luarea deciziilor n cadrul
organizaiei, respectiv pentru sistemele OLAP (On-Line
Analytic Processing).

S-ar putea să vă placă și