Sunteți pe pagina 1din 54

Proiectarea

structurii
depozitului de date
Modelarea dimensionala

Ciclul de via al depozitelor de date


Masa de informaii care se va stoca n depozit trebuie
organizat de aa manier nct s reflecte att datele
importante ct i contextul lor
Cerine:
Datele operaionale sunt integrate n depozit
prin utilizarea de convenii consistente n
privina numelor, msurtorilor, atributelor i
semanticii.
Depozitul de date se proiecteaz innd cont
de cerinele exprese ale viitorilor utilizatori.
Structura depozitului de date are n vedere
identificarea precis a datelor stocate i
accesul rapid la ele.

Realizarea depozitelor de date


Modelarea dimensional ofer
suportul necesar pentru
proiectarea structurii depozitului de date.
Structura se implementeaz sub forma unei baze de date care
s asigure att stocarea unui volum imens de date ct i accesul
rapid la ele (baze de date client-server).
Urmtoarea etap este popularea cu date a depozitului - .
Aceast etap va fi reluat periodic pentru a aduga datele noi.
n final, depozitul este dat n exploatare curent
explorare
analiz
raportare.
activiti asistate de instrumente software de la simple browsere
i generatoare de rapoarte la instrumente sofisticate de data mining.

Exploatarea curent va evidenia noi cerine informaionale


pentru asistarea deciziei, cerine care vor conduce la
extinderea structurii depozitului,
popularea cu date istorice a extensiei
integrarea noilor date n aplicaii de analiz.
Proiectare
Populare

Analiz

Procesul de dezvoltare a depozitelor de date este incremental i


ciclic pe tot parcursul vieii.

Modelarea dimensional
Principiul : obiectivul major al unui sistem
decizional este analiza performanelor
organizaiei.
Indicatorii de performan vor fi analizai de-a lungul
unor dimensiuni - axe de analiz .
Acest tip de modelare este independent de tehnologiile ce vor fi
utilizate.

Modelarea dimensional
t ehnic de proiectare logic ce permite
structurarea variabilelor, fiind folosit pentru
vizualizarea modelelor de date sub forma unui set de
variabile cheie pentru activitatea analizat (variabile
descrise n funcie de caracteristicile activitii
respective)
permite conceptualizarea i reprezentarea
aspectelor cantitative, msurabile ale activitii n
strns legtur cu contextul n care s-a desfurat
activitatea respectiv.

Sistemele tranzactionale
Aceste corelatii intre valorile inregistrate ale
activitatii si contextul in care s-a desfasurat aceasta
constituie temele multiplelor rapoarte de sinteza pe
care le produc sistemele tranzactionale.
Aceste rapoarte sunt insa predefinite si sintetizarea
lor in vederea efectuarii unor analize comparative a
mai multor parametrii se face de obicei off - line,
prin copierea rapoartelor in alte medii de lucru si
procesarea lor ad-hoc.

Modelarea dimensionala
Ofera un model conceptual comun tuturor acestor
rapoarte si posibilitatea de agregare a lor intr-o
structura
Uniforma
simpla
flexibila
pastrand in acelasi timp legatura cu sursele initiale de
date si, in consecinta, accesul la diferite nivele de
detaliu, pana la setul de tranzactii initiale (drill down)

Modelarea dimensionala
1. Fapte colectii de fapte
2. Dimensiuni (criterii de analiza, context)
Ierarhii
3. Masuri (variabile, indicatori)
4. Granularitate
5. Grad de imprastiere

Modelarea dimensional
Colecia de fapte un ansamblu de date
corelate constnd din variabile i date de
context.
Faptele modeleaz subiectul de analiz. O fapt
reprezint msura activitii determinat la intersecia
tuturor informaiilor referitoare la activitate.
O tranzacie a activitii sau un eveniment
Starea unui obiect
Modificrile strii unui obiect

Modelarea dimensional
Dimensiunile parametrii activitii, decupajul
din activitatea global care corespunde msurii
criteriile de agregare.
zi, lun, an, trimestru, sezon (interval de timp),locaie, zon
geografic,client, furnizor, produs sau grup (clas, categorie)
de clieni, furnizori, produse,angajat, structur organizatoric
Dimensiunea modeleaz o perspectiv de analiz; ea se
compune din parametrii corespunznd informaiilor care
fac s varieze msurile activitii.

Tot ca dimensiune se pot modela variante de msuri:


valori reale, valori bugetate, valori estimate. Aceast
dimensiune oarecum artificial se cheam scenariu

Modelarea dimensional
Caracteristici
Furnizeaz informaii descriptive despre fiecare
variabil (msur, indicator)
C onin n general date statistice. Atributele
dimensionale nu se schimb aa de des ca faptele
totui, pot apare modificri iar modelul dimensional
trebuie s permit modificarea pentru a asigura coerena
i corectitudinea datelor.
Sunt eseniale pentru analiz. Un model dimensional ce
ofer un numr mare de atribute dimensionale permite
analize ct mai complexe i ct mai variate

Modelarea dimensional
Dimensiunile sunt identificate n bazele de date
tranzacionale ca fiind cmpurile ce conin
caracteristicile unei tranzacii, datele de identificare a
tranzaciei respective, de obicei coduri-chei externe care
fac legtura cu nomenclatoarele ce le expliciteaz.

Dimensiunea se materializeaz prin setul de valori


posibile care alctuiesc domeniul caracteristicii
respective, valorile se numesc membrii
dimensiunii.

Modelarea dimensionala
Parametrii (atributele dimensionale)
Sunt de obicei campuri calitative, de tip text
In cazul in care un parametru este numeric,
acesta trebuie sa indeplineasca doua conditii:
Sa aiba valori discrete
Sa fie cvasiconstante

Reprezentarea grafic la nivel conceptual a unei


dimensiuni

Timp
IDTimp
Zi
Lun
Trimestru
Semestru
An

Este mai fin

Parametrii (atributele dimensionale)


1. De prezentare nu au valoare analitica
2. De agregare - stabilesc nivelele de agregare
la care se va efectua analiza
3. De cauzalitate se folosesc in realizarea de
modele (descriptive sau predictive) care sa
explice evolutia indicatorilor.

Modelarea dimensional
Dimensiunile pot avea multiplii - grupe de valori ale
dimensiunii respective cu o caracteristic comun.
IERARHII

structuri arborescente formate din dimensiuni i


multiplii acestora.
o grupare de parametrii de agregare care
urmeaza o directie de agregare
Membrii unei dimensiuni se pot aranja n una sau mai multe
ierarhii .
Ierarhia organizeaz parametrii unei dimensiuni dup o relaie
de tip este mai fin n conformitate cu nivelul lor de detaliu.

Ierarhia
Calendar

Ierarhia
Anotimp

Anul
Ierarhia
Sapte_zile
Semestrul
Sezonul

Trimestrul
Luna

Sptmna

Ziua

Data calendaristic

Ierarhii alternative ale dimensiunii TIMP

all

Ierarhia
Geografie

Zona
Ierarhia
Forma
Juridica

Ierarhia
Clasificare

Judet

Localitate

Categorie

Subctg

Statut

Client

Ierarhiile alternative ale dimensiunii CLIENT

CONTURI

Ierarhia plan contabil

Clasa de
conturi

Grupa
conturi

Cont

Ierarhia functionalitate conturi

Tip cont

Cont

Ierarhia Plan Contabil

ALL

Clasa 1

Clasa 2

(conturi de capitaluri)

(conturi de imobilizari)

Clasa 9

..

Grupa 20
(imobilizari
necorporale)

Cont 201

Cont 211

Grupa 29

..

(provizioane pentru
depreceierea imob)

Cont 212

..

Modelarea dimensional
Variabile (msuri)

- aspectul cantitativ, comensurabil n


uniti clasice de msur (kg.,buci, uniti monetare). O

variabil este un atribut numeric al unui element din


baza de fapte, un indicator sau o msur prin care se
poate analiza performana activitii modelate.
Exemple volumul vnzrilor (cantitativ/valoric), volumul
achiziiilor, costul transportului, volumul datoriilor, volumul
creanelor, profitul, volumul taxelor i impozitelor. datele
cantitative centralizate

Modelarea dimensional
Tabela de fapte
ocup locul central n cadrul unui model dimensional i
corespunde coleciei de fapte.
regrupeaz toi indicatorii referitori la un subiect de
analiz care partajeaz acelai ansamblu de dimensiuni
i care nu pot fi dedui din ali indicatori.

Reprezentarea grafic la nivel conceptual a unei


tabele de fapte

Tabela de
fapte

Vnzri
Cantitate
Valoare

Msuri ale activitii

Modelarea dimensional
Granularitatea FAPTELOR reprezint gradul de
detaliere a acestora - nivelul de detaliu necesar
analizelor, care exprim numrul de membri ai unei
dimensiuni.
Se recomand ca tabela de fapte s menin granularitatea cea mai
fin posibil.

determin dimensiunile principale ale modelului


determin volumul bazei de date

Granularitatea datelor n depozite


n Este un aspect important n proiectarea depozitelor de date, deoarece
determin volumul ocupat de date
n Granularitatea se refer la nivelul de detaliu (sau de rezumare) a unei
uniti de date din depozit:
n Cu ct nivelul de detaliu este mai mare, cu att granularitatea este mai mic
(mai fin) de ex. o simpl tranzacie este de granularitate mic
n Cu ct rezumarea este mai puternic, cu att granularitatea este mai mare;
de ex. suma tuturor tranzaciilor dintr-o lun

26

Niveluri de granularitate multiple


n Nivelul de granularitate fin (detaliere mare) se folosete n bazele de
date operaionale i ca date nerezumate (sau slab rezumate) n depozite
n Pe nivelul de granularitate ridicat (date puternic rezumate) se pot stoca
date pe perioade ndelungate i se folosesc pentru decizii de organizare

27

Modelarea dimensional
Gradul de imprastiere a datelor
ex: masura: vanzari
dimensiuni : client, produs, timp
Indicatorul volumul vanzarilor va avea valori valide numai
pentru o mica fractiune a produsului cartezian a
dimensiunilor ( daca vanzarile reale se inregistreaza doar
pentru 1% din combinatiile posibile clienti *produse*nr
zile gradul de imprastiere este de 9,99%)

Modelarea dimensional
Un model tridimensional se poate vizualiza/reprezenta cu
ajutorul unui cub.
Un model multidimensional are ns mai multe dimensiuni
un hypercub.

Perspectivele multidimensionale asupra


datelor sunt numite cuburi de date.

Modelarea dimensional
Modelul stea o reprezentare intuitiv a cubului de date
conine o tabel de fapte (coninutul cubului de
date)
un set de tabele dimensionale (dimensiunile
activitii).

Timp
IDTimp
Zi
Lun
Trimestru
Semestru
An

Produs
Vnzri
IDTimp
IDProdus
IDMagazin
Cantitate
Valoare

Magazin
IDMagazin
Denumire magazin
Localitate
Jude
Regiune
ara

IDProdus
Denumire prod.
Marc prod.
Subcategorie prod
Categorie prod
Raion

Modelarea dimensional
Modelul fulg de zpad
o variant a schemei stea, rezultatul descompunerii
uneia sau mai multor dimensiuni care au ierarhii
(integrarea unor subdimensiuni sau a unor dimensiuni
alternative).
dimensiunile sunt normalizate - apariia unui numr
mare de noi tabele poate compromite performanele de
navigare complicnd lucrurile n termeni de lizibilitate
i gestiune

Timp
IDTimp
Zi
Lun
Trimestru
Semestru
An

Produs
Vnzri
IDTimp
IDProdus
IDMagazin

IDProdus
Denumire prod.
Marc prod.
Subcategorie prod
Categorie prod
Raion

Cantitate
Valoare

Magazin

Adres

IDMagazin
Denumire magazin

IDLocalitate
Jude
Regiune
ara

Modelarea dimensional
Galaxia (constelaia)
o colecie de scheme stea care au atribute
dimensionale comune.
Fuzionarea mai multor modele stea i/sau fulg de nea
care utilizeaz dimensiuni comune.

Timp
IDTimp
Zi
Lun
Trimestru
Semestru
An

Produs
Vnzri prod.
IDTimp
IDProdus
IDMagazin
Cantitate
Valoare prod.

Magazin

Serviciu
IDServiciu
Denumire serv.
Subcategorie serv.
Categorie serv.

IDProdus
Denumire prod.
Marc prod.
Subcategorie prod
Categorie prod
Raion

Vnzri serv
IDTimp
IDServiciu
IDMagazin

Valoare serv.

IDMagazin
Denumire magazin
Localitate
Jude
Regiune
ara

Modelarea logic
Implementarea modelului dimensional n mediul
relaional:

fiecare fapt corespunde unei tabele, numit


tabele de fapte
fiecare dimensiune corespunde unei tabele,
numit tabel de dimensiuni.

Tabela de fapte
CARACTERISTICI:

Conine un numr foarte mare de tupluri


milioane- care reprezint produsul cartezian al
dimensiunilor
Dimensiunea ei crete dinamic, n funcie de
cantitatea de date ncrcate la fiecare ciclu de mprosptare a
bazei de date, precum i n funcie de cantitatea de date istorice
stocate n baza de date.

Tabela de fapte
Este tabela care reflect performana
activitii analizate. Conine toate msurile
importante.
Cheia primar a tabelei este o cheie compus
din cheile primare ale tabelelor dimensionale
Este normalizat i realizeaz o legtur
indirect ntre dimensiuni

Modelul stea
Tabela de fapte se leag de dimensiuni prin
join-uri de egalitate.
Fiecare atribut din cheia primar a tabelei de
fapte reprezint cheia primar a unei dimensiuni
Atributele care nu sunt chei pot fi agregate
(tabelele de fapte conin doar atribute numerice)
Tabelele sunt denormalizate

Vnzri (IDProdus, IDMagazin, IDTimp,


Cantitate, Valoare)
Timp (IDTimp, Zi , Lun, Trimestru,
Semestru, An)
Magazin (IDMagazin, DenMagazin,
Localitate, Jude Regiune, ar)
Produs (IDProdus, Denumire prod., Marc
prod., Subcategorie prod., Categorie prod.,
Raion)

Modelarea logic
Paradigma obiect

Fiecare tabel de fapt corespunde unei


clase, denumit clas de fapt;
fiecare dimensiune corespunde unei clase,
denumit clas de dimensiuni.

Etapele generale ale procesului de


proiectare a unui depozit de date
Delimitarea procesului economic ce va fi
modelat.
Stabilirea nivelului de granularitate.
Alegerea dimensiunilor - criterii de
agregare
Alegerea msurilor

Seciune din
modelul relaional al unei aplicaii
tranzacionale n domeniul bancar:
CLIENT

TRANZACII

Client_id
Nume
Prenume
Adresa
Tip client
Cont
Telefon
Data_deschidere

Tranz_nb
Data_tranz
Operaie
Client_id
Operator_id
Suma
Comision_id

COSTURI
TRANZACII
Comision_id
Denumire
Descriere
Cost
Data_modif

Tranzaciile clienilor sunt operaii de tipul pli, ncasri, depunere sau


ridicare de numerar din contul personal.
Costul fiecrei tranzacii este comisionul bancar, diferit pentru fiecare
operaie i modificabil n timp.
Tranzaciile sunt efectuate n mai multe filiale aflate n localiti diferite.

Modelare dimensional
msura activitii:
comisioanele asociate operaiilor
dimensiuni:
dat,
operaie,
filial,
client

Dimensiunea
TIMP

Dimensiunea
OPERAIE

Timp_id
Ziua
Luna
Trimestru
An

Operaie_id
Denumire

TRANZACII
Timp_id
Operaie_id
Filiala_id
Client_id
SumComision

Dimensiunea
CLIENT
Client_id
Nume
Tip_client

Dimensiunea
FILIALA
Filiala_id
Nume
Ora
Zona

Schema stea a unui depozit de date

Timp_id
Ziua
Luna
Trimestru
An

Operaie_id
Denumire

TRANZACII
CLIENT

Timp_id
Ziua
Sezon

Timp_id
Operaie_id
Filiala_id
Client_id
SumComision

Filiala_id
Nume
Ora

FILIALA
Client_id
Nume
Tip_client
Localitatea

Oras
Zona

Tip client
Ctg client
Subctg client

Schema fulg de nea a unui depozit de date


nomenclatoarele au subnomenclatoare sau nomenclatoare alternative

Dimensiunea
TIMP

Dimensiunea
OPERAIE

Timp_id
Ziua
Luna
Trimestru
An

Operaie_id
Denumire

TRANZACII
CLIENT
Timp_id
Operaie_id
Filiala_id
Client_id
SumComision

Dimensiunea
CLIENT
Client_id
Nume
Tip_client

PERSONAL

Dimensiunea
OPERATOR

Dimensiunea
FILIALA
Filiala_id
Nume
Ora
Zona

Timp_id
Filiala_id
Operator_id
Nr_tranzacii
Comision_mediu

Operator_id
Nume
Data_incadrare
Salariu

Schema constelaie a unui depozit de date

Aspecte particulare ale proiectrii


dimensionale
Aditivitatea faptelor
faptele sunt numerice i n general aditive i valorificate de o
manier continu (msurile sunt numerice i aditive pentru a
permite rezumarea unui numr mare de nregistrri n cteva
nregistrri).

Fapte semi-aditive : fapte care pot fi adiionate doar dup


anumite dimensiuni (stocuri, solduri de conturi, contorizarea unor
indicatori)

Fapte non-aditive : nu pot fi deloc adiionate (indicatori


calculai ca raport intre ali indicatori)

Vnzri

Produs

Timp
IDTimp
Zi
Lun
Trimestru
Semestru
An

IDTimp
IDProdus
TotalCantitate
TotalValoare
NrClienti
Marjabrut

IDProdus
Denumire prod.
Marc prod.
Subcategorie prod
Categorie prod
Raion

Marjabrut = Profitbrut / Costprodus


Marjabruta este non aditiv deoarece aceasta se
calculeaza ca ratie a sumelor si nu ca suma a raiilor.

Vnzri

Timp
IDTimp
Zi
Lun
Trimestru
Semestru
An

Produs
IDTimp
IDProdus
TotalCantitate
TotalValoare
NrClienti
Costprodus

IDProdus
Denumire prod.
Marc prod.
Subcategorie prod
Categorie prod
Raion

TotalCantitate, TotalValoare, NrClienti i Costprodus sunt


perfect aditive.
NrClieni este semi-aditiv.

Aspecte particulare ale proiectrii


dimensionale
Tabelele de fapte fr fapte - pentru reprezentarea
acelor procese ale activitii care dei nu prezint fapte
msurabile sunt interesante pentru procesul de analiz, deci
trebuie s fie cuprinse n depozitul de date

Tabelele de urmrire a evenimentelor au ca scop


contorizarea evenimentelor rezultate din prezena simultan a
mai multor dimensiuni n acelai loc i n acelai timp

Participare

Ora/
Timp
IDTimp

Student
IDStudent

Curs
IDTimp
IDCurs
IDProfesor
IDStudent

IDCurs

Profesor
IDProfesor

Aspecte particulare ale proiectrii


dimensionale
Tabelele de acoperire spre deosebire de cele de urmrire a
evenimentelor au ca scop de a pune n eviden ceea ce nu s-a
ntmplat mai degrab dect ceea ce s-a ntmplat. Tabelele
de acoperire in evidena tuturor instanierilor unor
dimensiuni care la un moment dat sunt supuse unor stri,
explicnd astfel componenta de acoperire din denumirea
lor
Un exemplu clasic este tabela de urmrire a produselor aflate
n promoie. Prin comparaie cu tabela aferent activitii de
vnzare se pot determina produsele aflate n promoie dar care
nu au fost vndute

Vnzri

Timp
IDTimp

IDTimp
IDProdus
IDPromo

Produs
IDProdus

TotalCantitate
TotalValoare
NrClienti
Costprodus
Dataultimachiz

Promoie
IDPromo

Produse
promo
IDTimp
IDProdus
IDPromo
existen

S-ar putea să vă placă și