Sunteți pe pagina 1din 49

Proiectarea

structurii
depozitului de date
Modelarea dimensionala
Ciclul de via al depozitelor de date

Masa de informaii care se va stoca n depozit trebuie


organizat de aa manier nct s reflecte att datele
importante ct i contextul lor
Cerine:
Datele operaionale sunt integrate n depozit
prin utilizarea de convenii consistente n
privina numelor, msurtorilor, atributelor i
semanticii.

Depozitul de date se proiecteaz innd cont


de cerinele exprese ale viitorilor utilizatori.

Structura depozitului de date are n vedere


identificarea precis a datelor stocate i
accesul rapid la ele.
Realizarea depozitelor de date

Modelarea dimensional ofer suportul necesar pentru


proiectarea structurii depozitului de date.

Structura se implementeaz sub forma unei baze de date care


s asigure att stocarea unui volum imens de date ct i accesul
rapid la ele (baze de date client-server).

Urmtoarea etap este popularea cu date a depozitului - .


Aceast etap va fi reluat periodic pentru a aduga datele noi.

n final, depozitul este dat n exploatare curent


explorare
analiz
raportare.
activiti asistate de instrumente software de la simple browsere
i generatoare de rapoarte la instrumente sofisticate de data mining.
Exploatarea curent va evidenia noi cerine informaionale
pentru asistarea deciziei, cerine care vor conduce la
extinderea structurii depozitului,
popularea cu date istorice a extensiei
integrarea noilor date n aplicaii de analiz.

Proiectare

Populare Analiz

Procesul de dezvoltare a depozitelor de date este incremental i


ciclic pe tot parcursul vieii.
Modelarea dimensional
Principiul : obiectivul major al unui sistem
decizional este analiza performanelor
organizaiei.

Indicatorii de performan vor fi analizai de-a lungul


unor dimensiuni - axe de analiz .
Acest tip de modelare este independent de tehnologiile ce vor fi
utilizate.
Modelarea dimensional
t ehnic de proiectare logic ce permite
structurarea variabilelor, fiind folosit pentru
vizualizarea modelelor de date sub forma unui set de
variabile cheie pentru activitatea analizat (variabile
descrise n funcie de caracteristicile activitii
respective)

permite conceptualizarea i reprezentarea


aspectelor cantitative, msurabile ale activitii n
strns legtur cu contextul n care s-a desfurat
activitatea respectiv.
Sistemele tranzactionale
Aceste corelatii intre valorile inregistrate ale
activitatii si contextul in care s-a desfasurat aceasta
constituie temele multiplelor rapoarte de sinteza pe
care le produc sistemele tranzactionale.

Aceste rapoarte sunt insa predefinite si sintetizarea


lor in vederea efectuarii unor analize comparative a
mai multor parametrii se face de obicei off - line,
prin copierea rapoartelor in alte medii de lucru si
procesarea lor ad-hoc.
Modelarea dimensionala
Ofera un model conceptual comun tuturor acestor
rapoarte si posibilitatea de agregare a lor intr-o
structura
Uniforma
simpla
flexibila

pastrand in acelasi timp legatura cu sursele initiale de


date si, in consecinta, accesul la diferite nivele de
detaliu, pana la setul de tranzactii initiale (drill down)
Modelarea dimensionala
1. Fapte colectii de fapte

2. Dimensiuni (criterii de analiza, context)

Ierarhii

3. Masuri (variabile, indicatori)

4. Granularitate

5. Grad de imprastiere
Modelarea dimensional
Colecia de fapte un ansamblu de date
corelate constnd din variabile i date de
context.

Faptele modeleaz subiectul de analiz. O fapt


reprezint msura activitii determinat la intersecia
tuturor informaiilor referitoare la activitate.

O tranzacie a activitii sau un eveniment


Starea unui obiect
Modificrile strii unui obiect
Modelarea dimensional
Dimensiunile parametrii activitii, decupajul
din activitatea global care corespunde msurii
criteriile de agregare.
zi, lun, an, trimestru, sezon (interval de timp),locaie, zon
geografic,client, furnizor, produs sau grup (clas, categorie)
de clieni, furnizori, produse,angajat, structur organizatoric
Dimensiunea modeleaz o perspectiv de analiz; ea se
compune din parametrii corespunznd informaiilor care
fac s varieze msurile activitii.
Tot ca dimensiune se pot modela variante de msuri:
valori reale, valori bugetate, valori estimate. Aceast
dimensiune oarecum artificial se cheam scenariu
Modelarea dimensional
Caracteristici
Furnizeaz informaii descriptive despre fiecare
variabil (msur, indicator)
C onin n general date statistice. Atributele
dimensionale nu se schimb aa de des ca faptele
totui, pot apare modificri iar modelul dimensional
trebuie s permit modificarea pentru a asigura coerena
i corectitudinea datelor.
Sunt eseniale pentru analiz. Un model dimensional ce
ofer un numr mare de atribute dimensionale permite
analize ct mai complexe i ct mai variate
Modelarea dimensional
Dimensiunile sunt identificate n bazele de date
tranzacionale ca fiind cmpurile ce conin
caracteristicile unei tranzacii, datele de identificare a
tranzaciei respective, de obicei coduri-chei externe care
fac legtura cu nomenclatoarele ce le expliciteaz.

Dimensiunea se materializeaz prin setul de valori


posibile care alctuiesc domeniul caracteristicii
respective, valorile se numesc membrii
dimensiunii.
Modelarea dimensionala

Parametrii (atributele dimensionale)


Sunt de obicei campuri calitative, de tip text

In cazul in care un parametru este numeric,


acesta trebuie sa indeplineasca doua conditii:
Sa aiba valori discrete
Sa fie cvasiconstante
Reprezentarea grafic la nivel conceptual a unei
dimensiuni

Timp

IDTimp
Zi Este mai fin
Lun
Trimestru
Semestru
An
Parametrii (atributele dimensionale)
1. De prezentare nu au valoare analitica

2. De agregare - stabilesc nivelele de agregare


la care se va efectua analiza

3. De cauzalitate se folosesc in realizarea de


modele (descriptive sau predictive) care sa
explice evolutia indicatorilor.
Modelarea dimensional
Dimensiunile pot avea multiplii - grupe de valori ale
dimensiunii respective cu o caracteristic comun.

IERARHII
structuri arborescente formate din dimensiuni i
multiplii acestora.
o grupare de parametrii de agregare care
urmeaza o directie de agregare

Membrii unei dimensiuni se pot aranja n una sau mai multe


ierarhii .
Ierarhia organizeaz parametrii unei dimensiuni dup o relaie
de tip este mai fin n conformitate cu nivelul lor de detaliu.
Ierarhia
Ierarhia Calendar
Anotimp Anul
Ierarhia
Sapte_zile
Semestrul

Sezonul Sptmna
Trimestrul

Luna Ziua

Data calendaristic

Ierarhii alternative ale dimensiunii TIMP


all Ierarhia
Geografie
Zona
Ierarhia
Forma Ierarhia
Juridica Judet Clasificare

Localitate Categorie

Statut Subctg

Client

Ierarhiile alternative ale dimensiunii CLIENT


CONTURI
Ierarhia plan contabil

Clasa de Grupa Cont


conturi conturi

Ierarhia functionalitate conturi

Tip cont Cont


Ierarhia Plan Contabil ALL

Clasa 1 Clasa 2 Clasa 9


(conturi de capitaluri) (conturi de imobilizari) ..

Grupa 20 Grupa 29
(imobilizari .. (provizioane pentru
necorporale) depreceierea imob)

Cont 201 Cont 211 Cont 212 ..


Modelarea dimensional
Variabile (msuri) - aspectul cantitativ, comensurabil n
uniti clasice de msur (kg.,buci, uniti monetare). O
variabil este un atribut numeric al unui element din
baza de fapte, un indicator sau o msur prin care se
poate analiza performana activitii modelate.

Exemple volumul vnzrilor (cantitativ/valoric), volumul


achiziiilor, costul transportului, volumul datoriilor, volumul
creanelor, profitul, volumul taxelor i impozitelor. datele
cantitative centralizate
Modelarea dimensional
Tabela de fapte

ocup locul central n cadrul unui model dimensional i


corespunde coleciei de fapte.

regrupeaz toi indicatorii referitori la un subiect de


analiz care partajeaz acelai ansamblu de dimensiuni
i care nu pot fi dedui din ali indicatori.
Reprezentarea grafic la nivel conceptual a unei
tabele de fapte

Tabela de
fapte
Vnzri
Cantitate Msuri ale activitii
Valoare
Modelarea dimensional

Granularitatea FAPTELOR reprezint gradul de


detaliere a acestora - nivelul de detaliu necesar
analizelor, care exprim numrul de membri ai unei
dimensiuni.
Se recomand ca tabela de fapte s menin granularitatea cea mai
fin posibil.

determin dimensiunile principale ale modelului


determin volumul bazei de date
Granularitatea datelor n depozite
n Este un aspect important n proiectarea depozitelor de date, deoarece
determin volumul ocupat de date
n Granularitatea se refer la nivelul de detaliu (sau de rezumare) a unei
uniti de date din depozit:
n Cu ct nivelul de detaliu este mai mare, cu att granularitatea este mai mic
(mai fin) de ex. o simpl tranzacie este de granularitate mic
n Cu ct rezumarea este mai puternic, cu att granularitatea este mai mare;
de ex. suma tuturor tranzaciilor dintr-o lun

26
Niveluri de granularitate multiple
n Nivelul de granularitate fin (detaliere mare) se folosete n bazele de
date operaionale i ca date nerezumate (sau slab rezumate) n depozite
n Pe nivelul de granularitate ridicat (date puternic rezumate) se pot stoca
date pe perioade ndelungate i se folosesc pentru decizii de organizare

27
Modelarea dimensional
Gradul de imprastiere a datelor

ex: masura: vanzari


dimensiuni : client, produs, timp

Indicatorul volumul vanzarilor va avea valori valide numai


pentru o mica fractiune a produsului cartezian a
dimensiunilor ( daca vanzarile reale se inregistreaza doar
pentru 1% din combinatiile posibile clienti *produse*nr
zile gradul de imprastiere este de 9,99%)
Modelarea dimensional

Un model tridimensional se poate vizualiza/reprezenta cu


ajutorul unui cub.
Un model multidimensional are ns mai multe dimensiuni
un hypercub.

Perspectivele multidimensionale asupra


datelor sunt numite cuburi de date.
Modelarea dimensional

Modelul stea o reprezentare intuitiv a cubului de date

conine o tabel de fapte (coninutul cubului de


date)

un set de tabele dimensionale (dimensiunile


activitii).
Timp Produs
IDTimp
Vnzri IDProdus
Zi IDTimp Denumire prod.
Lun Marc prod.
Trimestru IDProdus Subcategorie prod
Semestru IDMagazin Categorie prod
An Cantitate Raion
Valoare

Magazin
IDMagazin
Denumire magazin
Localitate
Jude
Regiune
ara
Modelarea dimensional
Modelul fulg de zpad
o variant a schemei stea, rezultatul descompunerii
uneia sau mai multor dimensiuni care au ierarhii
(integrarea unor subdimensiuni sau a unor dimensiuni
alternative).

dimensiunile sunt normalizate - apariia unui numr


mare de noi tabele poate compromite performanele de
navigare complicnd lucrurile n termeni de lizibilitate
i gestiune
Timp Produs
IDTimp Vnzri IDProdus
Zi Denumire prod.
Lun IDTimp Marc prod.
Trimestru Subcategorie prod
IDProdus
Semestru Categorie prod
An IDMagazin Raion
Cantitate
Valoare

Magazin Adres
IDMagazin IDLocalitate
Denumire magazin Jude
Regiune
ara
Modelarea dimensional
Galaxia (constelaia)

o colecie de scheme stea care au atribute


dimensionale comune.

Fuzionarea mai multor modele stea i/sau fulg de nea


care utilizeaz dimensiuni comune.
Timp Produs
IDTimp Vnzri prod. IDProdus
Zi Denumire prod.
IDTimp
Lun Marc prod.
Trimestru IDProdus Subcategorie prod
Semestru IDMagazin Categorie prod
An Raion
Cantitate
Valoare prod.

Serviciu Magazin
IDServiciu
Vnzri serv IDMagazin
Denumire serv. IDTimp Denumire magazin
Subcategorie serv. Localitate
IDServiciu
Categorie serv. Jude
IDMagazin Regiune
Valoare serv. ara
Modelarea logic
Implementarea modelului dimensional n mediul
relaional:

fiecare fapt corespunde unei tabele, numit


tabele de fapte
fiecare dimensiune corespunde unei tabele,
numit tabel de dimensiuni.
Tabela de fapte
CARACTERISTICI:

Conine un numr foarte mare de tupluri


milioane- care reprezint produsul cartezian al
dimensiunilor

Dimensiunea ei crete dinamic, n funcie de


cantitatea de date ncrcate la fiecare ciclu de mprosptare a
bazei de date, precum i n funcie de cantitatea de date istorice
stocate n baza de date.
Tabela de fapte
Este tabela care reflect performana
activitii analizate. Conine toate msurile
importante.

Cheia primar a tabelei este o cheie compus


din cheile primare ale tabelelor dimensionale

Este normalizat i realizeaz o legtur


indirect ntre dimensiuni
Modelul stea

Tabela de fapte se leag de dimensiuni prin


join-uri de egalitate.
Fiecare atribut din cheia primar a tabelei de
fapte reprezint cheia primar a unei dimensiuni
Atributele care nu sunt chei pot fi agregate
(tabelele de fapte conin doar atribute numerice)
Tabelele sunt denormalizate
Vnzri (IDProdus, IDMagazin, IDTimp,
Cantitate, Valoare)
Timp (IDTimp, Zi , Lun, Trimestru,
Semestru, An)
Magazin (IDMagazin, DenMagazin,
Localitate, Jude Regiune, ar)
Produs (IDProdus, Denumire prod., Marc
prod., Subcategorie prod., Categorie prod.,
Raion)
Modelarea logic
Paradigma obiect

Fiecare tabel de fapt corespunde unei


clase, denumit clas de fapt;

fiecare dimensiune corespunde unei clase,


denumit clas de dimensiuni.
Etapele generale ale procesului de
proiectare a unui depozit de date
Delimitarea procesului economic ce va fi
modelat.
Stabilirea nivelului de granularitate.
Alegerea dimensiunilor - criterii de
agregare
Alegerea msurilor
Aspecte particulare ale proiectrii
dimensionale
Aditivitatea faptelor
faptele sunt numerice i n general aditive i valorificate de o
manier continu (msurile sunt numerice i aditive pentru a
permite rezumarea unui numr mare de nregistrri n cteva
nregistrri).

Fapte semi-aditive : fapte care pot fi adiionate doar dup


anumite dimensiuni (stocuri, solduri de conturi, contorizarea unor
indicatori)

Fapte non-aditive : nu pot fi deloc adiionate (indicatori


calculai ca raport intre ali indicatori)
Vnzri

Timp Produs
IDTimp
IDTimp IDProdus
IDProdus
Zi Denumire prod.
TotalCantitate Marc prod.
Lun TotalValoare Subcategorie prod
Trimestru NrClienti Categorie prod
Semestru Marjabrut Raion
An

Marjabrut = Profitbrut / Costprodus


Marjabruta este non aditiv deoarece aceasta se
calculeaza ca ratie a sumelor si nu ca suma a raiilor.
Vnzri

Timp Produs
IDTimp
IDTimp IDProdus IDProdus
Zi TotalCantitate Denumire prod.
Lun TotalValoare Marc prod.
Trimestru NrClienti Subcategorie prod
Semestru Costprodus Categorie prod
An Raion

TotalCantitate, TotalValoare, NrClienti i Costprodus sunt


perfect aditive.
NrClieni este semi-aditiv.
Aspecte particulare ale proiectrii
dimensionale
Tabelele de fapte fr fapte - pentru reprezentarea
acelor procese ale activitii care dei nu prezint fapte
msurabile sunt interesante pentru procesul de analiz, deci
trebuie s fie cuprinse n depozitul de date

Tabelele de urmrire a evenimentelor au ca scop


contorizarea evenimentelor rezultate din prezena simultan a
mai multor dimensiuni n acelai loc i n acelai timp
Participare

Ora/ Curs
Timp IDTimp
IDCurs
IDTimp IDCurs
IDProfesor
IDStudent

Student Profesor

IDProfesor
IDStudent
Aspecte particulare ale proiectrii
dimensionale
Tabelele de acoperire spre deosebire de cele de urmrire a
evenimentelor au ca scop de a pune n eviden ceea ce nu s-a
ntmplat mai degrab dect ceea ce s-a ntmplat. Tabelele
de acoperire in evidena tuturor instanierilor unor
dimensiuni care la un moment dat sunt supuse unor stri,
explicnd astfel componenta de acoperire din denumirea
lor
Un exemplu clasic este tabela de urmrire a produselor aflate
n promoie. Prin comparaie cu tabela aferent activitii de
vnzare se pot determina produsele aflate n promoie dar care
nu au fost vndute
Vnzri
Timp IDTimp Produs
IDProdus
IDTimp IDPromo IDProdus
TotalCantitate
TotalValoare
NrClienti
Costprodus
Dataultimachiz

Promoie
IDPromo
Produse
promo
IDTimp
IDProdus
IDPromo
existen

S-ar putea să vă placă și