Sunteți pe pagina 1din 44

Ciclul de via al depozitelor de date Masa de informaii care se va stoca n depozit trebuie organizat de aa manier nct s reflecte att

datele importante ct i contextul lor Cerine: Datele operaionale sunt integrate n depozit prin utilizarea de convenii consistente n privina numelor, msurtorilor, atributelor i semanticii. Depozitul de date se proiecteaz innd cont de cerinele exprese ale viitorilor utilizatori. Structura depozitului de date are n vedere identificarea precis a datelor stocate i accesul rapid la ele.

Realizarea depozitelor de date Modelarea dimensional ofer suportul necesar pentru proiectarea structurii depozitului de date. Structura se implementeaz sub forma unei baze de date care s asigure att stocarea unui volum imens de date ct i accesul rapid la ele (baze de date client-server). Urmtoarea etap este popularea cu date a depozitului - . Aceast etap va fi reluat periodic pentru a aduga datele noi. n final, depozitul este dat n exploatare curent explorare analiz raportare. activiti asistate de instrumente software de la simple browsere i generatoare de rapoarte la instrumente sofisticate de data mining.

Exploatarea curent va evidenia noi cerine informaionale pentru asistarea deciziei, cerine care vor conduce la extinderea structurii depozitului, popularea cu date istorice a extensiei integrarea noilor date n aplicaii de analiz.
Proiectare Populare Analiz

Procesul de dezvoltare a depozitelor de date este incremental i ciclic pe tot parcursul vieii.

Modelarea dimensional
Principiul : obiectivul major al unui sistem decizional este analiza performanelor organizaiei.
Indicatorii de performan vor fi analizai de-a lungul unor dimensiuni - axe de analiz .
Acest tip de modelare este independent de tehnologiile ce vor fi utilizate.

Modelarea dimensional
tehnic de proiectare logic ce permite structurarea variabilelor, fiind folosit pentru vizualizarea modelelor de date sub forma unui set de variabile cheie pentru activitatea analizat (variabile descrise n funcie de caracteristicile activitii respective) permite conceptualizarea i reprezentarea aspectelor cantitative, msurabile ale activitii n strns legtur cu contextul n care s-a desfurat activitatea respectiv.

Modelarea dimensional
Colecia de fapte un ansamblu de date corelate constnd din variabile i date de context.
Faptele modeleaz subiectul de analiz. O fapt reprezint msura activitii determinat la intersecia tuturor informaiilor referitoare la activitate.
O tranzacie a activitii sau un eveniment Starea unui obiect Modificrile strii unui obiect

Modelarea dimensional
Dimensiunile parametrii activitii, decupajul din activitatea global care corespunde msurii criteriile de agregare.
zi, lun, an, trimestru, sezon (interval de timp),locaie, zon geografic,client, furnizor, produs sau grup (clas, categorie) de clieni, furnizori, produse,angajat, structur organizatoric Dimensiunea modeleaz o perspectiv de analiz; ea se compune din parametrii corespunznd informaiilor care fac s varieze msurile activitii.

Tot ca dimensiune se pot modela variante de msuri: valori reale, valori bugetate, valori estimate. Aceast dimensiune oarecum artificial se cheam scenariu

Modelarea dimensional
Caracteristici Furnizeaz informaii descriptive despre fiecare variabil (msur, indicator) Conin n general date statistice. Atributele dimensionale nu se schimb aa de des ca faptele totui, pot apare modificri iar modelul dimensional trebuie s permit modificarea pentru a asigura coerena i corectitudinea datelor. Sunt eseniale pentru analiz. Un model dimensional ce ofer un numr mare de atribute dimensionale permite analize ct mai complexe i ct mai variate

Modelarea dimensional
Dimensiunile sunt identificate n bazele de date tranzacionale ca fiind cmpurile ce conin caracteristicile unei tranzacii, datele de identificare a tranzaciei respective, de obicei coduri-chei externe care fac legtura cu nomenclatoarele ce le expliciteaz.

Dimensiunea se materializeaz prin setul de valori posibile care alctuiesc domeniul caracteristicii respective, valorile se numesc membrii dimensiunii.

Reprezentarea grafic la nivel conceptual a unei dimensiuni

Timp

IDTimp Zi Lun Trimestru Semestru An

Este mai fin

Modelarea dimensional
Dimensiunile pot avea multiplii - grupe de valori ale dimensiunii respective cu o caracteristic comun. IERARHII - structuri arborescente formate din dimensiuni i multiplii acestora. Membrii unei dimensiuni se pot aranja n una sau mai multe ierarhii . Ierarhia organizeaz parametrii unei dimensiuni dup o relaie de tip este mai fin n conformitate cu nivelul lor de detaliu.

Ierarhia Anotimp

Ierarhia Calendar Anul Ierarhia Sapte_zile Semestrul Sptmna

Sezonul

Trimestrul Luna Data calendaristic

Ziua

Ierarhii alternative ale dimensiunii TIMP

all Zona Ierarhia Forma Juridica

Ierarhia Geografie

Judet

Ierarhia Clasificare

Localitate Statut

Categorie

Subctg

Client

Ierarhiile alternative ale dimensiunii CLIENT

Modelarea dimensional
Variabile (msuri) - aspectul cantitativ, comensurabil n uniti clasice de msur (kg.,buci, uniti monetare). O variabil este un atribut numeric al unui element din baza de fapte, un indicator sau o msur prin care se poate analiza performana activitii modelate.
Exemple volumul vnzrilor (cantitativ/valoric), volumul achiziiilor, costul transportului, volumul datoriilor, volumul creanelor, profitul, volumul taxelor i impozitelor. datele cantitative centralizate

Modelarea dimensional
Tabela de fapte
ocup locul central n cadrul unui model dimensional i corespunde coleciei de fapte. regrupeaz toi indicatorii referitori la un subiect de analiz care partajeaz acelai ansamblu de dimensiuni i care nu pot fi dedui din ali indicatori.

Reprezentarea grafic la nivel conceptual a unei tabele de fapte

Tabela de fapte

Vnzri
Cantitate Valoare

Msuri ale activitii

Modelarea dimensional
Granularitatea FAPTELOR reprezint gradul de
detaliere a acestora - nivelul de detaliu necesar analizelor, care exprim numrul de membri ai unei dimensiuni.
Se recomand ca tabela de fapte s menin granularitatea cea mai fin posibil.

determin dimensiunile principale ale modelului


determin volumul bazei de date

Modelarea dimensional
Gradul de imprastiere a datelor
ex: masura: vanzari dimensiuni : client, produs, timp Indicatorul volumul vanzarilor va avea valori valide numai pentru o mica fractiune a produsului cartezian a dimensiunilor ( daca vanzarile reale se inregistreaza doar pentru 1% din combinatiile posibile clienti *produse*nr zile gradul de imprastiere este de 9,99%)

Modelarea dimensional
Un model tridimensional se poate vizualiza/reprezenta cu ajutorul unui cub. Un model multidimensional are ns mai multe dimensiuni un hypercub.

Perspectivele multidimensionale asupra datelor sunt numite cuburi de date.

Modelarea dimensional
Modelul stea o reprezentare intuitiv a cubului de date

conine o tabel de fapte (coninutul cubului de date) un set de tabele dimensionale (dimensiunile activitii).

Timp
IDTimp Zi Lun Trimestru Semestru An

Produs Vnzri
Cantitate Valoare IDProdus Denumire prod. Marc prod. Subcategorie prod Categorie prod Raion

Magazin
IDMagazin Denumire magazin Localitate Jude Regiune ara

Modelarea dimensional
Modelul fulg de zpad o variant a schemei stea, rezultatul descompunerii uneia sau mai multor dimensiuni care au ierarhii (integrarea unor subdimensiuni sau a unor dimensiuni alternative).
dimensiunile sunt normalizate - apariia unui numr mare de noi tabele poate compromite performanele de navigare complicnd lucrurile n termeni de lizibilitate i gestiune

Timp
IDTimp Zi Lun Trimestru Semestru An

Produs

Vnzri
Cantitate Valoare

IDProdus Denumire prod. Marc prod. Subcategorie prod Categorie prod Raion

Magazin
IDMagazin Denumire magazin

Adres
IDLocalitate Jude Regiune ara

Modelarea dimensional
Galaxia (constelaia)
o colecie de scheme stea care au atribute dimensionale comune. Fuzionarea mai multor modele stea i/sau fulg de nea care utilizeaz dimensiuni comune.

Timp
IDTimp Zi Lun Trimestru Semestru An

Produs Vnzri prod.


Cantitate Valoare prod. IDProdus Denumire prod. Marc prod. Subcategorie prod Categorie prod Raion

Serviciu
IDServiciu Denumire serv. Subcategorie serv. Categorie serv.

Magazin Vnzri serv


Valoare serv. IDMagazin Denumire magazin Localitate Jude Regiune ara

Modelarea logic
Implementarea modelului dimensional n mediul relaional:

fiecare fapt corespunde unei tabele, numit tabele de fapte


fiecare dimensiune corespunde unei tabele, numit tabel de dimensiuni.

Tabela de fapte
CARACTERISTICI:

Conine un numr foarte mare de tupluri milioane- care reprezint produsul cartezian al dimensiunilor

Dimensiunea ei crete dinamic, n funcie de


cantitatea de date ncrcate la fiecare ciclu de mprosptare a bazei de date, precum i n funcie de cantitatea de date istorice stocate n baza de date.

Tabela de fapte
Este tabela care reflect performana activitii analizate. Conine toate msurile importante.
Cheia primar a tabelei este o cheie compus din cheile primare ale tabelelor dimensionale Este normalizat i realizeaz o legtur indirect ntre dimensiuni

Modelul stea
Tabela de fapte se leag de dimensiuni prin join-uri de egalitate.

Fiecare atribut din cheia primar a tabelei de fapte


reprezint cheia primar a unei dimensiuni Atributele care nu sunt chei pot fi agregate (tabelele de fapte conin doar atribute numerice) Tabelele sunt denormalizate

Vnzri (IDProdus, IDMagazin, IDTimp, Cantitate, Valoare) Timp (IDTimp, Zi , Lun, Trimestru, Semestru, An) Magazin (IDMagazin, DenMagazin, Localitate, Jude Regiune, ar) Produs (IDProdus, Denumire prod., Marc prod., Subcategorie prod., Categorie prod., Raion)

Modelarea logic
Paradigma obiect

Fiecare tabel de fapt corespunde unei clase, denumit clas de fapt; fiecare dimensiune corespunde unei clase, denumit clas de dimensiuni.

Etapele generale ale procesului de proiectare a unui depozit de date


Delimitarea procesului economic ce va fi modelat. Stabilirea nivelului de granularitate.

Alegerea dimensiunilor - criterii de agregare


Alegerea msurilor

Seciune din modelul relaional al unei aplicaii tranzacionale n domeniul bancar:


CLIENT Client_id Nume_client Tip_client Adresa Cont Telefon Data_deschidere TRANZACII Tranz_nb Data_tranz Operaie Client_id Operator_id Suma Comision_id COSTURI TRANZACII Comision_id Denumire Descriere Cost Data_modif

Tranzaciile clienilor sunt operaii de tipul pli, ncasri, depunere sau ridicare de numerar din contul personal. Costul fiecrei tranzacii este comisionul bancar, diferit pentru fiecare operaie i modificabil n timp. Tranzaciile sunt efectuate n mai multe filiale aflate n localiti diferite.

Modelare dimensional
msura activitii: comisioanele asociate operaiilor dimensiuni: dat, operaie, filial, client

Dimensiunea TIMP
Timp_id Ziua Luna Trimestru An

Dimensiunea OPERAIE
Operaie_id Denumire

TRANZACII
Timp_id Operaie_id Filiala_id Client_id SumComision

Dimensiunea FILIALA
Filiala_id Nume Ora Zona

Dimensiunea CLIENT
Client_id Nume Tip_client

Schema stea a unui depozit de date

Timp_id Ziua Luna Trimestru An

Operaie_id Denumire

TRANZACII CLIENT
Timp_id Operaie_id Filiala_id Client_id SumComision

Timp_id Ziua Sezon

FILIALA
Client_id Nume Tip_client Localitatea

Filiala_id Nume Ora

Oras Zona

Tip client Ctg client Subctg client

Schema fulg de nea a unui depozit de date


nomenclatoarele au subnomenclatoare sau nomenclatoare alternative

Dimensiunea TIMP
Timp_id Ziua Luna Trimestru An

Dimensiunea OPERAIE
Operaie_id Denumire

TRANZACII CLIENT
Timp_id Operaie_id Filiala_id Client_id SumComision

Dimensiunea FILIALA
Filiala_id Nume Ora Zona

Dimensiunea CLIENT
Client_id Nume Tip_client

PERSONAL
Timp_id Filiala_id Operator_id Nr_tranzacii Comision_mediu

Dimensiunea OPERATOR
Operator_id Nume Data_incadrare Salariu

Schema constelaie a unui depozit de date

Aspecte particulare ale proiectrii dimensionale


Aditivitatea faptelor
faptele sunt numerice i n general aditive i valorificate de o manier continu (msurile sunt numerice i aditive pentru a permite rezumarea unui numr mare de nregistrri n cteva nregistrri).

Fapte semi-aditive : fapte care pot fi adiionate doar dup


anumite dimensiuni (stocuri, solduri de conturi, contorizarea unor indicatori)

Fapte non-aditive : nu pot fi deloc adiionate (indicatori


calculai ca raport intre ali indicatori)

Vnzri

Timp
IDTimp Zi Lun Trimestru Semestru An
IDTimp IDProdus

Produs
IDProdus Denumire prod. Marc prod. Subcategorie prod Categorie prod Raion

TotalCantitate TotalValoare NrClienti Marjabrut

Marjabrut = Profitbrut / Costprodus Marjabruta este non aditiv deoarece aceasta se calculeaza ca ratie a sumelor si nu ca suma a raiilor.

Vnzri

Timp
IDTimp Zi Lun Trimestru Semestru An IDTimp IDProdus TotalCantitate TotalValoare NrClienti Costprodus

Produs
IDProdus Denumire prod. Marc prod. Subcategorie prod Categorie prod Raion

TotalCantitate, TotalValoare, NrClienti i Costprodus sunt perfect aditive. NrClieni este semi-aditiv.

Aspecte particulare ale proiectrii dimensionale


Tabelele de fapte fr fapte - pentru reprezentarea
acelor procese ale activitii care dei nu prezint fapte msurabile sunt interesante pentru procesul de analiz, deci trebuie s fie cuprinse n depozitul de date

Tabelele de urmrire a evenimentelor au ca scop


contorizarea evenimentelor rezultate din prezena simultan a mai multor dimensiuni n acelai loc i n acelai timp

Participare

Curs

Ora/Timp
IDTimp

IDTimp IDCurs IDProfesor IDStudent

IDCurs

Student
IDStudent

Profesor
IDProfesor

Aspecte particulare ale proiectrii dimensionale


Tabelele de acoperire spre deosebire de cele de urmrire a
evenimentelor au ca scop de a pune n eviden ceea ce nu s-a ntmplat mai degrab dect ceea ce s-a ntmplat. Tabelele de acoperire in evidena tuturor instanierilor unor dimensiuni care la un moment dat sunt supuse unor stri, explicnd astfel componenta de acoperire din denumirea lor

Un exemplu clasic este tabela de urmrire a produselor aflate n promoie. Prin comparaie cu tabela aferent activitii de vnzare se pot determina produsele aflate n promoie dar care nu au fost vndute

Vnzri

Timp
IDTimp

IDTimp IDProdus IDPromo TotalCantitate TotalValoare NrClienti Costprodus Dataultimachiz

Produs
IDProdus

Promoie
IDPromo

Produse promo
IDTimp IDProdus IDPromo existen