Sunteți pe pagina 1din 14

SISTEME PENTRU ASISTAREA DECIZIEI BAZATE PE SINTEZA I

ANALIZA DATELOR Data Warehouse (Depozite de date)


Transformarea datelor n informaii i a acestora n cunotine este un proces de
valorificare a datelor prin sintetizarea lor dup diverse criterii, urmat de analiza datelor astfel
centralizate pentru identificarea anumitor tipare i corelaii i, n final, interpretarea lor.
Sintetizarea datelor, centralizarea lor dup anumite criterii este un proces arhicunoscut i
utilizat n elaborarea situaiilor de sintez, a rapoartelor periodice create pentru informarea
managerilor i se constituie n suportul pe care acetia i fundamenteaz deciziile.
Soluiile clasice pe care informatica de gestiune le-a oferit acestui proces de sintetizare a
datelor sunt:
Programe dedicate care exploateaz flexibilitatea limbajelor procedurale n
gruparea dup anumite criterii i sintetizarea datelor;
Interogri care grupeaz datele dup criteriile cerute i aplic funcii pe domeniile
astfel create (clauza Group by din limbajul SQL i funciile Sum, Count, Avg, Min,
Max, Last, First, etc);
Mecanismul de totalizare i subtotalizare din generatoarele de rapoarte care permit
indicarea unor ierarhii de criterii de grupare.
n informatica modern, problema centralizrii datelor se pune n aceeai termeni dar
volumul imens de date ce trebuie explorate face ca tehnicile clasice s devin inaplicabile din
cauza timpului necesar pentru procesare. Tehnologiile moderne de centralizare a datelor precum
Data Warehousing (depozitarea datelor) i On-line Analytical Processing (OLAP procesare
analitic on-line) ncep s fie utilizate pe o scar din ce n ce mai mare, pe msur ce suporturile
software ce le includ ctig teren ca suport de baze de date pentru sistemele tranzacionale.
Tehnologiile de centralizare fac primul pas spre transformarea datelor n informaii:
sinteza. Al doilea pas este analiza datelor.
Analiza datelor ncearc s descopere relaii ntre datele sintetizate: tipare, asocieri,
corelaii pe plan structural, funcional i cauzal.
Cea mai simpl form de analiz a datelor este compararea datelor sintetizate cu date
similare. Compararea se face pstrnd toate criteriile identice, unul singur avnd valori diferite.
Spre exemplu, situaia vnzrilor pe anul acesta n regiunea de vest a rii se poate compara cu
vnzrile din anul trecut n aceeai zon sau cu vnzrile unei firme concurente din anul acesta
n aceeai zon sau cu vnzrile din anul acesta din zona de sud-est. Compararea vnzrilor din
anul acesta n zona de vest cu vnzrile de anul trecut n zona de nord-est nu este o comparaie
uzual, potenialul informativ al unei asemeni apropieri fiind destul de redus. Totui, asemenea
comparaii neobinuite ar putea aduce informaii surprinztoare dac se observ ceva interesant
i anume c vnzrile din anii precedeni n zonele de est sunt aproximativ de aceeai mrime cu
vnzrile din anul urmtor n zona de vest. Comparaiile se fac de obicei ntre seturi de date
compatibile.
Tehnologiile de comparaie includ o mare varietate de tehnici de observare care
semnalizeaz tipare, corelaii, asociaii prin evidenierea unor similitudini sau din contr,
sesizeaz abaterile, excepiile, situaiile anormale. Principala calitate a unui analist este abilitatea
de a observa aceste similitudini sau diferene n masa datelor pe care le analizeaz. Informatica
clasic a venit n sprijinul su cu tehnicile de prezentare grafic a datelor care transform
informaia cantitativ n informaie calitativ. Pe un grafic se pot observa vizual cu rapiditate

abaterile, excepiile, iar cu o anumit dexteritate se pot observa i anumite tipare, corelaii,
asociaii.
Progresiv, au aprut i s-au impus tehnici de observare analitic a datelor fundamentate pe
teorii matematice (theory-driven) care compar datele reale cu datele teoretice produse de un
model ipotetic. Dac si potrivesc, modelul se poate lua n considerare ca fiind o reprezentare
corect a procesului care a produs setul de date observate; dac nu, se schimb modelul ipotetic
i se reia procesul de comparaie pn la obinerea un model suficient de reprezentativ pentru
procesul respectiv (dac exist).
De multe ori ns, setul de modele teoretice nu este suficient, procesul observat neputnd fi
ncadrat n nici un model cunoscut. Ca urmare descoperirea de noi modele este un deziderat
permanent care a condus expansiunea tehnicilor de observare fr utilizarea unui model
preconceput, tehnici de observare automat, bazate pe date (data-driven). Rezultatul acestor
tehnici de observare automat se poate conserva ntr-un model cu caracter general, utilizabil ca
fundament teoretic n primul tip de tehnici de observare. Aceste tehnici de observare analitic a
datelor se regrupeaz ntr-o tehnologie modern, data mining.
n urma procesului de observare analitic se obin tipare, corelaii i chiar modele din care
se pot deduce tendine, se poate specifica cu o anumit probabilitate cum vor arta datele n
perioada urmtoare. Puterea descriptiv a modelului reprezentativ permite interpretarea datelor.
Interpretarea datelor este un proces cognitiv care conduce la o apreciere general a
situaiei, la identificarea unor probleme sau sesizarea unor oportuniti, la stabilirea potenialelor
cauze ale problemelor sau la de rezolvare a lor, etc. Interpretarea datelor este un proces n care
se face apel la cunotinele cu caracter general, fundamental i specific asociate domeniului
respectiv precum i la experiena existent. Interpretarea datelor produce cunotine noi care se
vor aduga la cele existente.
Instrumentele software clasice construite pentru asistarea deciziei au avut n vedere n
special asigurarea unor tehnici de analiz, optimizare i simulare precum i prezentarea grafic a
rezultatelor, aspectul calitativ al informaiei fiind astfel mai uor de sesizat de ctre utilizatorii
finali. Printre aceste instrumente software le amintim pe cele cuprinse n procesoare de tabele
(Lotus, Excel) orientate pe volume mici de date, cele cuprinse n instrumentarul sistemelor de
gestiune a bazelor de date (Access, Visual Fox) capabile s exploateze volume mari de date cu
structur uniform. Ca exemple de asemenea instrumente amintim tabelele pivot, interogrile de
tip cross-tab, grafice. Un impediment major al acestor instrumente clasice este faptul c
opereaz numai asupra unor date cu structur prestabilit, uniform, provenind numai dintr-o
singur surs. De asemenea, un alt impediment major este dependena de date explicite, stocate
special n bazele de date pentru a servi sistematizrii ulterioare a acestora. Un tratament
intermediar de pregtire a datelor pentru sintez face ca analiza s nu fie nici-o dat "pe viu".
Pentru depirea acestor impedimente, sistemele moderne de asistare a deciziei fac uz de tehnici
speciale pentru comasarea datelor stocate n structuri neuniforme, pentru utilizarea informaiilor
implicite, nespecificate n datele existente (societatea, localitatea, anul, etc), pentru completarea
datelor cu criterii de agregare, etc. De asemenea, suporturile software de asistare a deciziei
asigur o serie de faciliti utilizatorului final: interogare n limbaj natural, accesul la modelele
conceptuale, sisteme de gestiune a serviciilor OPLAP, noi limbaje de exploatare a bazelor de
date multidimensionale, servicii de prezentare a datelor (tabele pivot, grafice) precum i servicii
de integrare cu alte suporturi software (procesoare de tabele, baze de date).
Produsele software care includ suport pentru asistarea deciziei pe baza sintezei i analizei
datelor se numr: ORACLE, Sybase, Informix, Microsoft SQL Server, IBM DB2.

Depozite de date (Data warehouse)


De la arhive la depozite de date
Depozitele de date au aprut ca o necesitate n momentul n care companiile au realizat
imensul potenial informaional al datelor acumulate de-a lungul timpului n sistemele lor
informatice. Exploatarea inteligent a acestora urma s le asigure un important avantaj n faa
concurenei prin mrirea capacitii de acomodare la tendinele pieei, o mai bun satisfacere a
clienilor, diminuarea costurilor i creterea profitului. Integrarea datelor istorice ntr-o structur
unic care s se constituie n fundament pentru procesul de luare a deciziilor a devenit o
prioritate a noilor tehnologii informaionale.
Sistemele de asistare a deciziei bazate pe sinteza i analiza datelor realizeaz acest
deziderat prin comasarea, consolidarea, sistematizarea, corelarea i gruparea datelor existente n
vederea obinerii de informaii pertinente care s evidenieze factorii care afecteaz
performanelor ntreprinderii i ce anume ar putea fi fcut pentru ameliorarea lor. Rapoartele ce
prezint aceste informaii ntr-o form accesibil factorilor de decizie sunt rezultatul unor tehnici
speciale de exploatare a masivelor de date, capabile s descopere diverse corelaii ntre date, s
fac estimri i prognoze, s atrag atenia asupra unor puncte nevralgice, s sugereze eventuale
soluii, ntr-un cuvnt s contribuie decisiv la luarea celor bune decizii ntr-o situaie dat.
Structurile de date utilizate de sistemele informatice de asistare a deciziei bazate pe date
sunt numite depozite de date (data warehouse). Aceste structuri pot depozita volume mari de
date preluate din arhivele, precum i din bazele de date ale aplicaiilor informatice ce susin
activitatea curent a ntreprinderilor, volume de ordinul 1012 (terabytes). Exploatarea acestor
depozite de date este asigurat de motoare speciale ce permit interogarea masivelor mari de date
precum i de servicii speciale ce asigur analiza on-line a datelor (On Line Analytical Processing
-OLAP). n spatele acestor performane stau suporturi software care realizeaz transformarea
datelor, corelarea i completarea lor precum i crearea dicionarelor de date care vor asigura
accesul la structurile primare (stocarea modelelor conceptuale ale bazelor de date).
Depozitele de date sunt structuri create pentru stocarea unor volume mari de date
organizate pe domenii, ce constituie subiecte de interes decizional n activitatea ntreprinderii.
Datele sunt extrase din baze de date eterogene create de sistemele informatice aflate n funciune
n ntreprinderi pe diverse platforme hardware i software. Datele sunt introduse sub controlul
unor aplicaii i al sistemelor de gestiune a bazelor de date care, prin serviciile lor de integritate,
recuperare n caz de eroare i confidenialitate, asigur stocarea i manipularea n condiii de
maxim securitate a datelor referitoare la tranzaciile curente ale ntreprinderilor (un numr
foarte mare de mici operaii standardizate). Aceste date referitoare la tranzaciile primare sunt
prelucrate pentru a extrage informaii de sintez necesare pentru planificare i luarea deciziilor
cu instrumentele oferite de SG BD: interogri total i rapoarte. Acuratea informaiilor obinute
este dublat ns de un inconvenient major: timpul necesar pentru explorarea volumelor mari de
date, stocate conform principiului bazelor de date ntr-o singur locaie. Acest principiu care
asigur integritatea i coerena bazei de date face ca reuniunea tuturor datelor necesare unui
raport de sintez s conduc la explorarea unui mare numr de tabele interne, la crearea de
multiple legturi temporare i tabele virtuale, de unde cerinele de timp i de resurse de spaiu de
lucru sunt considerabile, de multe ori inacceptabile din punctu1 de vedere al utilizatorului final.
Un alt inconvenient este aglomerarea motorului bazei de date cu taskuri de centralizare cu efect
de ncetinire a tranzaciilor curente. Pentru managerii operativi, ale cror decizii sunt pe termen
scurt, aceste situaii bazate de obicei pe date recente sunt acceptabile dar pentru managementul
strategic, necesarul de date se poate extinde la explorarea arhivelor din anii precedeni sau la

nglobarea unor informaii despre pia. Stocarea informaiilor de sintez finale n tabele are
inconvenientul c aceste situaii sunt valabile doar la momentul executrii, nu pot fi actualizate
cu tranzaciile ulterioare dect prin reluarea ntregului proces. Totui, aceasta este ideea prin care
se poate ajunge la un compromis: stocarea datelor necesare pentru planificare i decizii
strategice ntr-un sistem diferit de sistemul operaional n aa fel nct exploatarea ambelor
sisteme s fie posibil fr inconveniente reciproce. n plus, n depozitul de date pot fi stocate
date arhivate provenind din activitatea din anii anteriori sau date despre concuren, date care
pot oferi baza de comparaie necesar n aprecierea tendinelor, n efectuarea de analize
complexe necesare n procesele de planificare i de luare a deciziilor majore. Depozitele de date
sunt alimentate periodic cu date referitoare la tranzaciile ulterioare, fr intervenia explicit a
utilizatorului final. De asemenea, date1e se pot stoca selectiv pe anumite activiti sau domenii
sau alte criterii n magazii de date (data marts), separarea lor fizic fiind util n creterea
performanelor exploatrii de ctre managerii anumitor compartimente din ntreprindere
interesai doar de datele referitoare la domeniul lor de activitate.
Depozitele de date sunt construite de regul cu tehnologii relaionale i au aprut ca
extensii ale sistemelor de baze de date relaionale cu arhitectur client server (Microsoft SQL
Server, Oracle ).
Depozite de date: coninut i caracteristici
Depozitele de date centralizeaz, consolideaz, organizeaz i stocheaz date din diverse
surse eterogene, date care vor fi baza procesrilor analitice necesare proceselor de decizie.
Depozitul de date se construiete ntr-o manier incremental, completri i dezvoltri ulterioare
fiind oricnd posibile. Datele stocate n depozite sufer un proces de curire i transformare
care asigur calitatea informaiei generate pe baza lor. De asemenea, n depozitele de date se pot
stoca i date noi, calculate pe baza celor existente, date cerute de regul n majoritatea
rapoartelor (sume, procente, medii) scurtndu-se astfel timpul cerut pentru obinerea lor. O
caracteristic principal a depozitelor de date este transformarea codurilor n date explicite,
integrarea datelor din nomenclatoare n datele despre tranzacii. Acest aspect de "denormalizare"
a tabelelor din bazele de date primare este permis deoarece integritatea datelor nu este
ameninat ntruct nu provin din exterior iar pe de alt parte, grbete procesul de regsire.
Un alt aspect este redundan datelor care este iari permis (data calendaristic se poate
exprima i n luni i n semestre i n sezoane). Cu alte cuvinte, datele care se pot calcula din
datele primare se stocheaz explicit n depozit pentru a fi gata calculate la o eventual solicitare.
Diferenele dintre un depozit de date i o baz de date utilizat ntr-o aplicaie informatic
de tip OLTP (on line transaction processing) sunt evideniate mai jos:
Datele stocate n sisteme OLTP sunt date operaionale, referitoare la un anumit
proces sau funcie a ntreprinderii, date de detaliu cu un anumit grad de volatilitate
(pot suferi actualizri) i prezentnd interes n primul rnd pentru cei ce le introduc.
Datele stocate n depozite sunt date pentru asistarea deciziei, referitoare la subiecte
de interes decizional, sunt date centralizate sau derivate din datele operaionale, nu
se schimb n timp i sunt orientate ctre utilizatorii finali - managerii de nivel
tactic i strategic. Putem spune c bazele de date utilizate de sistemele operaionale
sunt orientate spre tranzacii i reflect situaia curent, n timp ce depozitele de
date utilizate de sistemele de asistare a deciziei sunt orientate spre subiectele
analizelor i reflect situaii globale, cu caracter istoric.

Performanele cerute n cazul sistemelor tranzacionale se refer n special la


integritate, siguran, confidenialitate, trasabilitate i timp de rspuns, avnd n
vedere faptul c un numr foarte mare de utilizatori introduc date primare n
sistem. Concurena n utilizarea sistemelor de asistare a deciziei este foarte redus,
numrul de manageri - utilizatori finali fiind foarte mic. De asemenea, securitatea
i sigurana n exploatare nu sunt expuse unor riscuri majore, procedurile de salvare
i recuperare fiind mult mai relaxate fa de cazul sistemelor tranzacionale.
Procesarea datelor n sistemele tranzacionale se aplic unui set mic de date - de
regul introduse recent i stocate compact n cel mult cteva tabele - fiind n
consecin foarte rapid, n timp ce fundamentarea unei decizii necesit procesarea
unui volum foarte mare de date stocate dispersat, fiind n consecin foarte lent.
Bazele de date ale sistemelor tranzacionale sunt proiectate i realizate pe baza unor
cerine cunoscute n prealabil, adaptarea sistemului la cerine ulterioare necesit
reluri ale unor faze din ciclul de via i de regul, sistemul o dat dat n
exploatare funcioneaz fr modificri majore o lung perioad. Sistemele de
asistare a deciziei evolueaz n timp ntr-o manier incremental, cerinele nu sunt
cunoscute n totalitate n momentul proiectrii i realizrii sistemului. n
consecin, depozitul de date va trebui s se adapteze mereu cerinelor. Datele
stocate n sisteme tranzacionale sunt gestionate ca un ntreg, pe cnd cele stocate
n sistemele de asistare a deciziei pot fi gestionate i pe seciuni ntruct sunt
organizate distinct pe subiecte de analiz.
Sistemele tranzacionale urmresc fluxul datelor din activitatea curent, sunt
orientate spre procese, ca de exemplu, vnzri, achiziii, ncasri, pli, producie,
etc. Depozitele de date sunt organizate i gestionate avnd n vedere scopul final al
analizelor, sunt orientate spre subiecte, ca de exemplu clieni, furnizori, resurse,
produse, etc. Afacerea propriu-zis, procesele ntreprinderii care stau la baza
modelrii i proiectrii sistemelor informatice operaionale, nu influeneaz
designul depozitului de date, nu sunt reflectate n structura sau comportamentul
acestuia.
Prezentm mai jos un exemplu de migrare a datelor din bazele de date operaionale n
depozite de date:
Date operaionale stocate n tabele:
Factura_client:
Nr_fct
Operaie
12345677 vnzare

Data
12 aug 2007

Clieni:
Client_id Nume_client
112233
SC Neptun SA

Client_id
112233

Suma
1060 RON

Cod_fiscal
Adresa
R5546547865 Constana

Linii_factura_client:
Nr_fct
Produs
Cantitate
12345677 7709
100

Pre
16

Data_intrare
25 ian 2006

Produse:
Cod_produs Denumire Categorie
7709
Cafea
Aliment

Subcategorie
Bcnie

UM
Kg

Cost
12

Date de sintez referitoare la totalul tranzaciilor lunare ale fiecrui client stocate n
depozitul de date n vederea analizei clienilor:
Nume_client
SC Neptun SA
Localitatea
Constana
Data_intrare
25 ian 2006
Anul
2007
Luna
august
Nr tranzacii
18
Valoare medie 2079
Date de sintez referitoare la cantitatea comandat din fiecare produs stocate n depozitul
de date n vederea analizei produselor:
Denumire
Anul
Luna
Total cantitate
Unitate_msur
Cost marf
Pre mediu

cafea
2007
august
23000
kg
12
11

Din exemplu se observ c pentru a fi stocate n depozitele de date, datele se centralizeaz


pe mai multe nivele de agregare primare (aflate datele operaionale), primul fiind timpul (luna).
Al doilea nivel de agregare depinde de subiectul analizei: clientul sau produsul. Un alt treilea
nivel agregare poate fi localitatea. Pe baza unor asemenea date de sintez stocate n depozitul de
date, se poate construi o suprastructur cu date din ce n ce mai agregate pe multipli ai
dimensiunilor primare (timp, localitate): numrul sau suma tranzaciilor pe luni, numrul anual
al tranzaciilor pe orae, numrul anual al tranzaciilor pe zone, etc.
Ciclul de via al depozitelor de date
Din punctul de vedere al obiectivelor propuse, depozitul de date este destinat s furnizeze
informaii precise i la timp factorilor de decizie din cadrul organizaiei. Depozitul de date este o
colecie de date orientate pe subiecte, integrate, corelate n timp i non-volatile care se constituie
n suport pentru procesul de decizie.
Datele operaionale sunt integrate n depozit prin utilizarea de convenii consistente n
privina numelor, msurtorilor, atributelor i semanticii. Depozitul de date se proiecteaz innd
cont de cerinele exprese ale viitorilor utilizatori.
Structura depozitului de date are n vedere identificarea precis a datelor stocate i accesul
rapid la ele. Pentru realizarea acestor deziderate, masa de informaii care se va stoca n depozit
trebuie organizat de aa manier nct s reflecte att datele importante ct i contextul lor.
Modelarea dimensional ofer suportul necesar pentru proiectarea structurii depozitului de date.

Structura se implementeaz sub forma unei baze de date care s asigure att stocarea unui
volum imens de date ct i accesul rapid la ele (baze de date client-server).
Urmtoarea etap este popularea cu date a depozitului, date preluate din sistemele
tranzacionale care trebuie supuse unor procese de transformare pentru a se ncadra n structura
prefigurat a depozitului. Aceast etap va fi reluat periodic pentru a aduga datele noi.
n final, depozitul este dat n exploatare curent pentru explorare, analiz i raportare.
Aceste activiti sunt asistate de instrumente software, de la simple browsere i generatoare de
rapoarte la instrumente sofisticate de data mining. Exploatarea curent va evidenia noi cerine
informaionale pentru asistarea deciziei, cerine care vor conduce la extinderea structurii
depozitului, la popularea cu date istorice a extensiei, la integrarea noilor date n aplicaii de
analiz.
Proiectare

Populare

Analiz
Fig. l Ciclul de via al depozitelor de date

Procesul de dezvoltare a depozitelor de date este incremental i ciclic pe tot parcursul


existenei lui.
Modelarea conceptual a depozitelor de date
Modelele cele mai utilizate n faza de concepie a unui depozit de date sunt modelele
dimensionale care regrupeaz datele din tabelele relaionale n scheme de tip stea sau fulg de
zpad, n care se regsesc datele cantitative (cantiti, valori) din tabelele de tranzacii agregate
n principal pe unitatea de timp (ziua) i apoi dup alte criterii (pe client, pe produs, pe serviciu,
pe filial, pe tip de tranzacie, etc.). Astfel datele cantitative din bazele de date dimensionale vor
fi totaluri, medii, numr de tranzacii, date centralizate pe diverse criterii materializate de regul
prin coduri (cod_client, cod_produs, cod_serviciu, tip_tranzacie, cod_filial, etc.) i,
ntotdeauna, prin data calendaristic, primul criteriu de agregare. Aceste date cantitative
centralizate sunt msuri ale activitii iar criteriile de agregare sunt denumite dimensiuni.
Msurile identificate prin dimensiuni sunt stocate ntr-o tabel relaional denumit tabela de
fapte. Codurile criteriilor de agregare sunt explicitate n tabele de tip nomenclator asociate
tabelei de fapte, schema relaional cptnd forma de stea. Mai multe asemenea scheme de tip
stea care folosesc aceleai nomenclatoare formeaz un model de tip constelaie iar dac
dimensiunile se pot divide n subdimensiuni, atunci nomenclatoarele pot avea, la rndul lor,
asociate alte nomenclatoare. De asemenea, pot exista nomenclatoare alternative pentru acelai
cod. Prin integrarea acestor subdimensiuni i dimensiuni alternative, schema rezultat are forma
unui fulg de zpad.

Pentru exemplificare, considerm urmtoarea seciune din modelul relaional al unei


aplicaii tranzacionale n domeniul bancar:
CLIENT

TRANZACTII

Client id
Nume _
Prenume
Adresa
Cont
Telefon
Data deschidere

Tranz_nb
Data_tranz
Operaie
Client id
Operator id
Suma
Comision id

COSTURI
TRANZACTI I
Comision_id
Denumire
Descriere
Cost
Data_modif

Tranzaciile clienilor sunt operaii de tipul pli, ncasri, depunere sau ridicare de
numerar din contul personal. Costul fiecrei tranzacii este comisionul bancar, diferit pentru
fiecare operaie i modificabil n timp. Tranzaciile sunt efectuate n mai multe filiale aflate n
localiti diferite.
Pentru analiza veniturilor obinute din acest tip de operaii bancare, comisioanele asociate
operaiilor din tabela tranzacii (msura activitii) trebuie centralizate pe dat, operaie, filial,
client (dimensiuni). Nu toate datele sunt ns disponibile. De exemplu, filiala nu este o dat
explicit trecut n tabele, ea va trebui completat la transferul datelor.
Datele centralizate pot fi stocate ntr-o structur relaional de tip stea n care tabela de
fapte va conine suma comisioanelor pe zile, operaii, clieni i codurile acestora care formeaz o
cheie compus, fiecare cod fiind explicitat ntr-o tabel de tip nomenclator legat de tabela de
fapte prin acelai mecanism cheie extern = cheie primar.
Dimensiune
TIMP
Timp_id
Ziua
Luna
Trimestru
An

Dimensiune
CLIENT

Dimensiune
OPERAIE
TRANZACII

Operaie_id
Denumire

Timp_id
Operaie_id
Filiala_id
Client_id
SumComision
Dimensiune
FILIALA

Client_id
Nume
Tip_client

Filiala_id
Nume
Ora
Zona
Fig.2 Schema stea a unui depozit de date

Structura de mai sus permite agregri pe nivele superioare ale dimensiunilor iniiale prin
utilizarea datelor din nomenclatoare. Spre exemplu, se poate afla suma comisioanelor pe luni,
operaii, zone i tipuri de clieni dac se centralizeaz datele din tabela de fapte Tranzacii pe
criteriile amintite.
n acelai depozit se pot stoca fapte diferite care au anumite coordonate comune i care n
consecin partajeaz aceleai nomenclatoare. Schema depozitului de date va fi de tip stea
multipl sau constelaie.
Dimensiune
TIMP
Timp_id
Ziua
Luna
Trimestru
An

Dimensiune
CLIENT

Dimensiune
OPERAIE
TRANZACII

Operaie_id
Denumire

Timp_id
Operaie_id
Filiala_id
Client_id
SumComision
Dimensiune
FILIALA

Client_id
Nume
Tip_client
PERSONAL

Dimensiune
OPERATOR

Timp_id
Filiala_id
Operator_id
Nr_tranzacii
Comision mediu

Operator_id
Nume
Data_ncadrare
Salariu

Fig.3 Schema constelaie a unui depozit de date

Filiala_id
Nume
Ora
Zona

Dimensiunea comun tuturor faptelor este timpul pe baza cruia se pot asocia toate
tabelele de fapte, crendu-se astfel premisele necesare unor analize complexe care pot corela
fapte aparent fr legtur.
Dac nomenclatoarele au subnomenclatoare sau nomenclatoare alternative, schema stea
din fig. 2 devine:

Timp_id
Ziua
Luna
Trimestru
An

Operaie_id
Denumire

TRANZACII
CLIENI
Timp_id
Operaie_id
Filiala_id
Client_id
SumComision

Timp_id
Ziua
Sezon

Filiala_id
Nume
Ora
Zona

Ora
Zona

Client_id
Nume
Tip_client
Localitatea
Tip_client
Ctg client
Subctg client

Fig.4 Schema fulg de nea a unui depozit de date

Schemele de tip stea, fulg de nea sau constelaie sunt modele conceptuale
multidimensionale ale depozitelor de date. Ele au rolul de a organiza datele necesare procesului
de decizie pe subiecte ntr-o structur uor de conceput, accesibil utilizatorilor finali care vor
trebui s o extind n viitor n conformitate cu noile cerine. Schema este deschis, se poate
modifica pe tot parcursul vieii depozitului de date ntr-o manier incremental prin contrast cu
schema bazei de date care este fix pe tot parcursul vieii sistemului informatic care o utilizeaz,
eventuale modificri structurale conducnd la realizarea de noi versiuni ale aplicaiei.

Utilizarea depozitelor de date


Depozitele de date au fost gndite ca structuri unice, integrate i cumulative, destinate s
asiste informaional procesul de decizie de la diverse nivele ale ntreprinderii. Administratorul
depozitului de date are ca sarcin accesul partajat al diverselor categorii de manageri prin parole
i drepturi de acces.
Dat fiind faptul c depozitele de date sunt orientate spre necesitile utilizatorului final,
anumii factori de decizie pot selecta din depozit doar datele care le sunt utile pentru a le putea
procesa mai uor sau pentru a le transporta pe calculatoare personale. Astfel de colecii
specializate pe domenii, regiuni, ani sau alte criterii se numesc magazii de date (data marts).

Vnzri

DEPOZIT DE
DATE

Personal

Cheltuieli

Fig. 5 Depozit i magazii de date


Magaziile de date pot fi utilizate i n sens opus, drept structuri intermediare de colectare a
datelor din sursele primare, al cror coninut este replicat periodic n depozit. Conceptul de data
mart (magazie de date) poate fi complet transparent pentru utilizatorii sistemelor de asistare a
deciziei.
Un alt mod de abordare a depozitelor de date este stocarea exhaustiv a datelor din
sistemele tranzacionale n depozitul de date n vederea aplicrii unei alte tehnologii de
procesare asupra lor, data mining. Aceast tehnologie relativ nou ctig din ce n ce mai mult
teren prin capacitatea sa de a descoperi aspecte noi ale activitii desfurate, aspecte trecute n
mod normal cu vederea: corelaii ntre evenimente, asociaii ntre anumite fapte, secvene, tipare
de comportament - toate extrem de utile n procesele de luare a deciziei. Procesarea datelor prin
tehnologia data mining desfoar fr intervenia utilizatorului, n background, rezultatele fiind
stocate pentru consultare ulterioar la cerere.

Mediul de depozitare a datelor


Din punct de vedere structural, un mediu n care se poate construi, menine i exploata un
depozit de date este alctuit din urmtoarele componente:
Surse de date tranzacionale
Instrumente de proiectare-dezvoltare
Instrumente de extracie i transformare a datelor
Sistemul de gestiune al bazei de date
Instrumente de acces i analiz a datelor
Instrumente de administrare
Aceste componente sunt integrate pe platforma Microsoft n mediul de lucru Data
Warehousing Framework care a servit i la construcia SQL Server 7.0. Scopul acestui mediu
de lucru este asistarea activitilor de proiectare, implementare i administrare ale depozitelor de
date pe toat durata vieii acestora. Mediul de lucru Data Warehousing Framework ofer:
arhitectur deschis , uor de integrat cu produse provenind de pe alte platforme
servicii de import-export cu validarea, curirea i transformarea datelor
metadate integrate pentru proiectarea depozitului, serviciile de populare cu date,
sistemul de gestiune al serverului i instrumente ale utilizatorului final
managementul infrastructurii (gestiunea suportului, a taskurilor, a evenimentelor,
alertelor i notificrilor)
Pentru proiectarea unui depozit de date sunt necesare o serie de instrumente:
instrumente pentru descrierea logic i fizic a surselor de date precum i a
depozitului sau magaziei de date n care urmeaz s fie stocate;
instrumente pentru validarea, curirea i transformarea datelor cu care urmeaz s
se populeze depozitul;
instrumentele destinate utilizatorului final care permit accesul la informaia stocat
n depozit incluznd
o medii de dezvoltare de aplicaii
o produse specializate n analiza datelor
o aplicaii personale

Director informaii

Proiectare depozit de date

Surse
tranzac
ionale

Schema

Transformare
Curare
date

Transformare

Programare

DEPOZIT
de
DATE

Replicare

Publicare

Instrumente
utilizator
final

OLAP

DEPOZITUL DE METADATE

MANAGEMENTUL DEPOZITULUI DE DATE

DATE
METADATE

FIG.6 Structura mediului de depozitare a datelor


Data warehousing framework descrie relaiile dintre aceste componente n procesele de
construcie, utilizare i gestiune a depozitului de date. Infrastructura este asigurat prin dou
tehnologii: Depozitul de metadate integrate i OLE DB, nivelul de transport al datelor. Aceste
dou tehnologii fac posibil interoperabilitatea multiplelor componente ale unui depozit de date.