Sunteți pe pagina 1din 30

TEHNOLOGIA OLAP (ON-LINE ANALYTICAL PROCESSING)

CUPRINS:
1. CERINELE FUNCIONALE ALE SISTEMELOR OLAP.......................................4
2. ARHITECTURA SISTEMELOR OLAP......................................................................9
3. MODELUL DE DATE MULTIDIMENSIONAL......................................................13
4. OPERAII REALIZATE ASUPRA MODELULUI MULTIDIMENSIONAL............22
5. MODELE DE DATE MULTIDIMENSIONALE UTILIZATE N SISTEMELE OLAP
.....................................................................................................................................25
6. LOCUL TEHNOLOGIEI OLAP N ARHITECTURA DEPOZITULUI DE DATE. 27

Conceptul de On-line Analytical Processing a aprut ncepnd cu anii 60-70


din dorina de a modela prin funcii analitice activitile financiare. Primul limbaj
multidimensional, A Programming Language (APL) a fost dezvoltat de firma IBM i
utilizat pe mainframe-uri nc din 1962, multe din conceptele acestuia fiind i astzi
implementate n unele limbaje, cum ar fi Adaytum Planning i Lex 2000.
n 1993, E.F.Codd observ diferena de procesare dintre modelele relaionale
i cele multidimensionale i introduce termenul de OLAP fundamentat pe 12 reguli,
pe care sistemele de analiz multidimensional ar trebui s le respecte. ntr-un articol
n revista Computerworld, Codd menioneaz faptul c: orict de puternice ar fi
pentru utilizatori sistemele relaionale, acestea nu au fost proiectate pentru a asigura
funcii puternice de sintez, analiz iconsolidare a datelor, funcii cunoscute colectiv
sub denumirea de analiz multidimenionl a datelor.
n 1995 se nfiineaz Consiliul OLAP, un consoriul al firmelor dezvoltatoare
de produse OLAP,cu rolul de a standariza aceste tehnologii prin stabilirea unor
standarde deschise (OLAP API). Consiliul OLAP a publicat urmtoarea definitie
[OLAP95]:
On-Line Analytical Processing este o tehnologie software ce permite
analitilor, managerilor i persoanelor cu funcie de conducere s analizeze datele
printr-un acces rapid, consistent i interactiv i s le vizualizeze ntr-un mod ct
mai variat.
Tehnologia OLAP este caracterizat de o dinamic analiz multidimendional
n sprijinul utilizatorului final printr-o serie de activiti:

Aplicarea de formule i modele asupra dimensiunilor i ierarhiilor;

Previziuni pe perioade diferite de timp;

Analiza n adncime (drill-down);

Extragerea unui subset de date pentru vizualizare;

Rotaii n cadrul dimensiunilor;


Din punctul meu vedere, tehnologia OLAP reprezint o modalitate de

prelucrare i analiz dinamic i avansat a datelor, oferind decidenilor posibilitatea


de a obine propria perspectiv asupra datelor, de creare flexibil i obinere direct a
situaiilor centralizate i sintetice, dar i cu posibilitatea de navigare n detaliu, cu

faciliti de previzionare i simulare a unor situaii viitoare, fiind o soluie eficient de


analiz a datelor din depozitele de date.
Sistemele OLAP ajut utilizatorul s sintetizeze informaiile organizaiei
printr-o vizualizare comparativ i personalizat ca i printr-o analiz a datelor
istorice folosind scenarii de tipul ce se ntmpl dac? (what-if?). Acestea se
obin cu ajutorul serverului de OLAP special conceput pentru manipularea
structurilor de date multidimensionale.

Arhitectura serverului i structura datelor

sunt optimizate pentru regsiri rapide, analize ad-hoc, calcule flexibile i transformri
ale datelor.
Spre deosebire de sistemul operaional care funcioneaz pe baza unor
proceduri prestabilite (exist o gam relativ limitat de tranzacii operate de o
organizaie) un sistem de analiz on-line (OLAP) ofer suport pentru o varietate de
cerine care nu pot fi prevzute dect ntr-o mic msur.
Sistemele OLAP ajut managerii n urma analizei datelor s-i fundamenteze
deciziile astfel nct s-i comercializeze mai bine produsele, s-i planifice producia
ntr-un mod mai eficient, s controleze costurile, s descopere evoluiile viitoare ale
unor factori. OLAP poate fi utilizat n orice domeniu al afacerilor: analiza vanzrilor
i studii de pia, evoluii ale indicatorilor financiari ai ntreprinderii, ca suport de
decizii: previziuni ale veniturilor i cheltuielilor. Se poate studia volumul vnzrilor
n funcie de produse, arii geografice i timp, etc.

1. CERINELE FUNCIONALE ALE SISTEMELOR OLAP


Datorit particularitilor cerinelor de raportare ale managerilor, sistemele
OLAP trebuie s prezinte urmtoarele caracteristici:

Analiza dinamic a datelor - Aceasta cere existena diferitelor instrumente de


analiz i implic dimensiuni multiple concentrndu-se asupra manipulrii
modelelor de date ale ntreprinderii. Analiza dinamic a datelor ofer o
inelegere mai bun asupra schimbrilor intervenite n cadrul afacerilor
ntreprinderii i pot fi utilizate pentru identificarea soluiilor, pentru
planificarea tactic i strategic la nivelul ntreprinderii.

Acces rapid la date - Aplicaiile OLAP necesit un volum mare de date care
trebuie s fie acesate foarte rapid, ceea ce presupune de obicei ca acestea s fie
stocate n structuri separate, optimizate care pot fi accesate far s afecteze
rspunsul din sistem.

Surse de date multiple - Majoritatea aplicaiilor OLAP cer surse de date din
sisteme multiple, incluznd surse externe i aplicaii realizate n medii de
programare diferite. Procesul fuzionrii acestor surse multiple poate fi foarte
complex datorit sistemelor de codificare diferite i calitii diferite a datelor.

Sincronizarea surselor de date - Dac datele dintr-o aplicaie OLAP provin din
mai multe baze de date, este foarte probabil ca acestea s fie modificate la
cicluri diferite. Ca analiza s fie bazat pe date consistente, datele trebuie
ncrcate mpreun n depozitele de date.

Analiza istoric - Majoritatea aplicaiilor OLAP includ timpul ca o


dimensiune, i multe rezultate utile sunt obinute din analize de serii de timp.
Dar pentru ca acest lucru s fie util ar fi necesar ca datele s fie stocate ntr-un
depozit sau data mart pe o perioad de cel puin 2-3 ani. Aceasta presupune un
effort de localizare a datelor istorice i n general, trebuie ajustate datorit
modificrilor din organizaie i a structurilor ierarhice.

Grad de generalizare ridicat Cerinele de analiz ale managerilor impun ca


informaiile s fie grupate, agregate i reprezentate ct mai sintetic. Pentru a
crete eficiena i a reduce timpul de rspuns, de obicei este util s stocm
datele fuzionate i ajustate la un nivel superior de agregare, dnd ns
posibilitatea managerilor s poat vedea la cerere i nivelele de detaliu.

n lucrarea [THOM02] Erik Thomsen structureaz cerinele funcionale ale


sistemelor OLAP n dou mari categorii i anume cerine logice i cerine fizice.
Cerinele logice se refer la modalitile de prelucrare a datelor din
dimensiuni, la structurarea datelor i flexibilitatea sistemelor, astfel sunt identificate
urmtoarele cerine:

Structurare complet a dimensiunilor prin ierarhizare se refer la


capacitatea unui sistem OLAP de a modela dimensiunile existente n mediul
organizaional pe diferite niveluri n funcie de anumite ierarhii, pornind de la
nivelul cel mai detaliat pn la un nivel superior, generalizat i abstarctizat.

Realizarea eficient a calculelor i prelucrarilor sistemul OLAP trebuie s


implementeze funcionaliti
previzionare a

complexe de analiz, de comparare i

datelor, pe lang abilitile de agregare i segmentare a

acestora.

Flexibilitate modul de prezentare a datelor rezultate n urma prelucrrilor


trebuie s in cont de utilizator. Interfaa poate fi grafic, tabelar, complex
in funcie de cerine. Flexibilitatea se refer i la posibilitile de modificare a
modelului de ctre utilizator fr a fi necesar re-proiectarea ntregului sistem.

Independena reprezentrilor fa de structura modelului referitor la aceast


cerin, un sistem OLAP trebuie s ofere posibilitatea modificrii reprezentrii
fr a afecta structura datelor.
Cerinele fizice ale sistemelor OLAP sunt referitoare la accesul i timpul de

rspuns al sistemului i la suportul multiutilizator al acesuia:

Acces rapid i direct principalul obiectiv al sistemelor OLAP este de a


realiza analize ad-hoc pe un volum mare de date. Accesul la aceste analize
artrebui s se realizeze direct de ctre utilizatorii finali, fr intervenii
suplimentare, ntr-un timp ct mai scurt.

Suport multiutilizator datorit volumului de date i a faptului c acestea sunt


centralizate i prelucrate dintr-un depozit de date, iar asupra depozitului au
acces diveri utilizatori, sistemul OLAP trebuie s permit accesul
concurenial i distribuit la prelucrrile analitice.
O alt abordare a cerinelor sistemelor OLAP este realizat chiar de printele

conceptului, E.F. Codd n 1993 prin intermediul unui set de 12 reguli. Mai trziu, n

1995, setul a fost extins la 18 reguli ce surprind caracteristicile sistemelor OLAP. Voi
prezenta mai jos acest set de reguli, dup cum urmeaz:
A. Caracteristici de baz
Regula 1: O viziune conceptual multidimensional
Viziunea conceptual a modelelor OLAP trebuie s fie multidimensional
bazat pe viziunea sau modelul existent n organizaie.
Regula 2: Manipularea intuitiv a datelor
Sistemele OLAP trebuie s permit operaii intuitive i flexibile de manipulare
a datelor, cum ar fi navigarea penivelurile ierarhiilor (operaii de drill down, drill up,
drill across), analize pe seciuni din date, etc.
Regula 3: Accesibilitate
Sistemele OLAP trebuie s ofere acces la o singur viziune logic a datelor din
organizaie. Sursele de date, n modelul OLAP, trebuie s fie transparente
utilizatorilor.
Regula 4: Surse de date variate
Un sistem OLAP trebuie s fie capabil s lucreze cu date stocate fie n baze de
date multidimensionale (MOLAP) ct i n baze de date relaionale (ROLAP) sau
chiar sisteme hibride (HOLAP).
Regula 5: Modele de analiz OLAP
Sistemele OLAP trebuie s suporte patru modele de analiz: explicativ, direct,
contemplativ i formativ n sensul c un trebuie s permit cel puin realizarea
rapoartelor parametrizate, analize de tip ce se ntmpl dac..?, operaii de tip drilldown/roll-up i slice/dice.
Regula 6: Arhitectura client/server
Orice sistem OLAP ar trebui s fie bazat pe o arhitectur client/server, oferind
accesul utilizatorilor prin intermediul unui client, iar prelucrarea multidimensional s
fie realizat de un server specializat.
Regula 7: Transparen
Accesul la sursele de date eterogene ar trebui s fie transparente pentru
utilizatori, iar analiza datelor s poat fi realizat i prin intermediul diverselor
instrumente client ca: grafice, calcul tabelar, procesoare de text, etc.
Regula 8: Suport multiutilizator
Sistemele OLAP trebuie s asigure acces concurent i distribuit la sursele de
date, fiind asigurate ns integritatea i securitatea acestora.
6

B.Caracteristici speciale
Regula 9: Denormalizarea datelor
Prelucrarea datelor ntr-un mediu OLAP nu trebuie s afecteze sursele externe
din care provin acestea. Procesarea coleciilor mari de date, actualizate periodic
trebuie s fie realizat prin intermediul unor legturi persistente cu sursele externe de
date, pentru a asigura sincronizarea ntre acestea i cubul de date. Deoarece sistemele
OLAP sunt n general separate de sistemele surs, legturile servesc ca funcii de
transformare ce precizeaz modul de transformare a datelor din tabele sau foi de
calcul tabelar n date multidimensionale. Legturile pot descrie relaii structurale,
atributele membrilor sau coninutul cuburilor i pot fi unidirecionale (de citire) sau
bidirecionale (citire/scriere).
Regula 10: Stocarea rezultatelor generate de sistemul OLAP
Datele supuse analizei trebui stocate i prelucrate separat de sursele relaionale
sau de fiierele din care provin datorit diferenelor existente ntre modele i a
cerinelor de procesare.
Regula 11: Manipularea valorilor lips
Termenul de mprtiere a fost utilizat cu semnificaia de valoare lips, valoare
inaplicabil i valoare zero. Primele dou cazuri sunt considerate date invalide
(conceptul de null). Al treilea caz, unde termenul de mprtiere a fost utilizat cu
semnificaia de existen a multor valori zero, este un caz special al modului n care
este stocat un numr mare de valori care se repet, n cazul de fa valoarea zero. Ins
valoarea zero este valid ca orice alt numr. Confuzia a aprut deoarece n aplicaiile
OLAP apar un numr mare de valori zero, precum i volume mari de date lips i
invalide. Tehnicile pentru optimizarea fizic a stocrii unui numr mare de valori
repetate sunt similare i uneori aceleai cu tehnicile pentru optimizarea fizic a
stocrii de volume mari de date lips i invalide. Totui valorile lips i cele invalide
nu sunt date valide. Ele nu pot fi tratate n acelai mod ca orice alt valoare. De aceea,
sunt necesare tehnici speciale pentru aceste cazuri. [MUNT04]
Regula 12: Modul de tratare a valorilor lips
Tratamentul impropriu al valorilor null poate cauza calcule incorecte.
Acurateea calculelor este de o importan crucial pentru analiza oricrui set de date,
indiferent c este sau nu multidimensional. Problema tratrii datelor mprtiate este
una foarte important i este frecvent dezbtut n domeniul bazelor de date. Cele

dou tipuri de date (lips i invalide) trebuie totui s fie tratate individual, deoarece
ele afecteaz calculele n diferite moduri [MUNT04]
C. Modul de prezentare a datelor
Regula 13: Flexibilitatea rapoartelor
Modul de prezentare a datelor supuse analizei trebuie s fie accesibil
utilizatorilor astfel nct acetia s poat aranja cu uurin datele pe diverse
dimensiuni pe axele disponibile.
Regula 14: Performana raportrii
Dimesiunea sau modul de organizare a datelor nu ar trebui s influeneze
performana n raportare. Exist ns doi factori importani care afecteaz performana
raportrii i anume: modul n care sunt realizate calculele (antecalculate sau la
momentul interogrii) i locul unde sunt procesate calculele (client/server). Aceti
factori sunt mai importani dect dimensiunea bazei de date, numrul de dimensiuni
sau complexitatea raportului.
Regula 15: Ajustarea automat a nivelului fizic
Sistemele OLAP ar trebui s-i modifice automat schema fizic a bazei de date
n funcie de tipul modelului logic i de volumul datelor.
D. Controlul dimensiunilor
Regula 16: Dimensionalitate generic
Dimensiunile proiectate trebuie s fie echivalente structural i operaional,
adic s permit ierarhii multiple i toate tipurile de operaii multidimensionale i n
acelai

timp

poate

fi

actualizate

(adugarea/tergerea

unui

membru,

adugarea/tergerea unei ierarhii, modificarea unui membru/ierarhie etc).


Regula 17: Dimensiuni i niveluri de agregare nelimitate
Codd recomand utilizarea un numr maxim de 15-20 de dimensiuni. n
practic ns exist o multitudine de alte cerine i limitri ale instrumentelor OLAP,
astfel nct problema numrului maxim de dimensiuni poate deveni o cerin minor,
cesemnificativ.
Regula 18: Operaii ntre dimensiuni nerestrictive
Sistemele OLAP ar trebui s permit relizarea de operaii ntre diverse
dimensiuni, far restricii.

2. ARHITECTURA SISTEMELOR OLAP


Datorit caracteristicilor funcionale i a particularitilor sistemelor existente
n cadrul fiecrei organizaii se disting mai multe tipuri de arhitecturi ale sistemelor
OLAP. Acestea difer n funcie de modalitatea de stocare a datelor i de tipul
prelucrrii acestora, ns generaliznd se pot identifica 3 niveluri ale arhitecturii:
nivelul surselor de date, al serverului OLAP i al prezentrii datelor sau interfaa cu
utilizatorul.
Figura urmtoare prezint rolul serverului OLAP n extragerea datelor din
diferite surse i prezentarea informaiilor obinute n diverse moduri pe cele trei
niveluri menionate anterior.
Aplicatii
Aplicatii WEB
WEB

Grafice
Grafice

Rapoarte
Rapoarte

Nivelul
Interfetei cu
utilizatorul

Nivelul
Serverului
OLAP
Server OLAP

Nivelul
Surselor de date

Data
Data
Warehouse
Warehouse

Baze de date

Depozitul de date

Surse externe

Figura 2.1: Arhitectura Sistemelor OLAP


Multe confuzii exist n legtur cu arhitecturile OLAP i termeni ca ROLAP,
HOLAP, DOLAP. De fapt exist mai multe opiuni n care datele OLAP ar putea fi
stocate i unde ar putea fi procesate. Sunt mai multe variante rezultate n urma
combinaiilor ntre modalitile de stocare i cele de prelucrare a datelor din sistem.
In funcie de modalitatea de organizare i stocare a datelor pot exista trei opiuni:

Fiiere client - n acest caz, extragerile de date relativ mici sunt stocate local
pe calculatorul client sub form de fiiere (de exemplu foi de calcul) care pot
fi utilizate direct, prelucrate i transformate pentru analiz. n acest caz exist
o serie de limitri cum ar fi: voumul redus de date care poate fi prelucrat,
timpul relative mare de procesare a informaiilor, securitate redus, prelucrri
rudimentare

datorate

inexistenei

unor funcii

puternice

de analiz

multidimensional.

Baze de date relaionale aceast variant se recomand n cazul n care


datele provin dintr-un SGBD relaional iar depozitul de date a fost
implementat utiliznd un model relaional sau este implementat ca deposit de
date virtual. n acest caz, datele ar fi stocate ntr-o structur denormalizat cum
ar fi o schem stea sau una din variantele sale: o baz de date normalizat nu
ar fi potrivit pentru performane.

Baze de date multidimensionale - n acest caz datele sunt stocate ntr-un


depozit de date pe un server dedicate, denumit server multidimensional. In
acest caz putem vorbi de un deposit de date format din obiecte
multidimensionale

asupra

crora

pot

fi

aplicate

direct

operaiile

multidimensionale. Sarcina realizrii acestor operaii cade n seama serverului


multidimensional. Datele sunt extrase din surse diverse (baze de date
relaionale, fiiere), transformate i ncrcate n tabelele de fapte i dimensiuni,
aggregate pe diverse nivele, preprocesate i pregtite pentru analiz. Este
varianta optim datorit avantajelor oferite: capacitatea de procesare a unui
volum mare de date,
ncrcarea

datelor,

existena procesului ETL pentru transformarea i


implementarea

operaiilor

la

nivel

de

server

multidimensional optimizat pentru analiz.


Aa cum exist trei modaliti de stocare pentru datele OLAP, tot trei opiuni
sunt i pentru

procesarea datelor. Aa cum se va observa, operaiile

multidimensionale nu trebuie neaprat s aib loc unde sunt stocate datele din acest
motiv exist urmtoarele variante:

Nucleul SQL - Aceasta este departe de a fi o optiune optim pentru a efectua


calcule multidimensionale complexe, chiar dac datele OLAP sunt stocate ntro baz de date relaional. Limbajul SQL nu are implementate facilitile de a
efectua direct calcule multidimensionale i sunt necesari mai multi pai pentru

10

a obine aceleai rezultate cu cele obinute prin aplicarea funciilor i


operaiilor multidimensionale.

Motorul client multidimensional - Presupunnd c majoritatea utilizatorilor au


sisteme

relativ

puternice,

se

pot

efectua

local

unele

operaii

multidimensionale, de exemplu pivotarea sau filtrarea n cadrul foilor de


calcul. ns aceast variant presupune cunotine avansate n domeniu i las
practic sarcina construirii i aplicrii funciilor de analiz pe seama
utilizatorului final.

Motorul server multidimensional - Aceasta este alegerea optim pentru


efectuarea operaiilor multidimensionale ntr-o aplicaie OLAP client/server.
Execuia operaiilor multidimensionale de ctre serverul dedicat degreveaz
sistemul client i utilizatorul final de sarcina construirii acestora, asigur
accesul concurent la aceleai resurse, iar procesarea cererilor de analiz se
realizeaz n timp real i informaiile sunt disponibile pentru vizualizare prin
intermediul unor interfee standardizate i prietenoase pentru utilizatorii finali.

In funcie de opiune de stocare i procesare a datelor teoretic sunt posibile nou


arhitecturi de baz, din care doar ase au sens. Aceste combinaii precum i cteva
dintre produsele software care le utilizeaz sunt prezentate n tabelul de mai jos
[HUHA99]:
OPIUNI DE STOCARE A DATELOR
OPIUNI DE
PROCESARE

Fiiere

Baza de date
multidimensionale

Cartesis Magnitude
MicroStrategy

Nucleul SQL

4
Brio.Enterprise
BusinessObjects
Cognos PowerPlay
Motorul client
Oracle Personal
Multidimensional
Express
iTM1 Perspectives
Microsoft Excel

5
Oracle Discoverer
Informix MetaCube

7
Motorul server
Multidimensional

SGBDR

8
Crystal Holos (ROLAP
mode)
IBM DB2 OLAP Server
CA EUREKA:Strategy
Longview Khalix
Informix MetaCube

11

6
Comshare FDC
Dimensional Insight
Hyperion Enterprise
Hyperion Pillar
PwC CLIME

9
SAS CFO Vision
Crystal Holos
Comshare Decision
Hyperion Essbase
Gentia
Speedware Media/M

Speedware Media/MR
Microsoft Analysis Services
Pilot Analysis Server
Sagent
Applix iTM1
WhiteLight
Oracle Express (ROLAP
mode)
Oracle Warehouse Builder
Oracle Discoverer

Microsoft Analysis Services


PowerPlay Enterprise Server
Pilot Analysis Server
Applix iTM1
Oracle Express
Oracle Warehouse Builder
Oracle Discoverer

Tabel 2.1: Variante de implementare ale sistemelor OLAP


Arhitecturile cele mai utilizate dintre aceste tipuri de combinaii sunt
urmtoarele:

OLAP relaional (ROLAP) (2, 5, 8) din care OLAP hibrid (Hybrid OLAP sau
HOLAP) (5, 8)

OLAP multidimensional (MOLAP) (6, 9) din care OLAP client (Desktop


OLAP sau DOLAP) (6)

OLAP client (DOLAP) (4)

12

3. MODELUL DE DATE MULTIDIMENSIONAL


Pentru definirea unui model de date este necesar specificarea urmtoarelor
elemente:

Structura modelului constituit din obiectele modelului precum i relaiile


dintre ele;

Operatorii care acioneaz asupra structurii;

Restriciile de integritate formate din totalitatea de regului i constrngeri


impuse modelului pentru asigurarea corectitudinii datelor.
Structura modelului conine n principal obiectele referitoare la tabele de

fapte cu atributele de tip msuri sau metrici, tabelele de tip dimensiune n care
regsim nivele ierarhice, attribute de descriere, etc. Aceste obiecte vor fi prezentate n
continuare.
In cadrul modelului multidimensional se ntlnesc mai multe tipuri obiecte
care prezint o importan deosebit n analiz [KIRE98]:
Dimensiunile reprezint structuri compuse atribute structurate pe diverse
niveluri ierarhice n funcie de care sunt grupate datele. Aceste atribute sunt de obicei
descriptive i sunt folosite ca surs pentru restricii i pentru rndurile din rapoarte.
Sunt considerate tabele secundare datorit dimensiunilor reduse. Consiliul OLAP
definete conceptul de dimensiune ca fiind un atribut structural al unui cub ce
const dintr-o list de membrii, pe care utilizatorii i percepe ca fiind de acelai tip
(de exemplu toate lunile, trimestrele, anii formeaz dimensiunea Timp). Dimensiunile
repreznint un mod foarte concis, intuitiv de organizare i selectare a datelor pentru
explorare i analiz. [OLAP95]. Datele sunt de obicei colectate la nivelul cel mai
detaliat i apoi agregate pe nivelele superioare pentru analiz.
In cadrul dimensiunilor se regsesc i conceptele de ierarhie, nivel, atribut,
concepte care vor fi prezentate n continuare:
Ierarhiile sunt structuri logice utilizate pentru ordonarea nivelelor de
reprezentare a datelor. Sunt utilizate i pentru definirea cilor de navigare n interiorul
datelor. Nivelele ierarhice sunt utilizate de instrumentele de analiz OLAP permind
detalierea gradual a datelor. Tot n definiiile date de Consiliul OLAP se menioneaz
c membrii dimensiunilor pot fi organizai pe baza relaiilor de tip printe-copil,
unde un membru printe reprezint agregarea membrilor copil. Rezultatul este o
ierarhie i relaiile printe-copil sunt relaii ierarhice. [OLAP95]
13

Ierarhia definit pe o dimensiune determin aranjarea membrilor dimensiunii


ntr-o configuraie piramidal. pe orizontal se plaseaz rezultatele corespunztoare
msurilor de pe acelai nivel n ierarhia dimensiunii, iar pe vertical se plaseaz
rezultatele avnd niveluri diferite n ierarhia dimensiunii.
Nivelele reprezint poziii n cadrul ierarhiilor (figura 3.3). De exemplu
dimensiunea Timp poate avea trei nivele de ierarhizare: an, trimestru i lun. Nivelele
se structureaz n funcie de ierarhie de la general la specific, rdcina fiind
reprezentat de nivelul superior, cel mai nalt al ierarhiei. Relaiile ntre diferite nivele
sunt relaii de tipul printe-copil. Se pot defini ierarhii n care datele fiecrui nivel
sunt agregate la un nivel superior sau se pot sri anumite nivele care sunt
independente.
Agregare

ar
ar

Regiune
Regiune

Nivele
ierarhice

Ierarhia
locaie

Jude
Jude

Ora
Ora
Detaliere

Figura 3.1: Ierarhii i nivele


Atribute dimensiunile conin atribute care reprezint calificative specifice.
Orice atribut se asociaz unei singure dimensiuni, iar o dimensiune se poate exprima
prin mai multe atribute. Cu ct aceste atribute sunt mai descriptive cu att depozitele
de date vor fi mai performante.
Tabelele de fapte sunt tabelele centrale. Acestea conin atribute de tip msuri
(metrici) i chei externe ctre tabelele dimensiuni. Faptele sunt de obicei date
numerice care pot fi nsumate i analizate pe diferite nivele.
Metricile (msurile) corespund atributelor (faptelor) din tabelele de fapte i
sunt de regul de natur numeric (de exemplu: volumul vnzrilor, costurile,
stocurile disponibile). Aceste variabile au sens numai n contextul unor anumite

14

dimensiuni. Msurile reprezint valorile centrale care sunt analizate prin cubul de
date. Valoarea msurii este calculat pentru un punct dat prin agregarea datelor
corespondente perechii respective valoare-dimensiune, diferite pentru punctul dat.
Msurile pot fi clasificate dup modalitatea de calcul n msuri de baz care
se regsesc sub forma atributelor din tabelele de fapte i care provin din sursele de
date i msuri derivate (virtuale) care se obin prin combinarea msurilor de baz i
care n tabelele de fapte au precizat formula de calcul prin care se obin.
Msurile pot fi organizate n trei categorii bazate pe tipurile de funcii
agregate utilizate: distributive, algebrice, holistice.
Msurile distributive sunt calculate cu ajutorul unor funcii de agregare
distributive. Presupunem c datele sunt mprite n n seturi. Calcularea funciei pe
fiecare partiie determin o valoare agregat. Dac rezultatul obinut prin aplicarea
funciei asupra a n valori agregate este acelai cu cel obinut prin aplicarea funciei
asupra tuturor datelor fr partiionare, funcia poate fi calculat n manier
distributiv. De exemplu, funcia count( ) poate fi calculat pentru cubul de date
printr-o prim partiionare a cubului ntr-un set de subcuburi, calculnd count( )
pentru fiecare subcub i apoi nsumnd rezultatele obinute pentru fiecare subcub. Din
acest motiv funcia count( ) este o funcie agregat distributiv.
Msuri algebrice - sunt calculate cu ajutorul unor funcii algebrice cu M
argumente (unde M este un ntreg pozitiv), fiecare din ele obinut prin aplicarea unei
funcii agregate distributive. De exemplu, AVG( ) poate fi calculat prin sum()/count()
unde ambele funcii sum( ) i count( ) sunt funcii agregate distributive. n mod
similar se poate demonstra c min( ), max( ) i abaterea standard sunt funcii algebrice
agregate. Msura este algebric dac este obinut prin aplicarea unei funcii algebrice
agregate.
Msuri holistice - sunt calculate cu ajutorul unor funcii holistice. O funcie
agregat este holistic, dac aceasta nu este limitat constant pe spaiul de stocare
cerut de deschiderea subagregrii. n acest caz nu exist o funcie algebric avnd M
argumente (unde M este o constant) care caracterizeaz calculul. Exemple comune
de funcii holistice sunt: median( ), mode ( ), rank( ). O msur holistic este obinut
prin aplicarea unei funcii agregate de tip holistic. Cele mai multe aplicaii necesit
calcularea eficient a msurilor distributive i algebrice. Exist mai multe tehnici
eficiente pentru aceasta, n contrast, poate fi mai dificil de calculat n mod eficient
msuri holistice. Exist totui anumite tehnici eficiente de aproximare a calculului
15

msurilor holistice. De exemplu, n loc de a calcula exact median( ), exist tehnici


care pot determina aproximativ valoarea median pentru un set foarte mare de date, cu
rezultate satisfctoare.
Din punctul de vedere al modalitii de nsumare i agregare n funcie de
dimensiuni, Ralph Kimball n lucrarea The Data Warehouse Toolkit [KIMB96]
clasific metricile n trei categorii: indicatori aditivi care se pot nsuma dup toate
dimensiunile, indicatori semiaditivi care se pot nsuma numai dup unele dimensiuni
i indicatori neaditivi care nu se pot nsuma dup nici o dimensiune dar care pot fi
combinate cu alte variabile pentru a deveni aditive.
Metadatele reprezint poate cea mai important component a depozitului de
date. Pentru a putea utiliza depozitul de date, utilizatorii trebuie s cunoasc ce date se
gsesc aici, iar metadatele nu sunt altceva dect date despre date, date care descriu
coninutul depozitului i furnizeaz trimiteri directe la date. Tot la nivelul metadatelor
se definesc i diverse vederi (views) asociate unor categorii specifice de utilizatori.
Dar metadatele nu sunt utile doar utilizatorului final. Ele sunt intens folosite
pentru administrarea depozitului de date, coninnd informaii despre proveniena
datelor, algoritmii de agregare i nsumare, statistici privind utilizarea i multe altele.
Cand se utilizeaz ntr-un depozit de date, metadatele sunt date care definesc
obiectele depozitului. Metadatele sunt create pentru numele de date i definiiile din
depozit. Metadatele adiionale sunt create pentru a asocia intervale de timp la datele
extrase i alte cmpuri care vor fi adugate prin curirea datelor sau prin procesele de
integrare. Nivelul metadatelor trebuie s conin conform [JAJE98]:

O descriere a structurii datelor din depozit, incluznd schema depozitului,


dimensiunile, ierarhiile, definiiile datelor derivate;

Metadatele operaionale, care includ date privind evoluia n timp (istoricul


datelor i secvena de transformare aplicat asupra lor), situaia datelor (active,
arhivate sau terse) i informaii de monitorizare (statistici privind utilizarea
depozitului de date, rapoarte de erori, mprtierea datelor etc.);

Algoritmi utilizai pentru nsumare, care includ msura i dimensiunea


algoritmilor definii, date despre granularitate, partiii, arii de subiecte,
agregri, sumarizri, rapoarte i filtre predefinite;

16

Transformrile datelor de la mediul operaional la depozitul de date i care


includ bazele de date surs i coninutul lor, partiionarea datelor, extragerea
datelor, curirea datelor, regulile de ntreinere i securitate a datelor;

Date relative la performanele sistemului care includ indicatori i profiluri care


mbuntesc accesul la date i performanele de cutare;

Metadate economice (business metadata), care includ termeni economici i


definiii, expresii i formule de calcul ale indicatorilor.
Metadatele se aplic pentru sursele de date, pentru programele i regulile de

extragere i transformare, pentru structura datelor i pentru coninutul propriu-zis al


depozitului de date. Importana metadatelor pentru depozitul de date reiese din faptul
c acestea stabilesc contextul depozitului de date, uureaz procesul de analiz,
menin i cresc calitatea datelor dar i din faptul c sunt o form de auditare a
transformrii datelor.
Metadatele ajut administratorii i utilizatorii depozitului s localizeze i s
neleag secvenele de date att n sistemele surs ct i n structura depozitului. Dac
metadatele care descriu formatul datelor din depozite sunt disponibile, atunci se
elimin orice ambiguitate legat de semnificaia datelor.
Metadatele menin i cresc calitatea datelor, fapt ce se realizeaz prin definirea
valorilor valide pentru fiecare cmp din depozit. nainte de a fi efectiv ncrcate n
depozit, datele pot fi revzute i erorile pot fi corectate, regulile de corecie a erorilor
pot fi documentate tot prin metadate. Se pot deosebi mai multe tipuri de metadate:
Metadate administrative. Acestea conin descrieri ale bazelor de date surs i
ale coninutului, ale obiectelor depozitului de date i ale regulilor folosite pentru a
transforma datele din sistemul surs n depozit. Printre exemple de astfel de metadate
menionez: descrirea tuturor sursele de date folosite, trecerea cmpurilor surs n
cmpuri destinaie, schema depozitului de date, structura datelor din back-end,
programe i instrumente back-end, reguli i formule de calcul, reguli de securitate i
de acces.
Metadate pentru utilizatorii finali. Aceste metadate au rolul de a ajuta pe
utilizatori s-i creeze propriile lor interogri i s interpreteze rezultatele. Pentru
aceasta, ei au nevoie s cunoasc definiiile datelor din depozit, descrierea lor, precum
i orice ierarhie care poate exista n diferite dimensiuni. Exemple de astfel de
metadate sunt urmtoarele: coninutul depozitului de date, rapoarte i interogri

17

predefinite, definiiile ierarhiilor, calitatea datelor, istoricul ncrcrii depozitului de


date, reguli de eliminare.
Metadate pentru optimizare. Aceast categorie de metadate are rolul de a
crete performanele depozitului de date. Exemple de astfel de metadate sunt:
definiiile agregrilor i colecii de statistici.
Un depozit de date conine date pentru diferite perioade de timp i de aceea
este important s avem n vedere efectul pe care l poate avea timpul asupra regulilor
de trecere a cmpurilor surs n cmpuri destinaie, asupra agregrilor etc. Utilizatorii
trebuie s aib acces la metadatele corecte pentru perioada de timp pe care o studiaz.
Echipa IT are nevoie de aceste informaii pentru a putea ntreine depozitul de
date, iar ceea ce la prima vedere ar prea s fie o eroare n transformarea datelor poate
fi de fapt rezultatul schimbrii regulilor de transformare a datelor. De aceea este
important ca metadatele s fie corect gestionate din punct de vedere al versiunilor.
Dei n mod tradiional metadatele reprezint o component dezvoltat spre
sfritul ciclului de dezvoltare, la ora actual exist o tendin puternic de a atribui
metadatelor un rol mai important. Utilizatorii instrumentelor de extragere i
transformare pot specifica modul de trecere din cmpurile surs n cmpurile
destinaie i pot introduce toate regulile care guverzeaz transformarea. Tabelul sursdestinaie poate servi ca baz pentru generarea codului de program folosit apoi la
extragerea i transformarea efectiv a datelor. Utilizatorii instrumentelor pentru
calitatea datelor pot specifica valorile valide pentru diferite secvene de date att n
sistemele surs, ct i n depozitul de date. Aceste instrumente pot folosi metadatele
ca baz de pornire n identificarea i corectarea erorilor. Utilizatorii specific
metadatele referitoare la schema depozitului de date (fapte, dimensiuni etc), iar
aplicaile pot folosi aceste specificaii ca intrare pentru a genera efectiv schema
(tabele, indeci, agregri etc.).
Schema modelului este o colecie de obiecte, incluznd tabelele, viziunile,
indeci i sinonime. Exist mai multe tipuri de scheme utilizate n modelarea
multidimensional acestea diferind de modurile n care se pot aranja obiectele n
cadrul schemei.
Schema de tip Stea - Acesta este cel mai simplu i mai frecvent utilizat
model (figura 3.2.a). Obiectele sale sunt dispuse n form de stea, n centru aflndu-se
una sau mai multe tabele de fapte de care sunt legate dimensiunile. O schem de
jonciune stea suport dou tipuri de interogri: consultare i jonciuni multiple.
18

Operaia de consultare se realizeaz pe o singur tabel de fapte i nu necesit


jonciuni. O cerere de interogare tipic apare atunci cnd un utilizator final solicit o
list derulant. Interogrile de tip jonciune multipl apar dup o serie de consultri i
implic restricii plasate n cteva tabele dimensiune care sunt puse n legatur
simultan, prin operaia de jonciune, cu tabela de fapte. Scopul este de a aduce sute i
mii de nregistrri de baz ntr-un set de rspunsuri de dimensiune mic.

Dimensiunea TIMP
Atribute ale
Atribute ale
dimensiunii TIMP
dimensiunii TIMP

Dimensiunea LOCATIE

Tabela de fapte

Atribute ale dimensiunii


Atribute ale dimensiunii
LOCATIE
LOCATIE

ID TIMPID
LOCATIEID
PRODUSID
CLIENTVol
vnzarilorVol
discount
Dimensiunea PRODUS

Dimensiunea CLIENT

Atribute ale
Atribute ale
dimensiunii PRODUS
dimensiunii PRODUS

Atribute ale dimensiunii


Atribute ale dimensiunii
CLIENT
CLIENT

Figura 3.2. a: Schema de jonciune stea


Dimensiunile n acest caz sunt denormalizate, ele avnd date redundante care
elimin necesitatea unor legaturi multiple ntre tabele. ntr-o schem stea nu exista
dect o singur legatur ntre tabela de fapte i dimensiuni. Optimizarea performanei
de rspuns la interogri este principalul avantaj al acestui model.
Schema de tip Fulg de Nea - este o variant a modelului stea n care o parte
din tabelele dimensiune sunt normalizate, iar datele sunt distrinuite n tabele
suplimentare (figura 3.2. b). Rezult o schem reprezentat ntr-un grafic similar unui
fulg de zpad. Diferena ntre modelul stea i modelul fulg de nea este c tabelele
dimensiune din acesta pot fi pstrate n forma normalizat, ceea ce determin o
redundan redus. Asemenea tabele sunt uor de ntreinut i astfel se economisete
spaiu de stocare. Totui aceast economie de spaiu este neglijabil n comparaie cu
volumul foarte mare de date din tabelul de fapte. Mai mult, structura fulg de nea poate

19

reduce performana extragerii de date deoarece sunt necesare mai multe jonciuni ntre
tabele la o singur interogare.
Dimensiunea CLIENT

Dimensiunea TIMP
Atribute ale
Atribute ale
dimensiunii TIMP
dimensiunii TIMP

Tabela de fapte

Atribute ale dimensiunii


Atribute ale dimensiunii
CLIENT
CLIENT

ID TIMPID
REGIUNEID
PRODUSID
CLIENTVol
vnzarilorVol
discount
Dimensiunea PRODUS

Dimensiunea REGIUNE

Atribute ale
Atribute ale
dimensiunii PRODUS
dimensiunii PRODUS

Atribute ale dimensiunii


Atribute ale dimensiunii
REGIUNE
REGIUNE

Dimensiunea TIP_PRODUS

Dimensiunea LOCATIE

Atribute ale
Atribute ale
dimensiunii
dimensiunii
TIP_PRODUS
TIP_PRODUS

Atribute ale dimensiunii


Atribute ale dimensiunii
LOCATIE
LOCATIE

Figura 3.2. b: Schema de jonciune fulg de nea


Cuburi de date - Un mod mai simplu de vizualizare a datelor este
reprezentarea ntr-un spaiu cartezian definit pe toate dimensiunile depozitului de date
(figura 3.2.c, 3.2.d). Acesta poate fi numit cub de date, fiind un spaiu de date logic i
nu unul fizic. Seciunile bidimensionale sunt numite tablouri. Axele cubului sunt
reprezentate de dimensiuni, la intersecia acestora fiind variabilele sau msurile.
In analiza multidimensional cubul de date cu mai mult de trei dimensiuni
poart denumirea de cub n-dimensional sau hipercub (hypercub). Consiliul OLAP
definete cubul n-dimensional ca fiind un grup de celule de date aranjate dup
dimensiunile datelor. O matrice tridimensional poate fi vizualizat ca un cub cu
fiecare dimensiune formnd o fa a cubului [OLAP95]. Tot n aceeai definiie se
menioneaz c dimensiunile tipice ale datelor dintro ntreprindere sunt timpul,
msurile, produsele, regiunile geografice, canalele de distribuie.
20

PRODUS

LOCATIE

TIMP

Figura 3.2.c: Cub de date cu trei dimensiuni


furnizor F1

furnizor F2

furnizor F3

produs

locatie

T1

T2

T3
timp

Figura 3.2.d: Cub de date cu patru dimensiuni

21

4.

OPERAII

REALIZATE

ASUPRA

MODELULUI

MULTIDIMENSIONAL
Aplicaiile de analiz OLAP trebuie s asigure o utilizatorilor o viziune
multidimensional asupra datelor, indiferent dac modalitatea de stocare este
relaional sau multidimensional. Pentru utilizarea viziunilor multidimensionale nu
este necesar o stocare a datelor n aceasta form. Bazele de date relaionale i cele
multidimensionale folosesc modele asemntoare ceea ce permite o trasformare
uoar a datelor. Prin aplicarea unor operaii specifice asupra modelului
multidimensional utilizatorului i se ofer posibilitatea de a vedea i de a analiza din
perspective multiple datele, de a naviga n cadrul ierarhiilor definite, de a extrage un
subset de date, de a interschimba axele sau dimensiunile pentru a obine o alt
detaliere a datelor. Toate aceste operaii multidimensionale impementate n cadrul
modelului multidimensional sunt prezentate n paragrafele urmtoare.
Navigarea pe nivelele ierarhice (Drill Down i Roll Up) reprezint operaii
de navigare n cadrul ierarhiilor dimensiunilor, prin agregare pe nivelele superioare
sau detaliere pe nivelele inferioare. Orice baz de date multidimensional trebuie s
permit navigarea pe diferite nivele ale ierarhiilor. Aceasta tehnic se numeste roll up
sau drill down, n funcie de direcie, spre vrful sau baza ierarhiei. Acestea sunt
operaii de schimbare a vederii de-a lungul nivelelor unei ierarhii. Prin facilitatea de
drill down, utilizatorii pot naviga pe nivele cu un grad de detaliu mai accentuat. Prin
roll up se pot vizualiza datele la un nivel agregat. Cu toate ca instrumentele OLAP pot
realiza dinamic toate operaiile necesare analizei, pentru a economisi timp i resurse
se prefer uneori pre-calcularea unor valori globale. Aceasta operaie este numit
consolidare (cnd se refer la aspectul conceptual) sau nsumare (din perspectiva
procedural), fie agregare (din perspectiva structural). Aceste agregri se refer la o
anumit msur i se realizeaz dup dimensiunile corespunzatoare acesteia. Pentru
atributele organizate ierarhic, consolidarea se face nivel cu nivel. Aceste operaii
implic de cele mai multe ori doar calcularea unor totaluri, dar exist i excepii n
care se utilizeaz formule sau procedee statistice. Nivelul la care se face nsumarea n
cazul n care sunt implicate ierarhii se numeste granularitate. Procesul de agregare
creaza o redundan n cadrul bazei de date, dar volumul acesteia nu este semnificativ
deoarece scade exponenial cu fiecare nivel de nsumare. Ctigul de performan
obinut la accesarea datelor este deosebit de important n analiz.
22

Rotaii reprezint operaiile cele mai uzuale n structurile de date


multidimensionale i ofer utilizatorului posibilitatea de a alege perspectiva asupra
datelor pe care o va utiliza. De exemplu n cazul bidimensional exist dou posibiliti
de vizualizare, iar n cazul tridimensional se pot utiliza 6 rotaii pentru a vizualiza
datele din diferite perspective, iar pentru patru dimensiuni exist 24 de perspective
posibile. Fiecare rotaie pune n eviden o nou perspectiv, aducnd n prim plan o
structur bidimensional, o faet (slice). Din acest motiv rotaia se mai numeste i
data slicing. Aceste operaii nu implic o reorganizare a datelor stocate, ci o
schimbare a modalitii de reprezentare, spre deosebire de cazul unor structuri
relaionale, pentru care o nou faet poate fi obinut doar n urma unor interogri
complexe.
Seciuni - reprezint viziuni sau imagini (views) specifice diverselor categorii
de utilizatori, prin operaii de secionare prin care se obin "felii" bidimensionale
(slices). Astfel, un manager de produs poate avea la ndemn datele legate de
produsul pe care-l supervizeaz, pe toate zonele, pe toat perioada analizat. n
schimb, un manager regional, va fi interesat de toate produsele, dar numai pe toate
zonele pe care le coordoneaz. Tehnica aceasta const n limitarea unor atribute la
anumite valori i obinerea unui cub de date redus (procedeu numit data dicing)
(figura 4.1.).

ZONA
PRODUS
TIMP

Figura 4.1.a: Cub de date tridimensional. Dimensiunile reprezint timpul, produsele


i zonele de desfacere.

ZONA
PRODUS
TIMP

23

Figura4.1.b: Viziunea managerului de produs: acesta poate obine o viziune a


datelor ce reflect doar vnzrile anumitor produse n toat regiunea i n toat
perioada de timp considerat.

ZONA
PRODUS
TIMP

Figura 4.1.c: Viziunea managerului financiar: poate restriciona analiza la un anumit


trimestru pe toate produsele i toate zonele.

ZONA
PRODUS
TIMP

Figura 4.1.d: Viziunea managerului regional: poate vedea vnzrile ntregii game de
produse n regiunea de care rspunde, pe toat perioada de timp considerat.

ZONA
PRODUS
TIMP

Figura 4.1.e: O viziune ad-hoc: diferite cerine pot duce la selectarea unor anumite
valori ale atributelor. Rezultatul const n subseturi de date i din acest motiv aceste
operaii se mai numesc i data dicing.

24

5. MODELE DE DATE MULTIDIMENSIONALE UTILIZATE N


SISTEMELE OLAP
Modelele de date utilizate n sistemele OLAP au cunoscut o diversitate destul
de mare att din punctul de vedere al teoretizrii conceptelor ct mai ales din punctul
de vedere al aplicrii diferitelor tipuri de modele n practic. Dou direcii importante
au clasificat totui aceast diversitate de modele i anume dezvoltarea unor extensii
ale modelului relaional i utilizarea acestora n cadrul sistemelor OLAP i a doua
direcie dezvoltarea modelelor bazate pe cuburi n-dimensionale.
Printre extensiile modelului relaional se pot meniona: modelul propus de
Gray la baza cruia sunt operatorii CUBE i ROLLUP din clauza GROUP BY din
limbajul SQL care presupune agregarea datelor pe atributele clauzei group by;
modelul propus de Li i Wang sau modelul lui Gyssens i Lakshmanan care sunt
extensii ale algebei relaionale [MUNT04]. Ins cel mai important model i cel mai
reprezentativ este cel propus de Ralph Kimball n lucrarea [KIMB96] care definete
schema tip stea ca o reprezentare relaional a cubului n-dimensional. Schema tip stea
prezentat anterior i n cadrul acestui capitol cuprinde n viziunea lui Kimball o
tabel central i mai multe tabele dimensiune legate radial de tabela de fapte prin
jonciuni asemntor cu modelul ER. Din modelul de tip stea a derivat mai trziu i
modelul tip fulg de nea care extinde facilitile oferite de modelul anterior. Ulterior au
aprut noiuni ca schem galaxie care este o schem stea cu mai multe tabele de fapte
sau schem constelaie (fact constellation scheme) n care exist tabele de fapte
suplimentare ce stocheaz date agregate. O constelaie este o colecie de stele i
const dintr-o stea central nconjurat de alte stele. Steaua central conine datele la
nivel atomic, iar celelalte stele conin date agregate [MUNT04].
Printre modelele bazate pe cub se poate aminti modelul lui Agrawal, Gupta i
Sarawagi care are la baz un set minimal de operatori asemntori cu cei din algebra
relaional, ns organizarea datelor se bazeaz pe unul sau mai multe cuburi ndimensionale. In viziunea lui Agrawal [MUNT04] cubul are urmtoarele componente:
dimensiunile definite prin nume i domeniu de valori i elementele cubului care sunt
definite printr-o funcie ce asociaz mulimea valorilor dimensiunilor la un n-tuplu
reprezentat de celulele cubului.
Tot n categoria modelelor bazate pe cub se situeaz i modelul propus de
Cabibbo i Torlone [MUNT04] n care dimensiunile sunt categorii lingvistice ce
25

descriu diferite moduri de prezentare i de analiz a informaiilor, iar fiecare


edimensiune este organizat pe ierarhii. Modelul are la baz o schem
multidimensional format din setul de dimensiuni, tabelele de fapte (f-table) i
descrierile nevelurilor ierarhice.
Modelul propus de Blaschka [MUNT04] introduce o extensie a tehnicii de
modelare entitate asociere a modelului relaional. Tehnica ME/R pentru proiectarea
schemei multidimensionale conine o entitate denumit nivel al dimensiunii
(dimension level), o relaie tip 1:n denumit fact relationship i o relaie binar
denumit relaie de clasificare a dou niveluri ierarhice.
Din punct de vedere al nivelului de realizare modelele multidimensionale
utilizate n cadrul sistemelor OLAP sunt mprite pe cele trei niveluri: conceptual,
logic i fizic [MUNT04]:

modele conceptuale ofer concepte apropiate de modul n care utilizatorii


percep datele i sunt independente de implementare. La acest nivel se pot
considera ca modele conceptuale modelul lui Cabibbo i cel propus de
Blaschka.

modele logice ofer concepte ce pot fi nelese de utilizatorii finali dar depind
de tipul de SGBD utilizat. Dintre modelele multidimensionale la nivel logic se
pot considera modelul lui Kimball, cel propus de Li i Wang i cel al lui
Agrawal.

modele fizice ofer concepte legate de modul n care sunt stocate fizic datele
(descrierea datelor pe suport fizic), depinznd de SGBD-ul utilizat.
Tipul de model multidimensional utilizat de diverse tehnologii i produse

software ce implementeaz sistemele OLAP difer att din punct de vedere al SGBDului utilizat ct i din punct de vedere al operaiilor realizate asupra datelor i a
arhitecturii implementate (MOLAP, ROLAP, HOLAP).

26

6. LOCUL TEHNOLOGIEI OLAP N ARHITECTURA DEPOZITULUI


DE DATE
In cartea Building the Data Warehouse, W.H. Inmon menioneaz: Sunt
patru niveluri n cadrul mediului arhitectural: operaional, atomic sau al depozitului
de date, departamental i individual [INMO96].
Nivelul operaional - Sistemele operaionale sunt reprezentate de sursele,
datele care populeaz depozitul de date. Datele operaionale sunt supuse tranzaciilor,
volatile, stocate la nivel de tranzacie n form normalizat sau proprie n sistem
OLTP.
Nivelul depozitului de date - Acest nivel conine date cu caracter istoric ale
nivelului tranzacional, prelucrate i transformate ntr-un format multidimensional
mult mai potrivit pentru suportul de decizii. O singur tabel de fapte poate avea o
nregistrare pentru fiecare tranzacie i fiecare nregistrare va conine valorile sau
msurile i alte cmpuri descriptive ce vor reprezenta ct mai fidel ntregul potenial
al dimensiunilor caracteriznd afacerile (timp, zone, clieni, produs) tinznd ctre un
coninut complet al ariei subiectelor (date despre vnzrea produselor, date despre
cost, tipuri de venituri, tipuri de cheltuieli). ns cu un volum foarte mare de date este
imposibil s se furnizeze un timp de rspuns rapid la cererile managerilor. De aceea
este nevoie de nivelul departamental.
Nivelul departamental, data mart sau OLAP - n aceeasi carte, W.H.Inmon
scrie: Nivelul departamental este uneori denumit nivelul data mart, OLAP, baz
de date multidimensional. Tehnologia OLAP ar trebui folosita la acest nivel n
arhitectura. Un data mart OLAP va fi limitat la submulimea mrimilor statistice
disponibile i dimensiunilor necesare pentru a studia problemele specifice afacerilor.
ntr-un mediu inteligent, bine proiectat al afacerilor, 80% sau mai mult din totalul de
cereri sunt transmise data mart-ului i server-ului OLAP. Cnd datele ajung n depozit,
ele trebuie s fie pregtite pentru a fi redistribuite imediat n data mart. Structura
dimensional trebuie s fie deja definit i reprezentat n depozit prin schema stea a
bazei de date relaionale. Ar trebui s existe un depozit central care catalogheaz
coninutul i statutul depozitului. Serverul OLAP ar trebui s poat citi direct din
tabelele depozitului, att datele ct i metadatele necesare pentru restructurarea i
actualizarea data mart-ului cu submultimea cerut de msuri, dimensiuni, nregistrari.

27

Mai mult, arhitectura trebuie s fie cuprinztoare i flexibil suficient pentru


ca noile date mart-uri s poat fi create rapid i cele existente s fie redefinite rapid,
simplu, prin selectarea noilor combinaii de msuri i dimensiuni din cele deja
existente n depozitul metadatelor ca rspuns la cererea nou sau redefinit. Cnd
bazele de date ale sistemului OLAP sunt incomplete (acest lucru se ntampl des),
proiectanii ncearc s anticipeze toate cererile posibile pentru toate domeniile
posibile (subiecte) i apoi ncearc s reuneasc coninuturile ntregului depozit ntrunul singur numindu-se OLAP data waremart. Depozitul de date este un proces
continuu de dezvoltare iterativ, ceea ce trebuie s conduc la posibilitatea de a adapta
modelele data mart la necesittile afacerilor. n orice caz, pentru o mai mare
flexibilitate se recomand ca arhitectura s includ att nivelul depozitului de date ct
i data mart.
Nivelul individual - La ultimul nivel al arhitecturii, datele sunt prezentate
managerilor pentru interpretare. Instrumentele de vizualizare a cererilor, precum
grafice, prezentri, rapoarte dinamice, browserele Web, toate aparin acestui nivel.
Aplicaiile clienilor, care conin informaii despre bugete, prognoze, recomandri cu
privire la alocarea resurselor i multe altele se afl n data mart la acest nivel al
arhitecturii.
Din punctul de vedere al modalitilor de realizare a sistemelor informatice
executive, consider c locul tehnologiei OLAP n cadrul depozitelor de date ale
organizaiei este esenial, acesta acoperind practic cele dou nivele superioare
identificate de W.H. Inmon. Analiza datelor din depozite fr tehnologia OLAP este ar
fi extrem de grea, implicnd metode i modele statistice i matematice laborioase,
funcii de analiz dezvoltate de programatori, interfee speciale, dezvoltate separate de
restul sistemului.

28

DOCUMENTE DEREFERINTA OLAP, DATAWAREHOUSE, DSS


1.

[ANDE97]

2.

[BARA03/2]

3.

[CRAB99]

4.

[DEVL97]

5.

[DOBR99]

6.

[EDIS06]

7.

[FUBA03]

8.

[FUBA04]

9.

[HACH98]

10. [HUHA99]
11. [INMO96]
12. [INMO99]
13. [JAJE98]
14. [KIMB96]
15. [KIRE98]

Anahory, S., Dennis, M. - Data Warehousing in the Real World, Addison


Wesley Longman, Reading, Mass, 1997
Bra A. - Rolul sistemelor OLAP i a depozitelor de date n
managementul strategic, Sesiunea tinerilor cercettori Evoluii
economice i financiare n contextul integrrii i globalizrii, Centrul
de Cercetri Financiare i Monetare Victor Slvescu, Bucureti, 2003
Crabone, L., P. - Data Warehouses: Many of the common failures, White
paper, mai 1999
Devlin, B. - Data Warehouse from Architecture to Implementation,
Addison Wesley Longman, Reading, Mass, 1997
Dobre I. - Suport de curs postuniversitar, Metode i tehnici de analiz a
sistemelor social economice, Academia de Studii Economice, Facultatea
de Cibernetic, Statistic i Informatic Economic, 1999
Edison Group Inc - Comparative management Cost study of Oracle
Database 10g release 2 and Microsoft SQL Server 2005, 6 martie 2006
Fusaru D., Bra A. - Tehnici i arhitecturi pentru micorarea timpului
de rspuns n sistemele cu depozite de date - Comunicare la Sesiunea de
Comunicri tiinifice a cadrelor didactice Economia Romniei
criterii de funcionalitate i competitivitate, Universitatea Spiru
Haret, Bucureti, mai 2003, publicat n Analele Universitii Spiru
Haret, Seria Economie, Anul 3, nr. 3, pag. 378-385 Editura i Tipografia
Fundaiei Romnia de Mine, 2003, ISSN 1582-8336.
Fusaru D., Bra A. - Sisteme informatice de asistare a deciziei n
managementul modern al organizaiilor economice - Comunicare la
Sesiunea de Comunicri tiinifice Realizri i perspective n procesul
furirii economiei de pia, funcionale, competitive i durabile n
Romnia, Universitatea Spiru Haret, Bucureti, mai 2004, publicat n
Analele Universitii Spiru Haret, Seria Economie, Anul 4,nr. 4, pag.
393-399 Editura i Tipografia Fundaiei Romnia de Mine, 2004, ISSN
1582-8336.
J. Han, S. Chee, J. Y. Chiang. - Issues for on-line analytical mining of
data warehouses. In Proc. 1998 SIGMOD Workshop on Research Issues
on Data Mining and Knowledge Discovery (DMKD'98), Seattle,
Washington, iunie 1998.
Humphries, M., Hawkins, M., Dz, M., - Data Warehousing. Architecture
and Implementation, Prentice Hall PTR,Upper Saddle River, New
Jersez, 1999
Inmon, W.H. - Building the Data Warehouse, John Wiley & Sons, New
York, 1996
Inmon, B. - Data mart does not equal data warehouse, DM Direct
Newsletter, November, 1999
Jarke, M., Jeusfeld, M.A., Quix, C., Vassiliadis, P.- Architecture and
quality in data warehouses, Proceedings CaiSE 98, Pisa, Italy, 1998
Kimball, R. - The Data Warehouse Toolkit, John Wiley & Sons, New
York, 1996
Kimball, R., Reeves, L., Ross, M., Thornthwaite, W. - The data

29

16. [LUNG05]
17. [LUSA04]
18. [MUNT04]
19. [OLAP95]
20. [ORA10G]
21. [ORLI90]
22. [ORRO91]
23. [OWP06]
24. [PODE89]

25. [POWE00]
26. [RAPA72]
27. [RYAN99]
28. [THIE91]
29. [THOM02]
30. [TRPA01]
31. [TURB98]
32. [VILA97]
33. [ZADE74]

Warehouse Lifecycle Toolkit, John Wiley&Sons, Inc., New York, 1998.


Lungu, I - Metode de dezvoltare a sistemelor informatice, Editura
Universitas, Petroani, 2005
Lungu, I, Sabu Gh, Velicanu M, Muntean M, Ionescu S, Posdarie E,
Sandu D - Sisteme informatice. Analiz, proiectare i implementare, Ed.
Economic, 2004
Muntean M. - Iniiere n tehnologia OLAP: teorie i practic, Editura
ASE, Bucureti, 2004
The OLAP Council Definitions, ianuarie 1995
www.olapcouncil.org
ORACLE Corporation documentatie produse Business Intelligence
10g - Users Guide, Concepts, Internet seminars.
www.oracle.com
Orlikowski w. J. - The Duality of Technology. Rethinking the concept of
technology in organization, Sloan School of Management Working
paper, No. 3141, MIT 1990.
Orlikowski W. J. and Robey D. - Information Technology and the
Structuring of organisations. Information Systems Research. Vol. 2,
1991, pp. 143-169.
Oracle Database 10g Product Family Oracle White Paper, Oracle
Corporation, august 2006
Poole, M. S. and Desanctis, G. - Understanding the use of Group
Decision Support Systems: The Theory of Adaptive Structuration, in
Stein field C. And Fulk J., (eds.) Perspectives on Organisations and New
Information Technology. Sage, 1989.
Power D.J. - Decision Support Systems: Concepts and Resources,
Cedar
Falls, IA: DSSresources.com, http://dssresources.com/dssbook/
Rapaport A. - The use mathematical isomorphism in general systems
theory, Trends in general systems theory, New York, 1972
Ryan, J. - Building and deploying an enterprise data warehouse, White
Paper, 1999.
Thierauf Robert J. - Executive Information Systems: A Guide for Senior
Management and Mis Professionals, Hardcover / Quorum Books, 1991
Thomsen E. - OLAP Solutions: Building Multidimensional Information
Systems, John Wiley&Sons, New York, 2002, second edition
J. Trujillo, M. Palomar, J. Gmez, Il-Yeol Song - Designing Data
Warehouses with OO Conceptual Models. IEEE Computer, special issue
on Data Warehouses, 2001.
Turban, E. - Decision Support Systems and Intelligent Systems, 5th ed.,
Englewood Cliffs, New Jersey, Prentice Hall, 1998
Vilan, A. - Data warehouses, data marts i data mining, Revista
Computerworld Romnia, nr. 18 (88), 21 Octombrie 1997
Zadeh, L, A. - Noiunile de sistem, subsistem i stare n teoria
sistemelor, Ed Tehnic, 1974

30

S-ar putea să vă placă și