Documente Academic
Documente Profesional
Documente Cultură
Bucureti
2016-2017
-1-
CUPRINS
DEPOZITE DE DATE.................................................................................................................... - 3 -
1. Modelul de date multidimensional ................................................................................................. - 3 -
1.1. Structura modelului multidimensional ....................................................................... - 3 -
1.2. Operaii realizate asupra modelului multidimensional ............................................... - 7 -
1.3. Restricii de integritate ............................................................................................... - 8 -
1.4. Modele de reprezentare a obiectelor depozitelor de date ........................................... - 9 -
2. Organizarea datelor n depozite de date ........................................................................................ - 11 -
2.1. Inteligena Afacerii aspecte fundamentale ............................................................ - 11 -
2.2. Principalele tehnologii informatice utilizate n sistemele pentru Inteligena Afacerii- 12 -
2.3. Evoluia i definirea depozitelor de date .................................................................. - 13 -
2.4. Obiectivele i caracteristicile organizrii datelor n depozitele de date ................... - 15 -
2.5. Faciliti oferite de depozitele de date sistemelor de Inteligena Afacerii ............... - 17 -
3. Arhitectura depozitelor de date ..................................................................................................... - 18 -
3.1. Arhitectura pe componente a depozitelor de date .................................................... - 18 -
3.2. Arhitectura pe niveluri a depozitelor de date ........................................................... - 19 -
3.3. Arhitectura depozitelor de date din punctul de vedere funcional............................ - 20 -
4. Tipuri de depozite de date............................................................................................................. - 21 -
4.1. Tipuri de depozite de date n funcie de aria de cuprindere ..................................... - 21 -
4.2. Tipuri de depozite de date n funcie de procesele decizionale pentru care au fost
proiectate ............................................................................................................................... - 22 -
4.3. Tipuri de depozite de date n funcie de modelul de date implementat .................... - 22 -
5. Aspecte comparative privind organizarea datelor n baze de date i n depozite de date ............. - 23 -
REALIZAREA DEPOZITELOR DE DATE ............................................................................... - 25 -
1. Considerente privind realizarea depozitelor de date ..................................................................... - 25 -
1.1. Modaliti de realizare a depozitelor de date............................................................ - 25 -
1.2. Metodologii utilizate la realizarea depozitelor de date ............................................ - 26 -
2. Etape de realizare a depozitelor de date ....................................................................................... - 28 -
2.1. Strategia de realizare a depozitelor de date .............................................................. - 28 -
2.2. Modelarea depozitelor de date ................................................................................. - 31 -
2.3. Implementarea depozitelor de date........................................................................... - 34 -
2.4. Exploatarea depozitelor de date ............................................................................... - 42 -
2.5. Criterii de evaluare a depozitelor de date ................................................................. - 44 -
2.6. Instrumente i medii de dezvoltare utilizate pentru realizarea depozitelor de date.. - 45 -
BIBLIOGRAFIE ........................................................................................................................... - 47 -
* Varianta extins a materialului se regsete n monografia Tratat de baze de date. Vol. I. Baze de date: organizare,
proiectare, implementare coord.Ion Lungu.
-2-
Gestiunea volumelor mari de date
DEPOZITE DE DATE
Un depozit de date furnizeaz o surs integrat i centralizat de date, separat de sistemul tranzacional,
care conine datele eseniale despre activitatea companiei din multitudinea de surse de date existente.
Rapoartele obinute pe baza acestor date sunt utilizate ca un instrument de analiz strategic i competitiv,
analizele rapide i corecte putnd influena deciziile privind evoluia organizaiei pe termen mediu i lung.
Cuvinte cheie: depozite de date, cub de date, schema de tip stea, model multidimensional, dimensiuni, fapte,
msuri.
Depozitele de date sunt organizate diferit fa de bazele de date, fiind destinate mai mult
extragerii de date dect actualizrilor repetate. Datele extrase sunt utilizate n analize dinamice care
presupun schimbri de perspectiv asupra datelor i vizualizri ale acestora de la un nivel detaliat la
unul sintetic, agregat i invers. Din acest motiv s-a impus o organizare specific a datelor n care
obiectele sunt structurate pe diferite niveluri care permit aceast analiz dinamic.
Modelele de date utilizate pentru reprezentarea depozitelor de date au cunoscut o diversitate
destul de mare att din punctul de vedere al teoretizrii conceptelor ct mai ales din punctul de
vedere al aplicrii diferitelor tipuri de modele n practic. Dou direcii importante au clasificat
totui aceast diversitate de modele i anume dezvoltarea unor extensii ale modelului relaional i
dezvoltarea modelelor bazate pe cuburi n-dimensionale.
Tipul de model multidimensional utilizat de diverse tehnologii i produse software care
implementeaz depozitele de date difer att din punctul de vedere al SGBD utilizat ct i din cel al
operaiilor realizate asupra datelor i a arhitecturii implementate.
-3-
Gestiunea volumelor mari de date
Nivelurile unei ierarhii sunt eseniale pentru determinarea tipurilor de navigri care se pot
realiza n dimensiuni. Tot consiliul OLAP precizeaz urmtoarele doi membri ai unei ierarhii sunt
de aceeai generaie dac ei au acelai numr de strmoi. Termenii de generaie i nivel sunt
necesari pentru a descrie subgrupuri de membri ntruct, de exemplu, dei doi frai membri au
acelai printe i sunt de aceeai generaie, ei ar putea s nu fie la acelai nivel, dac unul din frai
are un copil i cellalt nu. [OLAP95]
Atributele dimensiunile conin atribute care reprezint calificative specifice. Orice atribut
se asociaz unei singure dimensiuni, iar o dimensiune se poate exprima prin mai multe atribute.
Exist dou tipuri de atribute: de identificare a dimensiunii i a fiecrui nivel n parte i atribute
descriptive care realizeaz o clasificare a datelor n cadrul ierarhiei.
Tabelele de fapte sunt tabelele centrale care conin atribute de tip msuri (metrici) i chei
externe ctre tabelele dimensiuni. Aceste obiecte conin de obicei date numerice care pot fi
nsumate i analizate pe fiecare nivel din ierarhiile dimensiunilor.
Msurile (metricile)- corespund atributelor (faptelor) din tabelele de fapte i sunt de regul
de natur numeric (de exemplu: volumul vnzrilor, costurile, stocurile disponibile). Aceste
variabile au sens numai n contextul unor anumite dimensiuni. Valoarea msurii este calculat
pentru un punct dat prin agregarea datelor corespondente perechii aferente valoare-dimensiune,
diferite pentru punctul dat.
Sunt mai multe criterii dup care se pot clasifica msurile utilizate ntr-o tabel de fapte, i
anume: modalitatea de calcul, tipurile de funcii agregate utilizate, modalitile de nsumare i
agregare n funcie de dimensiuni.
n funcie de modalitatea de calcul atributele se pot clasifica n msuri de baz, care se
-4-
Gestiunea volumelor mari de date
regsesc sub forma atributelor din tabelele de fapte i care provin din sursele de date i msuri
derivate (virtuale) care se obin prin combinarea msurilor de baz i care n tabelele de fapte au
precizat formula de calcul prin care se obin.
n funcie de tipurile de funcii agregate utilizate msurile pot fi organizate n trei categorii:
distributive, algebrice, holistice.
Msurile distributive sunt calculate cu ajutorul unor funcii de agregare distributive.
Presupunem c datele sunt mprite n n seturi. Calcularea funciei pe fiecare partiie determin o
valoare agregat. Dac rezultatul obinut prin aplicarea funciei asupra a n valori agregate este
acelai cu cel obinut prin aplicarea funciei asupra tuturor datelor fr partiionare, funcia poate fi
calculat n manier distributiv. De exemplu, numrul de nregistrri participante poate fi calculat,
pentru un cub de date, printr-o prim partiionare a acestuia ntr-un set de subcuburi, aplicnd
funcia COUNT( ) pentru fiecare subcub i apoi nsumnd rezultatele obinute. Din acest motiv
funcia COUNT( ) este o funcie agregat distributiv.
Msuri algebrice - sunt calculate cu ajutorul unor funcii algebrice cu M argumente (unde M
este un ntreg pozitiv), fiecare din ele obinut prin aplicarea unei funcii agregate distributive. De
exemplu, media (funcia AVG( )) poate fi calculat aplicnd funciile SUM( )/COUNT( ) unde
ambele funcii SUM( ) i COUNT( ) sunt funcii agregate distributive. n mod similar se poate
demonstra c funciile MIN( ), MAX( ) i STDEV( ) (abaterea standard) sunt funcii algebrice
agregate. Msura este algebric dac este obinut prin aplicarea unei funcii algebrice agregate.
Msuri holistice - sunt calculate cu ajutorul unor funcii holistice. O funcie agregat este
holistic, dac aceasta nu este limitat constant pe spaiul de stocare cerut de deschiderea
subagregrii. n acest caz, nu exist o funcie algebric avnd M argumente (unde M este o
constant) care caracterizeaz calculul. Exemple comune de funcii holistice sunt: MEDIAN(),
MODE(), RANK(). O msur holistic este obinut prin aplicarea unei funcii agregate de tip
holistic. Cele mai multe aplicaii necesit calcularea eficient a msurilor distributive i algebrice.
Exist mai multe tehnici eficiente pentru aceasta dar, n contrast, pot fi mai dificil de calculat n
mod eficient msurile holistice. Exist totui anumite tehnici eficiente de aproximare a calculului
msurilor holistice. De exemplu, n loc de a aplica funcia MEDIAN( ) cu exactitate, exist tehnici
care pot determina aproximativ valoarea median pentru un set foarte mare de date, cu rezultate
satisfctoare.
Din punctul de vedere al modalitii de nsumare i agregare n funcie de dimensiuni, Ralph
Kimball n lucrarea The Data Warehouse Toolkit [KIMB96] clasific metricile n trei categorii:
indicatori aditivi care se pot nsuma dup toate dimensiunile, indicatori semiaditivi care se pot
nsuma numai dup unele dimensiuni i indicatori neaditivi care nu se pot nsuma dup nicio
dimensiune, dar care pot fi combinai cu alte variabile pentru a deveni aditivi.
Metadatele reprezint poate cea mai important component a depozitului de date.
Metadatele, denumite i date despre date, descriu coninutul depozitului i permit accesul direct la
date. Tot la nivelul metadatelor se definesc i diverse tabele virtuale (views) asociate unor categorii
specifice de utilizatori. Metadatele sunt intens folosite pentru administrarea depozitului de date,
coninnd informaii despre proveniena datelor, algoritmii de agregare i nsumare, statistici
privind utilizarea i multe altele.
Nivelul metadatelor trebuie s conin urmtoarele categorii de informaii conform
[JAJE98]:
o descriere a structurii de date din depozit, care include schema depozitului,
dimensiunile, ierarhiile, definiiile datelor derivate;
metadatele operaionale, care includ: date privind evoluia n timp (istoricul datelor i
secvena de transformare aplicat asupra lor), circulaia datelor (active, arhivate, terse)
i informaii de monitorizare (statistici privind utilizarea depozitului de date, rapoarte de
erori etc.);
-5-
Gestiunea volumelor mari de date
-6-
Gestiunea volumelor mari de date
procesul de analiz cuprinde mai multe etape: identificarea datelor, obinerea datelor,
interpretarea i analiza datelor pentru a obine informaii, prezentarea informaiilor i
recomandarea unei direcii de aciune. Pentru ca depozitul de date s fie folositor
analitilor din ntreprindere, metadatele trebuie s ofere utilizatorilor informaii care s-i
ajute n parcurgerea etapelor anterior enumerate. Astfel, metadatele trebuie s ajute
utilizatorii s gseasc rapid datele n depozit i s interpreteze corect datele obinute
prin oferirea informaiilor referitoare la formatul i semnificaia datelor;
metadatele sunt o form de auditare a transformrii datelor. Metadatele documenteaz
transformarea datelor surs n date ale depozitului, adic trebuie s fie capabile s
explice modul n care o secven de date din depozit este dedus din sistemele
operaionale. Toate regulile care guverneaz transformarea datelor n noi valori sau noi
formate sunt considerate a fi metadate. Aceast form de audit este necesar atunci cnd
utilizatorii trebuie s aib ncredere n veridicitatea i calitatea datelor din depozit. De
asemenea, este important ca utilizatorii s-i poat da seama de unde provin datele
existente n depozit. Este de dorit ca, pe baza acestor metadate, anumite produse s poat
genera programe de extragere i transformare pentru cei care se ocup de interfaa de
analiz a depozitului de date;
metadatele menin i cresc calitatea datelor, fapt ce se realizeaz prin definirea valorilor
valide pentru fiecare cmp din depozit. nainte de a fi efectiv ncrcate n depozit, datele
pot fi revzute i erorile pot fi corectate. De asemenea, regulile de corecie a erorilor pot
fi documentate tot prin metadate;
metadatele permit gestiunea versiunilor. Un depozit de date conine date pentru diferite
perioade de timp i de aceea este important s avem n vedere efectul pe care l poate
avea timpul asupra regulilor de trecere a cmpurilor surs n cmpuri destinaie, asupra
agregrilor etc. Utilizatorii trebuie s aib acces la metadatele corecte pentru perioada de
timp pe care o studiaz. Ceea ce la prima vedere ar prea s fie o eroare n transformarea
datelor poate fi de fapt rezultatul schimbrii regulilor de transformare a datelor. De aceea
este important ca metadatele s fie corect gestionate din punctul de vedere al versiunilor.
Exemple de metadate. Descrierea proprietilor datelor (obiectelor) din lumea real se face
prin intermediul metadatelor, printr-un proces de abstractizare. Astfel, metadatele referitoare la
cmpurile unui depozit de date se vor referi la: denumirea cmpului (aa cum va fi folosit n tabela
relaional fizic), sinonim pentru denumirea cmpului (aa cum este folosit de utilizatori), tipul de
date pentru fiecare cmp (aa cum este acceptat de SGBD), indexarea (dac va fi folosit pentru
cmp), cheia (dac un cmp este cheie), formatul cmpului, descrierea (o definiie a cmpului).
precalcularea unor valori globale. Aceasta operaie este numit consolidare (cnd se refer la
aspectul conceptual), nsumare (din perspectiva procedural), agregare (din perspectiva
structural). Aceste agregri se refer la o anumit msur i se realizeaz dup dimensiunile
corespunztoare acesteia. Pentru atributele organizate ierarhic, consolidarea se face nivel cu nivel.
Aceste operaii implic de cele mai multe ori doar calcularea unor subtotaluri, dar exist i excepii
n care se utilizeaz formule sau procedee statistice. Nivelul la care se face nsumarea n cazul n
care sunt implicate ierarhii se numete granularitate. Procesul de agregare creeaz o redundan n
cadrul depozitului, dar volumul acesteia nu este semnificativ deoarece scade exponenial cu fiecare
nivel de nsumare. Ctigul de performan obinut la accesarea datelor este deosebit de important
n analiz.
Rotaiile reprezint operaiile cele mai frecvente n structurile de date multidimensionale i
ofer utilizatorului posibilitatea de a alege perspectiva asupra datelor pe care le va utiliza. De
exemplu n cazul bidimensional exist dou posibiliti de vizualizare, iar n cazul tridimensional se
pot utiliza 6 rotaii pentru a vizualiza datele din diferite perspective, iar pentru patru dimensiuni
exist 24 de perspective posibile. Fiecare rotaie pune n eviden o nou perspectiv, aducnd n
prim-plan o structur bidimensional, o faet (slice) a datelor. Din acest motiv rotaia se mai
numete i data slicing. Aceste operaii nu implic o reorganizare a datelor stocate, ci o schimbare a
modalitii de reprezentare, spre deosebire de cazul unor structuri relaionale, pentru care o nou
faet poate fi obinut doar n urma unor interogri complexe.
Seciuni - reprezint vederi sau imagini (views) specifice diverselor categorii de utilizatori,
prin operaii de secionare prin care se obin felii bidimensionale (slices). Tehnica aceasta const
n limitarea unor atribute la anumite valori i obinerea unui cub de date redus (procedeu numit data
dicing).
Extensii ale operatorilor relaionali permit realizarea n limbajul SQL a unor subtotaluri
asupra obiectelor depozitului de date stocate sub form de tabele relaionale. Cercettorul american
Paul Gray a propus n anul 1998 [GRWA98] operatorii CUBE i ROLLUP care realizeaz agregarea
datelor pe baza unor coloane dintr-o tabel relaional ce reprezint o dimensiune.
Operatorul ROLLUP permite realizarea de subtotaluri n funcie de coloanele specificate cu
ajutorul funciilor de agregare implementate de SGBD relaionale (SUM( ), COUNT( ), AVG( ),
STDEV( )).
Operatorul CUBE produce toate combinaiile posibile de subtotaluri dintr-un cub. Prin
utilizarea funciei GROUPING se poate face o distincie ntre valorile NULL din tabel i cele
rezultate din agregare.
-8-
Gestiunea volumelor mari de date
Dimensiunile n acest caz sunt denormalizate, ele avnd date redundante care elimin
necesitatea unor legturi multiple ntre tabele. ntr-o schem stea nu exist dect o singur legtur
ntre tabela de fapte i dimensiuni.
Schema de tip stea are urmtoarele caracteristici:
ntre tabela de fapte i dimensiuni exist jonciuni de egalitate;
cheile primare ale dimensiunilor se regsesc printre atributele cheii compuse a tabelei de
fapte;
atributele tabelei de fapte care nu particip la jonciune pot fi agregate.
Optimizarea performanei de rspuns la interogri este principalul avantaj al acestui model,
ns este destul de inflexibil.
Schema de tip Fulg de Nea - este o variant a modelului stea n care o parte din tabelele
-9-
Gestiunea volumelor mari de date
dimensiune sunt normalizate, iar datele sunt distribuite n tabele suplimentare (figura 3). Rezult o
schem reprezentat ntr-un grafic similar unui fulg de zpad. Diferena ntre modelul stea i
modelul fulg de nea este c tabelele dimensiune din acesta pot fi pstrate n forma normalizat, ceea
ce determin o redundan controlat. Asemenea tabele sunt uor de ntreinut i astfel se
economisete spaiu de stocare. Totui aceast economie de spaiu este neglijabil n comparaie cu
volumul foarte mare de date din tabela de fapte. Mai mult, structura fulg de nea poate reduce
performana extragerii de date deoarece sunt necesare mai multe jonciuni ntre tabele la o singur
interogare.
Schema Galaxie reprezint o asociere de scheme de tip stea i care conine tabele de fapte
suplimentare care stocheaz date agregate. n cadrul galaxiei exist o stea principal, numit stea
central care conine datele la nivel atomic, iar celelalte stele conin date agregate (figura 4).
Legtura dintre stele se realizeaz prin intermediul dimensiunilor, astfel nct o dimensiune
va face parte din una sau mai multe stele.
- 10 -
Gestiunea volumelor mari de date
Avantajul principal al acestei scheme este dat de faptul c datele agregate sunt independente
de cele atomice, ns dezavantajul este c modificarea stelelor agregate trebuie s asigure
consistena datelor cu steaua central.
PRODUS
LOCATIE
TIMP
T1 T2 T3
timp
Figura 6. Cub de date cu patru dimensiuni
- 11 -
Gestiunea volumelor mari de date
n momentul actual, foarte puine dintre soluiile informatice pentru Inteligena Afacerii nu
sunt realizate cu sisteme de baze de date. Marii productori actuali de sisteme de gestiune a bazelor
de date (SGBD) - Oracle, IBM, Microsoft, Informix - sunt i marii furnizori de soluii informatice
pentru Inteligena Afacerii. Acest lucru a fost realizat prin extinderea SGBD cu tehnologiile
informatice care conduc spre soluii de IA. Extinderea se ncadreaz n tendina actual, conform
creia SGBD au devenit acum infrastructuri complexe i complete pentru baze de date de diferite
tipuri.
Printre cele mai utilizate tehnologii informatice pentru sistemele de Inteligena Afacerii
sunt: depozitele de date, concentrrile de date, extragereatransformarea-ncrcarea datelor, analiza
complex multidimensional a datelor - sistemele OLAP, extragerea i descoperirea de cunotine
din date.
Depozitele de date (Data Warehouse) i concentrrile de date (Data Marts) - sunt dou
soluii care rezolv problemele legate de sursele de date disparate i de scopurile incompatibile
dintre procesarea tranzaciilor i aplicaiile de IA. Scopul unui depozit de date este de a furniza un
stoc central de date, unde informaiile din unul sau mai multe sisteme tranzacionale pot fi
consolidate ntr-o singur surs de date, integrat i consistent. Depozitul de date este proiectat
- 12 -
Gestiunea volumelor mari de date
pentru a optimiza generarea de rapoarte dinamice pe un numr mare de nregistrri ale coleciilor de
date. El presupune multe regsiri i foarte puine actualizri (sau deloc) pentru c datele stocate au
un caracter istoric. Rezultatele interogrii intense a depozitelor de date sunt folosite pentru
fundamentarea deciziilor.
Aceste faciliti, dac sunt integrate n produse software care aparin unui SGBD, rspund
optim tuturor cerinelor unei afaceri, deoarece se bazeaz pe un ansamblu mare i variat de date, cu
faciliti de regsire deosebite.
Deoarece procesul dezvoltrii unui depozit de date la nivel de ntreprindere este lung i
complex i uneori nu se ncheie cu succes, practicienii acestuia pot adopta o abordate alternativ:
dezvoltarea unor depozite mai mici i consolidate, cunoscute sub denumirea de concentrri de date.
Astfel, prin date stocate n volume mai mici, nevoia de o raportare mai exact i imediat poate fi
suplinit ntr-un ciclu de dezvoltare mai scurt, la un pre mai mic. Aadar, concentrarea de date este
de regul un depozit de date de dimensiuni reduse realizat la nivelul unui departament sau al unei
sector de activiti din cadrul organizaiei.
Tehnologia de Extragere, Transformare, ncrcare (ETI) - se refer la crearea unui depozit
de date din mai multe surse de date. Dezvoltarea unei vederi singulare i consistente a datelor care
exist n mai multe sisteme, adic integrarea datelor, necesit curarea acestora. De asemenea,
datele de la surs s-ar putea s necesite uneori transformarea spre un format comun n depozitul de
date. O interfa ETI permite definirea regulilor de afaceri utiliznd produse software pentru:
interfa grafic, interfee standard de comunicaie cu date (ODBC, JDBC etc.), acces la date,
prelucrarea datelor, stocarea datelor.
Tehnologia OLAP (On Line Analytical Processing) - utilizeaz analiza multidimensional a
datelor pentru a atinge flexibilitatea i n acelai timp a menine performana. n aceast abordare,
datele sunt vzute la nivel conceptual ca un cub. Acest cub const din valori cantitative, denumite
msuri i categorii descriptive, denumite dimensiuni. n procesul de analiz a datelor se tie exact ce
trebuie s se obin, prin folosirea unor algoritmi de statistic superioar. Utilitatea pentru
organizaii const n abilitatea de a-i analiza superior datele n scopul de a furniza viziunea
necesar lurii deciziilor. Aceast utilitate este dat de abilitatea la nivelul conducerii de a-i analiza
superior datele pe care le deine n scopul de a furniza viziunea necesar lurii deciziilor i de
cutare a datelor ntr-un spaiu multidimensional prin valorificarea experienei existente n analiza
statistic clasic, adugnd noi tehnici i metode superioare.
Extragerea de cunotine din date (Data Mining - DM). Extragerea i descoperirea de date
conduce tehnologia IA cu un pas mai departe dect OLAP. n sistemele OLAP utilizatorul este
angajat n mod activ n explorarea datelor, pe cnd n data mining, informaia spune ceva despre
date fr s fie adresat vreo ntrebare. Tehnologia data mining utilizeaz metode de cutare
complexe spre a identifica modele i grupri ale datelor, putnd identifica tendine neprevzute n
comportamentul consumatorului, care potenial pot fi utilizate s prevad comportamentul viitor.
Extragerea de cunotine din date se mbuntete cu ct crete cantitatea de date i necesit
depozite de date de nalt calitate pentru a putea da rezultate utile. Data mining realizeaz analiza
datelor i nvarea folosind n acest sens un conglomerat de tehnologii informatice: inteligena
artificial, statistica, matematica etc.
- 13 -
Gestiunea volumelor mari de date
- 14 -
Gestiunea volumelor mari de date
ignorate. Pentru astfel de aplicaii, datele trebuie bine organizate i indexate pentru o uoar regsire
i utilizare.
Volumul unui depozit de date se ncadreaz ntre 1 i peste 10 TB, aceste cifre neavnd
dect un caracter orientativ [VILA97]. Exist astfel i depozite de date coninnd zeci de terabytes.
Crearea unui astfel de depozit cost n medie 3-5 milioane dolari. Din acest cost, o treime o
reprezint serviciile profesionale. O alt treime se cheltuiete pentru aplicaiile necesare extragerii,
prelucrrii, depozitrii i analizrii datelor, iar ultima treime este destinat sistemelor hardware
necesare i stocrii datelor. De obicei, depozitele de date i dubleaz dimensiunile n primele 12
pn la 18 luni. Aceast cretere exponenial poate fi pe de o parte semnul sigur al succesului
implementrii depozitelor dar, pe de alt parte, poate deveni o problem dac sistemele nu sunt
construite de la nceput suficient de elastice i de deschise.
Din cele de mai sus rezult importana deosebit a flexibilitii impuse sistemelor care
implementeaz asemenea depozite de date. Aici, flexibilitate nseamn o conectivitate la nivelul
ntregii organizaii, astfel nct servere de baze de date diferite s se poat conecta simultan la
depozitul deja existent. Este de asemenea deosebit de important s se aleag o arhitectur care s se
adapteze uor la modificrile de performane, capacitate i conectivitate.
Pentru a evita aceste probleme, se poate alege o cale de mijloc i se poate opta pentru
realizarea unei concentrri de date (data mart) care s conin numai datele relevante pentru analiza
necesar. Conectnd mpreun concentrrile de date aferente diferitelor compartimente ale
companiei se formeaz astfel o infrastructur specific, departamentele putnd folosi n comun
datele i se poate crea un depozit de date mai uor de construit i mai elastic.
Un data mart tipic poate utiliza servere existente, structura informaional existent (o reea
LAN sau Intranet) cu mai puin de 500 GB, cost mai puin de 1 milion de dolari i se
implementeaz de obicei n aproximativ 90 de zile.
Rolul unui depozit de date este de a oferi o imagine coerent asupra datelor relative la
activitatea unei organizaii i a contextului n care acesta acioneaz. Utilizarea acestei colecii poate
consta din extragerea unor rapoarte (la cerere sau cu o anumit periodicitate), extragerea unor date
pentru a fi utilizate de aplicaiile de birotic (programe de calcul tabelar, procesoare de text,
programe de prezentare etc.), dar mai ales pentru a fi utilizate de ctre aplicaii specializate de
analiz, precum tehnologia OLAP i tehnologiile pentru extragerea cunotinelor din date (data
mining).
Organizarea datelor n depozite de date prezint o serie de obiective derivate din scopul
principal al realizrii acestora i anume suportul pentru analize complexe i dinamice asupra datelor
istorice i curente ale organizaiei.
Principalele obiective identificate sunt:
depozitul de date trebuie s asigure accesul la datele organizaiei. Accesul trebuie s se
realizeze ntr-un timp ct mai scurt, la cerere i s fie performant. Datele ntr-un depozit
de date pot fi separate i combinate pentru a oferi un acces ct mai rapid i un timp de
rspuns ct mai mic sistemului. De asemenea, accesul presupune existena unor utilitare
care s fie foarte uor de folosit;
utilizarea datelor din depozite direct n analize, fr alte prelucrri suplimentare.
Datele nu sunt doar centralizate, integrate i stocate, ci dup ce sunt extrase dintr-o
varietate de surse, sunt corectate de erori, transformate, li se asigur calitatea necesar i
abia apoi devin utilizabile. Depozitele de date nu reprezint doar datele, ci i un set de
utilitare pentru a interoga, analiza i prezenta informaiile;
stocarea de date istorice. Pentru analiza economic, informaiile care au caracter istoric
sunt eseniale, deoarece ele pun n evident tendine care reprezint fundamentul unei
- 15 -
Gestiunea volumelor mari de date
- 16 -
Gestiunea volumelor mari de date
dinamica lipsete. Actualizarea se realizeaz aici doar prin adugarea periodic a unor date extrase
din sistemele operative sau din alte surse de date.
Din punctul de vedere al aplicaiilor care folosesc depozitul de date, accesul la date este
doar pentru citire.
n sistemul operaional, o tranzacie trebuie s duc colecia de date dintr-o stare consistent
ntr-o alt stare consistent, iar aceasta implic mecanisme complexe de meninere a integritii
datelor (jurnalizare, salvare/restaurare, blocare). n cazul depozitelor de date mecanismele de
integritate sunt inutile, astfel c gradul de libertate ctigat poate fi utilizat pentru optimizarea
accesului la date prin denormalizare, agregare, statistici ale accesrii datelor, reorganizare dinamic
a indexrii etc.
- 17 -
Gestiunea volumelor mari de date
care permit descoperirea de corelaii, reguli, cunotine utile sprijinirii deciziilor (exemplu Oracle
Miner).
Elementele care alctuiesc un depozit de date pot fi interconectate n mai multe tipuri de
arhitecturi n funcie de rolul, funcionalitatea i de viziunea utilizatorilor asupra acestora. Astfel se
pot distinge urmtoarele tipuri de arhitecturi: pe componente, pe niveluri i arhitectura funcional
a DD.
Esena unui depozit de date const ntr-un ansamblu de date de dimensiuni foarte mari
coninnd informaiile pe care le pot folosi utilizatorii (clieni, furnizori, companii de publicitate
etc.).
Arhitectura pe componente evideniaz componentele DD i legturile dintre ele: depozitul
de date, sursa de date, interfeele de analiz (figura 7).
Depozitul de date conine mai multe tipuri de date care corespund diferitelor cerine
informaionale ale utilizatorilor: date detaliate, date agregate, metadate (dicionarul de date).
Datele detaliate sunt cele relativ recente, livrate utilizatorilor, de regul la nivel de execuie.
Datele agregate, dei determin o cretere a redundanei datelor, sunt necesare n depozitul
de date deoarece n acest fel se poate asigura un timp mediu de rspuns ct mai redus. Aceste date
presupun un grad de prelucrare prealabil, astfel nct s fie pregtite pentru suport decizional i
analize avansate: consolidare, totalizare, agregare, mpachetare (n formate accesibile interfeelor de
analiz utilizate). Tot aici se gsesc date avnd o anumit vechime (civa ani), n form detaliat.
Metadatele descriu datele coninute n depozitul de date i modul n care ele sunt obinute i
stocate. Prin metadate se precizeaz structura datelor, proveniena lor, regulile de transformare, de
agregare i de calcul. Ele sunt utilizate ori de cte ori se utilizeaz depozitul de date: la ncrcarea
datelor, la consultare, la actualizare, adic pe parcursul ntregului ciclu de via al depozitului.
Not. Aceast structur a datelor n DD este dinamic, datele intr n depozitul de date,
circul pe diverse niveluri, i schimb forma i poziia, i schimb destinaia.
- 18 -
Gestiunea volumelor mari de date
Sursele de date pentru depozitul de date sunt: datele operaionale curente (baze de date
i/sau fiiere din sistemul informatic operaional al organizaiei), datele vechi arhivate, datele
externe (baze de date i fiiere din sistemele informatice ale altor organizaii).
Construirea depozitului de date, pornind de la sursele de date, presupune parcurgerea unor
etape n cadrul unui proces de transformare:
extragerea datelor din datele operaionale sau din surse externe, urmat de copierea lor n
depozitul de date. Acest proces trebuie, cel mai adesea, s transforme datele n structura
i formatul intern al depozitului;
filtrarea datelor, pentru a exista certitudinea c datele sunt corecte i pot fi utilizate
pentru luarea deciziilor;
ncrcarea datelor corecte n depozitul de date;
agregarea datelor: totaluri precalculate, subtotaluri, valori medii, sume etc., care se
preconizeaz c vor fi cerute i folosite de utilizatori. Aceste agregri sunt stocate n
depozitul de date mpreun cu datele importate din sursele interne i externe.
Interfeele de analiz sunt produse software care implementeaz tehnologii informatice
pentru extragerea i analiza datelor din depozitul de date: data mining, OLAP.
extragere
Strat mediu
Servere specializate
(OLAP, DATA MINING)
Depozite de date
transformare
Stratul inferior (bottom tier) este format din serverul depozitului de date i este, n cele mai
multe cazuri, un sistem de baze de date relaionale. Datele care provin din bazele de date
operaionale i din sursele externe (de exemplu, date referitoare la profilul clientului, date furnizate
de consultani externi, rezultatele unor sondaje) sunt extrase utiliznd programe de tip interfa
(gateways), care colaboreaz cu SGBD i permite programelor client s genereze cod (de obicei
SQL) pentru a fi executat de server. Exemple de astfel de interfee: ODBC (Open DataBase
- 19 -
Gestiunea volumelor mari de date
Connection), OLE (Open Linking and Embedding), JDBC (Java DataBase Connection). n acest
fel, datele sunt extrase, filtrate, transformate i ncrcate n depozitul de date. mprosptarea datelor
din depozitul de date se face pe msura trecerii timpului (lunar, trimestrial, anual).
Stratul mediu (middle tier) este bazat pe un server specializat, care poate fi: OLAP (bazat pe
modelul relaional ROLAP sau pe modelul multidimensional - MOLAP), data mining (extrageri
de cunotine din date i analize statistice superioare). De multe ori acest strat este inclus n SGBD
relaional (exemplu Oracle, DB2).
Stratul superior (top tier) este nivelul client care conine interfee pentru generarea
interogrilor, a rapoartelor, pentru analiza superioar a datelor.
Aceast arhitectur mparte depozitul de date n trei module (niveluri) distincte: modulul
operaional, modulul central al depozitului de date i modulul strategic de afaceri (figura 9).
Modulul operaional - reprezentat de datele companiei care sunt de obicei pstrate sub
form diferit la locaii diferite. Aceste date pot proveni de la aplicaii sau de la sisteme distribuite
din cadrul companiilor cum ar fi sisteme de gestiune a comenzilor, de eliberare a facturilor, de
contabilitate financiar, de gestiune a stocurilor, salarizare etc. Indiferent de originea lor, datele
trebuie s fie colectate i aduse ntr-o form consistent pentru a putea fi folosite. Acest proces de
transformare a datelor reprezint baza pe care se construiete un depozit de date consistent, de nalt
calitate. Transformarea datelor presupune un proces de extragere, condiionare, curare, fuziune,
validare i ncrcare.
Modulul central al depozitului de date reprezentat de SGBD, de serverul pe care acesta
ruleaz i de modul n care este implementat depozitul. Exist n acest moment dou tendine: una
ar fi implementarea unui sistem distribuit, descentralizat unde datele sunt pstrate n concentrri de
date independente (Independent Data Marts) fiecare coninnd datele relevante pentru un anumit
aspect al operaiilor unei instituii, iar a doua posibilitate ar fi implementarea unei surse de date
unice, centralizate la care au acces utilizatorii din toate departamentele respectivei instituii.
Sisteme IA
- 20 -
Gestiunea volumelor mari de date
Modulul strategic de afaceri - valoarea final a unui depozit de date este determinat de
avantajele pe care le ofer utilizatorului n diferite procese de luare a deciziilor i analiz. Prin
folosirea diferitelor modaliti de acces la informaie i a tehnologiilor de procesare disponibile,
utilizatorii pot obine informaii care i vor ajuta n procesele de stabilire a strategiei firmei. La
ultimul nivel al arhitecturii, datele sunt pregtite pentru interpretare i analiz cu ajutorul
instrumentelor specifice cum ar fi: instrumente de realizare a graficelor, prezentri, rapoarte
dinamice, navigatoare (browser Web), instrumente de vizualizare a datelor.
Arhitectura funcional a depozitelor de date prezentat mai sus permite proiectarea i
implementarea unor diverse tipuri de depozite de date n funcie de cerinele de afaceri, resursele
disponibile i posibilitile de realizare.
n funcie de aria de cuprindere se ntlnesc trei tipuri de depozite de date: depozite la nivelul
organizaiei (Enterprise Warehouse), concentrri de date (Data Marts), depozite virtuale de date
(Virtual Data warehouse).
Depozitul la nivel de organizaie colecteaz toate informaiile despre subiectele care privesc
ntreaga activitate a unei companii i furnizeaz un volum foarte mare de date. De regul conine
date detaliate, dar i date agregate, iar ordinul de mrime este de peste 5 TB. Un astfel de depozit de
date poate fi implementat pe servere dedicate, pe platforme cu arhitecturi paralele sau pe maini de
baze de date. Acestea necesit cheltuieli mari i mult timp (ani) pentru modelare, proiectare i
realizare.
Concentrrile de date conin un subset al volumului de date din organizaie, specific unui
grup de utilizatori (unui compartiment). Domeniul este limitat la subiecte specifice. De exemplu,
pentru activitatea de marketing se limiteaz subiectele la clieni, produse, vnzri. Datele coninute
sunt de obicei agregate. Concentrrile de date sunt implementate pe servere departamentale sau pe
serverele de baze de date existente n cadrul organizaiei. Ciclul de implementare al unei concentrri
de date este msurat n sptmni sau luni sau ani. Ca atare, un data mart poate fi considerat un
subansamblu al unui depozit de date mai uor de construit i ntreinut i mai ieftin [INMO99].
Depozitul virtual este un set de vederi (views) asupra bazelor de date operaionale. Pentru
eficiena procesrilor interogrilor, numai unele din vederile de agregare pot fi materializate. Un
depozit virtual este uor de construit, dar problema extragerii i prelucrrii datelor revine n mod
exclusiv serverului de baze de date, ceea ce poate conduce la un timp de prelucrare mare, ns se
elimin necesitatea stocrii datelor ntr-un depozit real [HOLL00]. Aceast variant se recomand a
fi aplicat n cazul n care volumul de date necesar este mic, de mii de nregistrri. ns dac se
depete acest interval, timpul de extragere a datelor crete semnificativ i recomandabil ar fi s se
combine soluia de depozit virtual cu stocarea datelor agregate separat ntr-un data mart sau depozit
de date real.
- 21 -
Gestiunea volumelor mari de date
4.2. Tipuri de depozite de date n funcie de procesele decizionale pentru care au fost
proiectate
- 22 -
Gestiunea volumelor mari de date
Ca o asemnare, att bazele de date ct i depozitele de date conin cantiti mari de date
structurate care pot fi consultate rapid, prin structuri de acces optimizate i se bazeaz, n
majoritatea cazurilor, pe tehnologia relaional.
- 24 -
Gestiunea volumelor mari de date
Realizarea depozitelor de date trebuie privit n contextul realizrii sistemelor destinate Inteligenei
Afacerii, care necesit modele de analiz i proiectare diferite, abordri specifice ale ciclului de dezvoltare
care s se concentreze pe cerinele de afaceri ale organizaiei. Aceste sistemele sunt orientate mai mult spre
oportunitile de afaceri dect spre cerinele sau nevoile curente i trebuie s ofere suport decizional la nivel
departamental sau chiar la nivelul ntregii organizaii n funcie de scopul pentru care au fost proiectate.
Cuvinte cheie: realizarea depozitelor de date, metodologii de realizare a depozitelor de date, procesul de
extragere, transformare i ncrcare a datelor.
La realizarea unui depozit de date trebuie avute n vedere o serie de aspecte preliminare care
condiioneaz atingerea obiectivelor pentru care acesta este destinat.
Astfel, deoarece activitatea de realizare a unui depozit de date consum importante resurse,
este necesar s se elaboreze mai nti o analiz economic, pentru a determina msura n care
depozitul de date este necesar i eficient. Din aceast analiz economic se va vedea dac depozitul
de date satisface urmtoarele cerine: furnizeaz avantaje competitive oferind informaii relevante,
pe baza crora se pot msura performanele i se pot face ajustri critice pentru a ctiga n faa
concurenei; faciliteaz gestiunea relaiilor cu clienii prin furnizarea unei vederi consistente despre
clienii i produsele comercializate de organizaie, pe toate departamentele; determin reducerea
costurilor prin evidenierea tendinelor, direciilor i excepiilor pe perioade lungi de timp;
determin creterea productivitii prin obinerea rapid i eficient de informaii care descriu cu
acuratee organizaia.
- 25 -
Gestiunea volumelor mari de date
Privind depozitele de date ca orice sistem informatic integrat de mari dimensiuni, putem
utiliza la realizarea acestora metodologiile existente adaptate la cerinele de utilizare a sistemelor de
Inteligena Afacerii.
Din punctul de vedere al ciclului de via putem aplica dou tipuri de metode: metoda n
cascad i metoda n spiral. Metoda n cascad presupune o analiz structurat i sistematic pe
fiecare etap. Metoda n spiral implic generarea rapid de sisteme funcionale din ce n ce mai
complete, la intervale scurte, ntre dou versiuni succesive. Acest lucru constituie un atu important
pentru realizarea depozitelor de date, pentru c intervalul de finalizare este scurt, schimbrile pot fi
fcute imediat i noile tehnologii pot fi adaptate rapid i uor.
Din punctul de vedere al modului de abordare putem aplica att metodologii structurate ct
i metodologii orientate-obiect.
Metodologii cu abordare structurat (descrise pe larg n [LUNG05b]) presupun
diviziunea n subsisteme pe baza funciilor identificate - abordarea funcional, care structureaz
- 26 -
Gestiunea volumelor mari de date
sistemul pornind de la prelucrrile pe care le sufer datele, sau n funcie de date - abordarea bazat
pe date, care structureaz sistemul pornind de la structura datelor utilizate i de la relaiile care
exist ntre acestea. Aceste metodologii propun modelarea datelor separat de modelarea
procedurilor. Din acest punct de vedere depozitul de date poate fi realizat pe dou niveluri: logic
n care se modeleaz schemele depozitului de date i fizic n care este realizat structura tehnic i
operaional a acestuia.
Aceast descompunere pe cele dou niveluri poate fi un punct de plecare n abordarea unui
depozit de date n ceea ce privete separarea i delimitarea funciilor acestuia, identificarea
subsistemelor i a componentelor sale. Din acest punct de vedere, avantajele utilizrii modelelor
structurate n realizarea depozitelor de date ar fi legate de realizarea modular prin divizarea pe
componente i reducerea timpului de implementare prin posibilitatea realizrii paralele a
componentelor identificate.
Dezavantajele utilizrii acestor metode n realizarea depozitelor de date pot fi cauzate de
rigiditatea modelelor n sensul c divizarea i realizarea modular pot duce la pierderea privirii de
ansamblu la un moment dat, iar cerinele de afaceri pentru care acesta a fost conceput nu sunt
modelate n interaciune cu funciile i datele.
Printre metodologiile structurate care pot fi aplicate la realizarea depozitelor de date putem
meniona: Structured System Analysis and Design Methodology (SSADM elaborat la propunerea
Guvernului britanic), Rapid Application Development (RAD), AXIAL elaborat de firma IBM,
Custom Development Method (CDM elaborat de corporaia Oracle).
Metodologiile orientate-obiect (OO) bazate pe conceptele de obiect i clas permit
utilizarea a trei tipuri diferite de modele pentru realizarea unui depozit de date: modelul static prin
care se modeleaz obiectele i relaiile lor n cadrul depozitului; modelul dinamic sunt descrise
interaciunile dintre obiecte; modelul funcional prin care se realizeaz transformarea valorii
datelor cu ajutorul operaiilor i proceselor.
Avantajele aplicrii metodologiilor orientate-obiect pentru realizarea depozitelor de date
deriv tocmai din posibilitatea de a modela unitar att funciile ct i datele, de a surprinde asupra
aceluiai obiect att caracteristicile statice, funcionale ct i dinamice, prin prisma interaciunilor
cu alte obiecte. n acest fel pot fi modelate i cerinele de afaceri n interaciune cu obiectele.
Un alt aspect este acela c metodologiile orientate-obiect acord o mare importan
reutilizrii pachetelor i a componentelor. Astfel eventualele schimbri identificate n utilizarea
depozitelor se pot realiza cu uurin prin modificarea structurilor deja implementate, fr a fi
necesar reproiectarea DD.
n concluzie, putem spune c avantajele aduse de metodologiile orientate-obiect fa de cele
structurate recomand abordarea obiectual n cazul realizrii depozitelor de date.
n ceea ce privete metodologiile orientate-obiect, prin elaborarea standardului UML s-au
nlturat o mare parte dintre diferenele existente ntre diferitele tipuri de abordri i se poate aplica
acest standard de modelare pentru realizarea depozitelor de date. Astfel se poate adapta setul
standard de notaii i diagrame existente n UML innd cont de urmtoarele aspecte:
condiiile de utilizare depozitele de date sunt proiectate pentru analize
multidimensionale i extrageri de date, din acest motiv trebuie s fie optimizate pentru a
realiza o mare varietate de interogri;
actualizarea datelor datele din depozite sunt actualizate la intervale de timp regulate
(sptmnal, lunar) cu ajutorul procesului ETI. Utilizatorii finali nu pot modifica
(actualiza) direct datele;
modelul de date utilizat - n depozitele de date se folosete forma denormalizat (schema
stea) pentru optimizarea operaiilor de interogare, fa de sistemele OLTP care folosesc
forma normalizat a datelor pentru a optimiza operaiile de adugare/modificare/tergere
i pentru a garanta consistena datelor. Esena unui model dimensional de calitate sporit
const n alegerea unui set de dimensiuni ct mai apropiate de cele naturale i de
perspectiva utilizatorului;
- 27 -
Gestiunea volumelor mari de date
Din analiza diferitelor metodologii de realizare a depozitelor de date se pot deduce o serie de
activiti, care pot fi sintetizate n necesitatea parcurgerii urmtorilor pai/etape: 1. strategia de
realizare; 2. planificarea (modelarea) cerinelor; 3. implementarea; 4. exploatarea. Aceti pai vor
fi prezentai n continuare.
Strategia de realizare a depozitelor de date este primul pas care trebuie parcurs i presupune
elaborarea urmtoarelor elemente:
planul preliminar al depozitului de date. n cadrul unui proiect de DD nu pot fi
satisfcute chiar toate cerinele utilizatorilor, deoarece ar rezulta un sistem uria, greu de
gestionat. De aceea, de regul se face o list cu prioritile cerinelor utilizatorilor, iar
aceste cerine vor fi ataate diferitelor componente ale depozitului, care vor fi dezvoltate
iterativ. Natura iterativ a proiectului permite echipei de dezvoltare s extind
funcionalitile depozitului de date ntr-o manier uor de controlat;
arhitectura preliminar a depozitului de date. Se definete arhitectura global a
depozitului de date pentru proiectul pilot, precum i versiunile care vor urma pentru a
asigura scalabilitatea sistemului. Prin analizarea posibilelor arhitecturi de depozite de
date, analitii de sistem vor putea s determine o mulime de alte componente care vor fi
necesare pentru fiecare versiune;
lista preliminar a mediilor de dezvoltare a depozitului de date. Exist un numr destul
de mare de medii de dezvoltare pentru depozitele de date i, de aceea, se recomand
alctuirea unei liste sintetice cu cele care pot fi de folos n cadrul organizaiei. Alegerea
unor produse informatice standardizate va reduce problemele de integrare i va minimiza
efortul de nvare att pentru echipa de dezvoltare, ct i pentru utilizatori.
Etapele necesare pentru a duce la ndeplinire strategia depozitelor de date sunt urmtoarele:
determinarea contextului organizaional, realizarea unei vederi preliminare de ansamblu asupra
cerinelor, realizarea auditului preliminar referitor la sistemele surs, identificarea surselor de
date externe, definirea versiunilor depozitului de date, definirea arhitecturii preliminare a
depozitului de date i evaluarea mediilor de dezvoltare a depozitului de date.
Fiecare etap poate fi ndeplinit ntr-un interval de timp de aproximativ trei pn la cinci
sptmni, n funcie de disponibilitatea resurselor i mrimea organizaiei.
1. Determinarea contextului organizaional. nelegerea profund a organizaiei ajut la
stabilirea contextului n care se desfoar proiectul i poate evidenia aspectele culturii
organizaionale, care pot uura sau ngreuna proiectul depozitului de date. Rspunsurile la
ntrebrile legate de organizaie se obin de obicei de la susintorul proiectului, managerul IT sau
managerul de proiect. ntrebrile tipice sunt urmtoarele:
- 28 -
Gestiunea volumelor mari de date
- 29 -
Gestiunea volumelor mari de date
trebuie evitat s se fac delimitri clare privind aria depozitelor de date. Uneori se va
constata c o parte dintre situaiile de ieire de care au nevoie utilizatorii nu pot fi
realizate pe baza datelor existente n sistemele operaionale;
trebuie pstrat clar obiectivul interviului i nu trebuie s ne abatem de la el: realizarea
unui inventar al cerinelor i nu o nelegere foarte detaliat a lor;
echipa care realizeaz interviurile trebuie s fie mic. Echipa ideal este format din doi
oameni: unul pune ntrebrile i cellalt noteaz rspunsurile;
se poate nregistra interviul, dac persoana este de acord, ascultarea ulterioar a discuiei
putnd fi de mare ajutor;
stilul de interviu va depinde de persoana intervievat. Managerii de nivel mediu sunt cei
care lucreaz cel mai mult cu rapoartele analitice, n timp ce managerii de nivel nalt au
cerine legate de informaii cu caracter strategic.
3. Realizarea auditului preliminar referitor la sistemele surs. Este recomandabil ca echipa
de dezvoltare s obin un inventar al sistemelor surs poteniale pentru depozitul de date. n timp
ce managerul IT va furniza imaginea de ansamblu a sistemelor existente n organizaie, detaliile
pentru auditarea sistemelor surs vor fi furnizate de administratorii de sistem care ntrein sistemele
operaionale. Exemple de ntrebri tipice pentru realizarea unui astfel de audit sunt prezentate n
continuare
Arhitectura curent. Care este arhitectura tehnologic curent a organizaiei? Ce fel de
sisteme, echipamente, sisteme de gestiune a bazelor de date, reele, instrumente utilizator, interfee
de dezvoltare i de accesare a datelor se folosesc n prezent?
Relaiile ntre sistemele surs. Exist o legtur ntre diversele sisteme surs? Un sistem
furnizeaz informaii altuia? Sistemele sunt integrate ntr-un mod anume?
Faciliti de reea. Exist faciliti de reea care pot fi utilizate? Este posibil a se folosi doar
un terminal sau un microcalculator pentru a accesa sisteme operaionale diferite, din orice zon?
Calitatea datelor. Care este calitatea datelor? Ct de multe operaii de filtrare, triere,
duplicare i integrare estimai c vor fi necesare? Ce zone, tabele sau cmpuri, din sistemele actuale
sunt cunoscute pentru slaba calitate a datelor?
Documentaia. Ct documentaie este disponibil pentru sistemele surs? Ct de corecte i
de actuale sunt aceste manuale i referine? Este bine s se obin urmtoarele informaii ori de cte
ori este posibil: copii ale manualelor i instruciunilor de utilizare, structura bazelor de date, pri de
programe surs, scheme de generare a codului surs.
Mecanisme de extragere posibile. Ce mecanisme de extragere sunt posibile pentru sistemul
curent? Ce mecanisme au fost folosite nainte i care credei c vor fi mecanismele de extragere a
datelor care nu vor funciona cu sistemul actual?
4. Identificarea surselor de date externe. Organizaia poate folosi surse de date externe
pentru completarea datelor din sistemele surs interne. Astfel de surse de date externe pot fi: date de
la bnci, coduri potale, date statistice sau demografice, date de la alte organizaii, date de la agenii
de tiri sau din publicaii.
Dei datele externe reprezint o oportunitate pentru mbogirea depozitului de date, ele
prezint dificulti din cauza granularitii diferite i, de aceea, decizia n legtur cu folosirea
datelor externe trebuie s fie bine fundamentat.
5. Definirea versiunilor depozitului de date. Se recomand dezvoltarea depozitului de date
n mai multe versiuni, derulate n spiral. Disponibilitatea i calitatea datelor surs vor juca un rol
critic n finalizarea cu succes a acestei faze.
Abordarea iterativ permite gestionarea eficient a cerinelor utilizatorilor i reduce efectele
riscurilor care pot aprea. Fiecrei cerine i se atribuie un nivel de prioritate. Se face o evaluare
iniial a complexitii n funcie de numrul sistemelor surs. De asemenea, este identificat i
sistemul int. Pot fi luai n calcul mai muli factori pentru o mai bun nelegere a cerinelor
fiecrui modul. Definirea fiecrui modul este finalizat doar atunci cnd este aprobat de ctre
susintorul proiectului.
- 30 -
Gestiunea volumelor mari de date
- 31 -
Gestiunea volumelor mari de date
- 32 -
Gestiunea volumelor mari de date
mecanismele de extragere: trebuie verificat dac datele pot fi citite sau extrase direct din
bazele de date operaionale. Pachetele de aplicaii existente i SGBD pot avea probleme,
mai ales n cazul n care structura nu este documentat.
4. Proiectarea schemelor depozitului de date. Proiectarea schemelor depozitului de date
trebuie s asigure acoperirea cerinelor informaionale ale utilizatorilor versiunii respective. Sunt
disponibile scheme rezultate din dou tipuri de modele: relaional (bazat pe normalizare) i
multidimensional (bazat pe denormalizare).
n modelarea bazat pe normalizare schema bazei de date este proiectat folosind tehnicile
de normalizare utilizate n sistemele relaionale (tranzacionale OLTP).
n modelarea multidimensional se lucreaz cu schemele: stea, fulg de zpad, constelaie,
care sunt denormalizate i conin tabele de fapte i tabele dimensiune.
5. Transformarea cmpurilor surs n cmpurile destinaie. La trecerea cmpurilor surs n
cmpurile destinaie trebuie s se stabileasc modul n care cmpurile din sistemele surs
operaionale sunt transformate n cmpuri ale depozitului de date.
Un cmp din depozitul cu date poate fi populat cu date din mai multe sisteme surs. Aceasta
este o consecin natural a rolului de integrare pe care l are depozitul de date. Spre exemplu, dac
fiecare sistem operaional va avea propriile nregistrri referitoare la clieni i produse atunci un
cmp din depozitul de date care va fi denumit Nume_client sau Denumire_produs va fi populat cu
date din mai multe sisteme.
Este posibil i situaia invers, un cmp din sistemele operaionale poate fi divizat n mai
multe cmpuri n depozitul de date. Spre exemplu, exist sisteme operaionale care nregistreaz
adresele ca linii de text cu denumirea cmpului Adresa ce poate fi mprit n mai multe cmpuri
cum ar fi: Strad, Ora, Jude.
Pentru a elimina orice confuzie, care poate aprea referitor la modul n care datele surs sunt
transformate n depozitul de date, se recomand crearea unui tabel surs-destinaie care s
evidenieze cum se transform fiecare cmp. De asemenea, trebuie s se precizeze toate regulile
care guverneaz integritatea sau divizarea datelor.
6. ncrcarea datelor istorice n depozitul de date. La ncrcarea datelor istorice n depozitul
de date trebuie avute n vedere urmtoarele aspecte:
schimbrile n structura datelor. Se va determina dac schemele tuturor sistemelor surs
au suferit modificri n timp. De exemplu, dac perioada pentru care sunt pstrate datele
n depozit este de doi ani i datele din ultimii doi ani trebuie ncrcate n depozit, echipa
trebuie s verifice dac schema a suferit modificri n aceast perioad. n caz afirmativ,
operaiunile de extragere i integrare a datelor devin mai complicate, fiecare sistem surs
putnd necesita propriul tabel surs-destinaie;
disponibilitatea datelor istorice. n mod obligatoriu trebuie s se determine dac datele
istorice sunt disponibile pentru ncrcarea lor n depozitul de date.
Aceste aspecte vor fi mult mai dificil de analizat, dac documentaia necesar lipsete sau
dac niciun specialist IT din ntreprindere nu este familiarizat cu vechile scheme de date.
7. Selectarea mediilor de dezvoltare. n aceast etap se finalizeaz alegerea produselor
software necesare pentru realizarea depozitului. Dac a fost efectuat un studiu amnunit al acestui
aspect n etapa de definire a strategiei, activitatea de selectare devine opional. Dac strategia de
realizare a depozitului nu a fost formulat atunci trebuie s se fac evaluarea n acest moment. Este
obligatoriu s se fac selecia mediilor de dezvoltare pentru ca livrarea lor s nu perturbe procesul
de dezvoltare.
8. Crearea prototipului pentru versiunea curent. Prin folosirea listei finale a mediilor de
dezvoltare se va crea prototipul depozitului de date. Realizarea i prezentarea unui prototip de
depozit de date este motivat de unul sau mai multe dintre aspectele urmtoare:
selectarea interfeelor software. Este posibil s se cear furnizorilor de tehnologii
informatice s ofere un prototip al depozitului de date pentru a-l evalua. Rezultatul
evalurii va folosi n selectarea interfeelor: produse OLAP, generatoare etc.
- 33 -
Gestiunea volumelor mari de date
Unele dintre soluiile pentru a obine rapoartele decizionale solicitate de manageri necesit
doar programe simple de extragere a datelor, care sunt executate periodic pentru a obine datele
necesare. Alte soluii necesit executarea unei serii complexe de pai, care combin manipularea
datelor, programele de extragere, formulele de conversie.
Faza de implementare a depozitelor de date presupune parcurgerea urmtorilor pai, care vor
fi prezentai n continuare: 1. definirea ariei de cuprindere, 2. crearea planului de implementare
pentru versiunea curent, 3. implementarea propriu-zis a depozitului de date, 4. stabilirea schemei
depozitului de date, 5. metadatele din depozitul de date, 6. modul de acces la date, 7. ncrcarea
depozitului de date, 8. instruirea utilizatorilor, 9. testarea depozitului de date.
1. Definirea ariei de cuprindere a depozitului de date. n absena unui depozit de date multe
dintre cerinele decizionale sunt clasificate n categoria rapoartelor ad-hoc i, ca urmare, cele mai
multe dintre programele de extragere i prelucrare a datelor nu sunt suficient documentate i sunt
cunoscute doar de cei care le-au conceput. Astfel, se ajunge n situaia n care, n aceeai
organizaie, nu se aplic aceleai standarde pentru aceleai informaii, adic persoane diferite aplic
formule i reguli diferite pentru aceleai date.
Echipa de dezvoltare a depozitului de date trebuie s urmreasc n primul rnd
introducerea standardelor locale sau internaionale pentru manipularea datelor. n acest sens vor fi
vizate urmtoarele aspecte:
datele actuale folosite pentru obinerea rapoartelor. Aceste date trebuie s fie incluse n
procesul de auditare a sistemelor surs. Avantajul este c echipa de dezvoltare va ti din
start care cmpuri din aceste sisteme sunt mai importante;
programele actuale de extragere a datelor. Programele de extragere sunt un indiciu
valoros pentru realizarea tabelelor surs-destinaie. Astfel, ele ofer informaii valoroase
referitoare la regulile de transformare a datelor;
transformarea manual a datelor. n cazul n care exist astfel de situaii, ele trebuie
analizate cu grij pentru a se obine informaiile necesare i pentru a se elimina o parte
dintre transformrile manuale.
Este posibil ca echipa care planific depozitul de date s descopere o serie de deficiene
legate de rapoartele care se produc n organizaie. Astfel, pot fi descoperite inconsistene referitoare
la folosirea unor termeni, formule de calcul, reguli, n funcie de persoana care creeaz sau citete
raportul.
Fiecare secven de date, care este necesar pentru crearea rapoartelor solicitate de
manageri, provine din unul sau mai multe sisteme surs disponibile n ntreprindere, ns exist date
- 34 -
Gestiunea volumelor mari de date
care nu se regsesc n sistemele surs. Limitrile impuse de datele disponibile pot fi de urmtoarele
tipuri:
secvene de date care lipsesc. O secven de date este considerat lips dac nu exist
niciun sistem surs care s fie prevzut pentru a o colecta i stoca. Cele mai frecvente
cazuri sunt cele ale datelor care nu sunt stocate, deoarece nu au nicio importan pentru
derularea zilnic a tranzaciilor, ns pot avea o mare importan pentru deciziile tactice
i strategice. De exemplu, dac sistemele de acordare a mprumuturilor bancare nu
nregistreaz domeniul de activitate n care activeaz fiecare beneficiar de credite, atunci
banca va avea probleme serioase cnd va dori s-i analizeze gradul de expunere la risc
n funcie de sectorul economic finanat, deoarece nu va putea genera un raport detaliat
pe aceast tem;
secvene de date incomplete sau opionale. Exist cazuri cnd o secven de date este
clasificat cu termenul de reinut, ns nu exist reguli care s precizeze clar c acea
secven trebuie s fie colectat i stocat sau nu. Aa se ajunge n situaia c astfel de
secvene de date sunt nregistrate doar pentru o parte dintre clieni, produse, perioade de
timp etc. Atunci cnd se dorete realizarea unei analize globale, acest lucru nu este
posibil, din cauza faptului c datele nu sunt disponibile n totalitate. De exemplu,
sistemul de acordare a mprumuturilor poate avea un cmp denumit stare_client, dar
dezvoltatorii aplicaiei l-au prevzut ca fiind un cmp opional. Astfel, doar o parte a
raportului anterior poate fi realizat i anume doar pentru clienii pentru care s-au
nregistrat valorile pentru acel cmp;
date eronate. Pot aprea date eronate cnd acestea sunt stocate n unul sau mai multe
surse de date, din una dintre urmtoarele cauze posibile: erori care au scpat la
introducerea datelor, datele nu sunt disponibile, se merge pe varianta valorilor implicite
care de fapt nu sunt corecte.
Se poate observa cum aria de cuprindere a unui depozit de date poate fi compromis de
limitrile impuse de datele din sistemele surs curente. Cele mai multe proiecte se limiteaz doar la
ceea ce ofer sistemele surs. Trebuie s lum n considerare i varianta mbuntirii sistemelor
surs n paralel cu desfurarea proiectului de realizare a depozitului de date. Echipa de dezvoltare
trebuie s identifice toate limitrile impuse de sistemele curente (auditarea), iar acest lucru va fi
utilizat n procesul de rafinare.
Un raport de auditare a sistemelor surs trebuie s conin urmtoarele componente:
lista sintetic a sistemelor surs. Aceast seciune trebuie s listeze toate sistemele
operaionale existente. Sunt oferite, pentru fiecare sistem operaional, descrieri generale
ale funcionalitilor i ale datelor, o list cu entitile cele mai importante, precum i
cmpurile eseniale. De asemenea, se pot meniona i utilizatorii actuali ai sistemelor
analizate;
secvene de date care lipsesc. n aceast seciune sunt evideniate datele care ar fi
necesare n cadrul depozitului de date, dar nu sunt disponibile n sistemele surs. Trebuie
evideniat importana datelor care lipsesc i modul cum pot fi ele obinute;
rafinarea calitii datelor. Pentru fiecare sistem operaional, trebuie identificat modul
cum poate fi mbuntit calitatea datelor;
estimarea resurselor i a efortului. Pentru fiecare sistem operaional, se poate preciza un
cost estimativ i durata de timp necesar pentru a aduga datele lips sau pentru a
mbunti calitatea datelor.
n concluzie, planificarea depozitului de date are ca scop definirea clar a ariei de cuprindere
a fiecrui modul din acesta. Combinaia dintre abordrile top-down i bottom-up ofer procesului de
planificare avantajul de a vedea problema din dou perspective complementare: cerinele
utilizatorilor i datele disponibile n sistem.
2. Crearea planului de implementare pentru versiunea curent a depozitului.
- 35 -
Gestiunea volumelor mari de date
sistemului de operare, instalarea i configurarea motorului pentru baze de date relaionale, instalarea
produselor software pentru DD, crearea conexiunilor n reea i stabilirea drepturilor utilizatorilor.
De obicei, depozitul de date se afl pe o main care este separat fizic de restul sistemelor
operaionale. n cazul n care depozitul de date este gestionat cu suport baz de date relaional,
SGBDR nu trebuie neaprat s fie acelai cu cel existent n sistemele operaionale. Echipa de
dezvoltare trebuie s aib la dispoziie infrastructura necesar pentru a realiza efectiv
implementarea depozitului.
b) Obinerea copiilor coleciilor de date operaionale
Uneori echipa de implementare nu are acces direct la sistemele surs operaionale. Acest
lucru este posibil mai ales n cadrul proiectelor pilot, unde conexiunea sistemelor operaionale cu
depozitul de date nu a fost nc realizat. De aceea echipa trebuie s intre n posesia copiilor
coleciilor de date operaionale pe care le va stoca pe serverul depozitului. Crearea acestor copii
poate fi automatizat prin folosirea tehnicii de replicare din tehnologia sistemelor de baze de date
distribuite.
Echipa de implementare trebuie s dispun de un mecanism de verificare a corectitudinii i
completitudinii datelor care sunt ncrcate pe serverul DD. O modalitate este aceea de a folosi
numrarea cazurilor (numrul de clieni, numrul de conturi, numrul de tranzacii etc.) care sunt
comparate cu tabelele iniiale. Utilitarele pentru verificarea calitii datelor pot sprijini echipa de
dezvoltare n activitatea de implementare a depozitului de date.
c) Finalizarea proiectrii schemei fizice a depozitului de date
Detaliile proiectrii logice i fizice ale depozitului de date din faza de planificare se transpun
ntr-o versiune final a schemei fizice, avndu-se n vedere urmtoarele aspectele specifice ale
sistemului software, care a fost ales pentru depozitul de date:
proiectarea schemei depozitului de date. Se finalizeaz proiectarea fizic a tabelelor de
fapte i a tabelelor dimensiune cu cmpurile lor specifice. Administratorul depozitului de
date poate opta pentru divizarea unei dimensiuni logice (de exemplu, client) n dou sau
mai multe dimensiuni separate (de exemplu, o dimensiune client i o dimensiune
demografie) pentru a economisi spaiul de memorare i pentru a crete performana
interogrilor;
indexarea. Se identific cea mai potrivit metod de indexare pentru tabelele i
cmpurile depozitului de date, n funcie de dimensiunea estimat a volumului de date i
de natura anticipat a interogrilor ce se vor efectua asupra depozitului de date;
parionarea. Administratorul depozitului de date poate opta ntre partiionarea tabelelor
de fapte i de dimensiuni, n funcie de mrimea lor i de posibilitile de partiionare
care sunt suportate de motorul de baze de date. Decizia de partiionare trebuie s aib n
vedere c un depozit de date partiionat este mai uor de gestionat, ns performana
interogrilor scade.
d) Construirea sau configurarea subsistemelor de extragere i transformare
Subsistemele de transformare i extragere trebuie s filtreze i s ncarce datele din sistemul
operaional n depozitul de date, apoi s le pun la dispoziia utilizatorilor. Aceste activiti nu pot fi
automatizate total, deoarece difer de la o organizaie la alta n funcie de sistemele surs, mediul de
dezvoltare i de cerinele utilizatorilor.
Subsistemul de extragere se refer la procesul de obinere a datelor necesare din coleciile de
date ale sistemului operaional, care pot fi cele originale sau doar copii ncrcate pe serverul
depozitului de date. Extragerea se poate realiza printr-o varietate de mecanisme, de la interfee
software specializate pn la programe realizate de personalul propriu.
Interfeele software oferite de diverii productori sunt capabile s documenteze procesul de
extragere prin generarea metadatelor specifice. Dezavantajul acestora este preul prea mare. De
aceea, organizaiile prefer deseori s-i dezvolte propriile lor aplicaii de extragere a datelor.
Aceast soluie este viabil n msura n care sistemele surs sunt ntr-un mediu omogen. Aplicaiile
- 37 -
Gestiunea volumelor mari de date
pentru extragerea datelor dezvoltate n cadrul organizaiei au dezavantajul c sunt greu de ntreinut,
deoarece exist tendina ca ele s nu fie documentate la momentul dezvoltrii lor.
Subsistemul de transformare modific datele n concordan cu regulile i standardele care
au fost stabilite pentru depozitul de date. n tehnologia DD au fost identificate cteva tipuri de
transformri, care vor fi prezentate n continuare.
schimbarea formatului. Fiecare dintre cmpurile utilizate n sistemele operaionale pot
stoca date n diverse formate i tipuri. Aceste secvene individuale de date sunt
modificate n timpul procesului de transformare pentru a respecta setul standard de
formate din depozitul de date;
redundana datelor. nregistrrile din mai multe surse sunt comparate pentru a identifica
nregistrrile duplicat bazate pe valoarea cmpurilor cheie. Duplicatele sunt eliminate
pentru a crea o singur nregistrare pentru un client, un produs, un angajat sau o
tranzacie. Duplicatele de tip excepie pot fi rezolvate manual prin folosirea unui sistem
de avertizare. Tot manual se vor rezolva i nregistrrile duplicat cu valori conflictuale,
n cazul n care nu exist mecanisme clare n acest sens;
partiionarea cmpurilor. Uneori este necesar ca o secven de date din sistemul surs s
fie partiionat n unul sau mai multe cmpuri n depozitul de date. Unul dintre cele mai
des ntlnite cazuri de acest gen se refer la adresa clienilor care n sistemul surs este
memorat ntr-un singur cmp, n timp ce n depozit va fi memorat pe mai multe
cmpuri (strad, ora, zon, regiune, ar etc.);
integrarea cmpurilor. Integrarea reprezint operaiunea invers partiionrii: dou sau
mai multe cmpuri din sistemul operaional vor fi integrate n depozitul de date;
nlocuirea valorilor. Unele valori care sunt folosite n sistemele operaionale pot s nu
fie pe nelesul utilizatorilor depozitului de date. De exemplu, codurile care au un neles
specific n sistemul operaional sunt lipsite de relevan pentru manageri. Subsistemul de
transformare nlocuiete valorile originale cu valori noi care sunt utile pentru cei ce
folosesc coninutul depozitului de date;
derivarea valorilor. Estimrile, determinarea de indici i alte valori derivate pot fi
calculate folosind diverse formule. Prin calcularea i ncrcarea acestor valori n depozit,
posibilitatea ca utilizatorii s le calculeze greit este eliminat;
agregarea valorilor. Agregrile pot fi, de asemenea, precalculate nainte de ncrcarea
lor n depozitul de date. Aceasta este o alternativ la ncrcarea doar a valorilor atomice
n depozitul de date.
e) Construirea subsistemului pentru asigurarea calitii datelor
Probleme legate de calitatea datelor nu sunt ntotdeauna vizibile nc de la nceputul
proiectului de implementare, deoarece atenia echipei este focalizat pe conversia unor volume mari
de date i mai puin pe analizarea fiecrei secvene de date n parte. Ulterior, calitatea datelor va
deveni o problem din ce n ce mai stringent.
Una dintre cauzele care determin reticena utilizatorilor n privina depozitului de date o
constituie tocmai slaba calitate a datelor. De asemenea, foarte important este i percepia pe care o
au utilizatorii despre date. Acetia vor folosi depozitul de date doar n msura n care au
convingerea c datele pe care le gestioneaz sunt corecte. nelegerea cauzelor care determin erori
n cadrul datelor face mai uoar munca de depistare i corectare. Deoarece majoritatea erorilor
provin din sistemele surs, administratorii bazei de date i administratorii de sistem vor avea un rol
deosebit de important n aceast etap.
Cteva dintre cauzele care produc erori sunt prezentate n continuare.
valori lips. Valorile lipsesc din sistemele surs, din cauza nregistrrilor incomplete sau
a cmpurilor opionale care nu sunt completate;
integritatea referenial slab. Uneori, integritatea referenial nu poate fi realizat n
sistemele surs, din cauza valorilor inconsistente;
- 38 -
Gestiunea volumelor mari de date
erori n datele precalculate. O parte din datele din depozitul de date pot fi precalculate
nainte de ncrcarea lor, ca parte a procesului de transformare; dac formulele sau
calculele sunt greite, atunci depozitul va conine date eronate;
uniti de msur diferite. Folosirea diferitelor uniti de msur pentru diverse atribute
(valoare, cantitate, volum, timp etc.) poate duce la erori n depozitul de date dac nu se
efectueaz n prealabil transformri la o msur unitar;
obinerea duplicatelor. nlturarea datelor multiplicate trebuie s aib loc nainte de
ncrcarea lor n depozitul de date. n cazul n care aceast operaiune nu se desfoar
corect, exist riscul ca n depozit s apar valori duplicate, generatoare de inconsistene
i erori;
partiionarea cmpurilor. Exist cazuri n care un singur cmp din sistemul operaional
trebuie partiionat n mai multe cmpuri n depozitul de date. Uneori, volumul mare de
date necesit utilizarea unor proceduri automate de partiionare a cmpurilor, care pot s
nu funcioneze corect n toate cazurile;
ierarhii multiple. Multe dintre dimensiunile depozitului de date vor avea ierarhii
multiple determinate de necesitile de analiz. De exemplu, dimensiunea timp poate
avea o ierarhie zi lun trimestru - an, precum i ierarhiile zi - sptmn i zi lun
fiscal trimestru fiscal an fiscal. Nenelegerea semnificaiilor acestor ierarhii
multiple din diferite dimensiuni poate cauza ncrcri eronate n depozitul de date;
termeni i reguli conflictuale. Regulile sau termenii conflictuali pot determina
planificatorii depozitului de date s ncarce dou secvene diferite de date n acelai
cmp al depozitului sau, invers, aceeai secven n dou cmpuri diferite.
Calitatea datelor din cadrul organizaiei poate fi mbuntit prin mai multe modaliti:
evaluarea calitii datelor. Trebuie determinat mai nti calitatea datelor pentru fiecare
dintre sistemele surs existente n ntreprindere;
identificarea datelor importante. Echipa de implementare trebuie s determine care sunt
datele cele mai importante pentru depozitului de date. n felul acesta se pot stabili
anumite prioriti, iar efortul de optimizare poate fi direcionat n mod eficient ctre zona
de cel mai mare interes;
definirea modului de filtrare i mbuntire a datelor. Pentru fiecare secven de date
cu importan mare pentru ntreprindere, trebuie stabilit o tactic specific de
optimizare a calitii. Atunci cnd este posibil, filtrarea datelor trebuie s se focalizeze n
primul rnd asupra sistemelor surs, astfel nct s se elimine posibilitatea propagrii lor
n depozitul de date;
prevenirea erorilor. Efortul ntreprinderii nu trebuie s se limiteze doar la corecii asupra
datelor deja existente, ci trebuie s aib n vedere prevenirea apariiei erorilor. Dac
sistemele operaionale care genereaz date eronate nu sunt revizuite, ele vor continua s
fie o surs sigur de erori pentru depozite.
Toate erorile descoperite trebuie s fie corectate la surs, ceea ce nseamn c sistemele
operaionale trebuie s fie adaptate astfel nct s conin valorile corecte. Aceast practic asigur
c att utilizatorii sistemelor operaionale, ct i cei de la nivel decizional vor beneficia de date
corecte. Practica a dovedit ns c procesul de corectare a datelor la surs poate fi uneori dificil de
implementat att din cauza responsabilitilor operaionale, ct i din cauza faptului c datele
corecte nu sunt cunoscute.
f) Construirea subsistemului pentru ncrcarea depozitului de date
Subsistemul pentru ncrcarea depozitului de date preia schema generat de subsistemul de
extragere i transformare i ncarc datele direct n depozit. Dup cum s-a menionat anterior, datele
care vor fi ncrcate sunt stocate n colecii de date care au aceeai schem ca i depozitul de date.
Subsistemul de ncrcare a datelor n depozitul de date trebuie s furnizeze facilitile
prezentate n continuare:
- 39 -
Gestiunea volumelor mari de date
- 40 -
Gestiunea volumelor mari de date
nceptori i avansai. Instruirea este de fapt pasul premergtor testrii, deoarece utilizatorii nu vor
putea testa corect depozitul de date pn cnd nu sunt instruii cu privire la coninutul acestuia i la
regulile de utilizare.
9. Testarea depozitului de date
Pentru testarea depozitului de date vor fi instruii reprezentanii utilizatorilor, avndu-se n
vedere urmtoarele aspecte:
interogrile. Utilizatorii vor testa corectitudinea rapoartelor i interogrilor obinute din
depozitul de date. De regul, validarea rapoartelor generate din depozitul de date se face
construind manual sau prin mecanismele existente acelai raport i comparnd cele dou
rezultate. Eventualele discrepane sunt reinute i se vor efectua coreciile care se impun.
Echipa trebuie s aib n vedere i varianta ca eroarea s provin din sistemul manual de
obinere a raportului;
performana. Utilizatorul va dori ca interogarea lansat asupra depozitului de date s se
execute instantaneu, ns acest lucru depinde de mai multe aspecte: mrimea depozitului
de date, numrul de utilizatori, performanele reelei de calculatoare. Pentru a ameliora
acest indicator se pot folosi valorile agregate precalculate;
rspuns pe durate specificate. Depozitul de date trebuie s fie capabil s furnizeze
rapoarte pe intervalul specificat de utilizatori (zi, sptmn, lun, trimestru, an), adic
n timp util.
Pot fi stabilite anumite criterii de acceptare nainte de nceperea implementrii, iar acceptul
va fi obinut dac sunt ndeplinite aceste criterii. Documentele privind acceptana depozitului de
date sunt semnate doar dup ce testele s-au terminat cu succes i utilizatorii s-au declarat mulumii
de acesta.
- 42 -
Gestiunea volumelor mari de date
timpul mediu de rspuns la interogri exprim timpul necesar pentru a obine rezultatul,
din momentul n care a fost lansat interogarea n execuie;
numrul de excepii pe zi caracterizeaz numrul de atenionri i de erori generate de
depozitul de date, n cazul n care exist ncorporat un sistem pentru aa ceva;
numrul de utilizatori indic numrul total de utilizatori care au acces la datele coninute
n depozitul de date;
numrul zilnic de utilizatori indic numrul de utilizatori care folosesc n fiecare zi,
efectiv facilitile oferite de depozitul de date;
frecvena utilizrii evideniaz numrul de accesri ale depozitului de date de ctre un
utilizator ntr-o anumit perioad de timp, indicnd astfel gradul n care DD sprijin
utilizatorul n activitile zilnice;
durata medie a sesiunii de lucru exprim perioada medie de timp n care utilizatorul
rmne conectat la depozitul de date;
intervalele de utilizare maxim a depozitului de date au n vedere perioada din zi, ziua
din sptmn, sptmna din lun etc. n care numrul de interogri este mai mare.
Astfel se scot n eviden momentele i perioadele de timp n care depozitul de date este
mai utilizat i mai puin utilizat;
interogrile arat care subiecte din depozitul de date sunt cele mai folosite de ctre
utilizatori, putndu-se lua msuri pentru optimizarea acestor zone, precum i subiectele
care nu prezint interes i care pot fi eliminate;
mrimea depozitului de date exprim, dup fiecare ncrcare a depozitului de date,
numrul de nregistrri din fiecare colecie de date, pentru a obine rata de cretere a
depozitului de date.
c) Meninerea calitii datelor
Indicatorii privind calitatea datelor trebuie s preocupe organizaia i dup implementarea
depozitului de date. Problema principal const n modul n care sunt tratate erorile care apar n
legtur cu funcionarea depozitului de date. Dou alternative referitoare la calitatea datelor trebuie
luate n considerare: ncrcarea n depozitul de date numai a datelor corecte sau ncrcarea tuturor
datelor i efectuarea ulterioar a coreciilor.
n prima abordare, doar datele care sunt corecte sunt ncrcate n depozitul de date. n felul
acesta utilizatorii sunt siguri c depozitul de date conine numai date corecte i, ca atare, pot lua
decizii bine fundamentate. Deoarece erorile necesit mult timp pentru a fi identificate i corectate,
ar trece prea mult timp pn ce s-ar efectua o nou ncrcare a DD. De asemenea, rezultatele multor
interogri (de exemplu: care sunt primii 100 clieni ?; care sunt cele mai slab vndute produse?) nu
vor fi relevante n cazul n care depozitul de date este incomplet.
A doua abordare presupune ca toate datele s fie ncrcate n depozitul de date, dar sunt
definite i implementate mecanisme pentru identificarea i corectarea erorilor. Dei aceast
abordare permite ncrcarea DD cu toate datele din sistemele operaionale, calitatea datelor poate fi
necorespunztoare, iar deciziile care se iau pe baza lor pot fi eronate.
Ori de cte ori este posibil, trebuie s se mearg pe varianta corectrii datelor n sistemele
operaionale, astfel nct la urmtoarea ncrcare a depozitului de date utilizatorii s beneficieze de
avantajul datelor corecte.
d) Evaluarea mrimii depozitului de date
ncrcarea iniial a depozitului de date poate s nu ridice probleme referitoare la capacitatea
de stocare, dar pe msura trecerii timpului acesta poate crete cu fiecare nou operaie de ncrcare,
iar gestiunea creterii volumului de date va cpta o importan deosebit. Exist cteva modaliti
clasice de gestionare a creterii volumului datelor: agregrile stocate, limitarea perioadei de timp,
tergerea datelor nefolosite.
Folosirea agregrilor stocate reduce semnificativ spaiul de memorare a datelor, n special
dac datele sunt folosite doar la nivelurile de sintez. Datele analitice pot fi terse sau arhivate dup
- 43 -
Gestiunea volumelor mari de date
ce au fost create valorile agregate, dar trebuie avut n vedere faptul c odat terse, nu se pot obine
detalieri ale agregrilor.
Dei utilizatorii ar vrea ca depozitul s stocheze datele permanent, se poate face un
compromis referitor la perioada de timp pentru care un anumit set de date este pstrat n depozit,
adic o limitare a perioadei de stocare a datelor.
Prin folosirea rezultatelor indicatorilor statistici referitori la depozitul de date, pot fi
identificate datele care nu sunt folosite de ctre utilizatori i astfel se poate proceda la tergerea lor.
e) Refacerea datelor n caz de accidente
La fel ca i n cazul bazelor de date, administratorii depozitului de date trebuie s acorde
important sistemelor de recuperare a datelor n caz de accidente. Pe msura trecerii timpului, tot
mai muli utilizatori din organizaie vor deveni dependeni de coninutul depozitului de date i astfel
recuperarea datelor capt o importan deosebit.
Anumite incidente pot necesita reinstalarea sistemelor de operare i a sistemelor de gestiune
a bazelor de date, precum i rencrcarea depozitului de date i popularea tabelelor care conin
agregri. Procedurile de recuperare trebuie s prevad toate situaiile neplcute care pot aprea n
acest sens.
- 44 -
Gestiunea volumelor mari de date
Pentru asistarea activitilor desfurate la realizarea depozitelor de date se pot utiliza o serie
de instrumente i medii de dezvoltare puse la dispoziie de companiile productoare de software.
Cteva dintre acestea sunt identificate n aceast seciune, fr a fi ns detaliate.
Instrumentele Oracle pentru construirea depozitelor de date ct i pentru managementul lor
sunt variate ncepnd cu un nivel general n Enterprise Manager Console, n Analytic Workspace
Manager, a depozitelor virtuale n Discoverer Administrator i culminnd cu Oracle Warehouse
Builder, instrument care susine ntreg ciclul de dezvoltare. Acesta reprezint un instrument puternic
de asistare a procesului de extragere, transformare i ncrcare a datelor din surse variate: SAP,
Oracle, DB2, Microsoft SQL Server, FoxPro, foi de calcul, fiiere text etc.
Compania Microsoft ofer pentru construirea depozitelor de date instrumentul Microsoft
SQL Server Analysis Services, iar managementul datelor i al metadatelor se realizeaz cu
Enterprise Manager i Analysis Manager. Componenta SQL Server Integration Services sau n
variantele mai vechi componenta Data Transformation Services (DTS) susin procesul ETI, ns din
punctul de vedere al surselor de date i al complexitii transformrilor realizate aceste componente
sunt nc inferioare utilitarului corespondent din Oracle Warehouse Builder.
Compania IBM pune la dispoziia utilizatorilor un mediu complet de realizare a depozitelor
de date prin suita InfoSphere Warehouse care conine instrumente pentru planificarea, modelarea,
implementarea, exploatarea DD, pentru aplicarea funciilor de analiz i pentru integrarea cu
tehnologiile de Inteligena Afacerii.
Compania SAP, prin achiziia n anul 2007 a companiei franceze Business Objects care a
realizat suita cu acelai nume destinat dezvoltrii de soluii de Inteligena Afacerii, ofer mediul de
dezvoltare Universe Designer care permite construirea universurilor. Acestea reprezint o viziune
unitar asupra depozitelor de date i permit modelarea multidimensional.
- 45 -
Gestiunea volumelor mari de date
n concluzie, dei metodologiile i etapele de realizare ale depozitelor de date sunt cele
clasice, scopul i caracteristicile specifice ale depozitelor de date prezint un set de probleme unice
i dificile care trebuie analizate i depite. Eventualul succes al realizrii depozitelor de date poate
fi afectat de factori variai care trebuie identificai pe durata ntregului proces de dezvoltare
recomandndu-se s fie orientat spre cerinele de afaceri ale managementului i spre satisfacerea
suportului decizional.
- 46 -
Gestiunea volumelor mari de date
BIBLIOGRAFIE
- 47 -
Gestiunea volumelor mari de date
- 48 -