Documente Academic
Documente Profesional
Documente Cultură
(Depozite de date)
Pastor Tiberiu-Dan
Master, Anul I, SIFB
Cuprins
1.
1.2
Data warehousing................................................................................................ 5
1.3
1.4
direct i analiz. Spre deosebire de bazele de date cu procesare on-line, depozitele de date nu
conin informaiile cele mai proaspete. Cu toate acestea, un depozit de date determin o nalt
performan prin integrarea bazelor de date heterogene ntruct datele sunt copiate, preprocesate,
integrate, adnotate, nsumate i restructurate ntr-o colecie semantic de date (semantic data
store). n plus procesul de interogare din depozitul de date nu interfereaz cu procesele din
sursele locale. De altfel, depozitele de date pot stoca i integra informaii istorice i sprijin
interogri multidimensionale complexe.
Criteriu
Procesele
Execuie
Utilizatori
Operaii
Caracterul datelor
Nivelul de sintez
Acces
Focalizare
Sursa de date este
Volum de date
Prioriti
Software necesar
BD
operaionale
tranzacii
toate categoriile
zilnice
curente
primitive, detaliere
citire, scriere
culegere date
validat
ordinul GB
performane,
disponibilitate
SGBD
DD
informaionale
analize
manageri, analiti de date
asistarea deciziei
istorice
sintetizare, consolidare
citire
furnizare informaii
filtrat, transformat
ordinul TB
flexibilitate, autonomie
specializat, SGBD
presupun un grad de prelucrare prealabil, astfel nct s fie pregtite pentru nevoile
managementului: consolidare, totalizare, nsumare, mpachetare (n formate accesibile
interfeelor de analiz utilizate).
sursa de date
depozit de date
interfee de analiz
Data Mart
transformare
Date externe
Data Mining
Metadatele
Date interne
Datele aggregate
OLAP
Date arhivate
Datele detaliate
Datele detaliate sunt cele relativ recente, livrate utilizatorilor, de regul la nivel de
execuie.
Tot aici se gsesc date avnd o anumit vechime (civa ani), n form detaliat.
Sursele de date pentru DD sunt: datele operaionale curente (BD i/sau fiiere din
sistemul informatic al organizaiei), datele vechi arhivate, datele externe (BD i fiiere din
sistemele informatice ale altor organizaii).
Construirea depozitului de date, pornind de la sursele de date, presupune parcurgerea unor
etape n cadrul unui proces de extragere transformare ncrcare (ETL Extract
Transformation Load):
- extragerea datelor din datele operaionale sau din surse externe, urmat de copierea lor n
depozitul de date. Acest proces trebuie, cel mai adesea, s transforme datele n structura
i formatul intern al depozitului;
- filtrarea datelor, pentru a exista certitudinea c datele sunt corecte i pot fi utilizate pentru
luarea deciziilor;
- ncrcarea datelor corecte n depozitul de date;
agregarea datelor: totaluri precalculate, subtotaluri, valori medii, sume etc., care se
preconizeaz c vor fi cerute i folosite de utilizatori. Aceste agregri sunt stocate n
depozitul de date mpreun cu datele importate din sursele interne i externe.
Interfeele de analiz sunt produse software care implementeaz tehnologii informatice
pentru extragerea i analiza datelor din DD: concentrri de date (Data Mart), extrageri i analize
de date (Data Mining) analiza multidimensional a datelor (OLAP).
Arhitectura depozitelor de date pe trei straturi
Evideniaz modul de implementare a DD ntr-un mediu de reea de calculatoare, pe trei
straturi: stratul inferior, stratul mediu, stratul superior.
Stratul inferior (bottom tier) este format din serverul depozitului de date i este, n cele
mai multe cazuri, un sistem de baze de date relaionale.
Datele care provin din bazele de date operaionale i din sursele externe (de exemplu
date referitoare la profilul clientului, date furnizate de consultani externi, rezultatele unor
sondaje) sunt extrase utiliznd programe de tip interfa (gateways), care colaboreaz cu SGBD
de baz i permite programelor client s genereze cod (de obicei SQL) pentru a fi executat de
server.
Astfel, datele sunt extrase, filtrate, transformate i ncrcate n depozitul de date prin
interfee specializate de tip ETL - Extract Transformation Load (de exemplu produsul Oracle
Data Integrator ODI). mprosptarea datelor din DD se face pe msura trecerii timpului (lunar,
trimestrial, anual).
Stratul mediu (middle tier) este bazat pe un server specializat, care poate fi: OLAP
(bazat pe modelul relaional ROLAP sau pe modelul multidimensional - MOLAP), Data
Mining (analize statistice superioare), Data Mart (concentrri de date). De multe ori acest strat
este inclus n SGBDR (exemplu Oracle, DB2).
Stratul superior (top tier) este nivelul client care conine interfee pentru generarea
interogrilor, a rapoartelor, pentru superioar a datelor.
Strat superior
Rapoarte, interogri
extragere
Strat mediu
Servere specializate
Depozite de
date
transformare
Strat inferior
Server de Date
mai n msur s ofere detalii pentru auditarea sistemelor surs sunt administratorii de baze de
date i administratorii de sistem care ntrein sistemele operaionale.
4. Identificarea surselor de date externe. Organizaia poate folosi surse de date externe pentru
completarea datelor din sistemele surs interne. Astfel de surse de date externe pot fi: date de la
bnci, date referitoare la codurile potale, date statistice sau demografice, date de la alte
organizaii, date de la agenii de tiri sau din publicaii.
5. Definirea versiunilor depozitului de date. Specialitii recomand mprirea dezvoltrii
depozitului de date n mai multe versiuni derulate n spiral. Disponibilitatea i calitatea datelor
surs vor juca un rol critic n finalizarea cu succes a acestei faze.
6. Definirea arhitecturii preliminare a depozitului de date. Trebuie s se schieze o arhitectur
preliminar pentru fiecare modul n funcie de aria de ntindere aprobat. Este recomandabil s
se analizeze posibilitatea de a se folosi o intercorelare de baze de date relaionale i
multidimensionale, precum i instrumente adecvate.
7. Evaluarea mediilor de dezvoltare a depozitului de date. Organizaia poate alege ntre mai
multe medii i interfee pentru a dezvolta depozitul de date. Important este s se selecteze
combinaia de interfee care satisfac cel mai bine cerinele organizaiei. In prezent nu exist un
productor care s ofere o suit integrat pentru depozite de date, ns exist lideri pentru fiecare
categorie n parte. Se vor elimina variantele neconvenabile i se va alctui o list din care fiecare
versiune va avea parte de un set de interfee (acces la date, SGBD etc.).
Persoanele cele mai potrivite n cazul auditrii sistemelor surs sunt administratorii de
baze de date, administratorii de sistem i ali specialiti IT, care gestioneaz sisteme interne ce
pot deveni surse pentru depozitul de date. Avnd n vedere cunotiinele pe care le au asupra
sistemelor existente, ei sunt cei mai n msur s aprecieze oportunitatea folosirii fiecrui sistem
ca surs de date pentru depozit. Aceste persoane sunt de asemenea familiarizate cu problemele
legate de calitatea datelor din diverse sisteme surs. Informaiile oferite de acetia vor fi
documentate pentru a sprijinii procesul de extragere i filtrare a datelor. Administratorii de baze
de date i ceilali specialitii IT pot oferi informaii valoroase cu privire la regulile dup care se
obin rapoartele existente pe baza datelor primare.
Pentru auditarea sistemelor surs trebuie realizate interviuri, individuale sau de grup, cu
specialitii IT din organizaie i se va urmri obinerea urmtoarelor documente i informaii,
dac nu au fost deja colectate n etapa de stabilire a strategiei DD:
- documentaia arhitecturii IT a organizaiei (toat documentaia care ofer o vedere de
ansamblu asupra arhitecturii IT): diagramele arhitecturii sistemului (un model al tuturor
sistemelor informaionale existente n ntreprindere i al legturilor dintre ele),
modelul datelor ntreprinderii (un model al tuturor datelor care sunt stocate n prezent),
arhitectura reelei (o diagram care descrie amplasarea i configurarea reelei);
- manualul tehnic i manualul de utilizare pentru fiecare sistem surs: modelele datelor i
schemele pentru toate subsistemele informatice care candideaz ca sisteme surs;
- bazele de date: pentru fiecare sistem surs se va identifica tipul bazei de date folosite i se vor
face aprecieri ale mrimii ei;
- planurile de perspectiv: ce proiecte de dezvoltare i implementare au fost aprobate pentru
urmtoarele 6-12 luni pentru fiecare sistem surs n parte; dac schimbarea structurii datelor va
afecta preluarea datelor din sistemele surs n depozit, va aduce eventual noi date disponibile sau
vor fi pierdute o parte dintre cele existente;
- sistemele de codificare: fiecare sistem surs folosete un anumit sistem de codificare i de
aceea administratorii bazelor de date trebuie s ofere informaii referitoare la modul n care sunt
generate codurile, la modul de reutilizare a codurilor, la posibilitatea unificrii lor;
- mecanismele de extragere: trebuie verificat dac datele pot fi citite sau extrase direct din bazele
de date operaionale. Pachetele de aplicaii existente i sisteme de gestiune a bazelor de date pot
prezenta probleme, mai ales n cazul n care structura nu este documentat.
4. Proiectarea schemelor depozitului de date.
Proiectarea schemelor depozitului de date trebuie s asigure acoperirea cerinelor
informainale ale utilizatorilor versiunii respective. Sunt disponibile scheme rezultate din dou
tipuri de modele: relaional (bazat pe normalizare), multidimensional (bazat pe denormalizare).
n modelarea bazat pe normalizare schema bazei de date este proiectat folosind
tehnicile de normalizare utilizate n sistemele relaionale (tranzacionale OLTP).
o Transformarea manual a datelor. n cazul n care exist astfel de situaii, ele trebuie
analizate cu grij pentru a se obine informaiile necesare i pentru a se elimina o parte
dintre transformrile manuale.
Este posibil ca echipa care planific depozitul de date s descopere o serie de deficene
legate de rapoartele care se produc n organizaie. Nu este nimic neobinuit s fie descoperite
inconsistene referitoare la folosirea unor termeni, formule de calcul sau reguli, n funcie de
persoana care creez sau citete raportul.
Fiecare secvent de date, care este necesar pentru crearea rapoartelor solicitate de
manageri, provine din unul sau mai multe sisteme surs disponibile n ntreprindere, ns exist
date care nu se regsesc n sistemele surs. Limitrile impuse de datele disponibile sunt de
urmtoarele tipuri:
- Secvene de date care lipsesc. O secven de date este considerat lips dac nu exist nici un
sistem surs care s fie prevzut pentru a o colecta i stoca. Cele mai frecvente cazuri sunt cele
ale datelor care nu sunt stocate, deoarece nu au nici o importan pentru derularea zilnic a
tranzaciilor, ns au o mare importan pentru deciziile tactice i strategice.
- Secvene de date incomplete sau opionale. Exist cazuri cnd o secven de date este
clasificat cu termenul de reinut, ns nu exist reguli care s precizeze clar c acea secvent
trebuie s fie colectat i stocat sau nu. Aa se ajunge n situaia c astfel de secvene de date
sunt nregistrate doar pentru o parte din clieni, produse, perioade de timp. Atunci cnd se dorete
realizarea unei analize globale, acest lucru nu este posibil, din cauza faptului c datele nu sunt
disponibile pentru toate reperele avute n vedere.
- Date eronate. Pot aprea date eronate cnd acestea sunt stocate n unul sau mai multe surse de
date, din una dintre urmtoarele cauze posibile: erori la introducerea datelor, datele nu sunt
disponibile, se merge pe varianta valorilor implicite care de fapt nu sunt corecte.
Un raport de auditare a sistemelor surs trebuie s aib urmtoarele componente:
o Lista sintetic a sistemelor surs. Aceast seciune trebuie s listeze toate sistemele
operaionale cuprinse n operaiunea de audit. Sunt oferite descrieri generale ale
funcionalitilor i ale datelor fiecrui sistem operaional, precum i o list cu entitile
cele mai importante, precum i a cmpurilor eseniale. De asemenea, se pot meniona i
utilizatorii actuali ai sistemelor analizate.
o Secvene de date care lipsesc. n aceast seciune sunt evideniate datele care ar fi
necesare n cadrul depozitului de date, dar nu sunt disponibile n sistemele surs. Trebuie
oferite explicaii n legtur cu importana datelor care lipsesc i modul cum pot fi ele
obinute.
o Ameliorarea calitii datelor. Pentru fiecare sistem operaional, trebuie evideniate toate
zonele n care poate fi mbuntit calitatea datelor i cum anume.
o Estimarea resurselor i a efortului. Pentru fiecare sistem operaional, se poate preciza un
cost estimativ i durata de timp necesar pentru a aduga datele lips sau pentru a
mbunti calitatea.
- Schimbarea formatului. Fiecare dintre cmpurile utilizate n sistemele operaionale pot stoca
date n diverse formaturi i tipuri. Aceste secvene individuale de date sunt modificate n impul
procesului de transformare pentru a respecta setul standard de formate din depozitul de date.
- Redundana datelor. nregistrrile din mai multe surse sunt comparate pentru a identifica
nregistrrile duplicat bazate pe valoarea cmpurilor cheie. Duplicatele sunt eliminate pentru a
crea o singur nregistrare pentru un client, un produs, un angajat sau o tranzacie. Duplicatele de
tip excepie pot fi rezolvate manual prin folosirea unui sistem de avertizare. Tot manual se vor
rezolva i nregistrrile duplicat cu valori conflictuale n cazul n care nu exist mecanisme clare
pentru stabilirea valorilor corecte.
- Partiionarea cmpurilor. Uneori este necesar ca o secven de date din sistemul surs s fie
partiionat n unul sau mai multe cmpuri n depozitul de date. Unul dintre cele mai des ntlnite
cazuri de acest gen se refer la adresa clienilor care n sistemul surs este memorat ntr-un
singur cmp, n timp ce n depozit va fi memorat pe mai multe cmpuri (strad, ora, zon,
regiune, ar etc).
- Integrarea cmpurilor. Integrarea reprezint operaiunea invers partiionrii: dou sau mai
multe cmpuri din sistemul operaional vor fi integrate n vederea populrii depozitului de date.
- nlocuirea valorilor. Unele valori care sunt folosite n sistemele operaionale pot s nu fie pe
nelesul utilizatorilor depozitului de date.
De exemplu, codurile care au un neles specific n sistemul operaional sunt lipsite de relevan
pentru manageri. Subsistemul de transformare nlocuiete valorile originale cu valori noi care
sunt utile pentru cei ce folosesc coninutul depozitului de date.
- Derivarea valorilor. Estimrile, determinarea de indici i alte valori derivate pot fi calculate
folosind diverse formule. Prin calcularea i ncrcarea acestor valori n depozit, posibilitatea ca
utilizatorii s le calculeze greit este eliminat.
- Agregarea valorilor. Agregrile pot fi, de asemenea, precalculate nainte de ncrcarea lor n
depozitul de date. Aceasta este o alternativ la ncrcarea doar a valorilor atomice n depozitul de
date.
5. Construirea subsistemului pentru calitatea datelor
Probleme legate de calitatea datelor nu sunt ntotdeauna vizibile nc de la nceputul
proiectului de implementare, deoarece atenia echipei este focalizat pe mutarea unor volume
mari de date i mai puin pe analizarea fiecrei secvene de date n parte. n orice caz, pe msura
evoluiei implementrii, calitatea datelor va deveni o problem din ce n ce mai stringent.
Una dintre cauzele care determin mpotrivirea utilizatorilor n privina depozitului de
date o constituie tocmai slaba calitate a datelor. De asemenea, foarte important este i percepia
pe care o au utilizatorii despre date. Acetia vor folosi depozitul de date doar n msura n care
au convingerea c datele pe care le gestioneaz sunt corecte. Rezult c subsistemul pentru
calitatea datelor reprezint o component critic a arhitecturii depozitului de date. nelegerea
cauzelor care determin erori n cadrul datelor face mai uoar munca de depistare i corectare.
Deoarece majoritatea erorilor provin din sistemele surs, administratorii bazelor de date i
administratorii de sistem vor avea un rol deosebit de important n aceast etap.
Erorile au urmtoarele cauze:
- Valori lips. Valorile lipsesc din sistemele surs, din cauza nregistrrilor incomplete sau a
cmpurilor opionale care nu sunt completate.
- Integritatea referenial slab. Uneori, integritatea referenial nu poate fi realizat n
sistemele surs, din cauza valorilor inconsistente.
- Erori n datele precalculate. O parte din datele din depozitul de date pot fi precalculate nainte
de ncrcarea lor, ca parte a procesului de transformare, dac formulele sau calculele sunt greite,
atunci depozitul va conine date eronate.
- Uniti de msur diferite. Folosirea diferitelor uniti de msur pentru diverse atribute
(valoare, cantitate, volum, timp etc.) poate duce la erori n depozitul de date dac nu se
efectueaz n prealabil transformri la o msur unitar.
- Obinerea duplicatelor. Deduplicarea datelor trebuie s aib loc nainte de ncrcarea lor n
depozitul de date. n cazul n care aceast operaiune nu se desfoar corect, exist riscul ca n
depozit s apar valori duplicate, generatoare de inconsistene i erori.
- Partiionarea cmpurilor. Exist cazuri n care un singur cmp din sistemul operaional trebuie
partiionat n mai multe cmpuri n depozitul de date. Din pcate volumul mare de date necesit
apelarea la proceduri automate de partiionare a cmpurilor, care pot s nu funcioneze corect n
toate cazurile.
- Ierarhii multiple. Multe dintre dimensiunile depozitului de date vor avea ierarhii multiple
determinate de necesitile de analiz. De exemplu, dimensiunea timp poate avea o ierarhie zilun-trimestru-an, precum i ierarhiile zi-sptmn i zi-lunfiscal-trimestrufiscal-anfiscal.
Nenelegerea semnificaiilor acestor ierarhii multiple din diferite dimensiuni poate cauza
ncrcri eronate n depozitul de date.
- Termeni i reguli conflictuale. Regulile sau termenii conflictuali pot determina planificatorii
depozitului de date s ncarce dou secvene diferite de date n acelai cmp al depozitului sau,
invers, aceeai secven n dou cmpuri diferite.
Calitatea datelor din cadrul organizaiei poate fi ameliorat prin mai multe modaliti:
o Evaluarea calitii datelor. Trebuie determinat mai nti calitatea datelor pentru fiecare
dintre sistemele surs existente n ntreprindere.
o Identificarea datelor importante. Echipa de implemenatre trebuie s determine care sunt
datele cele mai importante din perspectiva depozitului de date. n felul acesta se pot
stabili anumite prioriti, iar efortul de ameliorare poate fi direcionat n mod eficient
ctre zona de cel mai mare interes.
o Definirea modului de filtrare i mbuntire a datelor. Pentru fiecare secven de date
cu importan mare pentru ntreprindere, trebuie stabilit o tactic specific de
ameliorarea a calitii. Atunci cnd este posibil, filtrarea datelor trebuie s se focalizeze
n primul rnd asupra sistemelor surs, astfel inct s se elimine posibilitatea propagrii
lor n depozitul de date.
o Prevenirea erorilor. Efortul ntreprinderii nu trebuie s se limiteze doar la corecii asupra
datelor deja existente, ci doar s aib n vedere prevenirea apariiei erorilor. Dac
sistemele operaionale care genereaz date eronate nu sunt revizuite, ele vor continua s
fie o surs sigur de erori pentru depozite.
Avnd n vedere complexitatea unui astfel de proiect, nu ar fi realist dac am considera c
exist un singur instrument care s asigure calitatea datelor. De asemenea, orict de mari ar fi
eforturile de ameliorare a calitii, ntreprinderea trebuie s fie oricnd pregtit pentru a aborda
noi probleme referitoare la acest aspect.
Toate erorile descoperite ar trebui s fie corectate la surs, ceea ce nseamn c sistemele
operaionale trebuie s fie modificate astfel nct s conin valorile corecte. Acest practic
asigur c att utilizatorii sistemelor operaionale, ct i cei de la nivel decizional vor beneficia
de date corecte. Experienta a dovedit ns c procesul de corectare a datelor la surs poate fi
uneori dificil de implementat att din cauza responsabilitilor operaionale, ct i din cauza
faptului c datele corecte nu sunt cunoscute. Responsabilitatea pentru corectarea datelor din
sistelele surs revine personalului operaional care nu prea agreaz ideea de a accepta o
responsabilitate suplimentar. Chiar dac se tie despre o anumit secven de date c nu este cea
corect, pot exista situaii n care s nu poat fi determinate valorile corecte din cauza
imposibilitii obinerii lor.
6. Construirea subsistemului pentru ncrcarea depozitului de date
Subsistemul pentru ncrcarea depozitului de date preia schema generat de subsistemul
de extragere i transformare i ncarc datele direct n depozit. Dup cum s-a menionat anterior,
datele care vor fi ncrcate sunt stocate n colecii de date care au aceeai schem ca i depozitul
de date.
Subsistemul de ncrcare a datelor n depozitul de date trebuie s fie apt s furnizeze
urmtoarele faciliti:
- ncrcarea nregistrrilor n tabelele dimensiune. n sistemele surs, fiecare nregistrare
referitoare la un client, un produs sau o tranzacie este identificat n mod unic printr-o cheie. De
asemenea, aceste entiti trebuie identificate n depozitul de date tot printr-o cheie. Cheile din
sistemele surs sunt deseori nepotrivite ca chei pentru depozit, astfel nct apare necesitatea
generrii lor n timpul procesului de ncrcare.
- ncrcarea nregistrrilor n tabelele de fapte. Cheia primar n tabela de fapte este n realitate
o concatenare a cheilor din tabelele dimensiune cu care sunt n legtur. nregistrrile din
tabelele dimensiune se ncarc nainte de cele din tabelele de fapte pentru a se putea realiza
integritatea referenial.
- Calcularea valorilor agregate pe baza nregistrrilor surs. Dup nrcarea valorilor atomice
n depozitul de date, subsistemul de ncrcare trebuie s fie capabil s calculeze i s stocheze i
valori agregate.
- Reindexrile. Dup ce toate datele s-au ncrcat cu succes, indecii din tabelele cele mai
importante trebuie refcui pentru a crete performana interogrilor.
- Prezentarea unui sistem de control. Acest sistem trebuie s furnizeze echipei de implementare
informaii referitoare la modul n care s-a desfurat operaiunea de ncrcare: prezentarea pailor
i a erorilor care au aprut n timpul fiecrui pas (de exemplu, erori cu privire la integritatea
referenial).
Exist discuii dac datele inconsistente trebuie sau nu s fie ncrcate n depozitul de
date. Unele echipe de dezvoltare prefer s ncarce doar date corecte n depozitul de date,
argumentnd c datele inconsistente sunt generatoare de erori. Alte echipe prefer s ncarce
ambele categorii de date, cu condiia ca datele inconsistente s fie marcate distinct. Dac mai
mult de 20% din date sunt incorecte i doar 80% sunt ncrcate n depozitul de date, utilizatorii
depozitului de date vor lua decizii bazate pe o imagine incomplet. Probabil c muli ar considera
necuprinderea datelor inconsistente ca pe un lucru absolut normal, ns sunt cazuri n care ar fi
de preferat ca ele s fie ncrcate n depozit.
Decidenii trebuie s aib datele la dispoziie 24 de ore pe zi, ns procesul de ncrcare a
depozitului de date blocheaz accesul pe durata desfurrii lui. Cea mai mare provocare n
construirea unui sistem de ncrcare o constituie optimizarea operaiunii de ncrcare astfel nct
ea s blocheze ct mai puin accesul utilizatorilor la date.
Stabilirea schemei depozitului de date
Administratorul DD realizeaz schema
acestuia n paralel cu construirea sau
configurarea subsistemelor back-end (extragere i transformare, asigurarea calitii datelor,
ncrcare). n acest sens, el trebuie s efectueze urmtoarele activiti:
- Crearea tabelelor DD. Schema fizic a depozitului de date se implementeaz prin crearea
efectiv a tuturor tabelelor de fapte i de dimensiuni, precum i a tabelelor cu valori agregate.
- Construirea indecilor. Indecii vor fi construii n tabele n concordan cu schema fizic a
depozitului de date.
- Popularea DD. Dup definirea schemei tabelelor i precizarea indecilor se trece la ncrcarea
datelor. Trebuie avute n vedere i tabelele create pentru a gestiona excepii, de genul celei
prezentate n legtur cu restricia referenial.
Metadatele din depozitul de date
Metadatele se definesc ca fiind informaii despre date. Aceast definiie nu este
perceput corect de obicei de cei ce ncearc s o neleag i de aceea poate ar fi mai potrivit s
remarcm c metadatele descriu coninutul depozitului de date, indicnd de unde provin datele
originale i documentnd regulile care guverneaz transformarea datelor. Interfeele DD folosesc
metadatele i pentru automatizarea unor etape din ciclul de via al dezvoltrii depozitului de
date.
Modul de acces la date
Stabilirea modului de acces la date reprezint aproximativ 10% din ntregul efort de
dezvoltare a depozitului de date i este partea vizibil de care iau contact utilizatorii. De aceea,
modul acces este o component critic n vederea acceptrii depozitului de date de ctre
utilizatori.
Achiziia i instalarea
interfeelor de acces. Echipa care are ca responsabilitate
implementarea componentei de acces trebuie s instaleze interfeele selectate mai nti pe o
main test care are acces la depozitul de date. n acest fel, dezvoltatorii pot descoperi o serie de
probleme legate de funcionarea interfeelor.
Construirea rapoartelor i a interogrilor predefinite. Prototipul dezvoltat iniial este rafinat
n timpul dezvoltrii depozitului de date prin ncorporarea unor elemente furnizate de reacia
(feed-back) utilizatorilor i prin construirea unor rapoarte i interogri predefinite de care au
nevoie decidenii. Interfeele au diverse opiuni legate de rapoarte i interogri, astfel nct
echipa de dezvoltare trebuie s selecteze varianta optim.
Stabilirea profilurilor utilizator. n sistemul de gestiune a depozitului de date, trebuie
neaprat definite roluri i profiluri de utilizatori pentru a stabili corect drepturile de acces. Se
recomand definirea cel puin a urmtoarelor roluri:
-
Instruirea utilizatorilor
Instruirea pe tema depozitului de date care va fi implementat n curnd n ntreprindere este
absolut necesar pentru toi utilizatorii.
Aria de cuprindere a instruirii utilizatorilor. Instruirea trebuie s aib n vedere toi
utilizatorii care vor intra n contact cu depozitul de date i trebuie acoperite urmtoarele aspecte:
o Definirea depozitului de date. Oamenii au ateptri diferite n ceea ce privete depozitul
de date. Instruirea trebuie s nceap neaprat cu definirea depozitului.
o Aria de cuprindere a depozitului de date. Toi utilizatorii trebuie s cunoasc coninutul
depozitului de date. Instruirea trebuie s evidenieze clar ce poate i ce nu poate s fac
depozitul de date.
o Folosirea interfeelor. Utilizatorii trebuie s invee cum s foloseasc fiecare instrument
n parte.
o Intervalul de ncrcare. Utilizatorii vor fi informai cu privire la intervalul de ncrcare a
datelor i la datele care suntncrcate.
o Aflarea rspunsurilor la alte ntrebri. Utilizatorii vor fi informai cum s obin diverse
informaii despre folosirea depozitului de date.
Instruirea categoriilor de utilizatori. Instruirea trebuie s cuprind pe acei utilizatori care vor
avea contact cu funcionalitile depozitului de date. Trebuie avut ns n vedere c utilizatorii
diferii au necesiti diferite. Dac numrul lor este mare, atunci ei pot fi mprii n dou
grupuri nceptori i avansai. Avansaii se vor plictisi n cazul n care li se prezint noiuni de
baz, n timp ce nceptorii vor fi depii de situaie dac se trece direct la chestiuni de finee.
Instruirea este de fapt pasul premergtor al testrii, deoarece utilizatorii nu vor putea testa corect
depozitul de date pn cnd nu sunt instruii cu privire la coninutul lui i la regulile care l
guverneaz.
Testarea depozitului de date
Pentru testarea depozitului de date se va face apel la reprezentanii utilizatorilor avnduse n obiectiv urmtoarele aspecte:
- Interogrile. Utilizatorii vor testa corectitudinea rapoartelor i interogrilor obinute din
depozitul de date. De regul, validarea rapoartelor generate din depozitul de date se face
construind manual sau prin mecanismele existente acelai raport i comparnd cele dou
rezultate. Eventualele discrepane sunt reinute i se vor efectua coreciile care se impun. Echipa
nu trebuie s omit i varianta ca eroarea s provin de fapt din sistemul manual de obinere a
raportului.
- Performana. Ideal ar fi ca fiecare interogare lansat asupra depozitului de date s se execute
instantaneu, ns n lumea real valoarea acestui indicator depinde de mrimea depozitului de
date, de numrul de utilizatori i de capacitatea reelei. O metod de a ameliora acest indicator
este cea a folosirii valorilor agregate precalculate.
- Rspuns pe durate specificate. Depozitul de date trebuie s fie capabil s furnizeze rapoarte pe
intervalul specificat de utilizatori (zi, sptmn, lun, trimestru,an).
Depozitul de date este acceptat doar dup ce testele s-au terminat cu succes i utilizatorii
s-au declarat mulumii de el. Pot fi stabilite anumite criterii de acceptare nainte de nceperea
implementrii, iar acceptul va fi obinut dac sunt ndeplinite aceste criterii.
o Frecvena utilizrii. Acest indicator este foarte important, deoarece evideniaz numrul
de accesri ale depozitului de ctre un utilizator ntr-o anumit perioad de timp,
sugernd astfel gradul n care depozitul de date sprijin utilizatorul n activitile de zi cu
zi.
o Durata medie a sesiunii de lucru. Exprim perioada de timp n care utilizatorul rmne
conectat la depozitul de date.
o Intervalele de utilizare maxim a depozitului de date. Se are n vedere perioada din zi,
ziua din sptmn, sptmna din lun, etc. n care numrul de interogri este mai mare.
Astfel se scot n eviden momentele i perioadele de timp n care depozitul este cel mai
utilizat.
o Subiectele interogate. Acest indicator arat care subiecte din depozitul de date sunt cele
mai folosite de ctre utilizatori, putndu-se lua msuri pentru optimizarea acestor zone,
precum i subiectele care nu prezint interes i care pot fi eliminate.
o Mrimea depozitului de date. Dup fiecare ncrcare a depozitului de date, se determin
numrul de nregistrri din fiecare colecie de date pentru a obine rata de cretere a
depozitului de date.
3. Meninerea calitii datelor
Calitatea datelor este un aspect care trebuie s preocupe organizaia i dup
implementarea depozitului de date. Problema principal const n modul n care sunt abordate
erorile care apar n legtur cu funcionarea depozitului de date. Dou alternative referitoare la
calitatea datelor trebuie luate n considerare: ncrcarea n depozit numai a datelor corecte sau
ncrcarea tuturor datelor i efectuarea coreciilor pe parcurs.
n prim abordare, doar datele care sunt corecte sunt ncrcate n depozitul de date. n
felul acesta utilizatorii sunt siguri c depozitul conine numai date corecte i, ca atare, pot lua
decizii bine fundamentate. Deoarece erorile necesit mult timp pentru a fi identificate i
corectate, ar trece prea mult timp pn ce s-ar efectua o nou ncrcare a depozitului. De
asemenea, rezultatele multor interogri (de exemplu: care sunt primii 10 clieni sau care sunt
cele mai bine vndute produse?) nu vor fi relevante n cazul in care depozitul de date este
incomplet.
A doua abordare presupune ca toate datele s fie ncrcate n depozit, dar sunt definite i
implementate mecanisme pentru identificarea i corectarea erorilor. Dei acast abordare permite
ncrcarea depozitului cu toate datele din sistemele operaionale, calitatea datelor poate fi
necorespunztoare, iar deciziile care se iau pe baza lor pot fi inadecvate.
4. Evaluarea mrimii depozitului de date
ncrcarea iniial a depozitului de date poate s nu ridice probleme referitoare la
capacitatea de memorare, dar pe msura trecerii timpului depozitul poate crete cu fiecare nou
operaiune de ncrcare, iar gestiunea creterii volumului de date va cpta o importan
deosebit. Exist cteva modaliti clasice de gestionare a creterii volumului datelor: agregrile
stocate, limitarea perioadei de timp, tergerea datelor nefolosite.
Folosirea agregrilor stocate reduce semnificativ spaiul solicitat de date, n special dac
datele sunt folosite doar la nivelurile de sintez. Datele analitice pot fi terse sau arhivate dup ce
au fost create valorile agregate, dar trebuie avut n vedere faptul c odat terse, nu se pot obine
detalieri ale agregrilor.
Dei utilizatorii ar vrea ca depozitul s stocheze datele permanent, se poate face un
compromis referitor la perioada de timp pentru care un anumit set de date este pstrat n depozit.
Prin folosirea rezultatelor indicatorilor statistici referitori la depozitul de date, pot fi
identificate datele care nu sunt folosite de ctre utilizatori i astfel se poate proceda la tergerea
lor.
5. Refacerea datelor n caz de accidente
La fel ca i la BD, administratorii depozitului de date trebuie s acorde important
sistemelor de recuperare a datelor n caz de accidente. Pe msura trecerii timpului, tot mai muli
utilizatori din organizaie vor deveni dependeni de coninutul depozitului de date i astfel
recuperarea datelor capt o importan deosebit.
Anumite accidente pot necesita reinstalarea sistemelor de operare i a sistemelor de
gestiune a bazelor de date, precum i rencrcarea depozitului de date i popularea tabelelor care
conin agregri. Procedurile de recuperare trebuie s prevad toate situaiile neplcute care pot
aprea.