Documente Academic
Documente Profesional
Documente Cultură
Depozitul de date (sens larg) = o bază de date de foarte mari dimensiuni care este
întreţinută separat de bazele de date operaţionale ale unei organizaţii şi care este
construită din date provenite din sisteme sursă prin extragere, filtrare, transformare şi
stocare în depozite speciale, în scopul sprijinirii proceselor decizionale.
Depozitele de date sprijina prelucrarea informaţiilor pentru analiză, furnizând o platformă
solidă de consolidare a datelor istorice. Un depozit de date este un ansamblu de date
consistente, din punct de vedere semantic, care serveşte la o implementare fizică a unui
model de date pentru sprijinirea deciziei şi stochează informaţii pe care o organizaţie le
solicită în luarea deciziilor strategice.
Depozitul de date (sens W.Inmon) = o colecţie de date orientate pe subiecte, integrate,
istorice şi nevolatile destinată sprijinirii procesului de luare a deciziilor manageriale.
Depozitul de date - DD este o bază de date foarte mare, proiectată pentru a susţine
procesul decizional şi optimizată pentru interogări rapide şi agregări complexe.
Depozitul de date este proiectat pentru a optimiza obţinerea de rapoarte pe un număr
mare de înregistrări ale bazei de date
Pentru a obţine informaţiile dorite, DD sunt supuse unor prelucrări complexe, cu ajutorul
unor metode specifice, cum ar fi: analiza multidimensională a datelor, metode statistice
superioare de prognoză, metode matematice aplicate unui volum foarte mare de date.
Sistemele care lucrează cu depozite de date trebuie să aibă o mare flexibilitate, ceea ce
înseamnă o conectivitate la nivelul întregii organizaţii, astfel încât servere provenind de
la furnizori diferiţi să se poată conecta simultan la depozitul deja existent
Pentru a se evita căutarile costisitoare, de multe ori, se alege o cale de mijloc: în loc să
caute în tot depozitul de date, se poate crea un sub-depozit (data mart – concentrări de
date) care să conţină numai datele relevante pentru analiza necesară.
Depozitele de date sunt destinate managerilor şi analiştilor angrenaţi în luarea deciziilor
strategice privind dezvoltarea şi viitorul organizaţiilor. Pentru aceasta, ei au nevoie de
interfeţe performante de accesare şi utilizare a datelor din depozite, adică de produse
software asociate depozitului de date:
- interfeţe oferite de SGBD utilizatorilor, care au nevoie de acces rapid, de
informaţii punctuale (limbaje de interogare gen SQL, generatoare de rapoarte);
- interfeţe specializate pentru asistarea deciziilor, care transformă datele în forma
cerută de decidenţi (grafice, diagrame, organigrame) sau oferă posibilitatea
analizei tendinţelor, corelaţiilor şi interpretarea acestora (OLAP, Data mining).
Atât bazele de date cât şi depozitele de date conţin cantităţi mari de date structurate
care pot fi consultate rapid
Sistemele de baze de date relaţionale sunt adecvate aplicaţiilor curente de gestiune şi au
ca obiectiv execuţia on-line a tranzacţiilor şi proceselor de interogare (sunt sisteme tip
OLTP - On Line Transaction Processing). Aceste sisteme implementează toate
operaţiile zilnice dintr-o organizaţie.
Sistemele cu depozite de date servesc utilizatorilor sau specialiştilor în domeniul analizei
datelor şi luării deciziilor, pot organiza şi prezenta datele în formate variate, în ordinea
solicitărilor, de la diferiţi utilizatori (sunt sisteme tip OLAP – On Line Analytical
Processing).
Bazele de date sunt orientate pe client (customer oriented) şi sunt utilizate pentru
procesarea tranzacţiilor şi interogărilor
DD sunt orientate pe piaţă (market oriented) şi utilizate de manageri şi analişti de date.
BD gestionează date curente care sunt destul de detaliate pentru a fi uşor utilizate
înactivitatea operaţională.
DD gestionează date istorice, furnizând facilităţi pentru sintetizare şi agregare, precum
şi pentru stocarea şi gestionarea informaţiilor cu diferite niveluri de granularitate. Aceste
aspecte fac ca datele să fie uşor utilizate de către decidenţi, mai ales în tactica şi strategia
organizaţiei.
La BD sursele de date sunt tranzacţiile atomice, iar accesul este de tip citire şi scriere.
La DD sursele de date sunt BD operaţionale, iar accesul este cel mai adesea de tip citire
pentru interogări complexe.
Sunt cel puţin două arhitecturi de DD care se pot transforma oricând una în cealaltă: pe
componente, pe niveluri.
Arhitectura pe componente a depozitelor de date
T
Date r
externe a Data Mart
n
s Metadate
f
o
r Data Mining
Date
interne m Date agregate
a
r
e Date detaliate OLAP
Date
arhivate
ieşiri
Depozite de date
extragere, transformare
Strat inferior
Date
Metadatele sunt informaţii despre datele existente în DD, care descriu structura
(conţinutul) depozitului şi furnizează referinţe directe la date.
Metadatele sunt folosite pentru administrarea depozitului de date, deoarece conţin
informaţii despre: sursa datelor, algoritmii de sumarizare, statisticile de utilizare etc
Metadatele unui DD conţin următoarele categorii de informaţii:
- o descriere a structurii de date din depozit, care include schema depozitului,
dimensiunile, ierarhiile, definiţiile datelor derivate;
- metadatele operaţionale, care includ: date privind evoluţia în timp (istoricul
datelor şi secvenţa de transformare aplicată asupra lor), circulaţia datelor (active,
arhivate, şterse) şi informaţii de monitorizare (statistici privind utilizarea
depozitului de date, rapoarte de erori etc.);
- algoritmii utilizaţi pentru sumarizare, care includ: măsura şi dimensiunea
algoritmilor definiţi, date despre granularitate, partiţii, arii de subiecte, agregări,
sumarizări, rapoarte şi filtre predefinite;
- mapările (transformările) de la mediul operaţional la depozitul de date care
includ: bazele de date sursă şi conţinutul lor, descrierile interfeţelor (gateways),
partiţionarea datelor, extragerea datelor, filtrarea datelor, regulile de întreţinere,
securitate a datelor;
- date referitoare la performanţele sistemului care include indici şi profiluri care
îmbunătăţesc accesul la date şi performanţele de căutare;
metadatele economice (business metadata), care includ termenii economici şi definiţiile
aferente
Rolul metadatelor pentru depozitul de date reiese din următoarele considerente:
- stabilesc contextul depozitului de date. Sub orice sistem, inclusiv DD, utilizatorul
intră sub o sesiune de lucru, adică se crează automat un context de lucru:
parametri setaţi, conectări efectuate, drepturi existente etc.
- ajută administratorii şi utilizatorii depozitului să localizeze şi să înţeleagă
secvenţele de date atât în sistemele sursă cât şi în structura depozitului. În
sistemele operaţionale, dezvoltatorii şi administratorii bazelor de date lucrează cu
metadate în fiecare zi. Toată documentaţia tehnică a sistemelor reprezintă într-un
fel sau altul metadate. Ele rămân totuşi transparente pentru majoritatea
utilizatorilor, ei percepând în general sistemul ca pe o cutie neagră ce oferă o
interfaţă prin intermediul căreia trebuie manevrat. În cazul depozitelor de date,
utilizatorii sistemelor de asistare a deciziei trebuie să înţeleagă înainte de toate
conţinutul depozitului, pentru ca apoi să beneficieze de informaţiile necesare.
- procesul de analiză cuprinde mai multe etape: identificarea datelor, obţinerea
datelor, interpretarea şi analiza datelor pentru a obţine informaţii, prezentarea
informaţiilor şi recomandarea unei direcţii de acţiune. Pentru ca depozitul de date
să fie folositor analiştilor din întreprindere, metadatele trebuie să ofere
utilizatorilor informaţii care să-i ajute în parcurgerea etapelor anterior enumerate.
Astfel, metadatele trebuie să ajute utilizatorii să găsească rapid datele în depozit şi
să interpreteze corect datele obţinute prin oferirea informaţiilor referitoare la
formatul şi semnificaţia datelor;
- metadatele sunt o formă de auditare a transformării datelor. Metadatele
documentează transformarea datelor sursă în date ale depozitului, adică trebuie să
fie capabile să explice modul în care o secvenţă de date din depozit este dedusă
din sistemele operaţionale. Toate regulile care guvernează transformarea datelor
în noi valori sau noi formate sunt considerate a fi metadate. Această formă de
audit este necesară atunci când utilizatorii trebuie să aibă încredere în veridicitatea
şi calitatea datelor din depozit. De asemenea, este important ca utilizatorii să-şi
poată da seama de unde provin datele existente în depozit. Este de dorit ca, pe
baza acestor metadate, anumite produse să poată genera programe de extragere şi
transformare pentru cei care se ocupă de interfaţa de analiză a depozitului de date;
- metadatele menţin şi cresc calitatea datelor, fapt ce se realizează prin definirea
valorilor valide pentru fiecare câmp din depozit. Înainte de a fi efectiv încărcate în
depozit, datele pot fi revăzute şi erorile pot fi corectate. De asemenea, regulile de
corecţie a erorilor pot fi documentate tot prin metadate;
- permite gestiunea versiunilor. Un depozit de date conţine date pentru diferite
perioade de timp şi de aceea este important să avem în vedere efectul pe care îl
poate avea timpul asupra regulilor de trecere a câmpurilor sursă în câmpuri
destinaţie, asupra agregărilor etc. Utilizatorii trebuie să aibă acces la metadatele
corecte pentru perioada de timp pe care o studiază. Ceea ce la prima vedere ar
părea să fie o eroare în transformarea datelor poate fi de fapt rezultatul schimbării
regulilor de transformare a datelor. De aceea este important ca metadatele să fie
corect gestionate din punct de vedere al versiunilor.
Realizarea unui depozit de date presupune aplicarea unei scheme de analiză economică,
pentru a determina măsura în care depozitul de date este necesar şi eficient:
- trebuie să furnizeze avantaje competitive prezentând informaţii relevante pe baza
cărora putem măsura performanţele şi putem face ajustări critice pentru a câştiga
în faţa competitorilor;
- poate determina creşterea productivităţii deoarece permite obţinerea rapidă şi
eficientă de informaţii care descriu cu acurateţe organizaţia;
- facilitează gestiunea relaţiilor cu clienţii, deoarece acesta furnizează o viziune
consistentă despre clienţii şi produsele comercializate de organizaţie, pe toate
departamentele;
- determină reducerea costurilor prin reliefarea tendinţelor , direcţiilor şi
excepţiilor pe perioade lungi de timp.
În absenţa unui depozit de date multe dintre cerinţele decizionale sunt clasificate în
categoria rapoartelor ad-hoc şi, ca urmare, cele mai multe dintre programele de extragere
şi procesare nu sunt suficient documentate şi sunt cunoscute doar de cei care le-au
conceput. Astfel, se ajunge în situaţia în care, în aceeaşi organizaţie, nu există standarde
în acest domeniu (de exemplu, persoane diferite aplică formule şi reguli diferite pentru
aceleaşi date).
Echipa de dezvoltare a depozitului de date trebuie să urmărească în primul rând
introducerea standardelor locale sau internaţionale pentru manipularea datelor. În acest
sens vor fi vizate următoarele aspecte:
o Date actuale folosite pentru obţinerea rapoartelor. Aceste date tebuie să fie
incluse în procesul de auditare al sistemelor sursă. Avantajul este că echipa de
dezvoltare va şti din start care câmpuri din aceste sisteme sunt cele mai
importante.
o Programele actuale de extragere. Programele de extragere sunt un indiciu valoros
pentru realizarea tabelelor sursă-destinaţie. De asemenea, ele oferă informaţii
valoroase referitoare la formulele şi regulile de transformare a datelor.
o Transformarea manuală a datelor. În cazul în care există astfel de situaţii, ele
trebuie analizate cu grijă pentru a se obţine informaţiile necesare şi pentru a se
elimina o parte dintre transformările manuale
Un raport de auditare a sistemelor sursă trebuie să aibă următoarele componente:
-Lista sintetică a sistemelor sursă.
-Secvenţe de date care lipsesc
-Ameliorarea calităţii datelor.
-Estimarea resurselor şi a efortului.
Crearea planului de implementare pentru versiunea curentă