Sunteți pe pagina 1din 7

CURS 2 - DEPOZITE DE DATE

DATA WAREHOUSE
0.1 - INTRODUCERE ntr-o ntreprindere, informaia este constituit dintr-o surs principal i surse externe. Sursa principal provine din sistemele informatice interne, denumite, de producie sau operaionale. Acestea sunt din ce n ce mai mult completate cu date din surse externe ntreprinderii, al cror volum reprezint, dup unele studii, cam 20% din volumul total. Creterea volumului de date externe, este consecina dezvoltrii tehnicilor i metodelor de colectare a acestor date. Astfel, la nceputul anilor 90 asistm la apariia unui nou domeniu tiinific supravegherea strategic. Jakobiak i Dou, n lucrarea lor din 1992, au definit supravegherea strategic ca fiind, observarea i analiza mediului extern organizaiei, n scopul colectrii i difuzrii, bine structurate, a informaiilor selectate i tratate, utile lurii deciziilor. Privind acelai domeniu, Lesca definete supravegherea strategic ca fiind, procesul prin care ntreprinderea se lanseaz n studierea prospectiv a mediului su, n scopul creativ, de a deschide noi oportuniti i a reduce incertitudinea. Abordnd acest concept, din punctul de vedere al sistemului informaional dintr-o ntreprindere, putem afirma c supravegherea strategic este o parte a sistemului informaional al organizaiei, dedicat informrii despre mediul extern al ntreprinderii i destinat susinerii deciziilor. Problema principal care apare, este, pe de o parte, de a seleciona informaiile (interne i externe) juste i utile i, pe de alt parte, de a le stoca corect, pentru a fi gsite uor atunci cnd este nevoie. Conceptul de Data Warehuose (depozit de date), a fost formalizat pentru prima dat n 1990. Ideea de a construii o baz de date orientat pe subiect, integrat, care s conin informaii datate, nevolatile i destinate exclusiv procesului de asistare n luarea deciziilor, a fost primit, iniial, cu o oarecare perplexitate. Dar spre fericirea multora, i dezamgirea altora, economia actual a decis altceva. ntreprinderile se confrunt cu o concuren din ce n ce mai puternic, cu clieni din ce n ce mai exigeni, ntr-un mediu organizaional din ce n ce mai complex i de obicei aflat n micare. Pentru a face fa noilor provocri economice, ntreprinderea trebuie s anticipeze i s previn. Anticiparea nu poate fi eficient dac nu se bazeaz pe informaii pertinente. Aceste informaii sunt la mna oricrei ntreprinderi care dispune de date gestionate de sistemele ei operaionale i care poate obine alte date din mediul extern. Dar, la momentul actual, datele dei sunt supraabundente, nu sunt organizate ntr-o perspectiv decizional i sunt dispersate n mai multe sisteme eterogene. Cu toate acestea, datele reprezint o min de informaii. Devine din ce n ce mai stringent necesitatea de a asambla i omogeniza aceste date, cu scopul de a permite analizarea indicatorilor pertineni n vederea facilitrii procesului de luare a deciziilor. Pentru a rspunde acestor nevoi, informatica se mbogete cu un rol nou, anume acela de a defini i integra o arhitectur care s serveasc drept fundaie pentru aplicaiile decizionale, este vorba de Data Warehouse. Deci de reinut este faptul c noul rol al informaticii este acela de a defini i integra o arhitectur care s constituie fundamentul aplicaiilor decizionale, anume arhitectura Data Warehouse. M.A.E. anul I, Master, 2010-2011 1

CURS 2 - DEPOZITE DE DATE


0.2 - CARACTERISTICI ALE DEPOZITELOR DE DATE Datorit obiectivelor impuse de utilizarea depozitelor de date n analiz, se desprind cteva caracteristici mai importante, pe care acestea trebuie s le aib. Depozitul de date trebuie s asigure accesul la datele organizaiei. Accesul trebuie s se realizeze ntr-un timp ct mai scurt, la cerere i s fie performant. Datele dintr-un depozit de date pot fi separate i combinate pentru a oferi sistemului, un acces ct mai rapid i un timp de rspuns ct mai mic. De asemenea, accesul presupune existena unor utilitare care s fie foarte uor de folosit. Datele dintr-un depozit de date trebuie s fie consistente. Consistena presupune faptul c, atunci cnd dou persoane solicit acelai set de informaii, acestea trebuie s primeasc aceleai date, chiar dac ele au fost cerute la momente de timp diferite. Dac datele nu au fost complet ncrcate, atunci utilizatorul va fi avertizat cu privire la acest lucru i este sftuit s atepte pn ce toate datele vor fi complet ncrcate. Datele din depozitele de date sunt utilizate direct n analize, fr alte prelucrri suplimentare. Datele nu sunt doar centralizate, integrate i stocate, ci, dup ce sunt extrase dintr-o varietate de surse, sunt corectate de erori, transformate, li se asigur o anume calitate dup care, devin utilizabile. Depozitele de date nu reprezint doar datele, ci i un set de utilitare pentru a interoga, analiza i prezenta informaiile. Calitatea datelor din depozitele de date este un factor determinant pentru procesul de analiz. Se ntlnete frecvent situaia n care, datele nu sunt de bun calitate, sau nu sunt extrase n ntregime, sau au un caracter incert din punct de vedere al coninutului, ceea ce face ca analiza ulterioar s conduc la rezultate eronate. O consecin important a acestor caracteristici o constituie redundana datelor. Dac n sistemul operaional, redundana este eliminat, prin dependene funcionale i prin procese de normalizare, pentru a evita anomaliile de actualizare, n depozitul de date, redundana este creat n mod intenionat, prin denormalizare i agregare, pentru a permite un acces mai rapid la date. Integrarea datelor reprezint o alt consecin important a realizrii depozitului de date i, n cele din urm, raiunea pentru care acesta este creat. Datele sunt ncrcate pentru a rspunde nevoilor informaionale ale ntregii organizaii, asigurnd faptul c rapoartele generate, pentru diverse compartimente, vor conine aceleai rezultate. Sistemul informatic operaional, este de cele mai multe ori format din subsisteme semi-independente, create la momente diferite, de echipe diferite, n maniere diferite, ceea ce face imposibil folosirea acestuia pentru analiz. Integrarea datelor provenind din sistemul informatic operaional i din alte surse, se refer la diferite aspecte: modaliti unice de codificare, sistem de uniti de msur consistent, sistem stabil de reprezentare fizic a datelor, convenii clare privind modul de reprezentare a datelor calendaristice, convenii unice privind denumirile i coninutul acestora. 0.3 - SURSELE DE DATE ALE UNUI DW Arhitectura depozitelor de date poate varia n funcie de situaia specific, a fiecrei organizaii. n cazul unei arhitecturi canonice simple, datele sunt ncrcate din una, sau mai multe surse, iar utilizatorii acceseaz n mod direct depozitul de date. O arhitectur complex este structurat pe patru niveluri distincte de realizare a datelor M.A.E. anul I, Master, 2010-2011 2

CURS 2 - DEPOZITE DE DATE


astfel:

Nivelul surselor de date - n care se colecteaz date eterogene provenite din diverse

sisteme operaionale ale organizaiei. De regul, se utilizeaz un proces de integrare a acestor date, printr-un modul separat al depozitului de date, numit i modul surs. Nivelul transformrii datelor - n care se folosete un proces de extragere, transformare (curare) i ncrcare a datelor (ETL - Extract, Transform, Load), ce presupune printre altele i prelucrarea datelor din punct de vedere al integritii, preciziei, acurateei i al formatului. Nivelul depozitului de date - conine datele prelucrate, ncrcate n structuri multidimensionale i agregate pe diferite niveluri, pregtite pentru a fi utilizate n analiz. La acest nivel se pot proiecta mai multe subsisteme de tipul data mart. Acestea sunt proiectate pentru fiecare din compartimentele i departamentele ntreprinderii. Nivelul de prezentare i raportare a datelor - presupune extragerea datelor din depozit i utilizarea unor instrumente i tehnologii de tipul inteligenei afacerii (Business Intelligence), pentru analiza i interpretarea informaiilor. La acest nivel, se utilizeaz instrumentele de lucru de tip OLAP pentru analiz, informaiile putnd fi prezentate sub diverse forme: grafic, tabelar, integrate n portaluri etc. Figura 3.1, prezint un sistem complex de data warehouse:

Fig. 3.1. Depozit de date cu arhitectura complex

Pe aceasta arhitectur, din punct de vedere funcional se regsesc trei nivele (module) distincte de realizare (Figura 3.2.).

M.A.E. anul I, Master, 2010-2011

CURS 2 - DEPOZITE DE DATE

Fig. 3.2. Modulele funcionale ale unui depozit de date

Modulul operaional - reprezentat de datele ntreprinderii, care sunt de obicei pstrate

sub form diferit, la locaii diferite. Aceste date pot proveni de la aplicaii, sau de la sisteme distribuite din cadrul ntreprinderii, cum ar fi sisteme de gestiune a comenzilor, de eliberare a facturilor, de contabilitate financiar, de gestiune a stocurilor, de salarizare, etc. Indiferent de originea lor, datele trebuie s fie colectate i aduse ntr-o form consistent pentru a putea fi folositoare. Acest proces de transformare a datelor, reprezint baza pe care se construiete un depozit de date consistent, de nalt calitate. Transformarea datelor presupune un proces de extragere, condiionare, curare, fuziune, validare i ncrcare (ETL). Modulul central al depozitului de date reprezentat de SGBD-ul i de serverul pe care ruleaz acesta i de modul n care este implementat depozitul. Din acest punct de vedere, la ora actual, exist dou tendine: - una din tendine ar fi, implementarea unui sistem distribuit, descentralizat, unde datele sunt pstrate n uniti independente (Independent Data Marts), fiecare din aceste uniti, coninnd datele relevante pentru un anumit aspect al operaiilor, iar a doua tendin ar fi, - implementarea unei surse de date unice, centralizate, la care au acces utilizatorii din toate departamentele instituiei. Modulul strategic, de afaceri - valoarea final a unui depozit de date este determinat de avantajele pe care le ofer utilizatorului n diferite procese de luare a deciziilor i analiz. Prin folosirea diferitelor modaliti de acces la informaie i a tehnologiilor de procesare disponibile, utilizatorii pot obine informaii care i vor ajuta n procesele de stabilire a strategiei firmei. La ultimul nivel al arhitecturii, datele sunt pregtite pentru interpretare i analiz cu ajutorul unor instrumente specifice, cum ar fi: instrumente de realizare a graficelor, prezentri, rapoarte dinamice, browsere Web, instrumente de vizualizare a datelor. 0.4 - TIPURI DE DEPOZITE DE DATE Arhitectura funcional a depozitelor de date prezentat mai sus, permite proiectarea i implementarea unor diverse tipuri de depozite de date, n funcie de cerinele afacerii, resursele disponibile i posibilitile de realizare. M.A.E. anul I, Master, 2010-2011 4

CURS 2 - DEPOZITE DE DATE


Vom prezenta mai jos, o clasificare a acestor tipuri de depozite de date. Astfel, din punct de vedere al ariei de cuprindere se ntlnesc trei tipuri de depozite de date:

Depozitul central al organizaiei (Enterprise Warehouse), care colecteaz toate


informaiile despre subiectele ce privesc ntreaga organizaie i furnizeaz un volum extins de date. De regul, acest depozit conine date detaliate, dar i date agregate, iar ca ordin de mrime, pornete de la civa gigabytes, pn la sute de gigabytes, sau terabytes. Un depozit de date de ntreprindere, trebuie implementat pe servere puternice UNIX, sau pe platforme cu Extragerea i procesarea datelor pentru analiz, cu arhitecturi paralele. Acest tip de depozit necesit ns cheltuieli i resurse mai mari pentru analiz, proiectare i realizare . Data mart-ul conine un subset al volumului de date din organizaie, este specific unui grup de utilizatori, sau unui departament. Domeniul este limitat la subiecte specifice. Datele coninute n data mart, sunt de obicei agregate. n mod curent, data mart-urile sunt implementate pe servere departamentale, cu resurse mai reduse, care se bazeaz pe UNIX, sau Windows 2000/2003. Ciclul de implementare al unui data mart este mai curnd msurat n sptmni, sau luni, dect n ani. Ca atare, un data mart poate fi considerat un subansamblu al unui depozit de date, mai uor de construit i ntreinut i mai puin costisitor. Depozitul virtual (Virtual warehouse) este un set de tabele virtuale (views), asupra bazelor de date operaionale. Pentru eficiena procesrii interogrilor, numai unele din viziunile de agregare pot fi materializate. Un depozit virtual este uor de construit, dar problema extragerii i prelucrrii datelor, revine n mod exclusiv serverului de baze de date, ceea ce poate conduce la un timp de prelucrare foarte mare, dar se elimin necesitatea stocrii datelor, ntr-un depozit real. Aceasta variant se recomand a fi aplicat n cazul n care volumul de date necesar este mic, de cteva mii de nregistrri. ns, dac se depete acest interval, timpul de extragere a datelor crete semnificativ i atunci ar fi recomandabil s se combine, soluia de depozit virtual, cu stocarea datelor agregate separat ntr-un data mart, sau depozit de date real.

O alt clasificare a depozitelor de date este propus n lucrarea lui Power D.J., intitulat Decision Support Systems: Concepts and Resources, n care se identific cinci tipuri de depozite de date, n funcie de aria de cuprindere a proceselor decizionale i anume: Depozitul de date de tip organizaional sau galactic (Galactic Data Warehouse GDW), care reprezint un tip de depozit centralizat, cu o arie de cuprindere extins, avnd drept obiectiv, integrarea i prelucrarea datelor la toate nivelurile organizaiei, ncepnd cu nivelul departamentelor i terminnd cu cel al ntregii organizaii; Depozitul de date orientat pe procese de afacere (Business Process Data Warehouse BPDW), care reprezint un tip de depozit specializat, orientat pe satisfacerea cerinelor afacerii i a proceselor de afaceri; Depozitul de date departamental (Departamental Data Warehouse - DDW) reprezint un tip de depozit orientat pe departamente, avnd drept obiectiv, integrarea i prelucrarea datelor, din fiecare departament n parte; Centru de date de tip proces de afaceri (Business Process Data Mart - BPDM) reprezint un tip de depozit specializat, orientat pe satisfacerea unei anumite cerine de afaceri i a unui singur proces de afaceri; Centru de date departamental (Departamental Data Mart - DDM) reprezint un tip de M.A.E. anul I, Master, 2010-2011 5

CURS 2 - DEPOZITE DE DATE


depozit specializat, cu o arie de cuprindere limitat la un anumit departament, avnd drept obiectiv, integrarea i prelucrarea datelor specifice activitilor acestuia. n practic este recomandabil, combinarea acestor tipuri de depozite, deoarece nu ar fi indicat s se proiecteze cte un data mart, pentru fiecare proces de afaceri, sau pentru fiecare departament i apoi s se reuneasc ntr-un depozit centralizat, fr s se in cont i de relaiile interdepartamentale. 0.5 - MODELUL RELAIONAL VS. MODELAREA MULTIDIMENSIONAL Depozitele de date impun condiii de realizare diferite fa de bazele de date relaionale. Dintre aceste diferene menionm urmtoarele: Condiiile de utilizare depozitele de date sunt proiectate pentru analize ad-hoc i rezultatele nu sunt cunoscute dinainte, iar modelul datelor este optimizat, pentru a realiza o mare varietate de interogri. n schimb, sistemele tranzacionale suport numai anumite operaii pentru care au fost proiectate; Modificarea datelor - datele din depozite sunt actualizate regulat (de regul sptmnal, sau lunar) prin procedeul de extragere, transformare i ncrcare automat (ETL). Utilizatorii finali nu pot modifica sau actualiza, direct datele. n sistemele tranzacionale, utilizatorii finali, sunt cei care actualizeaz datele, astfel nct s se reflecte starea fiecrei tranzacii din ntreprindere; Modelul utilizat - n depozitele de date se folosete forma denormalizata (cum este schema stea), pentru optimizarea operaiilor, pe cnd n modelul relaional se folosete forma normalizat a datelor, prin care se optimizeaz operaiile de actualizare/inserare/terge i prin care se garanteaz consistena datelor; Operaii tipice - o interogare a depozitelor de date poate parcurge mii, sau chiar milioane de nregistrri (de exemplu pentru a analiza totalul vnzrilor din luna trecut, pentru toi clienii existeni). n schimb o operaie tranzacional, afecteaz o singur nregistrare, sau un numr limitat de nregistrri; Date istorice - n depozitele de date se stocheaz, de regul, datele istorice din ultimii ani, fa de modul de lucru al sistemelor tranzacionale, care stocheaz date pe cteva luni, astfel nct s realizeze tranzaciile curente cu succes. O ultim i controversat diferen ntre cele dou tipuri de modele, este modul de abordare a datelor. Esena unui model multidimensional de calitate sporit, o constituie alegerea unui set de dimensiuni, ct mai apropiate de cele naturale i de perspectiva utilizatorului. Este foarte util s avem o analiz dintr-o perspectiv relaional a datelor, nainte de a ncepe analiza dimensional, deoarece echipa de proiectani a depozitului de date, va nelege datele mai bine. Modelul multidimensonal trebuie abordat mai mult din perspectiva utilizatorului, dect din cea a datelor. Tehnica modelrii multidimensionale permite o restructurare a datelor n vederea interogrii lor prin tehnologii de analiz specific. Nu este uor de transformat un model relaional n unul multidimensional, chiar dac modelam aceleai date. Cele dou abordri cer condiii diferite, tehnici diferite i produc baze de date cu structuri diferite. Modelarea dimensional produce o baz de date, care este mult mai uor de consultat i de interogat, la un nivel nalt, sintetic, agregat. De asemenea, modelul multidimensional produce o baz de date cu mai puine tabele i chei de administrat, dect modelul entiti-relaii (modelul E-R). M.A.E. anul I, Master, 2010-2011 6

CURS 2 - DEPOZITE DE DATE


Tabelul 3.1, de mai jos descrie diferenele principale, dintre prelucrarea tranzacional (modelul relaional) i prelucrarea analitic (modelul multidimensional):
Caracteristici Organizarea datelor Nivelul datelor Operatia tipica Nivelul de analiza cerut Volum de date per tranzacie Vrsta datelor Modelul relaional Tabela Detaliu Actualizare Scazut Redus Curente Modelul multidimensional Dimensiuni, tabele de fapte, cub de date Agregat Raportare i analiza Ridicat Mare Istorice, previzionate curente,

Tabel 3.1. Paralel ntre prelucrarea relaional i cea analitic

M.A.E. anul I, Master, 2010-2011

S-ar putea să vă placă și