Sunteți pe pagina 1din 11

Depozite de date si inteligenta afacerii

1.1. Inteligena Afacerii aspecte fundamentale Inteligena Afacerii IA (Business Intelligence BI) reprezint o tehnologie informatic care privete organizarea i funcionarea ntreprinderii i a conducerii acesteia. Inteligena Afacerii se refer la capacitatea de a transforma date existente n informaie util care s furnizeze perspective bogate, i mai ales noi, asupra lumii afacerilor din prezent i s ofere o idee referitoare la tendina acesteia n viitor. Soluiile de IA au rolul de a identifica abloanele i a nelege tendinele care pot influena afacerile i permit analiza detaliat a activitii organizaiei, de a nelege comportamentul consumatorului i de a mbunti procesul decizional. Analizele se realizeaz pe date istorice i curente, permind determinarea unor tendine viitoare n cadrul activitilor urmrite. Un sistem informatic pentru Inteligena Afacerii ofer un ansamblu de tehnologii informatice, inclusiv produse software, care livreaz utilizatorilor informaiile necesare pentru a rspunde la ntrebrile ce apar n rezolvarea problemelor de afaceri. Principalele considerente care determin necesitatea unui sistem informatic pentru Inteligena Afacerii sunt legate de: reducerea timpului de obinere a cererilor i analizelor prin accesul i livrarea rapid a informaiilor ctre utilizatori, deinnd mecanisme pentru optimizarea regsirii datelor dintr-un volum mare de date; gestionarea i modelarea mediului de afaceri curent printr-o serie de mecanisme pentru interogare, raportare, analiz complex a informaiilor, stocarea volumelor uriae de date, extragerea i descoperirea datelor; reducerea costurilor informatice prin creterea eficienei sistemelor utilizate. Obiectivele unui sistem pentru Inteligena Afacerii rezult din scopul unui astfel de sistem: suportul informaional pentru fundamentarea deciziilor. Rezult, deci, c la nivelurile de conducere sunt urmrite n contextul unui sistem de IA urmtoarele obiective: s permit soluii informatice i decizii ale conducerii avnd costuri ct mai sczute, eficiente pentru funcionarea i dezvoltarea organizaiei; s permit accesul rapid i uor la informaiile organizaiei pentru un numr ct mai mare de utilizatori de toate categoriile, principala categorie de utilizatori fiind format din manageri; s ofere suport pentru noi tehnologii informatice care s dea eficien sistemului; s ofere un mediu de lucru adaptat pentru nivelurile de conducere: interactiv, flexibil, dinamic, deschis etc.

Pentru atingerea acestor obiective, multe organizaii prefer s construiasc un sistem separat pentru Inteligena Afacerii, fie din motive de securitate, fie din motive de performan a sistemului. De asemenea, se tie c sistemele dedicate dau performane ridicate pe domenii bine precizate, aa cum este cel al conducerii.

1.2. Principalele tehnologii informatice utilizate n sistemele pentru Inteligena Afacerii n momentul actual, foarte puine dintre soluiile informatice pentru Inteligena Afacerii nu sunt realizate cu sisteme de baze de date. Marii productori actuali de sisteme de gestiune a bazelor de date (SGBD) - Oracle, IBM, Microsoft, Informix - sunt i marii furnizori de soluii informatice pentru Inteligena Afacerii. Acest lucru a fost realizat prin extinderea SGBD cu tehnologiile informatice care conduc spre soluii de IA. Extinderea se ncadreaz n tendina actual, conform creia SGBD au devenit acum infrastructuri complexe i complete pentru baze de date de diferite tipuri. Printre cele mai utilizate tehnologii informatice pentru sistemele de Inteligena Afacerii sunt: depozitele de date, concentrrile de date, extragereatransformarea-ncrcarea datelor, analiza complex multidimensional a datelor - sistemele OLAP, extragerea i descoperirea de cunotine din date. Depozitele de date (Data Warehouse) i concentrrile de date (Data Marts) - sunt dou soluii care rezolv problemele legate de sursele de date disparate i de scopurile incompatibile dintre procesarea tranzaciilor i aplicaiile de IA. Scopul unui depozit de date este de a furniza un stoc central de date, unde informaiile din unul sau mai multe sisteme tranzacionale pot fi consolidate ntr-o singur surs de date, integrat i consistent. Depozitul de date este proiectat pentru a optimiza generarea de rapoarte dinamice pe un numr mare de nregistrri ale coleciilor de date. El presupune multe regsiri i foarte puine actualizri (sau deloc) pentru c datele stocate au un caracter istoric. Rezultatele interogrii intense a depozitelor de date sunt folosite pentru fundamentarea deciziilor. Aceste faciliti, dac sunt integrate n produse software care aparin unui SGBD, rspund optim tuturor cerinelor unei afaceri, deoarece se bazeaz pe un ansamblu mare i variat de date, cu faciliti de regsire deosebite. Deoarece procesul dezvoltrii unui depozit de date la nivel de ntreprindere este lung i complex i uneori nu se ncheie cu succes, practicienii acestuia pot adopta o abordate alternativ: dezvoltarea unor depozite mai mici i consolidate, cunoscute sub denumirea de concentrri de date. Astfel, prin date stocate n volume mai mici, nevoia de o raportare mai exact i imediat poate fi suplinit ntr-un ciclu de dezvoltare mai scurt, la un pre mai mic. Aadar, concentrarea de date este de regul un depozit de date de dimensiuni reduse realizat la nivelul unui departament sau al unei sector de activiti din cadrul organizaiei. Tehnologia de Extragere, Transformare, ncrcare (ETI) - se refer la crearea unui depozit de date din mai multe surse de date. Dezvoltarea unei vederi singulare i consistente a datelor care exist n mai multe sisteme, adic integrarea datelor, necesit curarea acestora. De asemenea, datele de la surs s-ar putea s necesite uneori transformarea spre un format comun n depozitul de date. O interfa ETI permite definirea regulilor de afaceri utiliznd produse software pentru: interfa grafic, interfee standard de comunicaie cu date (ODBC, JDBC etc.), acces la date, prelucrarea datelor, stocarea datelor.

Tehnologia OLAP (On Line Analytical Processing) - utilizeaz analiza multidimensional a datelor pentru a atinge flexibilitatea i n acelai timp a menine performana. n aceast abordare, datele sunt vzute la nivel conceptual ca un cub. Acest cub const din valori cantitative, denumite msuri i categorii descriptive, denumite dimensiuni. n procesul de analiz a datelor se tie exact ce trebuie s se obin, prin folosirea unor algoritmi de statistic superioar. Utilitatea pentru organizaii const n abilitatea de a-i analiza superior datele n scopul de a furniza viziunea necesar lurii deciziilor. Aceast utilitate este dat de abilitatea la nivelul conducerii de a-i analiza superior datele pe care le deine n scopul de a furniza viziunea necesar lurii deciziilor i de cutare a datelor ntr-un spaiu multidimensional prin valorificarea experienei existente n analiza statistic clasic, adugnd noi tehnici i metode superioare. Extragerea de cunotine din date (Data Mining - DM). Extragerea i descoperirea de date conduce tehnologia IA cu un pas mai departe dect OLAP. n sistemele OLAP utilizatorul este angajat n mod activ n explorarea datelor, pe cnd n data mining, informaia spune ceva despre date fr s fie adresat vreo ntrebare. Tehnologia data mining utilizeaz metode de cutare complexe spre a identifica modele i grupri ale datelor, putnd identifica tendine neprevzute n comportamentul consumatorului, care potenial pot fi utilizate s prevad comportamentul viitor. Extragerea de cunotine din date se mbuntete cu ct crete cantitatea de date i necesit depozite de date de nalt calitate pentru a putea da rezultate utile. Data mining realizeaz analiza datelor i nvarea folosind n acest sens un conglomerat de tehnologii informatice: inteligena artificial, statistica, matematica etc. 1.3. Evoluia i definirea depozitelor de date Depozitele de Date (DD) reprezint rezultatul interferenei mediului economic i al tehnologiilor informatice avansate. Mediul economic este tot mai competitiv tinznd spre globalizare i devine tot mai complex solicitnd informaii elaborate pentru sprijinirea deciziilor strategice. Un astfel de mediu economic a determinat evoluia activitii de realizare a sistemelor informatice de la orientarea pe operaional (activitatea curent a firmei care pleac de la funciile ntreprinderii i funciile conducerii) spre orientarea pe procesul de afacere. Procesul de afacere (business process) este un ansamblu de activiti interdepartamentale, la nivelul unei organizaii, care presupune una sau mai multe intrri i care genereaz un rezultat important pentru client (intern sau extern). Sunt dou caracteristici fundamentale ale procesului de afaceri determinate de orientarea decidenilor spre nivelul procesului de afaceri (interdepartamental) mai mult dect spre nivelul funciilor ntreprinderii i de integrarea activitilor dintr-o organizaie i realizarea de sisteme informatice integrate. Evoluia depozitelor de date este marcat de lucrrile cercettorului american William Harvey Inmon (nscut n anul 1945) care este printele de necontestat al conceptului de Data Warehouse, iar viziunea sa se concentreaz asupra rolului acestuia ca baz informaional a deciziei manageriale, pstrnd astfel un nivel nalt de generalitate. n viziunea sa depozitul de date este o colecie de date orientate pe subiecte, integrate, istorice i nevolatile, destinat sprijinirii procesului de luare a deciziilor manageriale. [INMO96]. Consiliul OLAP formuleaz urmtoarea definiie: un depozit de date (data warehouse) reprezint o stocare centralizat a 3

datelor detaliate provenite din toate sursele relevante din cadrul unei organizaii i permite interogarea dinamic i analiza detaliat a tuturor informaiilor. [OLAP95] n viziunea lui Ralph Kimball [KIMB96] depozitul de date ofer acces la datele organizaionale, datele obinute sunt consistente i pot fi separate i combinate n funcie de fiecare dimensiune sau aspect al afacerii. Depozitul de date include, de asemenea un set de instrumente pentru interogare, analiz i prezentare a informaiilor i reprezint locul n care sunt publicate datele folosite. Calitatea datelor coninute n depozit reprezint o premiz pentru re-ingineria afacerii. Contribuii la definirea, dezvoltarea i popularizarea tehnologiilor de data warehouse au fost aduse de o serie de companii dezvoltatoare de produse software precum: IBM, Software AG, Oracle, Microsoft, Prism Solution etc. n concluzie, putem defini depozitul de date ca fiind un ansamblu de date de dimensiune foarte mare care este ntreinut separat de bazele de date operaionale ale unei organizaii i care este construit din date provenite din sisteme surs prin extragere, filtrare, transformare i stocare n depozite speciale, n scopul sprijinirii proceselor decizionale. Depozitele de date sprijin prelucrarea informaiilor pentru analiz, furniznd o platform solid de consolidare a datelor istorice. Un depozit de date este un ansamblu de date consistente, din punctul de vedere semantic, care servete la o implementare fizic a unui model de date pentru sprijinirea deciziei i stocheaz informaii pe care o organizaie le solicit n luarea deciziilor strategice. Un depozit de date reprezint o modalitate de integrare i organizare a datelor din surse omogene i neomogene, provenite din sisteme tranzacionale dar i din fiiere externe, integrate dup anumite criterii, supuse unui proces de extragere, transformare i ncrcare, stocate agregat pe niveluri ierarhice, destinate prelucrrilor i analizelor dinamice, fiind soluia optim de organizare a datelor pentru sistemele informatice suport de decizie i executive. Spre deosebire de sistemele operaionale, structurile de date dintr-un depozit de date sunt optimizate pentru o regsire i o analiz rapid. Datele sunt istorice i sunt actualizate la intervale regulate de timp, n funcie de cerinele de raportare. Creterea volumului de informaii, precum i perfecionarea tehnologiilor de exploatare a acestora au condus la o nou calitate a folosirii datelor prin analize care pot releva conducerii organizaiei informaii greu sau chiar imposibil de obinut pe alte ci. Se pot obine astfel informaii privind preferinele clienilor, profilul lor, distribuia etc. Astfel se pot furniza conducerii date, precum: n ce regiune a rii se vinde mai bine un anumit produs, care sunt preferinele unui anumit segment de pia etc. Este evident c astfel de informaii nu se pot obine dect folosind anumite prelucrri cum ar fi analiza multidimensional, anumite metode statistice de prognoz i alte metode matematice aplicate unui volum foarte mare de date din care se extrag numai datele relevante, celelalte fiind Depozite de date - 15 ignorate. Pentru astfel de aplicaii, datele trebuie bine organizate i indexate pentru o uoar regsire i utilizare. Volumul unui depozit de date se ncadreaz ntre 1 i peste 10 TB, aceste cifre neavnd dect un caracter orientativ [VILA97]. Exist astfel i depozite de date coninnd 4

zeci de terabytes. Crearea unui astfel de depozit cost n medie 3-5 milioane dolari. Din acest cost, o treime o reprezint serviciile profesionale. O alt treime se cheltuiete pentru aplicaiile necesare extragerii, prelucrrii, depozitrii i analizrii datelor, iar ultima treime este destinat sistemelor hardware necesare i stocrii datelor. De obicei, depozitele de date i dubleaz dimensiunile n primele 12 pn la 18 luni. Aceast cretere exponenial poate fi pe de o parte semnul sigur al succesului implementrii depozitelor dar, pe de alt parte, poate deveni o problemx dac sistemele nu sunt construite de la nceput suficient de elastice i de deschise. Din cele de mai sus rezult importana deosebit a flexibilitii impuse sistemelor care implementeaz asemenea depozite de date. Aici, flexibilitate nseamn o conectivitate la nivelul ntregii organizaii, astfel nct servere de baze de date diferite s se poat conecta simultan la depozitul deja existent. Este de asemenea deosebit de important s se aleag o arhitectur care s se adapteze uor la modificrile de performane, capacitate i conectivitate. Pentru a evita aceste probleme, se poate alege o cale de mijloc i se poate opta pentru realizarea unei concentrri de date (data mart) care s conin numai datele relevante pentru analiza necesar. Conectnd mpreun concentrrile de date aferente diferitelor compartimente ale companiei se formeaz astfel o infrastructur specific, departamentele putnd folosi n comun datele i se poate crea un depozit de date mai uor de construit i mai elastic. Un data mart tipic poate utiliza servere existente, structura informaional existent (o reea LAN sau Intranet) cu mai puin de 500 GB, cost mai puin de 1 milion de dolari i se implementeaz de obicei n aproximativ 90 de zile. Rolul unui depozit de date este de a oferi o imagine coerent asupra datelor relative la activitatea unei organizaii i a contextului n care acesta acioneaz. Utilizarea acestei colecii poate consta din extragerea unor rapoarte (la cerere sau cu o anumit periodicitate), extragerea unor date pentru a fi utilizate de aplicaiile de birotic (programe de calcul tabelar, procesoare de text, programe de prezentare etc.), dar mai ales pentru a fi utilizate de ctre aplicaii specializate de analiz, precum tehnologia OLAP i tehnologiile pentru extragerea cunotinelor din date (data mining). 2.4. Obiectivele i caracteristicile organizrii datelor n depozitele de date Organizarea datelor n depozite de date prezint o serie de obiective derivate din scopul principal al realizrii acestora i anume suportul pentru analize complexe i dinamice asupra date trebuie s asigure accesul la datele organizaiei. Accesul trebuie s se realizeze ntr-un timp ct mai scurt, la cerere i s fie performant. Datele ntr-un depozit de date pot fi separate i combinate pentru a oferi un acces ct mai rapid i un timp de rspuns ct mai mic sistemului. utilizarea datelor din depozite direct n analize, fr alte prelucrri suplimentare. Datele nu sunt doar centralizate, integrate i stocate, ci dup ce sunt extrase dintr-o varietate de surse, sunt corectate de erori, transformate, li se asigur calitatea necesar i abia apoi devin utilizabile. Depozitele de date nu reprezint doar datele, ci i un set de utilitare pentru a interoga, analiza i au caracter istoric sunt eseniale, deoarece ele pun n evident tendine care reprezint fundamentul unei Depozite de date 5

- 16 prognoze corecte. Depozitul de date este un istoric al sistemului operaional. Orizontul de timp pe care l acoper acesta de cel puin cinci ani, ajungnd uneori la zece ani, n funcie de dinamica evoluiei pieei i, deci, de relevana datelor cu caracter istoric pentru nevoile analizei. Din punctul de vedere al aspectelor tehnice, aceasta implic faptul c orice nregistrare din depozitul de date poate fi plasat n timp, orice cheie de acces cuprinde i o variabil de timp; e ale procesului economic (clieni, furnizori, produse, activiti) fa de datele operaionale (BD sau fiiere) care sunt orientate pe aplicaii, n sensul c organizarea lor este optimizat pentru a servi procesului tranzacional, dinamicii sistemului. Datorit obiectivelor impuse de utilizarea depozitelor de date n analiz se desprind cteva caracteristici mai importante pe care acestea le dein. Datele dintr-un depozit de date trebuie s fie consistente. Consistena presupune faptul c atunci cnd dou persoane solicit acelai set de informaii s primeasc aceleai date, chiar dac ele au fost cerute la momente de timp diferite. Dac datele nu au fost complet ncrcate atunci utilizatorul va fi avertizat cu privire la acest lucru i este sftuit s atepte pn ce vor fi complet ncrcate. Calitatea datelor din depozitele de date este un factor determinant pentru procesul de analiz. Se ntlnete frecvent situaia n care datele nu sunt de bun calitate sau nu sunt extrase n ntregime sau au un caracter incert din punctul de vedere al coninutului ceea ce face ca analiza ulterioar s conduc la rezultate eronate. O alt caracteristic important este redundana datelor. Dac n sistemul operaional redundana este eliminat (prin procesul de normalizare) pentru a evita anomaliile de actualizare, n depozitul de date redundana este creat n mod intenionat prin denormalizare i agregare pentru a permite un acces mai rapid la date. Sursele de date pentru depozitul de date provin n principal din datele importate din sistemul informatic operaional, dar mai pot proveni i din datele de arhiv (n perioada de constituire a depozitului) precum i din sursele externe (baze de date publice, date demografice, date statistice, date de prognoz economic, date obinute n urma unor sondaje de opinie etc.). Integrarea datelor reprezint o alt consecin important a realizrii depozitului de date i, n cele din urm, raiunea pentru care acesta este creat. Datele sunt ncrcate pentru a rspunde nevoilor informaionale ale ntregii organizaii, asigurnd faptul c rapoartele generate pentru diverse compartimente vor conine aceleai rezultate. Sistemul operaional este de cele mai multe ori format din mai multe subsisteme relativ independente, create la momente diferite, de echipe diferite, n maniere diferite, ceea ce face greoaie folosirea unui astfel de sistem pentru analiz. Integrarea datelor modaliti unice de codificare exist nenumrate variante de a codifica un cmp dar o de msur unitar - unitile de msur pentru diferite cmpuri trebuie exprimate ntr-un sistem - n aplicaiile tranzacionale este posibil ca aceleai date s fie memorate n moduri de organizare diverse. Acestea trebuie clare privind modul de reprezentare a datelor datele calendaristice, cmpurile care definesc timpul etc., trebuie s respecte - n sistemul operaional acestea pot s difere de la o aplicaie la alta, dar n depozitele de date ele trebuie s fie unice (lucrul n echip). Multe aplicaii operaionale (tranzacii) presupun actualizarea 6

continu a coleciilor de date (actualizare, modificare, tergere). La depozitele de date, actualizarea este foarte rar, adic Depozite de date - 17 dinamica lipsete. Actualizarea se realizeaz aici doar prin adugarea periodic a unor date extrase din sistemele operative sau din alte surse de date. Din punctul de vedere al aplicaiilor care folosesc depozitul de date, accesul la date este doar pentru citire. n sistemul operaional, o tranzacie trebuie s duc colecia de date dintr-o stare consistent ntr-o alt stare consistent, iar aceasta implic mecanisme complexe de meninere a integritii datelor (jurnalizare, salvare/restaurare, blocare). n cazul depozitelor de date mecanismele de integritate sunt inutile, astfel c gradul de libertate ctigat poate fi utilizat pentru optimizarea accesului la date prin denormalizare, agregare, statistici ale accesrii datelor, reorganizare dinamic a indexrii etc. 2.5. Faciliti oferite de depozitele de date sistemelor de Inteligena Afacerii Creterea volumului de date, precum i perfecionarea produselor software pentru gestiunea acestuia au condus la o nou calitate a utilizrii datelor prin analize care pot releva conducerii organizaiei informaii greu sau chiar imposibil de obinut pe alte ci, inclusiv cu soluii informatice clasice. Se pot obine astfel informaii privind: preferinele clienilor, profilul clienilor, distribuia produselor, regiunea unde se vinde mai bine un anumit produs, care sunt preferinele unui anumit segment de pia etc. Pentru a obine informaiile dorite, depozitele de date sunt supuse unor prelucrri complexe, cu ajutorul unor metode specifice, cum ar fi: analiza multidimensional a datelor, metode statistice superioare de prognoz, metode matematice aplicate unui volum foarte mare de date. Aceste metode presupun folosirea unui software specializat deosebit de complex, bazat pe noi tehnologii informatice, precum cele prezentate anterior: extrageri de cunotine din date (data mining), OLAP (Online Analytical Processing), concentrri de date (data mart). Sistemele care lucreaz cu depozite de date dispun de o mare flexibilitate, ceea ce nseamn o conectivitate la nivelul ntregii organizaii, astfel nct servere provenind de la furnizori diferii s se poat conecta simultan la depozitul deja existent. Este, de asemenea, deosebit de important s se aleag o arhitectur care s se adapteze uor la modificrile de performane, capacitate i conectivitate. Procesele de configurare, optimizare i administrare a sistemului, inclusiv procedurile de salvare-restaurare, precum i pstrarea n tot acest timp a funcionalitii sistemului, pot deveni operaii dificile dac trebuie repetate la fiecare adugare a unor noi servere n sistem. Depozitele de date sunt destinate managerilor i analitilor angrenai n luarea deciziilor strategice privind dezvoltarea i viitorul organizaiilor. Pentru aceasta, ei pot utiliza interfee performante de accesare i analiz a datelor din depozite, care au nevoie de acces rapid, de informaii punctuale (limbaje de interogare gen SQL, datele n forma cerut de decideni (grafice, diagrame, organigrame) sau ofer posibilitatea analizei tendinelor, corelaiilor i interpretarea acestora (OLAP, data mining). Interfeele OLAP se bazeaz pe reprezentarea multidimensional a datelor (cubul de date) i permite analiza 7

interactiv i rapid a datelor prin operaiuni specifice. Utilizatorul poate obine rezultate imediate parcurgnd dinamic dimensiunile cubului de date, lucrnd cu niveluri diferite de sintez/detaliere (exemplu Oracle OLAP). Interfeele de tip Data Mining asigur extragerea i transformarea datelor n cunotine, de aceea uneori se consider termenul data mining sinonim cu termenul Knowledge Discovery in Databases (KDD). Se utilizeaz tehnici ale analizei statistice superioare i de Inteligen Artificial Depozite de date - 18 care permit descoperirea de corelaii, reguli, cunotine utile sprijinirii deciziilor (exemplu Oracle Miner). 3. Arhitectura depozitelor de date Elementele care alctuiesc un depozit de date pot fi interconectate n mai multe tipuri de arhitecturi n funcie de rolul, funcionalitatea i de viziunea utilizatorilor asupra acestora. Astfel se pot distinge urmtoarele tipuri de arhitecturi: pe componente, pe niveluri i arhitectura funcional a DD. 3.1. Arhitectura pe componente a depozitelor de date Esena unui depozit de date const ntr-un ansamblu de date de dimensiuni foarte mari coninnd informaiile pe care le pot folosi utilizatorii (clieni, furnizori, companii de publicitate etc.). Arhitectura pe componente evideniaz componentele DD i legturile dintre ele: depozitul de date, sursa de date, interfeele de analiz (figura 7). Depozitul de date conine mai multe tipuri de date care corespund diferitelor cerine informaionale ale utilizatorilor: date detaliate, date agregate, metadate (dicionarul de date). Datele detaliate sunt cele relativ recente, livrate utilizatorilor, de regul la nivel de execuie. Datele agregate, dei determin o cretere a redundanei datelor, sunt necesare n depozitul de date deoarece n acest fel se poate asigura un timp mediu de rspuns ct mai redus. Aceste date presupun un grad de prelucrare prealabil, astfel nct s fie pregtite pentru suport decizional i analize avansate: consolidare, totalizare, agregare, mpachetare (n formate accesibile interfeelor de analiz utilizate). Tot aici se gsesc date avnd o anumit vechime (civa ani), n form detaliat. Metadatele descriu datele coninute n depozitul de date i modul n care ele sunt obinute i stocate. Prin metadate se precizeaz structura datelor, proveniena lor, regulile de transformare, de agregare i de calcul. Ele sunt utilizate ori de cte ori se utilizeaz depozitul de date: la ncrcarea datelor, la consultare, la actualizare, adic pe parcursul ntregului ciclu de via al depozitului. Figura 7. Arhitectura pe componente a depozitelor de date Not. Aceast structur a datelor n DD este dinamic, datele intr n depozitul de date, circul pe diverse niveluri, i schimb forma i poziia, i schimb destinaia. Depozite de date - 19 8

Sursele de date pentru depozitul de date sunt: datele operaionale curente (baze de date i/sau fiiere din sistemul informatic operaional al organizaiei), datele vechi arhivate, datele externe (baze de date i fiiere din sistemele informatice ale altor organizaii). Construirea depozitului de date, pornind de la sursele de date, presupune parcurgerea unor etape n cadrul unui proces de copierea lor n depozitul de date. Acest proces trebuie, cel mai adesea, s transforme datele n recte n care se preconizeaz c vor fi cerute i folosite de utilizatori. Aceste agregri sunt stocate n depozitul de date mpreun cu datele importate din sursele interne i externe. Interfeele de analiz sunt produse software care implementeaz tehnologii informatice pentru extragerea i analiza datelor din depozitul de date: data mining, OLAP. 3.2. Arhitectura pe niveluri a depozitelor de date Arhitectura pe niveluri evideniaz modul de implementare a depozitelor de date ntr-un mediu de reea de calculatoare, pe trei straturi: inferior, mediu, superior (figura 8). Depozite de date Server de Date Strat inferior Surse de date operaionale transformare Servere specializate (OLAP, DATA MINING) Strat mediu extragere Strat superior Rapoarte, analize, interogri Figura 8. Arhitectura pe niveluri a depozitelor de date Stratul inferior (bottom tier) este format din serverul depozitului de date i este, n cele mai multe cazuri, un sistem de baze de date relaionale. Datele care provin din bazele de date operaionale i din sursele externe (de exemplu, date referitoare la profilul clientului, date furnizate de consultani externi, rezultatele unor sondaje) sunt extrase utiliznd programe de tip interfa (gateways), care colaboreaz cu SGBD i permite programelor client s genereze cod (de obicei SQL) pentru a fi executat de server. Exemple de astfel de interfee: ODBC (Open DataBase Depozite de date 9

- 20 Connection), OLE (Open Linking and Embedding), JDBC (Java DataBase Connection). n acest fel, datele sunt extrase, filtrate, transformate i ncrcate n depozitul de date. mprosptarea datelor din depozitul de date se face pe msura trecerii timpului (lunar, trimestrial, anual). Stratul mediu (middle tier) este bazat pe un server specializat, care poate fi: OLAP (bazat pe modelul relaional ROLAP sau pe modelul multidimensional - MOLAP), data mining (extrageri de cunotine din date i analize statistice superioare). De multe ori acest strat este inclus n SGBD relaional (exemplu Oracle, DB2). Stratul superior (top tier) este nivelul client care conine interfee pentru generarea interogrilor, a rapoartelor, pentru analiza superioar a datelor. 3.3. Arhitectura depozitelor de date din punctul de vedere funcional Aceast arhitectur mparte depozitul de date n trei module (niveluri) distincte: modulul operaional, modulul central al depozitului de date i modulul strategic de afaceri (figura 9). Modulul operaional - reprezentat de datele companiei care sunt de obicei pstrate sub form diferit la locaii diferite. Aceste date pot proveni de la aplicaii sau de la sisteme distribuite din cadrul companiilor cum ar fi sisteme de gestiune a comenzilor, de eliberare a facturilor, de contabilitate financiar, de gestiune a stocurilor, salarizare etc. Indiferent de originea lor, datele trebuie s fie colectate i aduse ntr-o form consistent pentru a putea fi folosite. Acest proces de transformare a datelor reprezint baza pe care se construiete un depozit de date consistent, de nalt calitate. Transformarea datelor presupune un proces de extragere, condiionare, curare, fuziune, validare i ncrcare. Modulul central al depozitului de date reprezentat de SGBD, de serverul pe care acesta ruleaz i de modul n care este implementat depozitul. Exist n acest moment dou tendine: una ar fi implementarea unui sistem distribuit, descentralizat unde datele sunt pstrate n concentrri de date independente (Independent Data Marts) fiecare coninnd datele relevante pentru un anumit aspect al operaiilor unei instituii, iar a doua posibilitate ar fi implementarea unei surse de date unice, centralizate la care au acces utilizatorii din toate departamentele respectivei instituii. Extragerea i procesarea datelor pentru analiz Utilitare pentru accesul la date Data Marts Replicare i distribuire Depozitul de date central Extragere, Transformare i ncrcare (ETI) Date operaionale: secveniale, nerelaionale, relaionale, fiiere, surse externe Modulul Strategic Modulul Central Modulul Operaional Sisteme operaionale, sisteme informatice integrate Sisteme IA 10

Figura 9. Arhitectura funcional a depozitelor de date Depozite de date - 21 Modulul strategic de afaceri - valoarea final a unui depozit de date este determinat de avantajele pe care le ofer utilizatorului n diferite procese de luare a deciziilor i analiz. Prin folosirea diferitelor modaliti de acces la informaie i a tehnologiilor de procesare disponibile, utilizatorii pot obine informaii care i vor ajuta n procesele de stabilire a strategiei firmei. La ultimul nivel al arhitecturii, datele sunt pregtite pentru interpretare i analiz cu ajutorul instrumentelor specifice cum ar fi: instrumente de realizare a graficelor, prezentri, rapoarte dinamice, navigatoare (browser Web), instrumente de vizualizare a datelor. Arhitectura funcional a depozitelor de date prezentat mai sus permite proiectarea i implementarea unor diverse tipuri de depozite de date n funcie de cerinele de afaceri, resursele disponibile i posibilitile de realizare.

11