Sunteți pe pagina 1din 24

UNIVERSITATEA BABEBOLYAI FACULTATEA DE TIINE ECONOMICE I GESTIUNEA AFACERILOR DOMENIU: CIBERNETIC I STATISTIC

Tez de Doctorat
-RezumatProiectarea i Implementarea Depozitelor de Date pentru Business Intelligence aplicate n Economie

CONDUCTOR TIINIFIC PROF. UNIV. DR. NICHI TEFAN IOAN DOCTORAND NAGY ILONA MARIANA

Cluj-Napoca 2012

Cuprins

Introducere ................................................................................................................................. 3 i. Enunarea Problemei i a Obiectivelor Cercetrii ........................................................... 4

ii. Organizarea General a Tezei ......................................................................................... 6 Capitolul 1. Tehnologia Business Intelligence .......................................................................... 7 Capitolul 2. Depozite de Date: Fundamente, Semantic i Metodologii ................................... 9 Capitolul 3. Modelul de Date al Depozitelor de Date .............................................................. 11 Capitolul 4. Architectura Depozitelor de Date ........................................................................ 14 Capitolul 5. Framework-ul Depozitelor de Date...................................................................... 17 Capitolul 6. Concluzii i Direcii de Cercetare Viitoare .......................................................... 20

Cuvinte cheie
Business Intelligence, depozite de date, metodologii de dezvoltare a soluiilor software, metadate, arhitectura depozitelor de date, framework pentru implementare, prototip, automatizarea proceselor;

Introducere

Progresul nregistrat n domeniul tehnologiei informaiei a condus evoluia sistemelor de procesare a datelor de la primele stadii ale aplicaiilor autonome pn la sistemele analitice avansate ale mediului informational din zilele noastre, anume sisteme de Business Intelligence. n cadrul acestui context extins de sisteme informaionale, depozitele de date definesc un ansamblu de technologii aprute la nceputul anilor 1990 ca rezultat al progreselor nregistrate n domeniul procesrii datelor, cu precdere a procesrii unor volume nsemnate de date. Tehnologia depozitelor de date reprezint o component a framework-ului general de Business Intelligence, care cuprinde o gam ampl de aplicaii i unelte utilizate pentru analiza unor volume mari de date i pentru transformarea acestora n informaie inteligibil i cunotine specifice domeniului vizat. Aceast tehnologie vast permite gestionarea mediului informaional n cadrul cruia o serie de componente asigur culegerea i integrarea datelor din cadrul ntreprinderii. Scopul acestor procese este determinat de facilitarea accesului la date consolidate i structurate, pe baza crora ultilizatorii finali i pot mbunti procesul de luare a deciziilor. Mediul de stocare efectiv al technologiei depozitelor de date este cunoscut sub numele de depozit de date. Acesta reprezint un model al datelor dintr-o intreprindere, structurate special pentru facilitarea procesele de analiz i interogare. Depozitul de date definete o component esenial i dominant a sistemelor suport de decizie dictate de date, avnd ca scop principal facilitarea procesului de luare a deciziilor bazate pe date reale prin asigurarea rspunsurilor la ntrebri de business ntr-un mod precis i oportun. Pentru ndeplinirea acestui scop, depozitul de date este definit de modele de date proprii care specific structura datelor n cadrul mediului de stocare. Aceste modele de date, optimizate pentru interogare i analiz, sunt create ntr-o manier stabil, consistent i predictibil cu ajutorul diferitelor tehnici de modelare. Totodat, procesele de interogare i analiz sunt facilitate prin intermediul diferitelor tipuri de metadate, menite s descrie structura prin care o intreprindere folosete informaia i, deasemenea, menite s ataeze semantic proceselor de business i datelor rezultate din acestea. Avnd n vedere nivelul ridicat de complexite, soluiile de dezvoltare a depozitelor de date presupun o abordare structurat i planificat, definit sub forma unei metodologii nsoit de un framework arhitectural adecvat. Metodologiile sunt destinate atingerii unor rezultate n conformitate cu specificaii bine definite i asigurrii unor procese repetitive i consistente ce pot fi nvate. Architecturile reprezint structuri care integreaz toate componentele depozitului de date i asigur o structur solid pentru integrarea la nivelul ntregii intreprinderi. Alegerea unor metodologii i arhitecturi potrivite determin succesul de ansamblu al implementrii soluiilor de depozite de date. Un alt aspect esenial l reprezint utilizarea unui framework capabil s asigure un set de principii pen tru descrierea componentelor sale i a interoperabilitii dintre acestea, i care s sprijine existena unui mediu de procese re-folosibile, integrare, consisten i flexibilitate n livrarea informaiilor.

i.

Enunarea Problemei i a Obiectivelor Cercetrii

Depozitul de date, component important a mediului informional, este definit de o serie de concepte eseniale, anume model de date, metodologie de dezvoltare, arhitectur, i framework. Proiectarea i implementarea acestuia reprezint n multe cazuri o provocare supus, asementor tuturor proiectelor complexe, unor riscuri de eec ridicate. Literatura de specialitate, dar mai ales lucrrile i rapoartele provenite din afara mediului academic, prezint o serie de cazuri n care ratele de succes ale dezvoltrii soluiilor de depozite de date sunt influenate negativ de costurile ridicate i de intervalul de timp necesar pentru activitile specifice de planificare, proiectare i implementare. Conform Adelman et al. [6], trei din zece situaii care duc n general la eec n dezvoltarea depozitelor de date sunt determinate de urmtoarele motive: 1) proiectul este peste bugetul alocat; 2) termenul de livrare este depit, i 3) o serie de costuri ale proiectului sunt nejustificate. Alte riscuri cunoscute includ: schimbarea frecvent a cerinelor prioiectului din partea utilizatorilor finali, activiti de gestionare a proiectelor deficiente, dezvoltarea unor architecturi slabe pentru soluiile software propuse, lipsa datelor calitative, etc. Intreprinderile care beneficiaz de rezultatele dezvoltrii acestor soluii complexe de depozite de date, precum i companiile care se ocup de dezvoltarea propriu-zis sunt vulnerabile acestor riscuri, deoarece activitile de proiectare, implementare i mentenan, etc. implic eforturi financiare considerabile i sunt vzute n general ca fiind ndelungate i extrem de laborioase. Dezvoltarea depozitelor de date este ghidat de abordri metodologice i arhitecturale menite s faciliteze livrarea unor soluii de succes n cadrul limielor definite de proiect. n acest caz, literatura i numeroase practici de succes ofer direcii comprehensive pentru proiectarea i implementarea depozitelor de date, direcii pe care intreprinderile le pot folosi i adapta nevoilor specifice. Aceste direcii de ndrumare se concentreaz n principal pe activiti legate de gesiunea proiectelor, modele i tehnici de modelare specifice depozitelor de date, precum i arhitecturi de referin n domeniu. Optimizarea proceselor de implementare, de exemplu n cazul activitilor repetitive i consumatoare de timp, nu este ns tratat suficient n literatur. Astfel, noi considerm c propunnd un framework care s gestioneze aceste activiti n condiii bine determinate, putem obine reducerea semnificativ a costurilor ridicate implicate n implementarea soluiilor de depozite de date. Prin urmare, principalele obiective ale cercetrii noastre sunt determinate de reducerea costurilor (i.e. costuri de ansamblu ale dezvoltrii soluiei de depozite de date) i eficientizarea implementrii cerinelor venite din partea utilizatorilor finali. n vederea ndeplinirii acestor obiective, ne propunem s realizm o prezentare extesiv a aspectelor teoretice legate de conceptele de baz ale domeniului, anume sisteme suport de decizie i importana lor n mediul de afaceri, architectura informaional a intreprinderii i frameworkuri specifice, etc. ntelegerea acestor concepte este esenial pentru dezvoltarea cu succes a soluiilor de data warehouse, acoperind urmtoarele perspective: definirea modelelor de date logice i fizice ale diverselor structuri de stocare, diferite tipuri de metadate i activiti de gestionare a datelor; metodologia de dezvoltare a depozitelor de date (gestiunea proiectului i activiti de planificare, practici de succes i diferite standarde impuse la nivelul ntregii ntreprinderi, etc.); aspecte arhitecturale (sisteme utilizate, date i procesele implicate);

framework-ul definit pentru asigurarea unui set de principii pentru dezvoltarea unor componente i a interaciunii acestora n mediul informaional; i detaliile de implementare (unelte i aplicaii specifice, echipa de implementare, limitri de timp i buget, etc.). Mai precis, obiectivele cercetrii sunt definite pentru fiecare concept n parte, astfel: Abordarea metodologic Metodologia definete un set de principii care guverneaz proiectarea i implementarea soluiilor software. Noi ne propunem introducerea unor metodologii generice n cadrul tezei i discutarea potrivirii acestora n contextul specific al soluiilor de depozite de date. Intenia noastra const n selecia unei metodologii adecvate n concordan cu cerinele proiectului, urmrirea principiilor de dezvoltare, i validarea rezultatelor obinute. Modelul de date Modelul de date descrie, din punct de vedere logic i fizic, schema i proprietile structurilor de date elaborate pentru stocarea acestora n mediile operaionale i analitice. Obiectivul nostru privind modelul de date, este realizarea unei prezentri comprehensive a opiunilor de modelelare i a tehnicilor specifice, precum i a altor concepte referitoare la depozitele de date. Intenionm selectarea i mbuntairea unei metodologii de modelare multi-dimensionale, i utilizarea acesteia pentru dezvoltarea modelului soluiei de depozite de date propuse la nivelul intreprinderii. Arhitectur Planul arhitectural st la baza proiectrii i implementrii soluiei de depozite de date, fiind astfel esenial n procesul global de dezvoltare. Obiectivul nostru const n prezentarea celor mai comune tipuri architecturale i a caracteristicilor acestora, selectarea unei arhitecturi potrivite conform unor criterii bine definite i compatibile cu metodologia abordat, i utilizarea acesteia ca fundaie pentru dezvoltarea soluiei de depozite de date. Framework Framework-ul definete limitrile sistemului de depozite de date, diversele componente i interaciunea dintre acestea. Propunerea noastr vizeaz, din acest punct de vedere, dezvoltarea unui framework menit s asigure implementarea automat a modelului depozitului de date, ca parte a contribuiei noastre practice la domeniul cercetat. Obiectivul nostru este condus de cerinele de reducere a costurilor i timpului implicat n procesul de dezvoltare a acestor soluii complexe. Implementare Referitor la implementarea soluiei de depozite de date, intenia noastr este definit de proiectarea i implementarea unui prototip pentru crearea unor structuri de date specifice ntr-un mod automatizat, bazat pe framework-ul propus. Implementarea

efectiv este realizat pornind de la diferite tipuri de metadata tehnice n mediul SAP Business Warehouse.

ii.

Organizarea General a Tezei

Avnd n vedere contextul amplu acoperit, am stabilit separarea tezei de doctorat intitulat Proiectarea i Implementarea Depozitelor de Date pentru Business Intelligence Aplicate n Economie n ase capitole principale (vezi Figura 1). O seciune iniial este dedicat unor noiuni introductorii, n vreme ce o seciune final prezint concluziile, diseminarea rezultatelor i poteniale direcii de cercetare ulterioar n domeniu. Introducerea evideniaz motivaia tezei i obiectivele cercetrii determinate de aceasta. Descriem deasemenea principalele provocri ntlnite n domeniul dezvoltrii depozitelor de date, provocri ce dicteaz posibilitile de mbuntaire i determin astfel obiectivele noastre, i introducem organizarea general a tezei. Seciunea de concluzii concentreaz atenia pe reuitele obinute i determin obiective de cercetare ulterioare. Cinci capitole principale descriu aspecte fundamentale ale tehnologiilor Business Intelligence i depozitelor de date, modele de date i tehnici de modelare, arhitecturi i framework-uri ntlnite n domeniul depozitelor de date, etc.

Figura 1. Organizarea General a Tezei

Capitolul 1. Tehnologia Business Intelligence

Primul capitol al tezei este dedicat introducerii contextului proceselor de luare a deciziilor n mediul de afaceri, precum i tehnologiilor care le sprijin. Obiectivul nostru principal constiuie plasarea tehnologiei depozitelor de date n cadrul framework-ului general de Business Intelligence. n acest scop ne propunem o scurt prezentare a istoricului utilizrii datelor n mediul sistemelor infomaionale, examinarea evoluiei sistemelor inteligente de suport a deciziilor i discutarea beneficiilor acestora pentru procesele dec izionale din cadrul intreprinderii. Deasemenea analizm diferitele definiii, arhitecturi i cicluri de dezvoltare a sistemelor de Business Intelligence, relaia dintre acestea i tehnologia depozitelor de date, precum i rolul depozitelor de date n mediul analitic. Conceptul de informaie este vzut n societatea informaional1 din zilele noastre ca o component esenial pe care actorii mediului de afaceri (e.g organizaii, intreprinderi, etc.) trebuie s o exploateze pentru a putea dobndi o ntelegere mai profund a proceselor desfurate, ct i pentru a-i mbunti procesul de luare a deciziilor i capacitatea de reacie la schimbri. Abundena datelor i informaiilor interne i externe intreprinderii pot fi exploatate eficient n beneficiul organizaiilor prin intermediul sistemelor inteligence, ca de exemplu a sistemelor suport de decizie i a celor de Business Intelligence. Progresele nregistrate n domeniul tehnologiei informaiei au dus la extinderea sistemelor de procesare a datelor de la sisteme i aplicaii autonome la sisteme complex e de tip Business Intelligence. Sistemele suport de decizie prezint capabiliti de colectare a datelor din diferite surse i de preparare a acestora pentru procese de analiz. Acestea faciliteaz accesul la date la nivelul intreprinderii, asigur capaciti ridicate de procesare i permit analiza avantajelor i dezavantajelor diferitelor alternative, astfel nct managerii i analitii pot lua decizii n condiii de informare pe baza unor date precise, oportune i de o calitate superioar. Pe de alt parte, sistemele de Business Intelligence cuprind o cateorie larg de aplicaii i unelte, de la cele destinate achiziiei de date, transformrii i stocrii acestora, la unelte care ofer utilizatorilor finali capabiliti de procesare analitic i interactiv. Rolul principal al acestor sisteme este reprezentat de oferirea unui framework integrat pentru mbuntirea procesului de luare a deciziilor, livrnd utilizatorilor de business informaii corecte la timpul potrivit. n timp ce Business Intelligence reprezint o tehnologie cuprinztoare, sistemele suport de decizie sunt mai reduse ca dimensiune, fiind definite n general de un program mai complex sau o aplicaie de sine stttoare. Deasemenea sistemele suport de decizie pot fi integrate n mediul de Business Intelligence, ca parte a framework-ului analitic extins. Din punct de vedere arhictectural, depozitele de date sunt definite ca elemente de stocare i ca fundaia pe care tehnologia de Business Intelligence este construit. Astfel, dei

O definiie exact a termenului societate informaional nu a fost universal acceptat. Ne referim n acest caz la definiia dat de N. Moore: o societate n care [] informaia este folosit ca o resurs economic, este intensiv exploatat de publicul general n cadrul activitilor desfurate ca i consumatori ; i pe baza ei se dezvolt un sector informaional n mediul economic [125].

complementare, depozitele de date i sistemele de Business Intelligence pot fi utilizate separat. n general, dezvoltarea unui sistem de BI urmrete ciclul generic specific majoritii sistemelor informaionale, incluznd activiti de analiz, colectare a datelor, procesarea i stocarea informaiilor, analiz i diseminarea informaiilor rezultate ctre destinatarii vizai. Fazele ciclului de dezvoltare sunt menite s asigure livrarea unor informaii calitative i precise utilizatorilor de busienss pe baza cerinelor exprimate, colectate la nivelul ntregii intreprinderi. Tehnologiile descrise n cadrul acestui capitol sunt menite s faciliteze procesarea datelor din surse multiple i transformarea acestora n informaii inteligibile i valoroase care sprijin procesul de luare a deciziilor. Indiferent de gradul de complexitate prezentat, folosirea uneia dintre aceste tehnologii n concordan cu nevoile informaionale ale intreprinderii duce la creterea semnificativ a capacitii de reacie la schimbrile care au loc n mediul de afaceri.

Capitolul 2. Depozite de Date: Fundamente, Semantic i Metodologii

Al doilea capitol al tezei este dedicat unei prezentri extensive a fundamentelor, semanticii i metodologiilor tehnologiei depozitelor de date. Definim tehnologia depozitelor de date ca un amestec de diverse tehnologii din mediul informaional i analizm conceptul de depozit de date i rolul acestuia ca i component de stocare n framework -ul general analitic. Ne propunem deasemenea prezentarea structurilor de stocare specifice depozitelor de date, anume depozitul de date i data mart-urile, principalele diferene dintre acestea i rolul lor n cadrul tehnologiei reprezentate. Totodat tratm extensiv aspectele semantice ale intregrrii datelor, prezentnd diferitele tipuri de metadate, gestiunea i importana acestora n mediul depozitelor de date. n final, analizm numeroasele metodologii de dezvoltare a soluiilor software i discutm potrivirea acestora n cazul depozitelor de date. Tehnologia depozitelor de date a aprut la nceputul anilor 1990 ca o consecin a progreselor nregistrate n domeniul tehnologiei informaiilor. Aceasta este destinat gestionrii mediului informaional n cadrul cruia o serie de componente permit colectarea i integrarea datelor la nivelul ntregii intreprinderi, astfel ncat utilizatorii de business s se poat baza n procesul de luare a deciziilor pe date consolidate, structurate i calitative. Astfel, depozitele de date pot fi vzute ca o tehnologie cuprinztoare utilizat pentru gestiunea mediului analitic al unei intreprinderi printr-o serie de componente care permit colectarea i integrarea datelor din surse diverse, cu scopul transformrii lor n informaii strategice pentru intreprindere. Datele colectate sunt consolidate i structurate sub forma unui model comun n cadrul acestui mediu, fiind preparate pentru a fi consumate de ctre utilizatorii de business. Un depozit de date este definit ca o component de stocare n cadrul tehnologiei, un depozit de date integrate, orientate pe subiecte, non-volatile i care variaz n timp [79]. Deoarece datele sunt colectate i stocate pentru o perioad ndelungat de timp, diverse unelte analitice i de minare de date pot fi folosite pentru a efectua calcule matematice i statistice cu scopul de a facilita ntelegerea proceselor de business, de exemplu prin detectarea unor tendine i modele economice. Mediul depozitelor de date se bazeaz pe structuri de stocare modelate cu ajutorul diferitelor tehnici de modelare (e.g. entitate-relaie (ER), modelare multi-dimensional, etc.), care mbuntesc performana analizelor complexe efectuate pe volume mari de date. Pentru efectuarea acestor analize complexe este necesar o ntelegere la nivel global a datelor stocate n structurile depozitelor de date de-a lungul ntregului lor ciclu de via, acest lucru fiind realizat prin intermediul metadatelor. Metadatele nu reprezint doar date despre date, ci au o conotaie i un rol mai extinse, concentrnd totalitatea informaiilor i cunotinelor existente n cadrul ntreprinderii. Metadatele capteaz caracteristici generale i specifice, ofer context i semnificaie datelor brute i creaz un nivel semantic pentru sistemele informaionale dintr-o intreprindere. Acest nivel semnatic asigur o interpretare i o nelegere adevate a datelor de ctre toi actorii implicai n utilizarea i exploatarea lor. Sistemele informaionale ale intreprinderilor conin diverse tipuri de metadate, de la cele de business i tehnice, statice i dinamice, la cele descriptive, structurale i administrative. ns pentru a-i putea ndeplini funcia, metadatele trebuie sa fie gestionate ntr-un mod adecvat.

Gestiunea metadatelor are un rol esenial n asigurarea bunei funcionrii a activitilor intreprinderii, mai ales n cele patru domenii n care sunt utilizate cu precdere: proiectare, activiti operaionale, gestiune i activiti de guvernare. Metadatele ajut deasemenea la minimizarea eforturilor administrrii depozitelor de date i la mbuntirea procesului de extragere a acestora din mediul operaional. n mediul analitic, metadatele colectate din diverse surse sunt stocate n structuri de stocare specifice, astfel facilitndu-se un acces consistent i sigur la date, precum i operaii de interogare i navigare din partea utilizatorilor finali. Avnd n vedere niveul de complexitate ridicat al tehnologiei depozitelor de date, dezvoltarea unor astfel de soluii necesit o abordare structurat i planificat, definit sub forma unei metodologii. Metodologiile sunt menite s asigure un set de pai i principii repetitive, consistente i de ncredere, pentru atingerea unor rezultate predictibile ( e.g. un produs sau o soluie software). Metodologiile pot fi formale (i.e. caracterizate de o abordare structurat i un set bine definit de activiti) sau informale (i.e. definite de practici de succes, diverse cursuri de specialitate, etc.); dirijate de date (i.e. bazate pe analiza modelului de date la nivelul corporaiei), dirijate de obiective (i.e bazate pe obiectivele companiei i pe analiza proceselor de business) sau dirijate de utilizatori (i.e. concentrate pe implementarea strategiilor de business), etc. Majoritatea metodologiilor generice de dezvoltare a soluiilor software (e.g. modelul waterfall, modelul incremental, abordarea spiral, modelul RAD, etc.) sunt potrivite pentru un anumit nivel de complexitate al depozitelor de date. Dou mari abordri sunt considerate de referin pentru dezvoltri ale acestor soluii de depozite de date, anume modelul Inmon i modelul Kimball. Modelul Inmon urmeaz o dezvoltare de tip spiral i recomand construirea unei soluii de dimensiuni mari depozitul de date la nivelul ntregii intreprinderi, n timp ce modelul Kimball se concentreaz pe o metodologie construit pe baza analizei cerinelor utilizatorilor finali, care are avantajul de a facilita livrarea de rezultate ntr-un mod rapid, conducnd la un nivel ridicat de satisfacie din partea utilizatorilor de business. Cu toate acestea, alegerea unei metodologii potrivite depinde de nevoile intreprinderii i ale utilizatorilor finali. Urmarea anumitor modele n procesul de selecie al metodologiei duce la o cretere semnificativ a anselor de succes n implementarea soluiilor de depozite de date.

Capitolul 3. Modelul de Date al Depozitelor de Date

n al treilea capitol al tezei tratm concepte i aspecte eseniale ale modelelor de date i ale tehnicilor de modelare n mediul depozitelor de date. Ne propunem astfel introducerea diferitelor tipuri de modele de date, a caracteristicilor fundamentale ale acestora, precum i dou tehnici de modelare de referin folosite pentru dezvoltarea schemei depozitelor de date (i.e. tehnica entitate-relaie (ER) i tehnica multi-dimensional (MD)). Deasemenea argumentm importana modelrii de tip multi-dimensional pentru construirea strucurilor de date specifice mediului analitic, i trecem n revist eforturile de cercetare n acest domeniu. Obiectivul principal n cadrul acestui capitol l constituie determinarea unei metodologii potrivite pentru derivarea modelelor multi-dimensionale pornind de la schema entitate-relaie a sistemelor operaionale, care reprezint principala surs de date pentru mediul analitic. n a doua parte a acestui capitol aplicm n cadrul unui studiu de caz o metodologie de derivare considerat adecvat pentru un model de date din domeniul reasigurrilor, pe care o extindem cu opiuni de modelare specifice mediului de afaceri. Implementarea modelului rezultat este prezentat n ultimul capitol al tezei, ca parte a contribuiei noastre practice la d omeniul cercetat. Ca mediul de stocare a soluiei generale a depozitelor de date, depozitul propriu-zis este definit de reprezentri specifice ale datelor i a relaiilor dintre acestea. Aceste reprezentri, cunoscute sub numele de modele de date, sunt menite s asigure o documentare complet a mediului informaional n ceea ce privete procesele existente, entitile, relaiile, i fluxurile de date, etc. Modelele de date reprezint rezultatul tehnicilor de modelare care definesc i analizeaz cerinele exprimate de utilizatorii finali, n scopul sprijinirii proceselor de business ale intreprinderii. n mediul depozitelor de date sunt recunoscute diferite tipuri de modele de date i tehnici de modelare care stau la baza structurilor specifice i determin modul n care datele sunt stocate. Dou modele n particular, anume modelul entitate-relaie i modelul multidimensional, sunt folosite n cadrul celor cele dou nivele de stocare diferite ale sistemelor de depozite de date. Soluia propus n cadrul acestei teze utilizeaz ambele modele pentru a defini schema de date a modelul informaional la nivelul intreprinderii. n timp ce modelul ER se bazeaz pe o tehnic standardizat aplic predominant n mediul operaional, modelarea MD este specific sistemelor analitice i nu este definit de o abordare acceptat ca standard n lumea modelrii datelor. Cu toate acestea, literatura abund n propuneri privind metode multi-dimensionale i derivarea modelelor multi-dimensionale din diverse surse, cum ar fi cerinele utilizatorilor, procese de business sau modele entitate-relaie existente n sistemele surs. Ne propunem aadar analiza ctorva dintre aceste abordri, discutarea avantajelor i dezavantajelor acestora, precum i formularea unor preri personale cu privire la compatibilitatea acestor abordrilor n dezvoltarea depozitelor de date. Scopul nostru principal constituie prezentarea unui studiu de caz care prin care s se realizeze derivarea unui model multi-dimensional reprezentnd un process din domeniul reasigurrilor, prin aplicarea unei metodologii considerate adecvate. Deoarece considerm potrivit

proiectarea unei soluii analitice capabile s intregreze cu uurin datele n sistemul depozitelor de date i fiindc sistemele operaionale reprezint sursa principal de date pentru mediul analitic, ne concentrm eforturile asupra transformrii modelului ER a acestora n model multi-dimensional. n final, utilizm modelul rezultat pentru implementarea soluiei de depozite de date printr-un prototip creat pe baza unui framework de automatizare pe care l definim i descriem n ultimul capitol al tezei. Ca activiti preliminare definim att modelul entitate-relaie ct i modelul multi-dimensional i tehnicile de modelare, i prezentm pe larg toate conceptele de baz corespunztoare. Att n mediul operaional ct i n cel analitic, datele sunt reprezentate prin intermediul unor diagrame, folosind texte i simboluri menite s faciliteze cititorilor ntelegerea lor. Aceste diagrame, cunoscute sub numele de modele de date, sunt obinute prin diverse procese de inginerie software sau tehnici de modelare. Tehnicile de modelare sunt destinate definirii i analizei cerinelor exprimate de utilizatorii de business n scopul producerii unor modele de date definite la diferite nivele de abstractizare (e.g. conceptual, logic i fizic), capabile s sprijine procesele de business ale intreprinderii. Modele rezultate au un rol esenial n descrierea datelor i a caracteristicilor acestora, precum i n aplicarea regulilo r de business. Acestea sunt utilizate pentru facilitarea utilizrii datelor ca o resurs pentru intreprindere, pentru integrarea informaiilor din cadrul intreprinderii, pentru definirea unui model arhitectural comun pentru ntregul mediu informaional i pentru proiectarea structurilor de stocare, anume a bazelor i depozitelor de date. Tehnica entitate-relaie prezint caracteristici adecvate modelrii datelor tranzacionale ( e.g. modele de date normalizate cu un nivel de redundan, dependen i inconsisten redus; un numr mare de entiti; date calitative, etc.), potrivite pentru operaii de inserare, actualizare i tergere, i este aadar utilizat predominant n sistemele operaionale. Spre deosebire de aceasta, modelarea multi-dimensional este definit de caracteristici precum numr redus de entiti, prezentare intuitiv a datelor, modele optimizate pentru analiz i interogare, etc., care ii determin compatibilitatea pentru mediul analitic. Cu toate acestea, ambele tehnici pot fi folosite pentru modelarea datelor n mediul analitic: tehnica ER este n mod obinuit folosit pentru definirea modelelor de date ale depozitului de date central, n timp ce modelarea MD este folosit pentru definirea structurilor de tip data mart n cadrul nivelului de prezentare a datelor. Modelele multi-dimensionale sunt vzute de numeroi autori ca fiind forme restricionate ale modelelor ER, ceea ce determin o mapare aproape direct ntre ele. Aadar, modelele multidimensionale din mediul depozitelor de date pot fi derivate n mod direct din schemele entitate-relaie ale sistemelor surs operaionale. Aceasta abordare este sprijinit de diferite metodologii dirijate de date i adecvate pentru dezvoltarea soluiei propuse de depozit de date, care cuprinde un nivel de date intregrate (depozitul de date central) i mai multe structuri data mart aprovizionate cu date din acest nivel. Considernd caracterul complex al acestor modele, literatura prezint numeroase abordri definite pentru producerea modelelor multi-dimensionale ca reprezentri abstracte ale datelor din intreprindere pentru mediul analitic. Majoritatea acestora ns, datorit diverilor factori precum complexitate ridicat, folosirea unor sisteme de notaii noi, reprezentri grafice diferite, etc., nu a fost aplicat n

practic n afara domeniului de cercetare din mediul academic. Datorit acestui fapt metodologiile de modelare multi-dimensional utilizate n industrie sunt n general bazate pe abordri informale i practici de succes. Pentru a ne atinge obiectivele privind construirea unei soluii de depozite de date comprehensive, urmm o abordare bine definit de tip top-down propus de W.H. Inmon [81]. n cadrul acestui capitol descriem principiile oferite de aceast abordare pentru construirea nivelului de depozit de date central, precum i o metodologie propus de Moody and Kortink [121] pe care o extindem i o aplicm pentru dezvoltarea modelului multidimensional. Exemplificm aceast metodologie prin studiul de caz al modelrii unui process de business din domeniul reasigurrilor i contribuim la procesul de dezvoltare a modelului cu mbuntiri specifice domeniului (e.g. analiza utilitii modelului i integrarea dimensiunilor potrivite n modelul multi-dimensional, reprezentarea datelor financiare prin intermediul diferitelor monede, manipularea unor modificri n cadrul dimensiunilor, etc.). Deasemenea evalum modelul rezultat pe baza unor caracteristici pe care modelele de date trebuie s le posede pentru a putea sprijini utilizri avansate n analiza datelor, i concluzionm c acesta este conform cu majoritatea cerinelor, determinnd astfel o reprezentare valid a datelor intreprinderii.

Capitolul 4. Architectura Depozitelor de Date

Al patrulea capitol al tezei este dedicat prezentrii unei serii de aspecte arhitecturale i a principalelor abordri de dezvoltare din domeniul depozitelor de date. Ne propunem descrierea caracteristicilor fundamentale ale celor mai comune tipuri de arhitectur folosite n mediul depozitelor de date, precum i a dou ahitecturi i framework-uri de implementare de referin (i.e. modelul Inmon i modelul Kimball). Prezentm deasemenea o serie de factori care influneaz procesul de selecie a arhitecturii potrivite, discutm framework-ul adecvat fiecrei combinaii dintre aceti factori i introducem o serie de elemente care determin implementarea cu succes a soluiilor de depozite de date. Depozitele de date sunt definite n cadrul tehnologiei comprehensive care acoper mediul informaional al intreprinderii, ca depozite de date colectate, integrate i consolidate din diverse surse de date eterogene. Complexitatea gestiunii, transformrii i integrrii acestor date, att din cadrul intreprinderii ct i din afara acesteia, determin ca dezvoltarea unor astfel de soluii s fie considerat o provocare. Literatura i numeroase practici de succes prezint principii bine definite care s ghideze proiectarea i implementarea soluiilor de depozite de date, pe care intreprinderile le pot adapta nevoilor lor specifice. Procesul de dezvoltare a acestor soluii presupune selecia unui framework arhitectural i a unei metodologii compatibile care s asigure succesul acestui demers. Selecia lor este bazat pe diveri factori care includ infrastructura informaional, mediul de afaceri, capabilitatea mediului tehnic, implicarea prilor interesate, precum i resursele financiare ale intreprinderii, etc. [13]. Arhitectura de implementare a soluiilor de depozite de date este semnificativ diferit i mai complex dect arhitectura clasic a bazelor de date. Aceasta este menit s asigure o fundaie solid pentru integrarea i consolidarea datelor de la nivelul ntregii intreprinderi i un framework general pentru dezvoltarea i utilizarea eficient a tuturor componentelor grupate n trei categorii principale: achiziia de date, depozitul de stocare i livrarea de informaii. Cele mai comune tipuri arhitecturale n domeniul depozitelor de date prezentate n literatur includ data mart-urile indepedente, arhitectura de tip autobuz a data mart-urilor, depozitul de date la nivel intreprinderii, arhitectura centralizat i arhitectura de tip federaie. Data mart-urile independente sunt n general implementate n intreprinderi mici, fiind caracterizate de vederi de date departamentale autonome, de cele mai multe ori extrase din sistemele surs operaionale. Dei sunt mai eficiente din punctul de vedere al resurselor utilizate, acestea duc la creterea volumelor de date i la redundana proceselor, avnd deasemenea o scalabilitate redus, o limitare a integrrii datelor i o deficien major n prezentarea unei vederi integrate asupra datelor din intreprindere. Arhitectura de tip autobuz data mart-urilor diminueaz o parte din dezavantajele menionate, oferind un framework comprehensiv pentru integrarea vederilor departamentale pe baza unei structuri arhitecturale de tip autobuz. Data mart-urile individuale sunt dezvoltate utiliznd dimensiuni conformate pornind de la cerinele utilizatorilor i de la procesele de business, n timp ce structurile de stocare modelate cu tehnica multi-dimensional permit stocarea att a datelor atomice ct i a celor sumarizate.

Depozitul de date la nivelul intreprinderii reprezint cel mai complet i complex tip arhitectural din mediul depozitelor de date. Scopul su principal n constituie oferirea unei fundaii de date integrate, definite la nivel atomic i stocate n structuri normalizate, capabile s permit definirea mai multor modele multi-dimensionale de date agregate. Arhitectura centralizat prezint caracteristici similare cu depozitul de date la nivelul intreprinderii, fr a include ns nivelul superior de vederi departamentale. Arhitectura de tip federaie const dintr-un set de depozite de date organizate separat i dispersate geografic, care opereaz ntrun mod semi-autonom. Aceasta este specific organizaiilor mari formate prin achiziionarea i unificarea altor uniti avnd propriile soluii de Business Intelligence care nu au fost nlturate, ci folosite ntr-o manier integrat. Literatura de specialitate prezint deasemenea diferite abordri privind implementarea acestor tipuri arhitecturale. Dou dintre ele, anume abordarea de tip top-down (i.e. realizat de modelul Inmon) i abordarea de tip bottom-up (i.e. realizat de modelul Kimball) se evideniaz ca implementri arhitecturale i metodologice de referin. Ideea principal a modelului Inmon este dezvoltarea unei arhitecturi comprehensive de depozite de date, astfel: un depozit central (i.e. depozitul de date propriu-zis), care stocheaz date integrate i consolidate de la nivelul intreprinderii, i o serie de structuri de tip data mart, care ofer o vedere multi-dimensional a datelor n scopul facilitrii proceselor de analiz i interogare. Construirea unei astfel de arhitecturi presupune realizarea unor activiti de planificare i proiectare la nceputul proiectului, menite s rezolve potenialele nelmuriri privind integrarea datelor, aspecte de securitate, calitate i standarde, precum i modelul de date general. Acest arhitectur faciliteaz o definire uniform a datelor i impunerea regulilor de business la nivelul ntregii intreprinderi. Vederile departamentale dependente sunt dezvoltate ulterior cu ajutorul tehnicii multi-dimensionale i sunt ncrcate cu date din depozitul central. n cazul abordrii bottom-up, propus de modelul Kimball, implementarea depozitului de date este bazat pe crearea de vederi multi-dimensionale ale datelor din intreprindere i integrarea lor pe baza unei structuri de tip autobuz (i.e. dimensiuni conformate) pentru a obine o vedere de ansamblu la nivelul ntregii intreprinderi. Data mart-urile sunt create pe baza cerinelor specifice fiecrui departament. Dei ofer un grad de integrare mai redus, aceast abordare este mult mai des folosit pentru implementarea depozitelor de date deoarece necesit eforturi mai reduse din partea intreprinderii i asigur livrarea unor rezultate imediate. Un al treilea tip de abordare, anume cea hibrid, ncearc combinarea avantajelor celor dou abordri de referin prin determinarea gradului de planificare i proiectarea necesar sprijinirii integrrii datelor la nivel intreprinderii (i.e. modelul top-down), i construirea structurilor de tip data mart prin modelul bottom-up. Avnd n vedere opiunile de implementare prezentate, selecia unei abordri potrivite nu este o sarcin uoar. Alegerea unui framework arhitectural care s safisfac nevoile intreprinderii este influenat de diveri factori, cum ar fi inter-dependena informaional dintre departamentele intreprinderii, urgena finalizrii proiectului, caracterul de rutin al sarcinilor, viziunea strategic a depozitului de date, cantitatea de resurse disponibil i alocat pentru dezvoltarea soluiei, etc. Combinaia acestor factori favorizeaz selecia unui anumit tip arhitectural. Simpla selecie a acestuia nu garanteaz ns succesul implementrii i al utilizrii n producie. O serie de elemente care se refer la aspecte organizaionale, de mediu,

legate de proiect, tehnice i educaionale, determin gradul de acceptare a soluiei de depozite de date de ctre utilizatorii finali, precum i capacitatea acesteia de la sprijini n mod efectiv procesul de luare a deciziilor.

Capitolul 5. Framework-ul Depozitelor de Date

Al cincilea i ultimul capitol al tezei este dedicat descrierii contribuiei practice, anume propunerea unui framework i al unui prototip destinat automatizrii procesului de implementare a schemei depozitului de date n mediul analitic. Pentru a ne justifica propunerea, introducem pe scurt o serie dintre cele mai utilizate framework-uri n dezvoltarea soluiilor analitice i discutm utilitatea automatizrii n implementarea depozitelor de date. Ne structurm contribuia n dou pari principale: n prima parte prezentm arhitectura framework-ului propus, mpreun cu componentele sale, o descriere detaliat, precum i interaciunea dintre acestea; n a doua parte descriem particulariti de proiectare i implementare ale prototipului n mediul SAP Business Warehouse. Deasemenea evalum utilitatea framework-ului i prototipului propuse, precum i importana acestora n facilitarea dezvoltrii depozitului de date la nivelul intreprinderii prin care se dorete reducerea costurilor n crearea sistemelor inteligente pentru sprijinirea proceselor de luare a deciziilor. Avnd n vedere caracteristicile soluiilor de depozite de date, discutate n cadrul capitolelor anterioare, alocarea unor resurse substaniale i variate din partea intreprinderilor, ct i un angajament susinut din partea prilor interesate, este esenial pentru procesul de dezvoltare al soluiilor analitice, considerat elaborat i costisitor. Activitile de dezvoltare presupun i o examinare a mediului informaional al intreprinderii, astfel nct existena unei metodologii comprehensive care s ghideze proiectarea i implementarea depozitelor de date pe baza unei arhitecturi solide este aproape obligatorie. Costurile, reflectate n mare parte ca cheltuieli de forma resurselor financiare i a timpului de livrare din punct de vedere al gestiunii proiectelor, i mai ales reducerea lor, reprezint o preocupare fundamental pentru toate intreprinderile. Necesitatea diminurii costurilor a dus la realizarea unei automatizri pariale sau complete a unor procese n proiectarea i utilizarea depozitelor de date, ca de exemplu n modelarea conceptual i logic a schemei acestora, extragerea, transformarea i ncrcarea datelor, etc. Aceast automatizarea nu acoper ns toate fazele din dezvoltarea proiectelor, mai ales din cauza influenei aspectelor de afaceri n mediul analitic. Cu toate acestea, considerm c procesul de automatizare poate fi extins, cu anumite limitri, la faza de implementare i creare a structurilor de date i a proceselor corespunztoare de extragere, transformare i ncrcare a datelor. Pentru realizarea acestei propuneri este necesar definirea unui framework arhitectural complex, pe care l prezentm n cadrul acestui capitol. Conform [55], un framework este definit pentru a asigura existena unei filosofii i al unei ndrumri care s descrie aspectul, modul de funcionare i interoperabilitatea aplicaiilor software. Ne concentrm aadar pe definirea unui framework pentru realizarea automatizat a proceselor de creare a structurilor de date pe baza metadatelor tehnice i ncepem cu prezentarea problemei pentru propunerea noastr. Deasemenea introducem principalele caracteristici ale framework-urilor pentru dezvoltarea depozitelor de date, enumerm unele dintre cele mai utilizate framework-uri n domeniu i analizm necesitatea automatizrii n mediul analitic. Detalii specifice de implementare pentru prototipul propus, evaluarea

utilitii automatizrii, precum i importana contribuiei noastre, sunt introduse n a doua parte a capitolului. Construirea unei soluii analitice de depozite de date la nivelul intreprinderii reprezint o activitate complex care necesit utilizarea unui framework solid i a unor activiti efective din domeniul planificrii proiectelor. Literatura recunoate numeroase framework-uri arhitecturale i metodologice utilizate n mediul depozitelor de date, fiecare descriind diferite structuri i procese, precum i secvene de pai urmai pentru dezvoltarea acestor soluii comprehensive. Procese de proiectare i implementare de succes sunt sprijinite de arhitecturi i metodologii compatibile. n ncercarea noastr de dezvoltare a unei soluii de depozite de date la nivelul intreprinderii, aderm arhitectura i metodologia consistent propus de Inmon. Astfel, din punct de vedere arhitectural urmm o proiectare de tip top-down pentru depozitul de date, realiznd un depozit central de date integrate i consolidate (i.e. nivelul de data warehouse) i mai multe structuri de tip data mart ncrcate cu date din acest depozit. Considernd numeroasele structuri i procese care definesc o soluie de depozite de date, propunem un framework pentru o implementare automatizat i un prototip corespunztor, bazate pe presupunerea c activiti de dezvoltare repetitive i consumatoare de timp pot fi realizate n mod eficient i ntr-o perioad mai scurt de timp. Prototipul de implementare asigur crearea automat a structurilor de stocare specifice pentru nivelul de depozit de date central i nivelul de data mart-uri, precum i pentru procesele de extragere, transformare i ncrcare corespunztoare din metadate tehnice. Printre beneficiile automatizrii, menite s justifice propunerea noastr, menionm: crearea de componente software care se conformeaz cu o sintax i constrngeri bine definite, reducndu-se astfel factorul de eroare uman; standardizarea componentelor software, care duce la mbuntirea lizibilitii codului; reducerea forei de munc, a costurilor i a timpului de dezvoltare aferente, etc. Implementarea prototipului este realizat n mediul SAP Business Warehouse. Am ales aceast plarform tehnologic deoarece SAP BW ofer o fundaie comprehensiv pentru unelte de Business Intelligence prin componentele sale arhitecturale. Deasemenea, sprijin procesele de achiziie i de curare i pregtire a datelor, menite s asigure o calitate superioar i integrarea la nivelul ntregii intreprinderi, permite definirea unui nivel central al depozitului de date, care s stocheze date granulare, integrate, rezultate din procesul de curare i pregtire; i sprijin crearea de vederi multi-dimensionale (i.e. data mart-uri) prin intermediul unei scheme extinse. Proiectare prototipului este realizat pentru fiecare nivel de stocare al arhitecturii, astfel nct s beneficiem de aceste avantaje i capabiliti oferite de SAP BW (i.e. Achiziia Datelor (procesele de achiziie, curire i pregtire a datelor), Gestiunea Datelor Primare (depozitul de date central), i Livrarea Datelor (data mart-urile)). Prototipul propus permite implementarea automatizat a structurilor iniiale aferente depozitului de date central i data mart-urilor, precum i proceselor de extragere, transformare i ncrcare corespunztoare, pornind de la metadate tehnice. Prin componentele sale definite pentru fiecare nivel arhitectural de stocare, procesul de implementare acoper: procesele de achiziie, curire i pregtire a datelor, precum replicarea surselor de date, generarea i executarea pachetelor de extragere, generarea unitilor informaionale de modelare, etc.; generarea structurilor depozitului de date central pentru asigurarea unei

stocri permanente a datelor granulare; generarea schemei data mart-urilor; i generarea transformrilor tehnice i a regulilor de mapare dintre diferitele structuri i obiectele de metadate. Schema iniial rezultat poate fi extins ulterior prin interfaa pentru utilizator oferit de SAP BW, aceste mbuntiri incluznd remodelarea unor structuri de date, realizarea de extrageri selective, transformri bazate pe logica de business, etc.). n final am demonstrat c prototipul propus pentru automatizarea acestor procese este benefic pentru reducerea costurilor n cazul dezvoltrii unor soluii complexe, n cadrul crora sunt create un numr mare de structuri de stocare i procese corespunztoare, prin activiti repetitive i consumatoare de timp.

Capitolul 6. Concluzii i Direcii de Cercetare Viitoare

Principalele obiective de cercetare tratate n cadrul acestei teze au fost determinate de dezvoltarea unei soluii comprehensive de depozite de date pornind de la cerinele de reducere a costurilor i de eficientizare a procesului de implementare. ndeplinirea acestora a presupus o ntelegere temeinic a diferitelor aspecte legate de depozitele de date, anume: pozitionarea i rolul tehnologiei depozitelor de date n cadrul framework-ului de Business Intelligence; definirea modelelor de date specifice, care determin structurile de stocare a datelor n mediul analitic; metodologia de dezvoltare a soluiei analitice, care ghideaz procesele de proiectare i implementare efective; arhitectura care definete fundaia dezvoltrii soluiei de depozite de date; framework-ul prin care este descris un set de pai pentru construirea componentelor i definirea interaciunii dintre acestea; precum i desfurarea procesului efectiv de implementare. Cantitatea abundent de informaii existent n mediul economic poate fi exploatat eficient prin intermediul unor aplicaii i unelte specifice (e.g. sisteme support de decizie, tehnologia Business Intelligence, etc.). Acestea sunt eseniale n facilitarea accesului la datele interne i externe intreprinderii, asigurnd capabiliti avansate de procesare i analiz a acestora. Astfel, am nceput introducerea n mediul sistemelor analitice prin prezentarea unor caracteristici generale, analiza evoluiei istorice a sistemelor suport de decizie i discutarea similaritilor i diferenelor dintre primele faze ale acestor sisteme i tehnologiile comprehensive din zilele noastre. Am prezentat depozitele de date ca fiind o tehnologie cuprinztoare utilizat pentru manipularea mediului analitic al intreprinderilor, i depozitul de date propriu-zis ca o component de stocare a datelor i fundaia pe care tehnologia de Business Intelligence este construit. Aadar, am argumentat existena unei diferenieri ntre conceptele de tehnologie a depozitelor de date i depozitul de date propriu-zis, i am examinat diversele perspective prezentate n literatur. n timp ce tehnologia depozitelor de date cuprinde o serie de componente i procese menite s permit colecionarea i integrarea datelor din diferite surse, cu scopul principal de a le transforma n informaii strategice pentru intreprindere, depozitul de date definete componenta de stocare a tehnologiei, depozitul de date integrate, orientate pe subiecte, non-volatile i care variaz n timp. Aceste volume mari de date integrate fac subiectul a numeroase calcule matematice i statistice, menite s produc o perspectiv de afaceri valoroas. Din acest motiv depozitele de date se bazeaz pe structuri optimizate pentru interogri i analize performante, proiectate cu ajutorul unor tehnici de modelare specifice. n cadrul tezei am introdus particularitile diverselor structuri din mediul depozitelor de date (e.g. depozitul de date central, data mart-uri) i le-am examinat diferenele. Aceste structuri precum i datele depozitului de date sunt descrise prin intermediul metadatelor. n scopul facilitrii ntelegerii rolului lor fundamental, am prezentat un studiu extins a numeroaselor definiii, clasificri i caracteristici de gestiune a metadatelor. Ne-am concentrat n principal pe metadatele de tip business i tehnice, insistnd asupra caracterului descriptiv al metadatelor de business, esenial n ntelegerea semanticii

proceselor de business, i asupra importanei metadatelor tehnice n favorizarea automatizrii n mediul depozitelor date. Avnd n vedere complexitatea soluiilor de depozite de date, am prezentat o serie de metodologii de dezvoltare menite s ofere o abordare structurat i planificat numeroaselor proceselor desfurate. Dintre aceste metodologii, att generice ct i specifice domeniului depozitelor de date, am descris n detaliu dou abordri de referin, anume modelul Inmon (i.e. de tip top-down) i modelul Kimball (i.e. de tip bottom-up). Deasemenea, am introdus dou framework-uri definite pentru selectarea unei metodologii adecvate unei implementri de succes a depozitelor de date i am enunat motivele adoptriia metodologiei propus de Inmon, de tip spiral i dirijat de date pentru dezvoltarea soluiei propuse. Structurile de date optimizate pentru mediul analitic sunt proiectate cu ajutorul unor tehnici de modelare specifice, menite s asigure determinarea i analiza cerinelor exprimate de ctre utilizatorii de business i s produc modele de date capabile s sprijine procesele de business ale intreprinderii. Considernd abordarea noastr n cazul dezvoltrii depozitelor de date, definit de existena unui nivel de date granulare, consolidate i integrate i a unui nivel de structuri multi-dimensionale construite pentru optimizarea performaelor de analiz i interogare, am descris dou dintre cele mai utilizate tehnici de modelare a datelor, anume tehnica entitate-relaie i tehnica multi-dimensional. Tehnica ER prezint caracteristici adecvate modelrii structurilor normalizate, caracterizate de redundan, dependen i inconsisten minime, capabile s stocheze date calitative la un nivel de historizare i granularitate ridicate, n timp ce tehnica multi-dimensional, specific mediului analitic, produce prezentri intuitive ale date sub forma unor modele optimizate pentru interogare i analiz. Modelele multi-dimensionale sunt definite ca forme restrnse ale modelelor de tip entitaterelaie, obinute prin diverse metodologii nestandardizate (i.e. nu exist o metodologie acceptat universal ca standard n modelarea multi-dimensional). Astfel, am prezentat un studiu al celor mai citate lucrri n domeniu, am discutat att avantajele ct i dezavantajele acestora, i ne-am exprimat opiniile personale privind potrivirea lor pentru dezvoltarea soluii de depozite de date. Am selectat abordarea propus de Moody and Kortink [121] pentru derivarea modelului multi-dimensional, justificndu-ne decizia astfel: 1) obiectivul nostru de proiectare a unei soluii comprehensive de depozite de date, care s include un nivel de integrare (i.e. depozitul de date central) i un nivel de prezentare a datelor (i.e. data ma rturile) este suportat de aceast metodologie; 2) abordarea este bazat pe modelul de date al intreprinderii n care relaii dintre date sunt descrise, simplificnd astfel procesul de extragere, transformare i ncrcare n mediul analitic; i 3) metodologia a fost validat n practic i deasemenea permite arhitectului soluiei s rafineze paii de dezvoltare pe baza cerinelor utilizatorilor sau a cunotinelor de business. Am exemplificat metodologia printrun studiu de caz reprezentnd un process de business din domeniul reasigurrilor, prin care am descris derivarea modelului de date pornind de la schema entitate-relaie a sistemului operaional. Deasemenea, am contribuit la rafinarea acestuia prin includerea unor aspecte specifice reasigurrilor, anume includerea reprezentrii datelor financiare prin intermediul diferitelor monede, analiza utilitii modelului de date i integrarea dimensiunilor adecvate n

cadrul acestuia, gestionarea modificrilor n dimensiunile modelului, etc. n final am evaluat modelul de date rezultat pe baza unor caracteristici considerate eseniale n sprijinirea proceselor de analiz avansat i am concluzionat c modelul propus se conformeaz majoritii cerinelor, determinnd astfel o reprezentare valid a datelor. Un alt aspect important tratat n cadrul tezei a fost selecionarea unei arhitecturi adecvate pentru depozitul de date, cu att mai mult cu ct aceasta este semnificativ mai diferit i mai complex dect arhitectura clasic a bazelor de date. Am prezentat diferitele tipuri de arhitecturi recunoscute n literatur (e.g. data mart-urile independente, arhitectura de tip autobuz a data mart-urilor, depozitul de date la nivel intreprinderii, arhitectura centralizat i arhitectura de tip federaie) i am detaliat dou implementri arhitecturale de referin: implementarea de tip top-down (i.e. realizat de modelul Inmon) i cea de tip bottom-up (i.e. realizat de modelul Kimball). Deasemenea am prezentat un framework definit pentru facilitatea seleciei tipului arhitectural adecvat, determinat de factori organizaionali, de mediu, referitori la proiect, tehnici i educaionali, etc., i am selectat astfel cel mai potrivit tip de arhitectur pentru dezvoltarea soluiei de depozite de date propuse. n ceea ce privete framework-ul de dezvoltare propus, am pornit de la ideea c un proces de proiectare i implementare de succes este ntotdeauna sprijinit de o arhitectur i o metodologie compatibile. Considernd numeroasele structuri i procese definesc soluia de depozite de date, am definit un framework i un prototip corespunztor pentru implementarea automatizat a acestora, bazndu-ne pe faptul c o serie de activiti repetitive i consumatoare de timp pot fi realizate ntr-un mod mai eficient i ntr-o perioad mai scurt de timp. Ne-am justificat propunerea prin prezentarea numeroaselor beneficii ale automatizrii n dezvoltarea soluiilor software n general, precum i a celor de depozite de date n particular. Framework-ul propus este compus din cinci componente de baz, definite pentru gestiunea datelor i a metadatelor, procesul de curire i pregtire a datelor, i procesele de generare a structurilor de date specifice depozitului de date central i data mart -urilor. Am descris amnunit rolul i caracteristicile fiecrei componente, precum i interaciunea dintre ele. Am proiectat prototipul corespunztor pentru crearea automatizat a structurilor de stocare n form iniial pentru nivele de depozit de date central i data mart-uri, i a proceselor de extragere, transformare i ncrcare a datelor, n mediul SAP Business Warehouse pornind de la metadate tehnice. Alegerea platformei tehnologice a fost determinat de capabilitile avansate pe care SAP BW le ofer, anume o fundaie comprehensiv pentru activitile complexe de Business Intelligence. Am construit componentele prototipului pentru fiecare nivel arhitectural de stocare a datelor, astfel nct s putem exploata la maximum aceste capabiliti (i.e. componenta de curare i pregtire a datelor pentru nivelul Achiziia Datelor, componenta de depozit de date central pentru nivelul Gestiunea Datelor Primare, i componenta de data mart-uri pentru nivelul Livrarea Datelor). Am realizat implementarea automatizat a schemei iniiale a depozitului de date prin utilizarea prototipului, dup cum urmeaz: structurile normalizate ale depozitului de date, obinute ca o mapare 1:1 a surselor de date implementate pe sistemele surs, i schema stea relaional a modelului de date pentru nivelul de data mart-uri, obinut prin generarea structurilor specifice pentru modelul derivat i prezentat ca studiu de caz. Deasemenea, am

definit limitrile automatizrii obinute prin intermediul prototipului i am subliniat faptul c schemele iniiale rezultate pot fi mbuntite ulterior prin interfaa utilizator oferit de SAP BW (aceste dezvoltri ulterioare pot include remodelarea structurilor de date, extragerea selectiv din sistemele surs, transformri pe baza logicii de business, crearea unor rutine pentru curarea i integrarea datelor, etc.). Totodat am demonstrat c prototipul propus este benefic pentru reducerea costurilor n cazul depozitelor de date comprehensive dezvoltate la nivelul intreprinderii, n cazul crerii unui numr mare de structuri de date i procese de extragere, transformare i ncrcare corespunztoare implementate prin intermediul activitilor repetitive i consumatoare de timp. Rezultatele prezentate n cadrul tezei au fost diseminate printr-o serie de articole prezentate la conferine naionale i internaionale, i publicate n volume ale conferinelor i jurnale de specialitate de diferite categorii. Am obinut validarea prototipului de automatizare a crerii structurilor de date i proceselor corespondente din mediul depozitelor de date printr-un articol prezentat la cea de-a doua Conferin Mondial pentru Inovare i tiina Calculatoarelor inclus n volumul Procedia Technology Journal al editurii Elsevier Publishing Ltd., indexat n ScienceDirect, Scopus i Thomson Reuters Conference Proceedings Citation Index (Web of Science) [132]. Deasemenea, am validat propunerea de framework pentru implementarea depozitelor de date la nivelul intreprinderii printr-un articol indexat BDI publicat n Database Systems Journal, editura ASE Bucureti [131]. Am discutat aspecte fundamentale prezentate n cadrul tezei (e.g. importana automatizrii n mediul depozitelor de date [133], aspecte privind modelarea metadatelor n cadrul depozitelor de date [137], o comparaie a metodologiilor utilizate pentru construirea structurilor specifice depozitelor de date [135], probleme de securitate n mediul SAP BW [134] [136], etc.) ntr-o serie de alte articole, precum urmeaz: I. M. Nagy, Automation prototype for the development of data warehousing data structures, accepted for publishing in Procedia Technology Journal, Elsevier Publishing Ltd., ISSN: 2212-0173 (indexat ISI) I. M. Nagy i E. Tolea, A Metamodel for Manipulating Business Knowledge Within a Data Warehouse, Proceedings of the 6th International Conference On Virtual Learning, Editura Universitii din Bucureti, ISSN: 1844-8933, pp. 255-261 (indexat ISI Proceedings) I. M. Nagy, A Framework for Semi-Automated Implementation of Multidimensional Data Models, Database Systems Journal, Volumul 3, Ediia 2, Editura ASE Bucuresti, 2012, ISSN: 2069-3230 (indexat BDI) I. M. Nagy i C. Stefanache, Ensuring Data Protection in the SAP Business Information Warehouse: A Case Study, Journal of Applied Computer Science & Mathematics, Volumul 9, Ediia 4, 2010, ISSN:1843-1046, pp. 83 87 (indexat BDI) I. M. Nagy i L. Feischmidt, Mobilizing Business Processes Security issues and advantages of using SAP Mobile Infrastructure in the development of mobile application, Economy Informatics, Volumul 10, Ediia 1, 2010, pp. 44 52 (indexat BDI)

I. M. Nagy, The Importance of Automation in the Data Warehousing Environment A Case Study, 19th International Economic Conference The Persistence of the Global Economic Crisis: Causes, Implications, Solutions, Sibiu, 2012, pg. 201 - 208, ISBN 978-606-12-0323-9 I. M. Nagy i A. Onaciu, Two Methodologies for Deriving the Data Warehouse Structure, Proceedings of the 2nd Symposium on Business Informatics, Austrian Computer Society Conference, pp. 198 206, ISBN: 978-3-85403-280-9

Deasemenea am contribuit la o monografie despre sistemele inteligente de suport a deciziilor cu un sub-capitol n care am tratat aspecte teoretice ale tehnologiilor Business Intelligence i a depozitelor de date: Nichi Ioan tefan, Airinei Dinu, Arba (Cordis-Herbil) Raluca, Bena Dan, Brandas Claudiu, Buchmann Robert, Crisan Emil Lucian, Homocean Daniel, Jecan Sergiu, Kleinhempel Simona, Mihaila Adrian-Alin, Muntean Mihaela, Nagy Ilona Mariana, Petrusel Razvan, Podean Ioan Marius, Rusu Maria Lucia, Sitar-Taut Dan Andrei, book, Sisteme inteligente de asistare a deciziilor, Risoprint, Cluj-Napoca, 2010.

n privina direciilor de cercetare viitoare considerm c prototipul prezentat ca parte a contribuiei noastre la domeniul cercetat poate fi extins astfel nct s acopere automatizarea i a altor structuri de stocare i procese din mediul depozitelor de date. Prototipul poate fi deasemenea utilizat per sub-module pentru a asigura separarea anumitor procese care sunt executate, n contextul curent, pentru ntregul model de date. De exemplu, sub-pri ale modulelor prototipului pot fi dezvoltate i utilizate exclusiv pentru generarea meta-obiectelor de modelare sau stocare a datelor, pornind de la metadate definite n documente tehnice, putndu-se astfel reduce semnificativ timpul de implementare al depozitelor de date, precum i costurile aferente. Totodat, procedurile implementate pentru validarea tehnic automatizat a structurilor de date generate pot fi utilizate separat pentru efectuarea acestor aciuni la nivelul obiectelor deja existente n mediul depozitelor de date. Dezvoltri ulterioare adiionale pot cuprinde: includerea parial sau complet a metadatelor de business n procesul de automatizare (e.g. n transformarea datelor dintre nivelele de Gestiune Primar a Datelor i Livrarea Datelor); generarea automat a obiectelor pentru structurile de tip master data, ca parte a nivelului de Gestiune Primar a Datelor n mediul SAP BW, etc. n final, considerm c am reuit s propunem un framework coerent i un prototip flexibil ce pot aduce beneficii importante intreprinderilor care implementeaz sau ofer servicii de mentenan pentru soluii de depozite de date.

S-ar putea să vă placă și