Sunteți pe pagina 1din 24

CAPITOLUL 1 DEPOZITE DE DATE

1.1 Introducere "Informaia n vrful degetelor" este un slogan publicitar, aprut la nceputul anilor 1990, care reflect foarte sugestiv faptul c ntreprinderile au nceput, din ce n ce mai mult, s neleag faptul c informatica i mai ales informatica decizional, reprezint un adevrat capital. Poate cel mai de pre capital al unui ntreprinztor. Conductorii ntreprinderilor au nceput s-i de seama de valoarea instrumentului decizional pe care-l aveau n mn. Ei au nceput s foloseasc, din ce n ce mai mult, instrumentele de lucru decizionale din informatic: procesoarele de calcul tabelar, sistemele informatice de gestiune, sau sistemele expert. Evoluia informaticii decizionale de dup 1990, a dus la apariia numeroaselor concepte n informatic. Astfel de concepte sunt : cel de Data Warehouse (Depozit de date), Analiz multidimensional, Data Mart (Magazie de date), Data Mining (Forare automat a datelor), Drill down (Forare n adncime), sau Drill through (Forare prin), ETL (Extract Transform Loading), Infocentre. Definiiile acestor concepte ar fi cele de mai jos. Data Warehouse este o colecie de date, ce privete activitatea ntregii ntreprinderi, n care datele sunt centralizate i organizate, pentru sprijinirea procesului de luare a deciziilor. n ultimul timp, problema centralizrii datelor a rmas aceeai, ns volumul de date de explorat este imens, ceea ce duce la faptul ca metodele clasice s devin ineficiente. De aceea ctig tot mai mult teren tehnologii moderne ca Data Warehousing (depozitarea datelor) i OLAP (On-Line Analytical Processing) pe msur ce suporturile soft devin supoil de date pentru sistemele tranzacionale. Instrumentele de creare a unui Data Warehouse au ca obiectiv principal, acela de a-i permite utilizatorului s acceseze ntr-o manier foarte simpl, i ergonomic, un server de date i s valorifice informaia extras de acolo. Acest instrument de sprijinire a deciziei trebuie s rspund la marea diversitate a necesitilor utilizatorului. Interogatoarele permit utilizatorilor, n perfect autonomie, un acces la informaie, fr s se preocupe de modul de accesare a acesteia. Utilizatorii doresc, de asemenea, s analizeze datele puse la dispoziia lor i s vizualizeze informaiile (indicatorii) n raport cu diferite axe de analiz. Acest lucru presupune s se bazeze pe o informaie pre-mpachetat i bine structurat. Instrumentele care rspund foarte bine acestor necesiti, sunt cele de tip OLAP (On Line Analytical Processing), sau de tip Forare automat de date (Data Mining). Mai mult, instrumentele de tip Data Mining merg i mai departe, ele permit utilizatorului profesionist, s extrag cunotine din datele sale, pe baza unui mecanism de inducie.

1.2. Depozite de date (Data Warehouse) 1.2.1. Definirea conceptului de depozit de date. Caracteristici. Depozitul de date (Data Warehouse) este un ansamblu de date special produse pentru a sprijini luarea deciziei manageriale. Depozitul de date conine date istorice si curente de interes potenial pentru manageri n cadrul organizaiei economice. n mod obinuit, datele sunt structurate pentru a putea fi oricnd disponibile pentru activiti de prelucrare analitica online (OLAP), Data Mining, interogri, rapoarte, alte aplicaii pentru asistarea lurii deciziei. Trebuie precizat ca noiunea de depozit de date (Data Warehouse) se refera la rezultatul final date memorate pe suport informaional, date ce prezint caracteristici distincte fata de bazele de date tranzacionale, n timp ce noiunea de depozitarea datelor (Data Warehousing) privete ntregul proces de creare, meninere si exploatare a unui depozit de date. Depozitele de date (Data Warehouse) reprezint din perspectiva metodologic, pur didactica, o ramura a informaticii aplicate n domeniul sistemelor informatice pentru asistarea deciziei, SIAD sau DSS, prin intermediul creia se asigura: 1) administrarea complexa a afacerilor; 2) accesarea din exterior, oportuna si eficace, a informaiilor si cunotinelor necesare afacerilor (business information and business knowledge). Procesul de depozitare a datelor (Data Warehousing) conine urmtoarele componente majore(fig.3.1): 1) Sursele de date; 2) Extragerea, transformarea si ncrcarea datelor din bazele de date operaionale, ETL (Extraction, Transformation and Load); 3) Depozitul de date de tip ntreprindere, EDW (Enterprise Data Warehouse); 4) Metadatele (programe soft pentru date si reguli pentru organizarea rezumatelor de date. Sunt uor de indexat si regsit, inclusiv prin instrumente Web); 5) Instrumente de tip middleware, ce asigur accesul la depozitul de date (OLAP, Data Mining, instrumente soft de ntocmire a rapoartelor si de vizualizare a datelor). Necesitatea depozitelor de date este data de volumul imens de date acumulat n timp de organizaiile economice. Integrarea acestor date istorice ale organizaiei ntr-o structura care sa stea la baza lurii deciziilor a devenit principala preocupare a noilor tehnologii informatice. Depozitele de date integreaz diferitele tipuri de baze de date din organizaie, asigurnd date oportune si relevante (n timp real sau aproape de rspuns n timp real) pentru sistemele informatice pentru asistarea deciziei manageriale, SIAD. Implementarea depozitelor de date confer valoare strategic organizaiei economice. De asemenea, depozitele de date contribuie la reducerea costurilor. De exemplu, n primul an de operare a depozitelor de date, aceast reducere a costurilor este similar cu investiiile n sistem pe timp de ase ani.

Fig.1.1. Conceptul de depozit de date (Data Warehouse)

Sistemele de asistare a deciziei care au la baza analiza si sinteza datelor realizeaz comasarea, sistematizarea, corelarea si gruparea datelor pentru a obine informaii care sa reliefeze factorii care influeneaz pozitiv sau negativ performantele companiei. Ca urmare a obinerii unor astfel de informaii se poate adopta o strategie de ameliorare a factorilor cu influenta negativa asupra performantelor organizaiei economice. Obinerea rezultatelor, sub forma de rapoarte care conin informaii utile factorilor de decizie sunt ntr-o forma accesibila si sunt rezultatul tehnicilor speciale de explorare a masivelor de date. Aceste tehnici conduc la evidenierea unor corelaii ntre date, pot face estimri si prognoze precum si atenionri ale managerilor asupra unor disfuncii. Caracteristicile fundamentale ale depozitelor de date (Inmon 2005, Tuban 2007) sunt urmtoarele: a) orientarea pe subiecte (de exemplu, produse, clieni, vnzri etc.) coninnd numai informaia relevanta pentru procesul de decizie manageriala; prin aceasta, managerii, n calitate de utilizatori finali, calculeaz sau evalueaz performanele obinute n afaceri, formulnd si explicaiile justificative pentru aceste performante. b) integrarea, nemijlocit legat de caracteristica orientarea pe subiecte; datele provenite din surse diverse sunt dispuse ntr-un format consistent, eliminndu-se astfel conflictele si discrepanele ce pot apare datorit unitilor de msur diferite. Un depozit de date se presupune ca este total integrat. c) nonvolatilitatea: odat ce datele au fost introduse (scrise) ntr-un depozit de date, utilizatorii nu mai pot modifica sau actualiza datele. Un depozit de date este proiectat din perspectiva utilizatorului, n mod exclusiv, numai pentru acces la date. d) variabilitatea n timp (serii de timp). Un depozit de date menine datele istorice ale organizaiei economice. Datele nu trebuie s asigure, n mod necesar, starea curenta (excepie fac doar sistemele n timp real). Pe baza depozitelor de date sunt detectate trenduri, deviaii, relaii pe termen lung pentru comparaii si prognoze ce conduc la luarea deciziei. Pentru fiecare depozit de date exist o calitate temporal. Timpul

e) f) g) h)

reprezint una din dimensiunile importante pe care trebuie s le posede toate depozitele de date. Datele pentru analize ce provin din surse multiple conin referine de timp multiple (de exemplu, vizualizri zilnice, sptmnale, lunare etc.). includerea aplicaiilor bazate pe Web. utilizarea arhitecturii client/server. utilizarea structurilor de baze de date relaionale sau de baze de date multidimensionale. folosirea metadatelor (date despre date).

Caracteristicile depozitelor de date rezult din faptul c ele pot nmagazina volume mari de date preluate din arhive i/sau din bazele de date ale aplicaiilor informatice specifice activitii curente a ntreprinderii (sunt volume de ordin 1012 terabytes), precum i din surse externe organizaiei economice. Exploatarea acestor volume uriae de date, provenind de la surse de date diverse, este asigurat de existena unor motoare speciale care dau posibilitatea ca masivele sa poat fi interogate, precum i existena unor servicii speciale de analiz online a datelor (OLAP). Suporturile software susin performanele acestor servicii prin transformarea datelor, corelarea i completarea lor precum i prin crearea dicionarului de date, toate acestea asigurnd accesul la structurile primare. Datele sunt extrase din baze de date heterogene create de sistemele informatice deja existente n organizaie pe diversele platforme hard si soft. Se poate remarca faptul c datele sunt introduse nu la ntmplare ci sub controlul unor aplicaii i al SGBD-ului. Acestea asigur prin serviciile de integritate, stocarea i lucrul n condiii de sigurana maxim. Datele care formeaz suportul pentru tranzaciile primare sunt apoi prelucrate pentru a se obine informaiile de sinteza necesare planificrii si lurii deciziilor si sunt tratate de instrumentele SGBD. Deoarece exploatarea unui volum enorm de date, pentru a obine diverse rapoarte, este asigurata de integritatea si coerenta bazei de date, reuniunea tuturor acestor date duce la exploatarea unui mare numr de tabele, la crearea unor multiple legturi virtuale si tabele temporare. Acest volum mare de munca conduce la principalul inconvenient al depozitelor de date si anume timpul mare necesar exploatrii lor. Un alt inconvenient l constituie si aglomerarea motorului bazei de date cu task-uri de centralizare care ncetinete astfel tranzaciile curente. Astfel a aprut necesitatea stocrii datelor care sunt dedicate planificrii si deciziilor strategice ntr-un sistem diferit de sistemul operaional n aa fel nct funcionarea celor dou sisteme s se fac fr inconveniene. n depozitul de date se pot stoca att arhive de date privind activitatea anterioara ct i date referitoare la tranzacii ulterioare fr ca utilizatorul sa poat interveni. Depozitele de date sunt o concentrare de date care organizeaz, consolideaz i centralizeaz datele din surse eterogene si care vor constitui baza procesrilor analitice att de necesare proceselor de decizie. Depozitul de date se construiete progresiv adic el permite completri i dezvoltri ulterioare. Pentru a se asigura o calitate sporit a datelor acestea sunt

supuse unui proces de curire si transformare, menionnd si maniera de obinere a unor date colectate pe baza celor existente, acest proces ducnd la micorarea timpului cerut pentru obinerea unor rapoarte finale. n depozitele de date se face transformarea codurilor n date explicite precum si integrarea datelor din nomenclatoare n datele referitoare la tranzacii. Acesta este numit i proces de denormalizare i este caracterizat de faptul c nu modific integritatea datelor i grbete procesul de regsire. ntr-un depozit de date redundana datelor este permis. Literatura de specialitate prezint mai multe arhitecturi de depozite de date, grupate n doua categorii: depozitele de date de tip ntreprindere, EDW (Enterprise Data Warehouse) si rafturi de date (Data Marts). Un exemplu de arhitectura de depozit de date bazat pe Web (Turban, 2007) este prezentat n fig.1.2. Aceast arhitectura pe 3-entiti (three-tiers) cuprinde clientul, serverul Web si serverul de aplicaie. Pe partea de client exista o conexiune Internet si un navigator Web bazat pe o interfaa grafica de tip GUI (Graphical User Interface). Mediul de comunicaie dintre client (atenie: aici client are sensul de staie de lucru Work Station pentru utilizatorul final) i servere este de tipul Internet/Intranet/Extranet. Pe partea de server se folosete un server Web pentru gestionarea fluxurilor informationale dintre client si server, urmat de serverul de aplicaie i depozitul de date.

Fig.1.2 Arhitectura unui depozit de date bazat pe Web O arhitectur generalizat a depozitului de date (Thalheim si Lenz, 2005) este prezentat n fig.1.3. Aceasta arhitectur are n vedere aplicarea triadei stocare prelucrare prezentare, cu sistemul de management al coninutului, CMS (Content Management System) ca element central al prelucrrii datelor. Sistemul de management al coninutului, CMS, reprezint n esena un sistem informatic folosit pentru a gestiona coninutul unui site Web (Web Content Management). Prin extensie, CMS se refera si la depozitele de date si rafturile de date. Coninutul gestionat de CMS cuprinde fiiere, imagini media, fiiere audio, documente electronice, coninut Web.

CMS poate, de asemenea, sa fie folosit la fel de bine n calitate de arhiva electronica pentru forme nonproprietare ale fiierelor. De regula, un CMS consta din doua elemente de baza: aplicaia de management al coninutului, CMA (Content Management Application) i aplicatia de livrare a coninutului, CDA (Content Delivery Application). Un CMS indexeaz toate datele din interiorul sistemului informatic integrat al organizaiei economice. Prin CMS sunt folosite abloanele sau seturile de abloane (templates) aprobate de managementul organizaiei, ca si ghidurile de lucru (wizards) si alte instrumente pentru crearea si modificarea coninutului Web. Prin caracteristica de gestionare a formatelor documentelor, CMS asigur lucrul cu formate de documente vechi (motenite), a documentelor pe hrtie scanate ce pot fi convertite n format HTML sau PDF (Portable Document Format). Prin CMS se asigur actualizarea cu ultima versiune a unui document sau restaurarea unui document n versiunea precedenta.

Fig.1.3 Arhitectura generalizata a depozitului de date (Thalheim si Lenz) Decizie de alegere a unei arhitecturi de depozit de date este influenat de mai multi factori, dintre care se mentioneaz: cerinele de informaie ale managementului de vrf (top-management); interdependentele informaionale existente ntre departamentele i entitile funcionale ale organizaiei economice; gradul de limitare a resurselor organizaiei economice; existenta compatibilitii cu sistemele informatice aflate deja n exploatare n organizaie; motivaia profund a angajailor n dezvoltarea unui depozit de date. Integrarea datelor ntr-un depozit de date conine trei procese majore:

a) accesul la date; b) realizarea federaiei de date; c) reflectarea oportuna n depozitul de date a modificrilor semnificative ale datelor provenite din sursele de date de tip ntreprindere. Exista mai multe tehnologii de integrare a datelor si metadatelor n depozit de date: 1) integrarea aplicaiilor de tip ntreprindere, EAI(Enterprise Application Integration); 2) arhitectura orientata pe servicii, SOA (Service-Oriented Architecture); 3) extragerea, transformarea si ncrcarea datelor n depozitul de date, ETL (Extraction, Transformation and Load); 4) integrarea informaiilor de tip ntreprindere, EII (Enterprise Information Integration). Integrarea aplicaiilor de tip ntreprindere, EAI (Enterprise Application Integration) asigura modalitatea unitara de preluare a datelor din surse diverse si stocarea lor n depozitul de date de tip ntreprindere, DEW. Aceasta integrare a aplicaiilor de tip ntreprindere se realizeaz la nivelul interfeei de programare a aplicaiei, API (Application Programming Interface). EAI este combinata cu arhitectura orientata pe servicii, SOA (Service-Oriented Atchitecture) care estre focalizat pe un ansamblu coerent de procese de afaceri orientate pe servicii Web. Extragerea, transformarea i ncrcarea datelor n depozitul de date, ETL (Extraction, Transformation and Load) reprezint componenta integral a oricrui proiect centrat pe organizarea, stocarea i prelucrarea datelor, aa cum este depozitarea datelor (Data Warehousing). Aceasta componenta ETL consuma circa 70% din perioada de lucru la un proiect centrat pe date. Extragerea datelor nseamn citirea datelor destinate depozitului de date din una sau mai multe baze de date. Transformarea datelor reprezint conversia datelor extrase din forma iniiala n forma standard necesara pentru stocarea n depozitul de date sau n alte baze de date cu care depozitul de date lucreaz direct. ncrcarea datelor nseamn stocarea datelor, anterior transformate n forma standard, curate si rafinate, n depozitul de date. Pot constitui surse de date relevante pentru depozitul de date (raftul de date): baze de date tranzacionale (provenite din sistemul informatic de procesare a tranzaciilor, TPS), baze de date provenite din aplicaii ERP, din aplicaii CRM, din tabele Excel (ntr-un cadru mai larg, din baze de date specifice OAS), din baze de cunotine specifice KWS, din iruri de mesaje, din fiiere externe etc. Datele stocate n depozitul de date sunt conforme (prin forma standard dobndita prin intermediul procesului ETL) cu regulile de afaceri ce definesc modul de folosire a datelor stocate, cu regulile de ntocmire a rezumatelor (sintezelor, rapoartelor), cu regulile de

standardizare a atributelor codificate, cu regulile de efectuare a calculelor. Toate aceste reguli sunt memorate ntr-o baz de metadate i sunt aplicate unitar n ntreg depozitul de date. Turban (2007) difereniaz trei tipuri principale de depozite de date: rafturile de date, DM (Data Marts), memoriile-tampon de date operaionale, ODS (Operational Data Stores) si depozitele de date de tip ntreprindere, EDW (Enterprise Data Warehouse). 1.2.2 Diferentierea depozitului de date de baza de date Diferenele dintre depozitul de date si baza de date sunt urmtoarele: a) datele coninute de un sistem de prelucrare a tranzaciilor, OLTP (On-Line Transaction Processing) sunt de tip operaional, iar datele coninute de un depozit de date sunt specifice asistrii deciziilor, sunt date centralizate sau derivate din date operaionale, nu se modifica n timp si sunt destinate utilizatorilor finali; b) n cazul sistemelor tranzacionale, performantele se refera la integritate, confidenialitate, sigurana si timp de rspuns ntruct un numr mare de utilizatori introduc date n sistem, n timp ce n cazul SIAD (deci a depozitelor de date) numrul de utilizatori finali (manageri) este foarte mic. Astfel i securitatea i sigurana n exploatare nu sunt supuse unor riscuri majore, procedurile de salvare i restaurare fiind mai puin utilizate dect n cazul sistemelor tranzacionale. c) datele procesate n sistemele tranzacionale sunt n seturi relativ mici, introduse recent si compact, astfel nct prelucrarea se face destul de rapid. n procesele decizionale, datele necesare acestora sunt n volum mare, stocate dispersat ceea ce duce la o prelucrare mai lent; d) bazele de date construite pentru sisteme tranzacionale sunt proiectate si realizate pe baza unor cerine cunoscute si certe, modificrile care intervin datorita adaptrii sistemului la schimbrile intervenite reiau anumite faze ale ciclului de via. Dar odat implementate ele funcioneaz perioade lungi de timp fr modificri. n SIAD cerinele sunt cunoscute doar parial n momentul proiectrii si realizrii lor, ceea ce obliga depozitul de date sa se adapteze din mers cerinelor. De aceea se observa ca datele gestionate pentru sisteme tranzacionale sunt privite ca un ntreg, pe cnd cele din depozitele de date sunt organizate pe seciuni deoarece ele sunt organizate n funcie de subiectul de analiza. e) sistemele tranzacionale reflect de obicei fluxul datelor din activiti curente, pe cnd depozitele de date sunt orientate pe subiecte cum ar fi de exemplu: resurse, produse, clieni, furnizori. f) n cadrul sistemelor informatice operaionale dedicate domeniilor de gestiune ale organizaiei, datele sunt adesea fragmentate, astfel nct managerii iau decizii pe baza unor informaii pariale (incomplete). Depozitele de date elimina acest dezavantaj prin accesarea, integrarea si organizarea datelor operaionale cu rol-cheie ntr-o forma care se caracterizeaz prin consistenta, fiabilitate, oportunitate, disponibilitate rapida si cu referin n timp (timely). 1.2.3. Rafturile de date

Aa cum s-a artat n primul capitol al lucrrii, organizaia economica este structurat pe departamente i entitti funcionale, figurate ca domenii de gestiune ale organizaiei economice. La nivelul acestor departamente i entiti funcionale, datele ce prezint caracteristicile prezentate n paragraful anterior sunt depuse n rafturi de date, DM (Data Marts). n unele lucrri, noiunea romneasca asociata lui Data Marts este de magazie de date. Altfel exprimat, daca depozitele de date (Data Warehouse) combina baze de date la nivelul ntregii organizaii economice (adic la nivelul sistemului informatic integrat al organizaiei economice), n schimb rafturile de date cu dimensiuni mai mici dect depozitele de date, sunt destinate unui anumit departament al organizaiei economice sau unui anumit subiect definit la dorina utilizatorului final. Utilizarea magaziilor sau rafturilor de date (Data Marts) conduce la creterea performantelor n exploatare. Aceste depozite de date se construiesc de obicei cu tehnologii relaionale. Majoritatea rafturilor de date sunt rafturi de date dependente (adic sunt generate direct din depozitul de date). Exista, nsa, si rafturi de date independente de depozitul de date al organizaiei ce sunt realizate special pentru o unitate strategica de afaceri, SBU (Strategic Business Unit) si care nu folosesc date din depozitul de date al organizaiei economice. Raftul de date independent poate constitui o alternativa low cost pentru firmele care nu-si pot permite achiziionarea, meninerea si exploatarea unui depozit de date. 1.2.4. Memorii-tampon de date operaionale ntre bazele de date operaionale (tranzacionale) de pe nivelul operaional al organizaiei economice si depozitele de date de pe nivelul de management mediu organizaional se pot constitui memorii-tampon de date operaionale, ODS (Operational Data Stores). Memoriile-tampon de date operaionale servesc, de exemplu, pentru realizarea si utilizarea fiierelor cu informaii despre client, CIF (Customer Information File) ce pot fi actualizate n funcie de evoluia afacerii respective. Ca urmare, memoriile-tampon de date operaionale servesc pentru asistarea deciziei pe termen scurt, n special n aplicaiile cu puncte critice. Memoriile-tampon de date operaionale stocheaz cele mai recente date referitoare la subiectul considerat, date ce provin din surse multiple. Datele din memoriile-tampon de date operaionale sunt date din surse diverse ce au fost supuse unui proces de extragere, transformare si ncrcare, ETL (Extraction, Transformation and Load), similar cu procesul de la depozitele de date. Cnd datele operaionale sunt analizate multidimensional, memoriiletampon de date operaionale devin rafturi de date operaionale (Operational Marts sau Oper Marts). 1.2.5. Depozite de date de tip ntreprindere Un depozit de date de tip ntreprindere, EDW (Enterprise Data Warehouse) este un depozit de date integrat pe scara larga, cu un volum de date foarte mare, care se folosete la

nivelurile de management mediu si strategic pentru asistarea luarii deciziei. EDW utilizeaza date n format standard ce provin de la surse diverse. Datele din EDW sunt folosite ca date de intrare pentru majoritatea tipurilor de sisteme informatice pentru asistarea deciziei economice, cum sunt sistemele informatice pentru managementul relatiilor cu clientii, CRM (Customer Relationship Management), sistemele informatice pentru managementul lantului de aprovizionare, SCM (Supply Chain Management), sistemele informatice pentru managementul performantelor afacerilor, BPM (Business Performance Management), sistemele informatice pentru managementul ciclului de viata al produselor, PLM (Product Lifecycle Mangement), sistemele informatice pentru monitorizarea activitatilor afacerilor, BAM (Business Activity Monitoring), sistemele (aplicatiile) informatice pentru managementul veniturilor, sistemele informatice pentru automatizarea lucrarilor de birou, OAS (Office Automation Systems), sistemul informatic de lucru cu cunostinte, KWS (Knowledge Work Management) etc. 1.2.6. Ciclul de viata al depozitelor de date Depozitul de date (Data Warehouse) este o colectie de date orientate pe subiecte, integrate, corelate n timp si non-volatile care sprijina decizia.* Datele care fac obiectul unui depozit sunt integrate n acesta utiliznd conventii pentru masuratori, atribute. Structura de care dispune depozitul de date prevede identificarea punctuala a datelor stocate si, mai ales, un acces rapid la ele. Proiectarea structurii depozitului de date se face prin modelare multidimensionala, structura implementndu-se ca o baza de date care asigura stocarea unui volum mare de date si un acces rapid la ele, asa numitele baze de date client/server. Popularea depozitelor de date se face prin preluare din sisteme tranzactionale, dar care vor fi supuse unor procese complexe de transformare care sa corespunda structurii depozitului care a fost proiectat. Dupa aceasta etapa, depozitul va putea intra n exploatare pentru a obtine analize si rapoarte. Etapele enumerate anterior (proiectare, populare, exploatare) sunt asistate de un soft specializat de la browsere si generatoare de rapoarte pna la instrumente specifice Data Mining. n exploatarea curenta a depozitului frecvent vor apare noi cerinte informationale care vor duce neaparat la extinderea structurii, la popularea cu extensii cuprinznd date istorice, precum si la integrarea noilor date ncorporate n aplicatii de analiza. Pe parcursul existentei sale, un depozit de date este incremental si ciclic. 1.3. Modelarea conceptuala a depozitului de date n etapa de conceptie a unui depozit de date se folosesc modele dimensionale care grupeaza datele din tabelele relationale n scheme de tip stea sau fulg de zapada. n aceste scheme pot fi regasite date cantitative cum ar fi cantitati sau valori sau grupate dupa diverse alte criterii (pe client, pe produs, pe tipuri de servicii etc.). Datele cantitative din bazele de date dimensionale sunt de tip medii, numar de tranzactii, centralizari dupa anumite caracteristici, totaluri si reprezinta masuri ale activitatii. Pe de alta parte, criteriile de agregare vor fi denumite dimensiuni. Masurile identificate prin dimensiuni vor fi stocate ntr-o tabela relationala care este denumita tabela de fapte, iar codurile utilizate sau asociate criteriilor de

agregare sunt date de tabelele de tip nomeclator asociate fiind cu tabelele de fapte si n acest fel schema relationala va fi de tip stea. Daca se reunesc mai multe scheme de tip stea care utilizeaza aceleasi nomenclatoare formeaza un model tip constelatie. Daca nomenclatoarele se pot divide n subnomenclatoare atunci exista o dependenta ntre acestea. De remarcat ca pentru acelasi cod pot exista mai multe nomenclatoare alternative. Daca se integreaza aceste subdimensiuni si dimensiuni alternative, se creeaza o schema sub forma de fulg de zapada. Schemele de tip stea, fulg de nea sau constelatie sunt modele conceptuale multidimensionale ale depozitelor de date, avnd ca rol organizarea datelor pe subiecte, necesara procesului de decizie. Schema este deschisa, adica ea se poate modifica pe tot parcursul vietii depozitului de date. Elementele componente ale unui astfel de model sunt: msuri ale activitii - sunt reprezentate de datele cantitative la nivel agregat (totaluri (sume), medii, contorizri (numrri)). dimensiuni - sunt reprezentate de criteriile de agregare, acestea coninnd n mod obligatoriu timpul (data calendaristic) i alte astfel de criterii (de exemplu: codul clientului, codul produsului, codul filialei etc.). Bineneles c aceste dimensiuni trebuiesc explicitate n tabele distincte, tabele care trebuie s respecte urmtoarele condiii: o s descrie datele din tabela de fapte; o fiecare cheie trebuie s fie unic; o cheile trebuie s reprezinte nivelul de detaliere cel mai reprezentativ pentru problema dat; o numrul dimensiunilor trebuie s fie rezonabil, ntruct un numr prea mare de dimensiuni conduce la o gestionare mai dificil a acestora, precum i la un timp de rspuns ridicat din partea sistemului n urma solicitrilor venite de la utilizatori. tabela de fapte - reprezint locaia unde se afl stocate msurile activitii grupate pe dimensiuni. Aceast tabel de fapte trebuie s ndeplineasc urmtoarele condiii: o s realizeze cuantificarea datelor descrise de ctre dimensiuni; o fiecare cheie trebuie s fie o combinaie unic a cheilor primare din tabelele de dimensiuni; o cheile trebuie s conin ntotdeauna dimensiunea timp. Modelul de baz al reprezentrii la nivel conceptual al unui depozit de date este reprezentat de modelul stea, din acesta obinndu-se i celelalte dou modele. nfigural este prezentat modelul stea pentru contractele de leasing ncheiate de firma Leasing Romania, contractele fiind grupate pe patru dimensiuni: timp, produs, client i filial. Acest model conine o tabel de fapte pentru contracte, care conine chei corespunztoare pentru fiecare dintre cele patru dimensiuni, precum i dou msuri ale activitii: TotalValoare, Tota/Cantitate. ntr-un model stea, fiecare dimensiune este reprezentat printr-o singur tabel, care conine la rndul su un set de atribute. Spre exemplu tabela Clienti conine urmtoarele atribute: CodCIient, NumeClient, TipCIient, LocalitateCIient, JudetCIient, ZonaClient.

Aceast structur a tabelei poate conduce la apariia unor redundane: localitile Constana", Mangalia" i Medgidia" fiind toate din judeul Constana", regiunea Dobrogea", nregistrrile de tipul (..., Constanta, Constanta, Dobrogea), (..., Mangalia, Constanta, Dobrogea), (..., Medgidia, Constanta, Dobrogea) determin redundane ntre cmpurile JudetCIient i ZonaClient (de fapt, este vorba despre o dependen funcional tranzitiv ntre cmpurile LocalitateCIient, JudetCIient i ZonaClient).

Fig.

Modelul stea al unui depozit de date

Dac n cazul unei model de tip stea se dorete realizarea unei subclasificri a anumitor dimensiuni, obinndu-se astfel subdimensiuni, modelul nou-obinut se va numi model fulg de nea. n figura 2 este prezentat modelul fulg de nea (derivat din modelul stea prezentat anterior) pentru contractele de leasing ncheiate de firma Leasing Romania, contractele fiind grupate pe cinci dimensiuni: timp, sezon, produs, client i filial. n model se observ o detaliere a dimensiunilor produs (cu CategoriiProduse), client (cu CategoriiClienti), i filial (cu judete), precum i faptul c exist dou dimensiuni alternative (timp i sezon).

Dou sau mai multe tabele de fapte care au n comun anumite dimensiuni (partajeaz anumite tabelele) si exist n cadrul aceluiai model, modelul obinut de numete model de constelaie. In figura de mai jos este prezentat modelul constelaie. Se poate observa c cele dou tabele de fapte au trei dimensiuni comune, i anume: timp, client i filial.

1.4. Modul de utilizare a depozitului de date Depozitele de date contin structuri unice, integrate si cumulative necesare procesului de decizie. Administratorul depozitului de date are ca principala sarcina stabilirea accesului partajat al categoriilor de manageri prin asigurarea de parole si drepturi de acces. Datele din depozit sunt accesate selectiv de manageri n functie de necesitatile acestora. n acest fel se creaza colectii specializate pe diverse domenii care se numesc magazii de date (Data Marts). Magaziile de date se pot utiliza si ca structuri intermediare pentru colectarea datelor din surse primare si al caror continut este descarcat periodic n depozitul de date. Depozitele de date pot lua nastere si printr-o stocare exhaustiva a datelor din sistemele tranzactionale n vederea aplicarii tehnologiei Data Mining. Utilizarea tehologiei Data Mining presupune ca procesarea datelor se face fara interventia utilizatorilor, n background, iar rezultatele sunt pastrate pentru a fi consultate ulterior la cerere. Fig. Modelul constelaie al unui depozit de date 1.4. Mediul de depozitare al datelor Mediul n care se contruiete si se exploateaz un depozit de date conine urmtoarele elemente: surse de date tranzacionale, instrumente de proiectare-dezvoltare, instrument de extracie si transformare a datelor, sistemul de gestiune al bazei de date, instrumente de acces si analiza a datelor si instrumente de administrare . n cazul suitei ce aparine firmei Microsoft, toate componentele enumerate sunt integrate pe o n mediul de lucru pentru depozitarea datelor (Data Warehousing), pentru diversele versiuni ale SQL Server (SQL Server 7.0, SQL Server 2000, SQL Server 2005). Acest mediu de lucru ofer asistarea proiectrii, implementrii i administrrii depozitelor de date pe ntregul ciclu de via al acestora. Se poate concluziona ca acest cadru de lucru pentru Data Warehousing ofer o arhitectura care se poate integra relativ simplu cu produse ce provin de pe alte platforme, asigura servicii de import-export cu validare si transformarea datelor, asigura metadate integrate pentru proiectarea depozitului i gestioneaz suportul, task-uri si evenimente. n cazul suitei firmei Oracle, produsul Oracle Express reprezinta un sistem de gestiune a bazelor de date multidimensionale, SGBDMD, ce este fundamentat pe modelul de date

multidimensional, pe arhitectura client/server, cu posibilitati de dezvoltare a aplicatiilor Web. Produsul Oracle Express cuprinde urmatoarele componente arhitecturale: utilitare pentru administrare (Express Instance Manager, Express Administrator si Relational Access Manager), instrumente pentru dezvoltare (Oracle Express Analyser, Oracle Express Objects etc) si nucleul (limbajul de programare Express). Instrumentul OLAP denumit Oracle Express Analyser asigura selectarea, analiza si vizualizarea datelor memorate n baza de date multidimensionala, iar instrumentul Oracle Express Objects asigura dezvoltarea de aplicatii OLAP cu ajutorul limbajului de programare Express. Prin integrarea instrumentului Oracle Express Objects cu Oracle Discoverer, este facilitata realizarea aplicatiilor destinate cercetarii (inteligente) a afacerilor (Oracle Integrated Business Intelligence Tools). Este prevazut, de asemenea, un editor de conexiuni, Express Connection Editor, care asigura definirea conexiunilor la baza de date multidimensionala. Pentru ca un depozit de date sa poata fi procesat este necesara existenta unui set specializat de instrumente pentru: descrierea fizica si logica a surselor de date, a depozitelor sau a magaziei de date n care acestea urmeaza sa fie ncorporate; validarea, curatirea si transformarea datelor care urmeaza a fi stocate n depozitul de date; utilizatorii finali, instrumente care permit acestora accesul la datele stocate n depozitul respectiv. Astfel de instrumente sunt specializate pentru medii de dezvoltare a aplicatiilor, produse program specializate pe analiza datelor precum si pentru aplicatii personale (individuale). 1.5. Modul de utilizare a depozitului de date Depozitele de date conin structuri unice, integrate i cumulative necesare procesului de decizie. Administratorul depozitului de date are ca principal sarcin stabilirea accesului partajat al categoriilor de manageri prin asigurarea de parole i drepturi de acces. Datele din depozit sunt accesate selectiv de manageri n funcie de necesitile acestora. n acest fel se creaz colecii specializate pe diverse domenii care se numesc magazii de date (Data Marts). Magaziile de date se pot utiliza i ca structuri intermediare pentru colectarea datelor din surse primare i al cror coninut este descrcat periodic n depozitul de date. Depozitele de date pot lua natere i printr-o stocare exhaustiv a datelor din sistemele tranzacionale n vederea aplicrii tehnologiei Data Mining. Utilizarea tehologiei Data Mining presupune c procesarea datelor se face fr intervenia utilizatorilor, n background, iar rezultatele sunt pstrate pentru a fi consultate ulterior la cerere.

Capitolul 2 Analiza multidimensionala a datelor


2.1. Abordarea multidimensionala a datelor stocate n depozite. 2.1.1. Definirea si caracterizarea OLAP (On-Line Analytical Processing)

Daca se analizeaza tehnologia relationala se observa ca cea mai mare parte a problemelor tratate relational sunt n realitate multidimensionale. n modelul relational problemele sunt tratate n tabele care au doua dimensiuni: linie si coloana. Problemele reale, care n cea mai mare parte a lor sunt multidimensionale, nu impun limite stocarii spatiale a datelor. Astfel, un SGBDR obisnuit nu poate face fata cerintelor de agregari de date, sintetizari, consolidari si proiectii multidimensionale. De aceea, a aparut necesitatea extinderii functionalitatii unui SGBDR prin adaugarea unor componente speciale care sa permita modelare si analiza multidimensionala (OLAP) si Data Mining. La modul general, termenul de procesare analitica online, OLAP (OnLine Analytical Procesing) se refera la o varietate de activitati ce sunt realizate de catre utilizatorii finali n sistemele informatice interactive (online). n mod obisnuit, OLAP cuprinde activitati ca generarea si obtinerea raspunsurilor la interogari si cererile ad-hoc de rapoarte si grafice. Obtinerea acestor raspunsuri la interogari, rapoarte si grafice se fundamenteaza pe metodele moderne ale statisticii si cercetarilor operationale, precum si pe tehnologiile de construire a prezentarilor vizuale. Unele lucrari de specialitate includ analizele si prezentarile multidimensionale, sistemele informatice pentru suportul executivului, ESS (Executive Support Systems) sau EIS (Executive Information Sytstems) si Data Mining n tehnologia OLAP15. n esenta, produsele de firma OLAP furnizeaza posibilitati de modelare, analiza si vizualizare pentru volume mari de date din baze de date (prin intermediul SGBDR) sau din depozite de date. OLAP asigura vederi conceptuale multidimensionale asupra datelor. Modelele de date asociate sistemelor OLAP se ncadreaza astfel n doua categorii: extensii ale modelului de date relational si modelele bazate pe cuburi n-dimensionale. Din categoria extensiilor modelului de date relational pentru OLAP fac parte, ntre altele: modelul Kimball (fundamentat pe schema tip stea ca o reprezentare relationala a cubului n-dimensional; din aceasta s-au dezvoltat schema tip fulg de nea si schema tip constelatie); modelul Gary (fundamentat pe operatorii CUBE si ROLLUP ai clauzei Group By din limbajul de interogare structurata SQL); modelul Gyssens si Lakshmanan (fundamentat pe o extensie ale algebrei relationale). Din categoria modelelor bazate pe cuburi n-dimensionale se pot mentiona, ntre altele: modelul lui Agrawal, Gupta si Sarawagi (fundamentat pe o multime de operatori asemanatori cu cei din algebra relationala, cu organizarea datelor bazata pe cuburi ndimensionale); modelul Cabbibo si Torlone (fundamentat pe o schema multidimensionala compusa din multimea de dimensiuni, tabelele de fapte si descrierile nivelurilor ierarhice).

Tehnologia OLAP permite utilizatorilor navigarea rapida de la o dimensiune la alta si facilitati sporite de obtinere a celor mai detaliate informatii din depozitul de date. Tehnologia

OLAP se bazeaza pe 12 principii formulate de Ted Codd (1993), extinse la 18 principii n anul 1995. Acestea sunt: 1. abordarea conceptuala multidimensionala a datelor; ca urmare, se folosesc modele multidimensionale; 2. asigurarea unei transparente sporite prin existenta unei arhitecturi deschise a sistemului; 3. accesibilitatea asigurata utilizatorului prin asistarea implicarii acestuia n modalitatile tehnice de furnizare a datelor (utilizatorul final reprezinta si el o sursa de date); trebuie sa se realizeze o singura viziune logica a datelor din organizatie (enterprise); 4. complexitatea dimensionala a analizei ofera performante stabile; instrumentele OLAP trebuie sa aiba implementate patru modele de analiza: direct, explicativ, contemplativ si formativ; 5. utilizarea arhitecturii client-server, unde server-ul are ca scop omogenizarea datelor; 6. posibilitatea de a efectua aceleasi operatii asupra tuturor dimensiunilor si care poarta numele de prelucrare generica a dimensiunilor; 7. dimensiunile trebuie sa fie echivalente operational si structural (dimensionalitate generica); prin intermediul acestui principiu sunt astfel asigurate ierarhii multiple; 8. gestionarea dinamica a matricilor ncrucisate prin facilitatea de a elimina combinatiile dimensionale nule, pentru a nu ncarca memoria calculatorului; indiferent de sursa lor, valorile lipsa sunt ignorate; 9. posibilitatile de acces simultan al mai multor utilizatori (multi-user) la aceeasi faza (etapa) de analiza; 10. operatii nerestrictive, ceea ce da posibilitatea executarii fara restrictii a calculelor pentru toate combinarile de dimensiuni si niveluri ierarhice; 11. posibilitatea manipularii intuitive a datelor; 12. numar nelimitat de niveluri de agregare si de dimensiuni 1. 13. valorile lipsa sunt diferite de valorile invalide si de valorile zero (mprtiere); valoarea zero este valida; modelele OLAP satisfac regula referitoare la valorile NULL din modelul relational. Ca urmare, datele lipsa si invalide trebuie tratate n mod individual; 14. denormalizarea datelor, la introducerea lor n depozitul de date; 15. memorarea rezultatelor generate de OLAP; sistemele OLAP stocheaza datele n depozite de date separat de sistemele tranzactionale; 16. flexibilitatea rapoartelor, prin selectarea axelor la raportare la dorinta utlizatorului final; 17. caracteristici superioare ale raportarii, n functie de locatia procesarii datelor (client sau server) si de modul de efectuare a calculelor (dupa modele de preprocesare sau calcule executate n momentul interogarii depozitului de date); 18. ajustarea automata a nivelului fizic, n functie de volumul datelor si de tipul de model logic folosit. OLAP este tehnologia de agregare a datelor stocate n depozite de date ntr-o maniera de abordare multidimensionala cu facilitati referitoare la accesul la informatii a managerilor n mod interactiv si flexibil. Legatura dintre OLAP si

depozitele de date este aceea ca OLAP le completeaza prin transformarea volumului imens de date stocate si gestionat n depozite n informatii utile procesului de decizie. Cele 12 reguli (initiale, din 1993) ale lui Codd au fost apoi regrupate ntr-un test cu 5 reguli denumit FASMI (Fast Analysis Shared Multidimensional Information). OLAP presupune existenta unor tehnici care permit de la o navigare si selectie simpla a datelor pna la analiza detaliata si complexa. Aplicatiile care se rezolva pe baza acestei tehnologii au la baza analiza rapida a informatiei multidimensionala dispersata n locatii multiple dar accesibile unui mare numar de utilizatori. Pentru utilizarea acestor facilitati, OLAP dispune de eficacitatea bazelor de date multidimensionale si de posibilitatea de a construi alternative pentru diverse probleme de decizie. OLAP presupune ca analiza datelor (care pot fi de tip numeric sau statistic) poate fi predefinita de cel care creeaza aplicatia sau chiar de utilizatorul final. OLAP se caracterizeaz prin: perspectiva multidimensionala a datelor, capacitatea de calcul intensiv si orientare n timp (time intelligence). Aspectul multidimensional al datelor este dat de posibilitatea de a integra multiplele aspecte care caracterizeaza activitatea unei ntreprinderi si care sunt considerate din perspective multiple ca: timp, bani, produse. Fiecare dimensiune este definita n genere prin mai multe niveluri ca de exemplu: timpul este divizat n an, trimestre, luni, sezoane; produsul n: categorii, clasa. Conceptul de dimensiune este folosit ca nteles de aspect, dimensiunile fiind independente si cu unitati de masura specifice dimensiunii respective.

Fig.2.4.

Hipercubul de date

Unitatile de masura pot constitui criterii de agregare a datelor, iar nivelele unei dimensiuni formeaza ierarhia care la rndul ei poate constitui criteriu de agregare a datelor.Privite din punct de vedere multidimensional, datele sunt reprezentate n hipercuburi de date (fig.2.4),

prin extinderea cubului tridimensional la cel n-dimensional. Pe acest tip de cub se pot efectua calcule prin aplicarea unor algoritmi complecsi asupra datelor structurate n acesta. Acestea implica posibilitatea de adresare multidimensionala directa a cuburilor unitare si optimizarea timpului de raspuns. Caracteristica de orientare n timp (time intelligence) presupune flexibilitatea exploatarii acestei dimensiuni care este necesara pentru comparatii si aprecieri de valoare n analizale economice. Aceasta dimensiune este luata de obicei din calendarele tranzactiilor economice asa cum se afla n bazele de date ale sistemului informatic al companiei. Se pot face astfel grupari pe dimensiuni ca: trimestre, luni, ani, sezoane. Se pot utiliza si dimensiuni speciale cum sunt: perioada curent, perioada precedenta, aceeasi perioada din anul..., care trebuie neaparat luate n considerare la proiectarea hipercubului. Bazele de date multidimensionale folosite de OLAP sunt suprapuse depozitelor de date si stocheaza straturi de date agregate pe diferite criterii ierarhice. De asemenea, aceste baze de date multidimensionale contin si date statistice pentru fiecare nivel de agregare. Un server OLAP reprezinta un motor de manipulare a datelor multiutilizator de mare capacitate ce a fost proiectat pentru a sprijini si functiona cu structuri de date multidimensionale. O structura de date multidimensionala este astfel aranjata nct fiecare articol (item) de date este localizat si accesat pe baza intersectiei membrilor dimensiunii care definesc acel articol (irem). Proiectarea serverului si a structurii de date sunt optimizate pentru regasirea rapida (ad-hoc) a dalelor n oricare dintre orientarile dorite, pentru calculul flexibil si rapid, precum si transformarea rndurilor de date pe baza relatiilor de tip formula. O formula este un obiect al bazei de date (calcul, regula sau alta expresie) destinat pentru manipularea datelor n interiorul bazei de date multidimensionale. Serverul OLAP poate sa reprezinte, fie o etapa fizica a procesarii informatiei multidimensionale pentru a furniza timp de raspuns rapid si consistent utilizatorilor finali, fie poate sa populeze structurile sale de date n timp real avnd ca surse baze de date relationale sau alte tipuri de baze de date. De asemenea, serverul OLAP poate sa fie o reprezentare a ambelor alternative de mai sus. 2.1.2. Modelarea dimensionala cuburi OLAP Modelarea dimensionala presupune conceptualizarea si reprezentarea aspectelor masurabile ale activitatii studiate n interdependenta cu contextul n care acesta se desfasoara, aspect identificat prin parametrii activitatii. Legatura dintre valorile nregistrate ale activitatii (valori vnzari, cheltuieli comune, costul produselor) si contextul de desfasurare al acesteia formeaza baza numeroaselor rapoarte de sinteza care sunt produse de sistemele tranzactionale. Prin modelare dimensionala se ofera un model conceptual comun acestor rapoarte si agreagarea lor ntr-o structura uniforma si flexibila. Totodata se pastreaza si legatura cu sursele initiale de date, deci posibilitatea de descompunere a datelor centralizate pe niveluri din ce n ce mai mici pna se ajunge la setul de tranzactii initiale (drill-down). Cubul OLAP (fig.2.4) se considera a fi element structural pentru datele din procesul online.

Acesta este o structura multidimensionala, un hipercub prin care se modeleaza complexul de activitati pe o perioada ndelungata de timp. Acest tip de modelare este caracterizat de cteva concepte de baza: cuantificarea activitatii (aspectul cantitativ) care se face prin utilizarea unitatilor de masura clasice ca de exemplu: m, m3, kg, unitati monetare. Masuri cantitative sunt: volum vnzari, volum salarii, cost materiale, cost produs etc. dimensiunile activitatii sunt de fapt parametrii activitatii masurate ca de exemplu: zi, luna, trimestru, client sau grupa de clienti. Dimensiunile sunt de obicei de natura diferita si raspund la ntrebari de tipul: unde?, cnd?, cu ce? etc. faptele sunt colectii ale cuantificarii activitatii precum si dimensiunile care identifica modul n care acestea s-au desfasurat. Sursa de existenta a faptelor este constituita din nregistrarile stocate n tabelele de tranzactie ale aplicatiilor operationale care sustin activitatea respectiva. Se pot folosi si dimensiuni scenarii care pot stoca n tabelele de fapte si masuri imaginare alaturi de cele reale, pentru ca utilizatorul sa poata stoca valori estimate pentru o masura.

n bazele de date tranzactionale, dimensiunile sunt de fapt cmpuri care contin caracteristicile unei tranzactii adica datele de identificare ale tranzactiilor care sunt de obicei chei externe care fac legatura cu nomenclatoarele care le expliciteaza. Ca atare, se poate afirma ca dimensiunile se materializeaza n setul de valori posibile care formeaza domeniul caracteristicii respective, valori care poarta numele de membrii dimensiunii. O alta caracteristica a dimensiunii este aceea ca poate avea multipli adica sunt grupe de valori ale dimensiunii cu o caracteristica comuna. Grupele pot fi identificate prin atribute care se afla n nomenclatorare si pot lua aceeasi valoare pentru mai multe valori ale cheii primare. Multiplii unei dimensiuni nu trebuie sa fie neaparat de aceeasi natura cu dimensiunea primara, aceasta putnd avea mai multe tipuri de multipli n functie de caracteristicile luate n considerare. Se poate afirma ca dimensiunile mpreuna cu multiplii lor formeaza structuri arborescente care sunt recunoscute de OLAP ca fiind ierarhii. Ierarhiile pot fi regulate, adica toate ramurile au acelasi numar de ramificatii sau neregulate daca pe anumite ramuri lipseste un nivel de semnificatie. La radacina arborelui se afla o caracteristica cu aceeasi valore pentru toti membrii dimensiunii de baza. Acest tip de caracteristica este una implicita ca, de exemplu, unitatea care are ca activitate cea analizata sau all. Frunzele arborelui formeaza membrii dimensiunii initiale, iar dimensiunile intermediare pot fi pe mai multe nivele. Daca arborele este neregulat, pentru a uniformiza ierarhia se poate introduce un membru de tip alte. n acest fel se constata ca centralizarile pe nivelul respectiv nu vor fi de 100% din valoarea centralizata pe nivelul cel mai de jos. Atributele care definesc ierarhia sunt atribute derivate din atributul care defineste dimensiunea actiunilor masurate, prin referire la nomenclatoare sau prin clasificari ale valorilor pe care le poate lua atributul respectiv. De exemplu, furnizorii se pot clasifica n furnizori stabili daca compania face tranzactii cu ei de mai mult de 4 ani, furnizori noi daca

au vechime cuprinsa ntre 1 si 4 ani si furnizori volatili sau ocazionali daca n cmpul respectiv din Furnizori nu este completat nimic. Din acest exemplu se observa ca asemenea clasificari conduc la obtinerea unor atribute derivate prin calcul din caracteristicile aflate n nomenclatoare. n acest fel se vor obtine seturi de membri calculati ai dimensiunii. Dimensiunile ierarhizabile se constituie n ierarhii alternative. Nivelele ierarhiilor sunt vazute ca nivel de agregare pentru valorile stocate n tabele de fapte. Membrii dimensiunilor identifica masura activitatii stocata n tabelul de fapte. Daca unui fapt i sunt asociate mai multe dimensiuni, identificarea unica a acestuia va necesita valori precise pentru fiecare dimensiune. Ca urmare, din tabelele de fapte sunt selectate mai multe nregistrari, adica toate valorile posibile asociate dimensiunilor nespecificate. Pentru dezvoltarea unui depozit de date, modelarea datelor are un rol important deoarece permite vizualizarea structurii nainte ca ea sa fie construita. Modelul multidimensional reprezentat prin el va fi prezentat desfasurat n sectiuni sau n proiectii tridimensionale. Sectiunea unui hipercub este definita ca o sectiune din cub data prin coordonatele sale. Proiectia este definita ca o sectiune care centralizeaza datele de pe toate dimensiunile suprimate. Vizualizarea on-line se face de fapt tot n sectiuni sau proiectii tridimensionale. Datele din celule sunt prezentate numai n sectiuni sau proiectii transversale bidimensionale. Hipercubul ar putea fi imaginat ca un set de tabele-pivot grupate pe dimensiunea ceruta. Pentru procesul de modelare, hipercubul se poate prezenta n forma tabelara n care masurile sunt evidentiate pe coloane iar liniile reprezinta combinatiile de dimensiuni. De asemenea, n plan fizic, hipercubul poate fi stocat ntr-un tabel cu coloane multiple n care se stocheaza masurile si cu identificatori pe rnduri. Identificatorii de rnduri sunt de fapt chei formate din toate combinatiile posibile de valori ale dimensiunilor. Utilizarea indecsilor pentru acces rapid nu are prea mare eficienta ntruct cheia este compusa din mai multe caracteristici, iar cmpurile de valoare sunt putine si numerice, astfel ca tabelul de indecsi este aproape de aceeasi dimensiune cu tabelul initial. De aceea, se utilizeaza tabelul bitmap pentru un acces direct rapid. Datele modelate ca hipercuburi formeaza baze de date multidimensionale. Tipurile majore de OLAP sunt: o OLAP multidimensional (MOLAP) atunci cnd cubul OLAP este implementat prin intermediul unei baze de date multidimensionale specializate (sau memorie-tampon de date data store); o OLAP relational (ROLAP) atunci cnd o baza de date OLAP este implementata n vrful unei baze de date relationale existente; o OLAP hibrid (HOLAP) combinatie ntre MOLAP si ROLAP; o OLAP baza de date (DOLAP) atunci cnd se refera la un SGBDR care este proiectat pentru a gazdui structuri OLAP si a permite calcule OLAP; o OLAP Web (WOLAP) atunci cnd se refra la date OLAP ce sunt accesibile prin intermediul unui navigator Web;

o OPAP pe desktop reprezinta o varianta de OLAP cu pret scazut, atunci cnd instrumentele OLAP si bazele de date sunt localizate pe statia de lucru (desktop) a utilizatorului final. 2.1.3. Baze de date multidimensionale Baza de date multidimensionala este formata din doua structuri: structura datelor n care se stocheaza masurile activitatilor preluate din tabela de fapte a depozitului de date. Datele vor fi prezentate utilizatorului n celulele tabelelor pivot; structura metadatelor care este formata din totalitatea dimensiunilor si membrilor acestora precum si din structurile ierarhice ale dimensiunilor. Utilizatorul poate vizualiza aceasta structura ca nume de coloane si linii care reprezinta informatiile de pe axele cuburilor. Numerotarea nivelurilor ncepe de la radacina (nivel 0) catre frunze (unde va apare nivelul maxim). Ierarhiile poseda propriile lor seturi de niveluri, chiar daca unele ramuri sunt comune. De exemplu: ierarhia Calendar este formata din nivelele (0-5): Timp, An, Semestru, Trimestru, Luna, Data calendaristica, ierarhia Anotimp este formata din nivelele (0-4): Timp, An, Sezon, Luna, Data calendaristica, iar ierarhia Anotimp este formata din nivelele (0-3): Timp, Saptamna, Zi, Data calendaristica. Pe fiecare nivel se stocheaza membrii dimensiunilor respective. Radacina care se observa ca este comuna (Timp) este nivelul de agregare maxim avnd ca unic membru implicit all. Orice nod n arbore este un membru al unei subdimensiuni. Nodurile subordonate unui nod formeaza un set, iar orice membru al unui set are un numar de ordine ncepnd cu 0. De asemenea, orice membru poate avea proprietati ca de exemplu unele zile sunt sarbatori legale, unii ani sunt bisecti. Exemplul prezentat presupune o structura strict arborescenta ntruct fiecare membru al unei dimensiuni are submembri distincti, chiar daca acestia au aceleasi valori. De exemplu fiecare an are setul lui de luni, fiecare saptamna are setul ei de zile. Ca mod de identificare, membrii vor fi calificati cu numele membrului de pe nivelul precedent caruia acesta i se subordoneaza: 2007-feb, 2008feb. Tipul acesta de dimensiuni care au membri ce se repeta se pot crea si ulterior prin combinarea a doua nivele din ierarhie sau din ierarhii diferite pentru a crea un nivel nou, virtual. Pentru a se putea naviga pe o structura arborescenta, sistemele de gestiune pun la dispozitie operatori ierarhici. De exemplu, pentru exploatarea datelor, sistemele de gestiune ofera operatori pe hipercuburi. Fizic, datele sunt stocate ntr-un fisier cu acces direct pe baza adresei fizice absolute sau relative a nregistrarii obtinute prin exploatarea tabelelor bitmap obtinute n urma creerii structurii de date. Aceste tabele sunt puntea de legatura dintre structura de date si structura de metadate. Iata cum se face aceasta legatura: se stie ca pentru fiecare membru al fiecarei dimensiuni exista o coloana (1 bit) n tabele bitmap pentru fiecare nregistrare exista un rnd n acelasi tabel n care se stocheaza 1 n dreptul bitilor asociati membrilor dimensiunii existente n nregistrare. Datorita acestui procedeu, cmpul respectiv nu trebuie stocat n nregistrare, iar structura datelor este redusa la un minim necesar. Din tabelul de masuri se vor putea selecta acele nregistrari care au un bit 1 n pozitia

corespunzatoare bitilor 1 din masca. Un inconvenient al tabelelor bitmap este acela ca ele sunt greu de obtinut, iar aparitia unor noi membri sunt greu de inserat n pozitia corespunzatoare. Procesul de refacere a unui tabel bitmap este mare consumator de timp avnd n vedere ca tabelul de fapte din depozit (care se va transforma n baza multidimensionala) poate avea un numar imens de nregistrari. Masca de interogare se obtine prin exploatarea structurii ierarhice a metadatelor de unde se pot extrage seturi de membri pentru dimensiunile desemnate prin specificatorii de axe. Adresarea tabelului de masuri se face n mod direct pe baza unui set de adrese de nregistrari care se suprapun cu tiparul mastii. Din tabel se preiau n aceasta maniera valorile care se centralizeaza pentru celula cubului cu dimensiunile sale. Se poate afirma ca structura metadatelor este de tip ierarhic, fiecare dimensiune fiind stocata ntr-o structura arborescenta cu o singura radacina (all) si cu o multitudine de ramuri care pot contine frunze comune (ierarhii alternative). Orice nivel al unei ierarhii poarta un nume si contine un set de membri. De altfel si ierarhiile alternative poarta un nume pentru a putea fidistinse. Structura n care sunt stocate datele este o structura cu acces direct prin tabele bitmap exploatate prin masti. 2.1.4. Operatii OLAP asupra hipercubului Un hipercub este proiectat astfel nct el sa aiba n vedere nivelul de detaliu necesar n procesul de analiza. Nivelul de detaliu (granularitatea) reprezinta numarul de membri ai unei dimensiuni. Datele pot fi vizualizate printr-o selectie n hipercub pe baza unui criteriu ierarhic care ar putea fi de exemplu structura organizationala pe care o conduce un anumit manager. Daca de la pornire, granularitatea este prea mare, datele vor fi mult prea centralizate si nu se va putea face dect o analiza grosiera. Ajustarea nivelului de granularitate este realizata de OLAP prin exploatarea ierarhiilor dimensiunilor prin comasari si descompuneri ale masurilor prin proceduri care poarta numele de roll-up si drill-down. Prin intermediul acestor proceduri se face o deplasare a proiectiei cubului n sus sau jos pe nivelele ierarhice ale fiecarei dimensiuni (zoom in; zoom out), executnd de fiecare data centralizari ale masurilor stocate la cea mai mica granularitate dupa criterii ierarhice stabilite n prealabil. Este stabilit un nivel de granularitate initial sub care nu se poate cobor. Din acest motiv este important ca dimensiunile de baza sa fie ct mai rafinate sau sa se creeze Data Marts unde hipercuburile sunt proiectate la nivelul de detaliu stabilit de managementul operational. Pentru managementul superior se va construi un depozit cu hipercuburi centralizatoare cu granularitate mare. Prin drill-down se obtin detalii, iar prin roll-up se obtin date sintetice. Un alt grup de operatii oferit de OLAP este sectionarea (slicing) si defalcarea (dicing). Prin sectionare, se creeaza posibilitatea selectarii prin vizualizare doar pentru un membru al unei dimensiuni, adica un plan din cubul tridimensional. Sectiunea astfel obtinuta va apare ca un tabel pilot cu valorile dimensiunilor pe laturi si cu specificarea valorii alese pentru dimensiunea suprimata. Defalcarea (dicing) este operatia de proiectare a unei dimensiuni pe o

alta. De obicei o dimensiune din primul plan este combinata cu o alta dimensiune din adncime. Acest proces se mai numeste imbricarea dimensiunilor. Dimensiunile unui cub pot fi private sau pot fi utilizate n comun si de alte cuburi (ele provin din depozitele cu schema de tip constelatie). Proiectarea structurilor depozitelor de date si a cuburilor OLAP este un proces ce se desfasoara continuu pe tot parcursul existentei (vietii) aplicatiei, dimensiunile cuburilor fiind n strnsa dependenta cu detaliile activitatii structurate. Aplicatiile construite cu tehnologia OLAP si gasesc locul n multiplele domenii ale activitatii ntreprinderilor, de la finante, banci, marketing pna la productie si vnzari. De exemplu, activitatea de productie poate fi sustinuta de aplicatii OLAP cum sunt: planificarea operatiilor, controlul calitatii produselor, analiza rebuturilor, analiza optimizarii raportului dintre cost-beneficii. OLAP, utiliznd tehnici inteligente de optimizare, beneficiaza de avantajul timpului de raspuns mic.

S-ar putea să vă placă și

  • Noapte de Craciun
    Noapte de Craciun
    Document1 pagină
    Noapte de Craciun
    Andrei Și Andra Zvîncă
    Încă nu există evaluări
  • Noapte de Craciun
    Noapte de Craciun
    Document1 pagină
    Noapte de Craciun
    Andrei Și Andra Zvîncă
    Încă nu există evaluări
  • Noapte de Craciun
    Noapte de Craciun
    Document1 pagină
    Noapte de Craciun
    Andrei Și Andra Zvîncă
    Încă nu există evaluări
  • Noapte de Craciun
    Noapte de Craciun
    Document1 pagină
    Noapte de Craciun
    Andrei Și Andra Zvîncă
    Încă nu există evaluări
  • Noapte de Craciun
    Noapte de Craciun
    Document1 pagină
    Noapte de Craciun
    Andrei Și Andra Zvîncă
    Încă nu există evaluări
  • Noapte de Craciun
    Noapte de Craciun
    Document1 pagină
    Noapte de Craciun
    Andrei Și Andra Zvîncă
    Încă nu există evaluări
  • Noapte de Craciun
    Noapte de Craciun
    Document1 pagină
    Noapte de Craciun
    Andrei Și Andra Zvîncă
    Încă nu există evaluări
  • Noapte de Craciun
    Noapte de Craciun
    Document1 pagină
    Noapte de Craciun
    Andrei Și Andra Zvîncă
    Încă nu există evaluări
  • Noapte de Craciun
    Noapte de Craciun
    Document1 pagină
    Noapte de Craciun
    Andrei Și Andra Zvîncă
    Încă nu există evaluări
  • Noapte de Craciun
    Noapte de Craciun
    Document1 pagină
    Noapte de Craciun
    Andrei Și Andra Zvîncă
    Încă nu există evaluări
  • Noapte de Craciun
    Noapte de Craciun
    Document1 pagină
    Noapte de Craciun
    Andrei Și Andra Zvîncă
    Încă nu există evaluări
  • Noapte de Craciun
    Noapte de Craciun
    Document1 pagină
    Noapte de Craciun
    Andrei Și Andra Zvîncă
    Încă nu există evaluări
  • Noapte de Craciun
    Noapte de Craciun
    Document1 pagină
    Noapte de Craciun
    Andrei Și Andra Zvîncă
    Încă nu există evaluări
  • Noapte de Craciun
    Noapte de Craciun
    Document1 pagină
    Noapte de Craciun
    Andrei Și Andra Zvîncă
    Încă nu există evaluări
  • Noapte de Craciun
    Noapte de Craciun
    Document1 pagină
    Noapte de Craciun
    Andrei Și Andra Zvîncă
    Încă nu există evaluări
  • Noapte de Craciun
    Noapte de Craciun
    Document1 pagină
    Noapte de Craciun
    Andrei Și Andra Zvîncă
    Încă nu există evaluări
  • Noapte de Craciun
    Noapte de Craciun
    Document1 pagină
    Noapte de Craciun
    Andrei Și Andra Zvîncă
    Încă nu există evaluări
  • Noapte de Craciun
    Noapte de Craciun
    Document1 pagină
    Noapte de Craciun
    Andrei Și Andra Zvîncă
    Încă nu există evaluări
  • Noapte de Craciun
    Noapte de Craciun
    Document1 pagină
    Noapte de Craciun
    Andrei Și Andra Zvîncă
    Încă nu există evaluări
  • Noapte de Craciun
    Noapte de Craciun
    Document1 pagină
    Noapte de Craciun
    Andrei Și Andra Zvîncă
    Încă nu există evaluări
  • Noapte de Craciun
    Noapte de Craciun
    Document1 pagină
    Noapte de Craciun
    Andrei Și Andra Zvîncă
    Încă nu există evaluări
  • Noapte de Craciun
    Noapte de Craciun
    Document1 pagină
    Noapte de Craciun
    Andrei Și Andra Zvîncă
    Încă nu există evaluări
  • Noapte de Craciun
    Noapte de Craciun
    Document1 pagină
    Noapte de Craciun
    Andrei Și Andra Zvîncă
    Încă nu există evaluări
  • Noapte de Craciun
    Noapte de Craciun
    Document1 pagină
    Noapte de Craciun
    Andrei Și Andra Zvîncă
    Încă nu există evaluări
  • Noapte de Craciun
    Noapte de Craciun
    Document1 pagină
    Noapte de Craciun
    Andrei Și Andra Zvîncă
    Încă nu există evaluări
  • Document 1
    Document 1
    Document1 pagină
    Document 1
    Andrei Și Andra Zvîncă
    Încă nu există evaluări
  • Noapte de Craciun
    Noapte de Craciun
    Document1 pagină
    Noapte de Craciun
    Andrei Și Andra Zvîncă
    Încă nu există evaluări
  • Noapte de Craciun
    Noapte de Craciun
    Document1 pagină
    Noapte de Craciun
    Andrei Și Andra Zvîncă
    Încă nu există evaluări
  • Noapte de Craciun
    Noapte de Craciun
    Document1 pagină
    Noapte de Craciun
    Andrei Și Andra Zvîncă
    Încă nu există evaluări