Sunteți pe pagina 1din 17

Depozite de date 1.

Evoluia depozitelor de date


ncepnd cu anii 1970, organizaiile i-au concentrat atenia n principal asupra investiiilor n sisteme de calcul noi, care automatizeaz procesele din domeniul afacerilor. n acest mod, organizaiile au beneficiat de un avantaj competitiv, prin sistemele care ofereau clientului servicii mai eficiente i mai ieftine. Pe parcursul acestei perioade, organizaiile au acumulat cantiti tot mai mari de date. n prezent multe dintre organizaii i concentreaz atenia asupra modalitilor de utilizare a datelor operaionale pentru a susine procesul decizional, ca mijloc de a ctiga un avantaj competitiv. Sistemele operaionale nu au fost niciodat proiectate pentru a susine astfel de activiti din domeniul afacerilor iar problema n faa creia se afl aceste organizaii este necesitatea de a-i transforma arhivele de date ntr-o surs de cunotine astfel nct utilizatorului s-i fie prezentat o vedere integrat asupra tuturor datelor organizaiei. Depozitele de date au devenit, la sfritul anilor 90, una dintre cele mai importante dezvoltri din domeniul sistemelor informaionale. Industria data warehouse s-a dezvoltat continuu n termeni de investiii, produse disponibile i proiecte elaborate. Se apreciaz c aproximativ 90% din companiile multinaionale au implementate depozite de date sau lucreaz la dezvoltarea unor proiecte data warehouse. Depozitele de date sunt produsul mediului economic i al tehnologiilor avansate. Pe de o parte, mediul economic este tot mai competitiv, global i complex, i solicit informaii elaborate pentru sprijinirea deciziilor strategice, iar pe de alt parte, evoluiile tehnologiilor informaionale ofer soluii eficiente de gestionare a unor volume mari de date integrate, de ordinul terabytes-ilor, asigurnd niveluri de sintez/detaliere adecvate. Depozitele de date (data warehouse) furnizeaz arhitecturi i instrumente utile conducerii executive (business executives) prin organizarea sistematic, nelegerea i utilizarea datelor n luarea deciziilor strategice. n ultimii ani multe firme au cheltuit sume uriae cu realizarea de depozite de date. Mult lume i d seama c n condiiile competiiei sporite din fiecare industrie, depozitele de date sunt armele necesare marketingului, reprezentnd calea de a pstra clienii. Primele domenii care au adoptat tehnologia depozitelor de date au fost telecomunicaiile, bncile i comerul cu amnuntul. Ulterior depozitele de date au ptruns i n alte domenii cum ar fi industria farmaceutic, sistemul sanitar, asigurrile, transportul,etc. Studiile statistice arat c telecomunicaiile i sistemul bancar se menin n top ntruct aloc cel puin 15% din bugetul IT pentru proiecte de depozite de date. Un proiect data warehouse reprezint o investiie riscant i scump. Costurile tipice pentru dezvoltarea unui depozit de date ntr-un interval de 3-6 luni se situeaz ntre 0,8 i 2 milioane USD. Ponderea echipamentelor se situeaz ntre 1/2 i 2/3 din costul total al proiectului. O soluie pentru firmele mici i mijlocii este recurgerea la data marts pentru care costurile se situeaz sub 100.000 USD ntr-un interval adesea mai mic de 90 de zile. Motivaiile cele mai des ntlnite pentru eecul unor data warehouse include susinerea insuficient din partea conducerii organizaiei, insuficiena fondurilor i politicile organizaionale defectuoase. 1.1. Concepte de baz privind tehnologia depozitelor de date 1.2.1. Data warehouse

Conceptul iniial de magazie (depozit) de date a fost inventat de ctre cei de la IBM, sub forma de magazie de informaii, i a fost prezentat ca o soluie pentru accesarea datelor pstrate n sisteme nerelaionale. Magazia de date a fost propus pentru a permite organizaiilor s-i utilizeze arhivele de date, cu scopul de a ale ajuta s ctige un avantaj in afaceri. Totui datorit problemelor iniiale privind performanele asociate implementrii unor astfel de soluii, majoritatea primelor ncercri de creare a unei magazii de informaii a fost respins. De atunci, conceptul de nmagazinare a datelor a mai fost scos la iveal de cteva ori, dar potenialul acestora a nceput s fie privit ca o soluie de valoare i viabil numai n ultimii ani. Ultimul i cel mai de succes susintor al nmagazinrii datelor este Bill Inmonn, care i-a catigat titlul de printe al nmagazinrii datelor datorit promovrii active a acestui concept. Depozitul de date reprezint o colecie de date orientat spre subiect, integrat, variabil n timp i nevolatil, care susine procesul decizional al administrrii. n aceast definiie dat de Inmonn n 1993, datele sunt: Orientate spre subiect, deoarece depozitul este organizat mai degrab in jurul principalelor subiecte ale intreprinderii ( cum ar fi clienii, produsele i vnzrile ) n loc de principalele domenii de activitate (cum ar fi facturile, controlul aciunii si vnzarea produselor). Aceasta reflect necesitatea de a stoca mai degrab datele de susinere a deciziilor dect datele orientate spre aplicaii. n loc de a se concentra pe procesarea operaiilor i tranzaciilor zilnice dintr-o organizaie, un depozit de date se focalizeaz pe modelarea i analiza datelor pentru luarea deciziilor. Din acest motiv, depozitele de date ofer, n mod tipic, o viziune simpl i concis relativ la un subiect specific, excluznd datele care nu sunt utile n procesul de sprijinire a deciziei. Integrate, datorita reunirii unor date generale orientate spre aplicaii de la sisteme surse diferite, care cuprind adeseorii date incoerente, ce utilizeaza de exemplu formate diferite. Un depozit de date este, n mod uzual, construit prin integrarea unor multiple surse heterogene: baze de date relaionale, fiiere, nregistrri privind tranzacii on-line. Tehnicile de curare a datelor (data cleaning) i de integrare sunt aplicate pentru a asigura concordana ntre conveniile de atribuire a numelor, de codificare a straturilor, de atribuire a valorilor, etc. Variabile in timp, deoarece datele din depozit sunt corecte si valabile la un anumit moment de timp sau pentru un anumit interval de timp. Variabilitatea n timp a depozitului de date este indicata si de ctre timpul extins pentru care sunt pstrate datele, asocierea implicit sau explicit a timpului cu toate datele i faptul c datele reprezinta o serie de instantanee; Nevolatile, deoarece datele nu sunt reactualizate n timp real, ci sunt remprospatate de ctre sistemele operaionale la intervale regulate. Datele noi sunt adugate ntotdeauna mai degrab ca un supliment al bazei de date, dect ca o nlocuire. Depozitul de date absoarbe ncontinuu aceste date noi, integrandu-le pe rnd n datele anterioare. Scopul suprem al nmagazinarii datelor este de a integra datele generale din ntreaga organizaie ntr-un singur depozit, la care utilizatorii pot lansa interogri, produce rapoarte i efectua analize. Depozitul de date reprezint un mediu de susinere a deciziilor, care preia datele stocate n diverse surse operaionale, le organizeaz i le face disponibile pentru organele de decizie din cadrul ntregii organizaii. Pe scurt, o magazie de date este o tehnologie de administrare i analiz a datelor. Alte definiii ale depozitelor de date, surprind cu unele nuanri, aceleai elemente eseniale:

Un depozit de date conine un volum foarte mare de date. Unele dintre aceste date pot proveni din sursele operaionale ale organizaiei, altele din surse externe. Depozitul de date este astfel organizat nct s faciliteze folosirea datelor n scopuri decizionale. Depozitul de date furnizeaz instrumente prin intermediul crora utilizatorii finali pot accesa rapid datele. n viziunea lui Barry Devlin, un depozit de date nseamn o stocare a datelor, unitar, complet i consistent, obinut dintr-o varietate de surse, disponibil utilizatorilor finali ntr-un mod uor perceptibil i utilizabil n contextul afacerii Dup Ralph Kimball depozitul de date ofer acces la datele organizaionale; datele coninute sunt consistente; datele pot fi separate i combinate n funcie de fiecare dimensiune sau aspect al afacerii. Depozitul de date, include de asemenea, un set de instrumente pentru interogare, analiz i prezentare a informaiilor; reprezint locul n care sunt publicate datele folosite; calitatea datelor coninute n depozit reprezint o premis pentru reingineria afacerii . 1.2.2. Data warehousing Data warehousing desemneaz procesul de construire i utilizare a depozitelor de date. Construirea unui depozit de date necesit integrarea datelor, curarea datelor (data cleaning) i consolidarea datelor. Utilizarea unui depozit de date necesit adesea o colecie de tehnologii de asistarea deciziilor care permit managerilor i specialitilor s foloseasc informaiile nmagazinate n sprijinul lurii deciziilor n diferite domenii de activitate, cum ar fi: - Sporirea focalizrii pe clieni, care include analize ale vnzrilor (preferine, periodicitate, cicluri bugetare, apetit pentru cumprare, etc.); - Reorientarea produciei i gestionarea portofoliului de produs, comparnd performanele vnzrilor pe trimestre, ani, zone geografice, n ordinea celor mai bune strategii de producie; - Analiza operaiilor i cutarea surselor de profit; - Gestionarea relaiilor cu clienii; - Gestionarea costului activelor corporale; n concluzie depozitele de date pot stoca i integra informaii istorice i sprijin interogri multidimensionale complexe. Data warehousing este de asemenea foarte util din punct de vedere al integrrii surselor de date heterogene.Unii autori folosesc termenul data warehousing doar pentru procesul de construire a depozitului de date, n timp ce termenul warehouse DBMS este utilizat pentru a referi conducerea i utilizarea depozitului de date. 1.2.3. Obiectivele Data Warehouse n sintez scopurile unui depozit de date sunt urmtoarele: S furnizeze utilizatorilor accesul sporit la date: Depozitul de date ofer accesul la datele integrate ale organizaiei, anterior blocat prin ci neprietenoase. Utilizatorii pot acum s stabileasc, cu un minim efort, o conexiune garantat la depozitul de date prin intermediul unui microcalculator. S furnizeze o singur versiune a adevrului: Datele din depozitele de date sunt consistente i au calitatea asigurat nainte de a fi puse la dispoziia utilizatorului. De menionat c o singur versiune a adevrului este posibil numai dup discuii i dezbateri asupra termenilor utilizai n organizaie. De exemplu termenul de client ru platnic poate avea mai multe nelesuri: client care nu pltete la timp, client
4

care nu pltete dect parial, client care nu pltete niciodat, client care are datorii mai vechi dect o lun, etc. S nregistreze cu acuratee trecutul: Multe date primite de manageri nu sunt semnificative dac nu sunt comparate cu datele anterioare. Sistemele operaionale nu vor putea permite acest gen de operaii. Un depozit de date va realiza focalizarea pe corecta nregistrare curent a tranzaciilor. Datele istorice sunt ncrcate i integrate cu alte date n depozit, pentru un acces rapid. S jongleze cu nivelurile de acces sintez/detaliu la date: Rapoartele dinamice i instrumentele de interogare OLAP permit utilizatorilor s vizualizeze informaiile din depozitul de date sub diferite unghiuri i la diferite niveluri de detaliere. S separe prelucrrile de nivel operaional i analitic: Pornind de la procesele operaionale, depozitul de date ofer o arhitectur separat pentru implementarea deciziilor. Aceasta face ca ntreaga arhitectur IT a organizaiei s devin mult mai deschis schimbrii cerinelor informaionale. Raiunea pentru care exist depozitul de date este de a permite realizarea unor analize economice complexe, care s foloseasc ntreaga valoare pe care o posed datele colectate. Altfel spus, s valorifice informatiile n decizii manageriale inteligente, att la nivel strategic ct si la nivel tactic. Iar n acest proces instrumentele de analiz au rolul principal. Se disting dou modalitti prin care se poate valorifica informaia din depozitul de date(Srbu .M, 1996): "mineritul" n date (data mining). Data mining este o tehnic aflat n plin dezvoltare, care vizeaz descoperirea unor "abloane" (patterns) semnificative n structura datelor, care s indice n general tendine ale pieei. Se utilizeaz tehnici complexe, de diverse facturi (inteligen artificial, statistic matematic, etc). Se spune c mineritul n date rspunde la ntrebri pe care analistul nici mcar nu i le pune. Analiza multidimensional, referit de regul ca OLAP (On Line Analytical Processing) rspunde la ntrebri pe care managerii i le pun la modul concret. Singura trstur comun a acestor ntrebri este caracterul lor multidimensional. Exist totui cteva tipuri uzuale de ntrebri, care pot arunca o lumin asupra complexittii instrumentelor care trebuie s furnizeze rspunsuri. 2. 1.3. Arhitectura i principalele componente ale unui depozit de date Se disting patru niveluri ale arhitecturii informaionale care rspund cerinelor organizaiilor: operaional, decizional, informaional i virtual.

1.3.1. Abordarea economic


La nivel operaional suportul tehnologic asigur execuia i mbuntirea continu a operaiunilor zilnice, identificarea i corectarea erorilor, monitorizarea complet a operaiunilor. Informaiile colectate sunt utilizate pentru a completa sau optimiza execuia proceselor economice. La nivel decizional suportul tehnologic asigur luarea deciziilor manageriale precum i planificarea pe termen lung. Decidenilor le sunt furnizate date sub diferite formate, att n rapoarte sintetice ct i n rapoarte cu diferite niveluri de detaliere. Sistemele decizionale ca i sistemele de asistare a deciziilor utilizeaz scenarii bazate pe modele, analize de tip what if, analize de trend etc. La nivel informaional este vorba de informaii statice puse la dispoziia unui numr mare de persoane care au nevoie de ele.

Nivelul virtual (Virtual Corporation). Tehnologiile actuale permit crearea de legturi


strategice cu furnizorii i clienii care permit satisfacerea cerinelor informaionale i decizionale ale acestora. Dac n trecut asemenea legturi erau accesibile numai marilor companii, tehnologiile Internet asigur accesul practic nelimitat pentru toate categoriile de organizaii. 1.3.2. Abordarea tehnologic Cerine operaionale. La nivel operaional se difereniaz urmtoarele componente ale arhitecturii informaionale: Sisteme Legacy (sisteme motenite); Aplicaii OLTP Baze de date active (Active Database) Magazine de date (Operational Data Store) Flash Monitoring and Reporting Groupeware (Workflow Management) Sistemele Legacy se refer la sisteme informaionale construite folosind tehnologiile din generaiile anterioare. Cele mai multe sisteme legacy sunt la nivel operaional deoarece majoritatea proiectelor IT au avut ca obiectiv informatizarea activitilor de la nivel operaional. Aplicaiile OLTP (Online Transaction Processing) se refer la sistemele care capteaz automat tranzaciile utiliznd sisteme informatizate. Aceste aplicaii furnizeaz n mod tradiional i rapoarte prin care utilizatorii finali urmresc starea derulrii tranzaciilor. Aplicaiile OLTP i tip Active Database compun majoritatea sistemelor client/server de astzi. Baze de date active Sisteme OLTP Instrumente de interogare Acces la datele din depozit

Magazin de date

Depozit de date

Sisteme Legacy

System 1

System 2

System 3

Figura nr. 1.1. Arhitectura unei aplicaii specializat n tehnologia warehousing utiliznd ODS i DW

Bazele de date active (Active Database) stocheaz datele obinute de aplicaiile OLTP. n mod tradiional, bazele de date sunt depozite pasive ale datelor gestionate de aplicaii. Cu avantajele oferite de sistemele client/server, de sistemele distribuite i de alte tehnologii avansate, bazele de date ncep s aib un rol tot mai activ n management. n plus, profesionitii IT au acum posibilitatea de a include n Depozite de date i sisteme OLAP, baza de date i anumite procese de prelucrare (ex.. proceduri stocate). Acest lucru este n contrast cu stilul practicat n mod obinuit de replicare a prelucrrilor ntre diferite pri ale aplicaiilor client
6

pentru actualizarea aceleiai baze de date. Prin bazele de date active aplicaiile devin mult mai robuste i conduc la o evoluie rapid. Magazinele de date (Operational Data Stores - ODS) reprezint o colecie de baze de date proiectat pentru monitorizarea operaiunilor. Spre deosebire de bazele de date OLTP, ODS conin date orientate pe subiecte, cu posibiliti de detaliere a informaiilor. ODS servesc ca sisteme de nregistrri care furnizeaz viziuni integrale de date n sistemele operaionale. Datele sunt transformate i integrate ntr-o form consistent pornind de la sistemele legacy i de la alte sisteme operaionale i furnizeaz utilizatorilor viziuni (views) asupra operaiunilor curente. Fash Monitoring and Reporting (sisteme de raportare i monitorizare rapid) furnizeaz utilizatorilor instrumente perfecionate de acces la informaii online despre strile sistemului operaional, folosind datele din ODS. Se asigur o mprosptare constant a datelor, fr crearea de ntreruperi. Sistemele Workflow Management sunt instrumente care permit grupurilor de lucru s comunice i s-i coordoneze activitatea. Primele aplicaii ale acestei tehnologii au fost: e-mail, discuii online, partajarea resurselor, groupware etc. Cele mai avansate implementri ale acestor tehnologii sunt integrate cu aplicaiile OLTP pentru a sprijini derularea proceselor economice. Cerine decizionale Depozitul de date (Data Warehouse) este un concept dezvoltat de specialitii IT care au neles c structura datelor necesare urmririi tranzaciilor este, n mod semnificativ, diferit de structura necesar analizei datelor. Operational Data Store Depozite de date i sisteme OLAP Depozitele de date au fost vzute, mai nti, ca fiind componente arhitecturale separate care convertesc i integreaz mase de date de la sistemele legacy i din alte surse externe. Au fost proiectate s cuprind date prelucrate, viziuni (views) orientate ctre obiectivele decizionale. Aceste colecii de date furnizeaz utilizatorilor i decidenilor imagini funcionale, integrate, orientate pe subiecte ale organizaiei. Depozitul de date conine imagini (views) sintetice, istorice din ODS. Ele sunt preluate din ODS i ncrcate n Data Warehouse. Astfel, organizaia dispune de informaiile necesare pentru analize pe termen lung, pentru luarea deciziilor i pentru planificare. Aplicaiile OLAP (Online Analytical Processing) furnizeaz utilizatorilor manageri imagini (meaningful views) semnificative din trecutul i prezentul organizaiei. Formatele de prezentare a informaiilor sunt personalizate i prietenoase: graficele, hrile sunt frecvent folosite. Cerine informaionale Informational Web Service and Scripts. Browser-ele Web furnizeaz utilizatorilor un instrument universal pentru accesarea informaiilor de la serverele Web. n acelai timp furnizeaz noi abiliti de a explora i publica informaii. Spre deosebire de alte tehnologii, tehnologiile Web fac din orice utilizator un publicist instant permind distribuia cunoaterii i expertizei fr un efort deosebit. Prin natura ei, tehnologiile Web sprijin distribuia informaiilor fr a face apel la hrtie. ntreinerea i actualizarea informaiilor este mult mai simpl de cnd informaia este stocat pe servere Web. Cerine virtuale (Virtual Corporation) Transactional Web Services and Scripts. Mai muli factori (costul, securitatea, uurina de utilizare) determin acum ca tehnologia Internet i comerul electronic (ecommerce) s devin o opiune realist pentru organizaiile care doresc s utilizeze Internetul n realizarea tranzaciilor de afaceri.

Costul. Creterea abordabilitii accesului la Internet pentru realizarea afacerilor permite stabilirea costurilor efective i a legturilor strategice cu partenerii de afaceri. Aceasta opiune era iniial deschis numai marilor ntreprinderi fiind destul de scump i avea ca suport reele WAN sau MAN. Securitatea. mbuntirea securitii i criptarea datelor furnizeaz clienilor confidenialitatea tranzaciilor pe Internet. n acelai timp, mbuntirea securitii furnizeaz ntreprinderii confidenialitate n mediul informatizat pe Internet. Uurina de utilizare. mbuntirea uurinei de utilizare i a navigabilitii prin tehnologiile Web fac ca tehnologia Internet s devin foarte popular n mediile economice. Esena unui depozit de date const ntr-o baz de date de dimensiuni foarte mari, coninnd informaiile pe care le pot folosi utilizatorii finali ( clieni, furnizori, companii de publicitate, etc.) 1. Datele operaionale. Sursa de date pentru un depozit provine in principal din datele capturate din sistemul operaional (aplicaiile din firm) dar mai poate proveni din datele de arhiv precum i surse externe, cum ar fi de exemplu baze de date publice (date demografice obinute pe baza unui recensmnt, date statistice furnizate de instituii specializate, date de prognoz economic bazate pe studii economice, date bazate pe sondaje de opinii, etc.) 2. Administratorul de ncrcare (denumit i componenta front-end) efectueaz toate operaiile asociate extragerii si ncrcrii datelor n depozitul de date. Aceste operaii includ transformri simple a datelor n scopul introducerii lor n depozitul de date iar dimensiunea i complexitatea acestei componente variaz n funcie de depozitul de date, putnd fi construit utiliznd o combinaie de instrumente de ncrcare a datelor existente n comer i programe construite la cerere. 3. Administratorul depozitului de date efectueaz toate operaiile asociate administrrii datelor din magazia de date. Aceasta component este construit utiliznd instrumente de ncarcare a datelor, existente n comer i programe construite la cerere. Operaiile efectuate de ctre administratorul depozitului de date sunt: Analiza datelor pentru asigurarea coerenei Transformarea i mbinarea datelor surs din capacitatea de stocare secundar n tabelele depozitului de date Crearea de indexuri i vederi ale tabelelor de baz Generarea de denormalizri dac este cazul Generarea de grupuri (dac este necesar) Salvri de siguran i arhivarea datelor

Administratorul depozitului de date

Sursa nr. 1 de date operaionale Administratorul de ncrcare Sursa nr. 2 de date operaionale

Meta-date Date cu un grad nalt de rezumare Administrator de interogri

Instrumente de raportare, interogare, dezvoltare de

Date cu un grad sczut de rezumare Date detaliate Administratorul magaziei de date

SGBD

Sursa nr. n de date operaionale Date arhivate/salvate pentru siguran

Instrumente de extragere a datelor

Instrumente de acces ale utilizatorului final Instrumente OLAP

Figura nr.1.2. Arhitectura tipic a unui depozit de date

n unele cazuri, administratorul depozitului de date genereaz i profiluri de interogri pentru a determina ce indexuri i grupuri sunt adecvate. Un profil de interogare poate fi generat pentru fiecare utilizator, grup de utilizatori sau pentru depozitul de date i este bazat pe informaiile care descriu caracteristicile interogrilor, cum ar fi frecvena, tabelele int i dimensiunile seturilor de rezultate. 4. Administratorul de interogri (denumit si componenta back-end) efectueaz toate operaiile asociate administrrii interogrilor utilizatorilor i utilizeaz instrumentele de acces la date pentru utilizatorul final procurate din comer, instrumentele de monitorizare a bazei de date, facilitile bazelor de date i diverse programe construite la comand. Complexitatea administratorului de interogri este determinat de facilitile puse la dispoziie de instrumentele de acces ale utilizatorilor finali i baza de date. Operaiile efectuate de aceast component se refer la dirijarea interogrilor spre tabelele adecvate i planificarea execuiei interogrilor. n unele cazuri, administratorul de interogri genereaz i profiluri de interogare pentru a permite administratorului magaziei de date s determine ce indexuri i grupri sunt adecvate. 5. Datele detaliate. Aceast poriune din depozitul de date stocheaz toate datele detaliate n schema bazei de date. n majoritatea cazurilor, datele detaliate nu sunt stocate on-line, ci

6.

7.

8.

9.

grupate n urmtorul nivel de detaliere. Datele detaliate sunt adugate n depozitul de date la intervale regulate, pentru a suplimenta datele grupate. Datele cu grad nalt i sczut de rezumare. Aceast poriune din depozitul de date stocheaz toate datele predefinite, cu un grad sczut i nalt de rezumare (grupate), generate de ctre administratorul depozitului de date. Scopul informaiilor rezumate este de a accelera performanele interogrilor. Dei vor exista costuri operaionale crescute asociate rezumrii datelor iniiale, acestea ar trebui s fie compensate prin eliminarera necesitii de a efectua continuu operaii de rezumare ( cum ar fi sortarea i gruparea), atunci cnd se rspunde interogrilor utilizatorilor. Datele arhivate/copiate pentru siguran. Aceast poriune din depozitul de date stocheaz toate datele detaliate i rezumate, n scopul arhivrii i realizrii copiilor de siguran. Cu toate c datele rezumate sunt generate din datele detaliate, este posibil s fie necesar salvarea de siguran a datelor rezumate, dac acestea se pstreaz i dup perioada de retenie a datelor detaliate. Arhivele de stocare sunt reprezentate de benzile magnetice sau discurile optice. Meta-datele. Acest poriune din depozitul de date stocheaz toate definiiile meta-datelor (datele despre date) utilizate de ctre procesele din depozitul de date n scopuri ca: extragerea i ncrcarea datelor meta-datele sunt utilizate pentru a transforma sursele de date ntr-o vedere comun a informaiilor cuprinse n depozitul de date; administrarea depozitului de date meta-datele sunt utilizate pentru a automatiza producerea de tabele rezumat; administrare a interogrilor meta-datele sunt utilizate pentru a dirija o interogare nspre cea mai adecvat surs de date; Instrumentele de acces ale utilizatorilor finali. Principalul scop al depozitului de date este de a furniza informaii utilizatorilor, pentru luarea de decizii strategice. Depozitul de date trebuie s susin n mod eficient analiza ad-hoc i de rutin. Performanele nalte se realizeaz prin pre-planificarea cerinelor privind uniunile, sumrile i rapoartele periodice de ctre utilizatorii finali. Cu toate c definiiile instrumentelor de acces ale utilizatorilor finali se pot suprapune, aceste instrumente pot fi clasificate n cinci categorii principale o instrumente de raportare i interogare o instrumente de dezvoltare a aplicaiilor o instrumente ale sistemului informaional executiv (EIS) o instrumente de prelucrare analitic on-line (OLAP) o instrumente de extragere a datelor

1.4. Depozite de date versus baze de date operaionale


1.4.1. Sistemele OLAP n comparaie cu sistemele OLTP O comparaie ntre bazele de date i depozitele de date este n msur s ofere o imagine coerent privind rolul depozitelor de date n organizaii, precum i raporturile cu alte tipuri de sisteme informatice. Un SGBD construit pentru OLTP este privit, n general, ca fiind neadecvat pentru nmagazinarea datelor, deoarece fiecare sistem este proiectat avand in minte un set diferit de cerine. De exemplu, sistemele OLTP sunt proiectate pentru a maximiza capacitatea de prelucrare a tranzaciilor, n timp ce depozitele de date sunt proiectate pentru a susine prelucrarea ad-hoc a interogrilor. n urmtorul tabel este prezentat o comparaie ntre principalele caracteristici ale sistemelor OLTP i a sistemelor de nmagazinare a datelor :
10

Nr. 1. 2. 3.

Trsturi Destinaia Orientarea sistemului Utilizatori

OLTP Procese operaionale Tranzacii Funcionari, administratori BD, profesioniti BD Operaii zilnice

OLAP Procese informaionale Analize Specialiti, manageri, executivi,analiti Cerine informaionale pe termen lung, asistarea deciziei Scheme Star/Snowflake Istorice, precizie meninut n timp Sintetizare, consolidare Interogri complexe Aproape ntotdeauna Read Furnizare de informaii Milioane Milioane 100 GB - TB

4.

Funcii

5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15.

Instrumente folosite n proiectare Caracterul datelor Nivelul de sintez Unitatea de lucru Scheme de acces Focalizare Numr de nregistrri accesate Numr de utilizatori Mrimea bazelor de date Prioriti

Diagrame E-A Curente, noutate absolut Primitive, detaliere ridicat Scurt, tranzacii simple Read / Write Culegere de date Zeci Mii 100 MB - GB Performane ridicate, disponibilitate ridicat Tranzacii culese

Flexibilitate ridicat, autonomie utilizatori finali Sistem de evaluare Interogri culese,timp de rspuns Tabelul 1.1. Comparaie ntre sistemele OLTP i OLAP

Deoarece sursa celor mai multe date stocate n depozitul de informaii o constituie mediul operaional, am putea crede c nivelul de redundan ntre cele dou sisteme (cel operaional i cel informaional) este foarte ridicat. De asemenea faptul c ambele sisteme se bazeaz pe operarea cu sisteme de gestiune a bazelor de date i c ambele sisteme implic volume mari de date, pot accentua aceast impresie. Cteva consideratii pe aceast tem pot fi edificatoare n ceea ce priveste chiar definiia depozitului de informaii. n primul rnd trebuie subliniat c din punct de vedere funcional cele dou sisteme snt disjuncte. Sistemul operaional proceseaz tranzacii n timp ce sistemul informaional este exploatat prin interogri. Cerinele snt diametral opuse. Orice administrator de baze de date cunoate faptul c optimizrile viznd sigurana i coerena datelor, eseniale ntr-un sistem tranzacional, conduc inevitabil la ncetinirea dramatic a interogrilor, cu deosebire a celor ad-hoc, bazate pe criterii neprevzute (acestea sunt cele specifice analizei economice). Reciproc, aceste interogri - implicnd de regul volume mari de date i fiind adesea lipsite de suportul unor indeci prestabilii - pot compromite performanele operaiilor tranzacionale pn sub limitele acceptabile. n ceea ce privete datele propriu-zise, cteva aspecte pot fi edificatoare: Filtrarea datelor la transferul din sistemul operational n cel informaional face ca doar datele relevante pentru analiza economic s treac acest prag. Orizontul temporal al celor dou sisteme este diferit. Exist o suprapunere foarte mic ntre cele dou.
11

Depozitul de date conine i date sumarizate, care nu exist niciodat n sistemele operaionale. La preluarea n depozitul de date, datele snt supuse unor transformri radicale att din punct de vedere fizic ct i logic. Conform aprecierii lui Inmon, redundana datelor ntre cele dou sisteme are de regul o rat mai mic de 1%. Dar chiar dac acest rat ar fi mult mai mare, valoarea depozitului de date este imens, deoarece ofer managementului organizaiei o imagine unic, coerent si semnificativ asupra datelor relevante din perspectiva analizei economice. Mai mult, instrumente specializate OLAP permit utilizatorilor s exploreze efectiv aceast baz informaional, fr a avea nevoie de intermedierea unui serviciu specializat. Iar ntr-un context economic n care o decizie luat dimineata are deja efecte sensibile la ora prnzului, "efectiv" nseamn de fapt "vital". Cu toate ca sistemele OLTP i depozitele de date au caracteristici diferite i sunt construite n scopuri diferite, ele sunt strns legate prin faptul c sistemele OLTP furnizeaz datele surs pentru depozitul de date. O problem major a acestei relaii const n faptul c datele pstrate de ctre sistemele OLTP pot fi incoerente, fragmentate i supuse schimbrii, coninnd intrri duble sau lips. De aceea este necesar ca datele operaionale sa fie curate nainte de a putea fi utilizate in depozitul de date. 1.4.2. Avnd un sistem operaional, mai este necesar i un depozit de date? Privind retrospectiv este uor de vzut cum informatizarea i-a schimbat focalizarea de la operaional la decizional. Diferena dintre informaiile operaionale i cele decizionale a determinat noi provocri pe care practica informatic veche nu a putut s le ndeplineasc. Vom arta mai jos cum aceast schimbare a focalizrii informatizrii a devenit punctul forte pentru dezvoltarea tehnologiilor tip depozite de date. Ciclul afacerilor prezentat n figura urmtoare arat c orice organizaie trebuie s lucreze pe trei niveluri: operaional, tactic i strategic. Operaional Monitorizare (Sisteme Politici Strategie Figura nr. 1.3. Ciclul afacerilor Iniial foarte multe din investiiile informatice s-au focalizat pe satisfacerea cerinelor operaionale ale ntreprinderilor. Dup toate acestea, fr aplicaiile OLTP care nregistrau sute de mii, uneori chiar milioane de tranzacii zilnice, n-ar fi fost posibil pentru nici o ntreprindere s satisfac exigenele clienilor, n timp ce politicile comerciale devin tot mai dure. Dispunnd (Sisteme operaionale)

Tactic

Strategic

12

de informaiile oferite de sistemele OLTP focalizarea informatizrii s-a orientat n ultimii ani ctre cerinele decizionale ale organizaiei. Cerinele decizionale nu pot fi n totalitate anticipate. Din nefericire, nu este posibil ca profesionitii IT s anticipeze cerinele informaionale ale decidenilor din ntreprinderi pentru simplul motiv c informaiile solicitate i rapoartele de prezentare se schimb ca de altfel i mediul economic n care se desfoar activitatea. Decidenii nsi nu se pot atepta s cunoasc necesarul de informaii la un anumit moment dat, ei revd datele organizaiei din diferite perspective i pe diferite niveluri de detaliere pentru a identifica problemele de rezolvat, oportunitile care trebuie exploatate. Ei examineaz trendul performanelor pentru a determina situaiile de afaceri care pot furniza avantaje competitive, mbuntirea profitului sau reducerea costurilor. De asemenea, decidenii analizeaz situaiile de pe pia i stabilesc tacticile prin care cele mai bune decizii strategice s determine cursul ascendent al ntreprinderii. Sistemele operaionale i furnizarea informaiilor pentru decizii. Din moment ce informaiile necesare nu pot fi anticipate, sistemele operaionale sunt incapabile s furnizeze decidenilor informaiile de care au nevoie. Ca rezultat, managerii pierd timp i deseori sunt frustai studiind rapoartele furnizate de sistemele operaionale n cutarea informaiilor de care au nevoie. n consecin, specialitii IT sunt presai s produc tot mai rapid rapoarte ad-hoc pentru sistemele operaionale. Pentru a extrage datele din fiecare sistem operaional este necesar mai nti integrarea lor atent i implicarea resurselor pentru a pune n lucru filtrele care vor produce raportul. Dup un consum important de timp i de resurse, n final, Depozite de date i sisteme OLAP raportul este obinut dar se poate constata c datele coninute sunt inconsistente, depite sau inadecvate. Sistemele decizionale s-au dezvoltat pentru a ntmpina cerinele decizionale. De-a lungul anilor, sistemele decizionale s-au dezvoltat i implementat n sperana de a acoperi cerinele informaionale ale decidenilor. Unele ntreprinderi au avut succes n dezvoltarea i extinderea depozitelor de date cu mult nainte ca termenul de Data Warehouse s devin cunoscut. De ce nu se execut procesri analitice on-line (OLAP) direct pe bazele de date existente, dect a consuma timp i resurse pentru a construi separat un depozit de date? Este o ntrebare pertinent iar rspunsul poate explica i fundamenta investiia ntr-un depozit de date. Argumentul forte pentru aceast separare este promovarea performanei ridicate n ambele sisteme. O baz de date operaional este proiectat i adaptat pornind de la sarcini i activiti cunoscute cum ar fi indexarea utilizarea cheilor primare, cutarea unor nregistrri specifice, optimizarea interogrilor. Pe de alt parte, interogrile unui depozit de date sunt adesea complexe. Ele implic calcule asupra unor grupuri mari de date cu totalizri pe diferite niveluri, ce pot necesita utilizarea unor metode speciale de organizare a datelor, de acces i implementare bazate pe viziuni multidimensionale. Procesnd interogrile OLAP ntr-o baz de date operaional s-ar degrada substanial performanele sarcinilor operaioanale. De altfel o baz de date operaional sprijin procesarea concurent a tranzaciilor multiple. Controlul concurenei i mecanismele de reacoperire sunt necesare pentru a asigura consistena i robusteea tranzaciilor. O interogare OLAP are nevoie adesea de acces read-only la nregistrri pentru sumarizare i agregare. Controlul concurenei i mecanismele de reacoperire, dac sunt aplicate pentru operaiunile OLAP, pot primejdui execuia tranzaciilor concurente i astfel s reduc substanial consistena unui sistem OLTP. Aadar, separarea bazelor de date operaionale de depozitele de date se bazeaz pe structuri, coninut, utilizatori i date diferite. Luarea deciziilor necesit date istorice, pe cnd
13

bazele de date operaionale nu conin, n mod obinuit, date istorice. Astfel, datele operaionale, dei abundente, sunt, n mod obinuit, departe de a fi complete pentru luarea deciziilor. Asistarea deciziei solicit consolidarea datelor (totalizri i agregri) din diferite surse, rezultnd date de nalt calitate, curate i integrate. n contrast bazele de date operaionale conin numai date neprelucrate (primare), detaliate, cum sunt tranzaciile care trebuie consolidate naintea analizelor. Dat fiind faptul c cele dou sisteme au funcionaliti diferite i necesit tipuri diferite de date, este necesar a le menine n baze de date separate. Totui muli furnizori de SGBD-uri operaionale au nceput optimizarea acestor sisteme, n aa fel nct ele suport interogrile OLAP, n curnd fiind de ateptat ca separarea dintre sistemele OLTP i OLAP s cad. 1.4.3. Depozite de date, magazine de date sau piee de date ? La prima vedere, magazinele de date (Operational Data Stores - ODS) nu se deosebesc cu nimic de depozitele de date. Dei ambele tehnologii sprijin decidenii, ele sunt diferite, deoarece sunt destinate s acopere anumite tipuri de cerine informaionale. W.H.Inmon, C.Imhoff i G.Battas definesc un ODS ca o construcie arhitectural unde este stocat o colecie integrat de date operaionale. Un magazin de date poate fi definit, de asemenea, ca o colecie de baze de date proiectate pentru sprijinirea controlului operaional. Spre deosebire de bazele de date din aplicaiile OLTP (care sunt operaioanle sau orientate pe funcii), magazinele de date conin date orientate pe subiectele din organizaiile mari. n comparaie cu depozitele de date, datele din ODS sunt volatile i detaliate. ODS furnizeaz o viziune integrat asupra datelor din sistemele operaionale. Tabelul urmtor prezint comparativ depozitele de date i magazinele de date: Criterii Scopuri Asemnri Deosebiri Data Warehouse Sprijinirea deciziilor strategice Date integrate Orientare pe subiecte Date statice Date istorice Date sintetice Operational Data Stores Control operaional Date integrate Orientare pe subiecte Date volatile Date curente Date detaliate

Tabelul nr. 1.2. Comparaie ntre DW i ODS Pentru construirea unui magazin de date, datele sunt transformate i integrate ntr-o form consistent, pornind de la sistemele motenite i alte sisteme operaionale, pentru a furniza utilizatorilor imagini integrate i actuale ale operaiunilor. Datele din magazinul de date sunt permanent mprosptate, rezultnd o imagine fidel a ultimelor stri ale operaiunilor. Piaa de data (data mart) este un subset al unui depozit, care susine cerinele unui anumit departament sau funcii din domeniul afacerilor. O pia de date pstreaz un subset de date din magazia de date, n mod normal sub forma unor informaii rezumate referitoare la un anumit departament sau funcie din domeniul afacerilor. Piaa de date poate fi autonom sau legat la depozitul de date central.

14

Piee de date Instrumente de raportare, interogare, dezvoltare de

Date rezumate (baze de date relaionale)

Instrumente OLAP Date rezumate (baze de date multidimensionale) Instrumente de extragere a datelor
Administratorul depozitului de date

Al doilea etaj

Sursa nr. 1 de date operaionale Administratorul de ncrcare Sursa nr. 2 de date operaionale

Meta-date Date cu un grad nalt de rezumare Administrator de interogri

Instrumente de raportare, interogare, dezvoltare de

Date cu un grad sczut de rezumare Date detaliate Administratorul magaziei de date

Instrumente OLAP

SGBD

Sursa nr. n de date operaionale Date arhivate/salvate pentru siguran

Instrumente de extragere a datelor

Primul etaj

Al treilea etaj

Figura nr.1.4. Arhitectura tipic a depozitelor i pieelor de date

Pe msur ce depozitul de date devine tot mai mare, abilitatea de a satisface diversele cerine ale intreprinderii poate fi diminuat. Popularitatea pieelor de date provine din faptul c depozitele

15

de date generale se dovedesc a fi dificil de construit i utilizat. Arhitectura tipic a unui depozit de date i a unei piee de date asociate acesteia este prezentat n figura precedent. Caracteristicile care difereniaz pieele de date de depozitele de date sunt urmtoarele: O pia de date se concentreaz numai asupra cerinelor utilizatorilor asociai unui departament sau funcii din domeniul afacerilor; n mod normal, pieele de date nu conin date operaionale detaliate, spre deosebire de depozitele de date; ntruct pieele de date conin mai puine informaii dect depozitele de date, ele se dovedesc a fi mai uor de neles i de parcurs. n construirea pieelor de date exist dou abordri: O tratare const n construirea unui depozit de date general, care poate fi folosit direct de ctre utilizatori i furnizarea datelor pentru alte piee de date. O alt tratare este de a construi mai multe piee de date avnd n vedere o eventual integrare a acestora ntr-un depozit de date. Exist mai multe motive care de creare a unei piee de date, cum ar fi: Oferirea accesului utilizatorilor la datele pe care trebuie s le anlizeze mai des; Furnizarea datelor ntr-o form care corespunde vederii generale asupra datelor a unui grup de utilizatori din cadrul unui departament; Furnizarea datelor structurate adecvat, aa cum sunt cerinele instrumentelor de acces ale utilizatorilor finali; n mod normal, pieele de date utilizeaz mai puine date, astfel nct sarcinile de curare, ncrcare, transformare i integrare a datelor sunt cu mult mai uoare. Prin urmare, implementarea i configurarea unei piee de date este mai simpl, comparativ cu crearea unui depozit de date; Costul implementrii pieelor de date este mai sczut; Utilizatorii unei piee de date sunt mai clar definii i pot fi avui n vedere cu o mai mare uurin, pentru a obine susinere pentru un astfel de proiect. 1.4.4. Utilizarea depozitelor de date Primele aplicaii Data warehouse. Succesul implementrii tehnologiilor data warehouse a creat noi posibiliti pentru organizaii. Aplicarea relativ uoar s-a realizat n telecomunicaii, bnci i n comerul cu amnuntul. Companiile din telecomunicaii sunt interesate, printre altele, de analiza utilizrii reelei, de analiza apelurilor clienilor, de analiza profitabilitii produselor oferite. Asemenea informaii au fost i sunt nc cerute pentru formularea, modificarea i oferirea pachete cu tarife speciale i stimulente pentru diferii clieni. Bncile sunt interesate de gestionarea portofoliilor de active, de analiza profitabilitii clienilor, de profilarea clienilor ca pe un mijloc de identificare a obiectivelor de marketing i a oportunitilor de vnzri. Sectorul comerului cu amnuntul este interesat de analiza vnzrilor, de particularitile structurii cererii n funcie de anotimp, srbtori, vnzri promoionale, alte activiti ale concurenei. 1.4.5. Tipuri de aplicaii Data warehouse Dei primele aplicaii i-au gsit utilizatori n domenii cu diverse cerine informaionale, este posibil s clasificm aplicaiile Data warehouse n urmtoarele tipuri: Vnzri i marketing.

16

Analiza trend-ului performanelor. Deoarece un depozit de date este proiectat s conin date istorice, rezult c acesta reprezint o tehnologie ideal pentru analiza trendului performanelor din interiorul organizaiei. Utilizatorii depozitelor de date pot realiza rapoarte care compar performana curent cu cele anterioare. Analiza lor poate determina direciile care scot n eviden o oportunitate major sau confirm dificultile ateptate. Asemenea analize de trend sunt cruciale pentru succesul activiilor de planificare, de exemplu n domeniul vnzrilor. Vnzri ncruciate. Un depozit de date furnizeaz o viziune integrat a multiplelor relaii ale ntreprinderii cu clienii ei. Pentru obinerea unei imagini mai clare a clienilor i a serviciilor asigurate, ntreprindrea poate identifica oportuniti pentru vnzarea ncruciat a produselor i serviciilor ctre clienii existeni. Profilarea clienilor i a obiectivelor de marketing. Datele interne ale ntreprinderii pot fi integrate cu datele demografice pentru a stabili i a deriva profilul clienilor. Aceste profilri iau n considerare date cum sunt: vrsta, sexul, starea civil, cumprturile anterioare, numrul dependenilor etc. Cu ajutorul acestor inform aii ntreprinderea poate estima cu destul acuratee modul n care un client va apela la unprodus anume sau la mixaj de produse. Prin modelarea clienilor n aceast manier ntreprindrea are date de intrare mult mai bune pentru a direciona eforturile departamentelor de marketing. Promovarea produselor. Depozitul de date permite ntreprinderilor s analizeze istoricul cumprturilor fcute de clieni, fiind sursa informaiilor pentru Depozite de date i sisteme OLAP pentru promovarea produselor. Aceast analiz este de mare ajutor, mai ales n comerul cu amnuntul unde produse de dirite tipuri pot n acelai pachet promoional, la preuri atractive. Succesul diferitelor campanii de promovare pot fi evaluate, la fel de bine, prin intermediul depozitelor de date. Examinarea vnzrilor i rapoarte. Depozitul de date simplific dramatic aceast operaiune. n timp ce nainte ntreprinderile alocau timp i personal pentru urmrirea vnzrilor i realizarea rapoartelor privind performanele din vnzri, astzi depozitul de date a simplificat foarte mult aceste sarcini. Analize financiare i management Analiza de risc. Depozitele de date integrate permit ntreprinderilor s analizeze expunerea la risc. De exemplu, bncile doresc s cunoasc structura activelor i datoriilor. Departamentele de mprumuturi vor s cunoasc expunerea la risc a sectoarelor sau ramurilor care nu sunt profitabile. Companiile de asigurri vor s identifice profilul clienilor care au demonstrat ca sunt supui riscurilor. Analiza profitabilitii. Dac veniturile i costurile sunt urmrite la un nivel suficient de detaliat n sistemele operaionale, un depozit de date poate fi utilizat pentru analiza profitabilitii. Utilizatorii pot naviga prin depozitul de date pentru produce raporte care analizeaz profitabilitatea ntreprinderii pe clieni, ageni de vnzri, produse, perioade de timp, zone geografice sau orice alt dimensiune pe care utilizatorul o solicit. Rapoarte generale Este vorba de rapoarte excepionale, sau de alert, prin care managerii iau cunotin de evenimente importante (o scdere a vnzrilor lunare cu mai mult de 1%). Managerii pot defini excepiile care prezint interes pentru ei. Prin aceste excepii, managerii iau cunotin de situaiile de alert nainte de a deveni probleme majore.

17

Gestiunea clienilor Depozitele de date pot fi utilizate, de asemenea, ca baz pentru urmrirea relaiilor ntreprinderii cu clienii. Clienii sunt cu att mai ncntai cu ct mai multe servicii din cadrul ntreprinderii le cere informaii despre funcionarea produselor. Clienii apreciaz ntreprinderile care nu uit s le furnizeze instruciunile speciale despre funcionarea produselor. Datele despre clieni pot folosi ca baz pentru dezvoltarea relaiilor cu clienii.

18

S-ar putea să vă placă și