Sunteți pe pagina 1din 27

CUPRINS

MODELE UTILIZATE N SIAD..........................................................2


Tipologia modelelor utilizate n SIAD...................................................................2 Proiectarea modelelor utilizate n SIAD...............................................................9

SIAD ORIENTATE PE DATE............................................................14


Depozite de date (Data Warehouse)....................................................................14 Evoluia n timp a metodelor de analiz a datelor.............................................22 Explorarea datelor (Data Mining).......................................................................24

Modele utilizate n SIAD

Tipologia modelelor utilizate n SIAD


Deoarece incertitudinea domin de cele mai multe ori viitorul, n majoritatea situaiilor nu se pot cunoate cu exactitate consecinele care decurg din adoptarea unei decizii la un moment dat i, mai mult, nu se poate afirma c decizia adoptat va conduce la obinerea celor mai bune rezultate pentru organizaie. De fapt, problema este mult mai complex, aceast complexitate fiind generat, pe de o parte, de existena mai multor soluii posibile, iar pe de alt parte, de prezena unui numr mare de factori care trebuie s fie luai n consideraie n procesul adoptrii deciziei. Un decident dorete ca adoptarea unei decizii s aib ca efect o maximizare a obiectivelor organizaiei. Pentru a se putea analiza efectele pe care le produce fiecare dintre soluiile posibile, este necesar s fie utilizate anumite criterii de msurare a performanei, unul dintre cele mai frecvente criterii utilizate fiind criteriul monetar. Exemplu: Se consider urmtoarea situaie: o ntreprindere trebuie s opteze pentru producerea, n urmtoarele 3 luni, fie a 1000 de buci din produsul A, fie a 800 de buci din produsul B. Cunoscndu-se c valoarea cheltuielilor fixe este de 250 u.m., costul pe unitatea de produs A: 15 u.m., iar cel pe unitatea de produs B: 20 u.m., precum i preul de vnzare estimat pentru produsul A: 18 u.m., iar pentru produsul B: 25 u.m., se cere s se determine care dintre cele dou produse ar fi indicat s se lanseze n producie. Soluie: Pas 1 stabilirea criteriului care va fi utilizat pentru evaluarea rezultatelor generate de ctre deciziile care pot fi adoptate: maximizarea profitului. Pas 2 stabilirea variantelor posibile: I lansarea n fabricaie a produsului A;

II lansarea n fabricaie a produsului B; I 18*1000 - (250 + 15*1000) = 2750 u.m. II 25*800 - (250 + 20*800) = 3750 u.m.

Pas 3 determinarea profitului pentru fiecare dintre cele dou variante:

Pas 4 compararea rezultatelor obinute i adoptarea deciziei n conformitate cu criteriul stabilit: observnd faptul c pentru prima variant se obine un profit de 2750 u.m., iar pentru cea de-a doua variant profitul este de 3750 u.m., rezult c ar trebui s se opteze pentru cea de-a doua variant, respectiv lansarea n fabricaie a produsului B. Bineneles c n lumea real problemele nu sunt aa simple ca n exemplul precedent, fiecare situaie fiind influenat de ctre un numr considerabil de factori interni sau externi. Mai mult, deciziile sunt de cele mai multe ori interconectate, adoptarea uneia dintre ele determinnd o reacie n lan care influeneaz adoptarea deciziilor ulterioare. De exemplu, n problema precedent se poate considera c preul de vnzare poate s varieze ntre anumite limite, sau cantitatea care urmeaz s fie produs s nu poat fi vndut dect ntr-un anumit procent, sau c pot s apar anumite disfuncionaliti n procesul de producie ori n cel de desfacere etc. Indiscutabil c n procesul adoptrii deciziei nu se poate ine cont de toate situaiile care pot surveni, decidentul fiind obligat s aleag din multitudinea factorilor posibili pe cei care sunt relevani pentru problema respectiv. Din acest punct de vedere, se poate considera c abstractizarea i simplificarea reprezint un pai foarte importani n soluionarea problemelor care apar. Toate sistemele informaionale pentru asistarea deciziei au la baz modele, create n scopul acestora fiind de a permite att decidentului, ct i SIAD-ului pe care acesta l utilizeaz, s previzioneze consecinele care vor aprea ca urmare a adoptrii unei anumite decizii. n literatura de specialitate se consider c un model este o reprezentare simplificat a unui sistem existent, ncorpornd caracteristicile cele mai importante ale acestuia i eliminndu-le pe cele nesemnificative pentru scopul propus, chiar dac acestea pot fi importante n alte circumstane. Pentru persoana care realizeaz proiectarea modelului este esenial s determine care dintre

simplificrile ce se pot realiza sunt acceptabile i care nu. Unele dintre simplificri sunt necesare pentru ca modelul realizat s fie practic (neluarea n consideraie a faptului ca sindicatul poate s declaneze o grev pe termen lung), n timp ce altele conduc la obinerea unui model nefolositor (ignorarea n problema anterioar a necesitii achiziionrii, n cazul lansrii n producie a produsului B, a unui utilaj, n leasing, care implic cheltuieli lunare de aproximativ 450 u.m.). innd cont de aceste elemente, se pot deduce urmtoarele concluzii: realizarea unui model simplificat sau chiar elementar ne poate furniza informaii utile referitoare la comportamentul sistemul care trebuie modelat. De aceea, muli specialiti consider c proiectarea iniial a unui model simplu este primul lucru care trebuie realizat atunci cnd se dorete modelarea unui sistem complex; multe modele complexe au n componena lor modele simple. De exemplu, un model care determin o serie de indicatori de performan economicofinanciari ai unei firme poate fi inclus ntr-un sistem mai complex, care s ncerce s previzioneze evoluia acestor indicatori pe baza informaiilor acumulate n timp privind activitatea firmei respective; studierea unui model simplu poate conduce la obinerea de informaii importante referitoare la comportamentul sistemului studiat, acestea neputnd fi observate att de uor n cazul unui model complex. n lucrarea "Decision Support and Data Warehouse Systems" (2000), Mallach propune urmtoarea clasificare a modelelor: modele grafice, modele narative, modele fizice, modele matematice i modele simbolice (bazate pe informaie). modele grafice - sunt cele mai simple reprezentri ale unui sistem. O hart reprezint unul dintre cele mai simple i sugestive modele grafice; modelul conceptual al datelor (MCD) sau cel al prelucrrilor (MCP) din modelul entitateasociere sunt de asemenea modele grafice. modele narative - realizeaz descrierea sistemului prin intermediul limbajului natural. O definiie sau o caracterizare succint reprezint un model narativ. modele fizice - reprezint un sistem la o scar redus; acest tip de model este utilizat mai puin n rezolvarea problemelor economice i mai mult n cazul celor

tehnice. O pies, un subansamblu, un autoturism, un avion, un cartier de locuine la o scar redus reprezint modele fizice. modele matematice realizeaz descrierea unui sistem utiliznd ecuaii sau formule matematice. Teoria firelor de ateptare, managementul stocurilor, teoria uzurii i nlocuirii echipamentelor sunt unele dintre modelele matematice utilizate frecvent de ctre SIAD. Modele matematice sunt modelele ncorporate cel mai frecvent n cadrul unui SIAD. modele simbolice (bazate pe informaie) - elementele dintr-un asemenea model pot fi oricare dintre tipurile de dat numeric (dobnda acordat pentru depozitele mai mari de 100000 de USD s fie mai mare cu 1% dect dobnda pieei), ir de caractere (descrierea unei valute USD, EUR ROL, etc.), boolean (o societate comercial este solvabil sau nu, unei persoane i se poate acorda un mprumut sau nu) etc. Modelele grafice, narative i cele fizice nu sunt, n general, pri componente ale unui SIAD (trebuie fcut distincia ntre a fi parte component a unui SIAD i a descrie un SIAD, cele dou concepte reprezentnd lucruri total diferite). Modelele matematice care pot fi ncorporate n cadrul unui SIAD pot fi clasificate n funcie de mai multe criterii. Astfel, n figura 1 este prezentat o astfel de clasificare a acestor modele. Figura 1 - Tipuri de modele O prim clasificare a modelelor matematice le mparte pe acestea n modele descriptive i modele prescriptive. Un model descriptiv realizeaz o descriere a sistemului studiat, n timp ce un model prescriptiv realizeaz o descriere a etapelor (proceselor) care sunt urmate de ctre decident n procesul adoptrii unei decizii referitoare la sistemul studiat. Pentru a realiza o distincie clar ntre cele dou tipuri de modele, se poate considera un SIAD analizeaz modul n care ar trebui rambursat un mprumut acordat de o banc unui client. Variantele disponibile sunt fie cu anuiti constante, fie cu amortismente constante. Un model descriptiv va ngloba formulele i modul de calcul pentru fiecare dintre cele dou variante, n timp ce un model prescriptiv va ngloba, pe lng acestea, un set de reguli obinute att din

analiza indicatorilor economico-financiari ai respectivului client, ct i din experiena acumulat n decursul timpului de banc. De exemplu: Dac mprumutul are o valoare mai mic de 100.000 u.m., o durat de cel mult 5 ani, iar capitalul social al clientului este de peste 1.000.000 u.m. se recomand acordarea unui mprumut rambursabil prin anuiti constante. La rndul lor, modelele descriptive se submpart n modele statice i dinamice. n ceea ce privete modelele statice i cele dinamice ele se difereniaz prin faptul c modelele statice nu iau n consideraie variabila timp, ele reprezentnd o "fotografie" a sistemului la un anumit moment. Dup cum afirma i G. Gordon. n lucrarea "System simulation" (1978), "modelele statice prezint valorile pe care atributele sistemului le au atunci cnd sistemul este n echilibru, n timp ce modelele dinamice prezint schimbrile petrecute n timp datorit evoluiei sistemului". Un model static poate descrie att sisteme statice, ct i sisteme dinamice. Datorit faptului c un model static prezint un sistem n echilibru, poate furniza informaii decidentului despre cum poate fi adus un sistem n stare de echilibru. Deoarece un model static poate descrie att sisteme statice, ct i sisteme dinamice, exist riscul ca distincia ntre modele statice i cele dinamice s fie "neclar" datorit faptului c, de multe ori, o mulime de modele statice dau impresia c reprezint o evoluie n timp sau c in seama de influena factorului timp i c ar fi de fapt modele dinamice. n continuare se va prezenta un exemplu n acest sens (adaptat dup Decision Support and Data WareHouse Systems" (2000) - Mallach, Efrem): se consider urmtorul tabel coninnd estimarea veniturilor i a cheltuielilor pe fiecare dintre urmtorii trei ani: 2003 - Venituri din activitatea de baz - Alte venituri Total venituri - Costuri de producie i desfacere - Costuri de cercetare-dezvoltare - Alte costuri Total costuri - mil. $ 5.00 1.00 6.00 3.25 0.25 1.50 5.00 2004 - mil. $ 5.25 1.25 6.50 3.40 0.30 1.75 5.35 2005 - mil. $ 5,51 1.35 6.86 3.50 0.35 1.80 5.65

Profit estimat

1.00

1.15

1.21

Dac cele trei coloane sunt independente unele de altele, atunci acesta este un model static, chiar dac este prezentat evoluia profitului n timp, deoarece datele referitoare la un an sunt folosite numai pentru obinerea informaiilor referitoare la acel an.

Dac se estimeaz o cretere anual cu 5% a veniturilor din activitatea de baz, modelul rmne n continuare o colecie de trei modele statice, chiar dac veniturile din activitatea de baz a anului curent sunt determinate pe baza veniturilor din activitatea de baz a anului trecut.

Dac se consider ca veniturile din activitatea de baz din anul curent sunt n funcie de veniturile din activitatea de baz din anul trecut, precum i de costurile aferente cercetrii i dezvoltrii, modelul devine dinamic. VAB(N) = 0.75*VAB(N-1) + 5*CCD(N-1)

Un model dinamic poate fi discret sau continuu. Un model dinamic discret lucreaz cu variabile care pot lua un numr finit de valori, n timp ce n modelele dinamice continue domeniul de definiie al variabilelor este infinit. n marea lor majoritate, modelele economice sunt modele discrete. Spre exemplu, se presupune c o banc dorete deschiderea unei noi sucursale i trebuie determinat numrul optim de ghiee care urmeaz s fie puse la dispoziia clienilor astfel nct timpul mediu de ateptare s fie ct mai redus, iar gradul de ocupare al unui ghieu s fie ct mai mare. Pentru aceast problem se pot lua n consideraie urmtoarele aspecte: durata medie n care un client este servit, numrul mediu de sosiri n unitatea de timp (n general, urmeaz o repartiie poissonian), costul pe care l implic funcionarea unui ghieu, venitul obinut din deservirea unui client etc. Dup modul cum este reflectat gradul de certitudine - incertitudine ntr-un model pot exista modele deterministe i stocastice. Un model determinist este reprezentat de un model n care o variabil poate avea n orice moment de timp o singur valoare posibil. ntr-un astfel de model, pentru acelai set de date de intrare, rezultatele obinute vor fi ntotdeauna aceleai, influena altor factori fiind eliminat cu

desvrire. Cu alte cuvinte, pentru un model determinist, ieirile sunt cunoscute atunci cnd sunt cunoscute intrrile, n timp ce pentru un model stocastic, aceste ieiri au o anumit probabilitate de realizare. Cele mai utilizate modele deterministe sunt cele folosite n domeniul programrii liniare i neliniare. ntr-un model stocastic (probabilistic), cel puin una dintre variabile poate avea, la acelai moment de timp, valori diferite (care sunt date de diverse funcii de probabilitate). n timpul realizrii unui astfel de model, decidentul este cel care atribuie diferite funcii de repartiie anumitor variabile de intrare, tocmai n scopul de a modela ct mai corect realitatea existent. Cele mai utilizate astfel de modele se ntlnesc n teoria jocurilor, teoria firelor de ateptare, analiza seriilor cronologice. Pentru a se putea realiza o mai bun difereniere ntre cele dou tipuri de modele, se va considera exemplul precedent; astfel, dac se presupune c durata servirii unui client este de 5 minute modelul este determinist, iar dac se presupune c un client poate fi servit n 4 minute cu o probabilitate de 20%, n 5 minute cu o probabilitate de 45% i n 10 minute cu o probabilitate de 35%, modelul devine stocastic. n lucrarea "Decision Support Systems in the 21st Century" (1999), Marakas propune urmtoarea clasificare a modelelor decizionale: deterministe; stocastice; de simulare; specifice fiecrui domeniu.

Modelele de simulare sunt utilizate tocmai datorit faptului c n marea majoritate a situaiilor existente nu este posibil o abordare determinist sau stocastic a problemei. n majoritatea cazurilor, unele pri ale problemei sunt deterministe, altele stocastice, iar altele att deterministe ct i probabilistice. Un model care permite reprezentarea unei astfel de situaii este un model de simulare. i aceste modele au dezavantajele lor, cel mai mare constnd n faptul c nu este garantat gsirea unei soluii optime, ci doar a unei soluii pentru o situaie care poate s apar cu probabilitatea cea mai mare. Al doilea dezavantaj major este legat de costul relativ ridicat al unui astfel de model (att din punct de vedere al resurselor materiale i umane, ct i din punct de vedere al timpului consumat). Un alt dezavantaj este

reprezentat de faptul c rezultatul obinut este particular unei anumite situaii, el neputnd fi generalizat. Modelele specifice domeniilor au aprut ca urmare a dezvoltrii continue a tiinelor, i mai mult, datorit specializrilor care apar n fiecare disciplin tinific. Astfel, fiecare disciplin i-a dezvoltat propriul set de modele necesare rezolvrii problemelor specifice. tiinele economice au anumite modele care le sunt specifice numai lor; la fel medicina, tiinele sociale, meteorologia etc. i-au dezvoltat propriile modele.

Proiectarea modelelor utilizate n SIAD


Datorit faptului c un model reprezint o variant simplificat a realitii existente, iar procesul identificrii elementelor eseniale, precum i a celor neeseniale pentru sistem este deosebit de important pentru realizarea unui model performant, a aprut necesitatea clasificrii factorilor i a variabilelor pe care decidentul trebuie i ia n consideraie n procesul adoptrii deciziei. n lucrarea Quantitative analysis for management(1997), C. Bonini, W. Hausman i H.Bierman realizeaz o structurare a acestor factori i variabile n cinci categorii: variabile de decizie; variabile exogene; restricii (constrngeri); indicatori de msurare ai performanei; variabile intermediare.

Variabilele de decizie sunt variabilele aflate sub controlul direct al decidentului. Acestea reprezint variantele aflate la dispoziia decidentului n procesul adoptrii deciziei. De exemplu, acordarea sau nu de ctre o banc a unui mprumut ctre o firm; stabilirea duratei pentru care este acordat mprumutul, procentul de dobnd, perioada de graie de care dispune clientul. Deoarece acestea sunt elemente importante, ele reprezint variabilele de decizie.

Variabilele exogene sunt reprezentate de variabilele externe care sunt importante n procesul adoptrii deciziei, dar care nu se afl sub influena direct a decidentului. n cazul exemplului precedent se pot considera ca fiind variabile exogene: condiiile socio-economice existente, poziia principalilor competitori i clieni ai firmei respective, dinamica ratei dobnzilor acordate de ctre bncile concurente etc. Restriciile (constrngerile) sunt reprezentate de strategia i politica firmei la un moment dat, de legislaia n vigoare, de limitrile fizice existente etc. n continuare sunt prezentate o serie de restricii: o o banc poate decide c suma maxim care poate fi mprumutat de ctre un client nu poate s depeasc 100.000.000 u.m. sau c durata maxim pentru care poate fi acordat un mprumut este de cel mult 25 de ani; o Banca Naional poate decide c avansul minim pentru un credit ipotecar trebuie s nu fie mai mic de 25% din valoarea total creditului, situaie n care toate bncile trebuie s se conformeze acestei prevederi; o capacitatea total de mprumut a bncii este limitat de ctre disponibilul existent, prin urmarea aceast constrngere afecteaz valoarea total a creditelor acordate. Uneori restriciile pot fi modificate: astfel, dac volumul total al creditelor este o restricie, dar se dorete o sporire a acestuia, se poate opta pentru emiterea de obligaiuni pe pieele internaionale, pentru obinerea unei linii de credit externe etc. Din acest exemplu se poate deduce c variabilele de decizie pot fi confundate uneori cu restriciile (constrngerile). n literatura de specialitate se consider c nici nu este necesar s se fac o distincie foarte clar ntre variabilele de decizie i restricii, mai important fiind faptul c decidentul trebuie s observe prezena restriciilor, s neleag c unele dintre ele pot fi modificate, i cel mai important, s gseasc soluii viabile de depire a acestora. Indicatorii de msurare ai performanei sunt reprezentai de acele criterii care cuantific performana sau profitabilitatea unei activiti. Aceti indicatori trebuie s fie n strns corelaie cu obiectivele, scopurile pe care organizaia i le-a propus.

10

Astfel, pot fi considerai ca fiind indicatori de performan: profitul obinut n urma acordrii unui credit, cota de pia deinut etc. Variabilele intermediare sunt reprezentate de acele variabile care sunt necesare pentru a stabili o corelaie ntre indicatorii de msurare ai performanei i variabilele de decizie i cele exogene. Ca i variabil intermediar poate fi considerat suma total, aferent tuturor mprumuturilor acordate, care urmeaz s fie ncasat de ctre o banc ntr-o anumit perioad de timp, suma total pe care trebuie s o restituie un client n urma acordrii unui mprumut etc. Definirea i identificarea corect a celor cinci componente ale unui model reprezint primul pas n realizarea acestuia. n lucrarea Quantitative analysis for management(1997) Bonini, Hausman i Bierman consider c un model este asemntor cu o cutie neagr care transform variabilele de decizie n indicatori de msurare ai performanei pentru un set specific de variabile exogene i de restricii. n figura 2 (preluat din lucrarea mai sus menionat) este reprezentat modul n care interacioneaz principalele componente ale unui model. Dup cum se poate observa, variabilele de decizie, cele exogene, precum i restriciile, sunt intrri ale modelului, indicatorii de msurare ai performanei reprezint ieirile modelului, iar modelul este reprezentat de un set de relaii existente ntre toate acestea. n literatura de specialitate se consider c definirea relaiilor care exist ntre componentele modelului reprezint cel de-al doilea pas major n realizarea unui model. Unele dintre aceste relaii reprezint reguli sau concepte economice elementare (suma total restituit n urma acordrii unui mprumut este egal cu valoarea mprumutului plus valoarea dobnzii plus eventualele penaliti, profitul este egal cu venituri minus cheltuieli). Alte relaii deriv din limitrile de natur fizic sau legislativ (valoarea amortismentului plus valoarea dobnzii aferente creditului acordat (la nivelul unei luni) nu poate depi 75% din venitul net lunar al unei familii care solicit creditul respectiv). O serie de alte relaii sunt obinute pe baza experienei acumulate n timp de ctre factorii de decizie (reacia venit din partea solicitanilor de credit la anunul majorrii cu un anumit procent a dobnzii percepute la creditele acordate pe termen lung).

11

Figura 2 - Interaciunea dintre componentele unui model Dup ce au fost stabilite relaiile care exist ntre componentele modelului este necesar elaborarea unei diagrame care s reprezinte aceste elemente (asemntoare unei scheme logice utilizate pentru elaborarea unui program), denumit diagram de influen. Conform definiiei lui Turban i Aronson din lucrarea "Decision Support Systems and Intelligent Systems " (1998), o diagram de influen este "o reprezentare grafic a unui model, utilizat n scopul asistrii proiectrii, realizrii i nelegerii unui model". n 1985 Bodily, n lucrarea "Modern Decision Making" recomand utilizarea unor simboluri grafice prezentate n tabelul 1. Reprezentarea legturilor dintre variabile este realizat cu ajutorul sgeilor, sensul acestora indicnd direcia legturii, iar forma lor - tipul legturii.

Tabel 1 Diagramele de influen pot fi realizate la orice grad de complexitate, n funcie de cerinele sistemului. Aceste diagrame permit proiectantului modelului s reprezinte toate relaiile existente n cadrul modelului, precum i direciile de aciune ale influenelor. Pentru a exemplifica modul de realizare al diagramelor de dependen se consider urmtorul model simplificat, utilizat pentru determinarea profitului obinut de ctre o banc:

Cheltuieli Venituri Profit

= =

Total depozite atrase X Rata medie a dobnzii la depozit Alte cheltuieli Total credite acordate

+ +

X Rata medie a dobnzii la credit

Alte venituri = Venituri Cheltuieli

12

Diagrama de influen aferent acestui model este reprezentat n figura 3.

Figura 3 - Diagrama de influen pentru determinarea profitului

13

SIAD orientate pe date

Depozite de date (Data Warehouse)


Datorit faptului c datele acumulate n decursul existenei unei organizaii reprezint o imens surs informaional, n interiorul acestora fiind ngropate o multitudine de informaii, corelaii, cunotine care pot sprijini compania pentru atingerea obiectivelor propuse, a aprut necesitatea colectrii acestor date ntr-o singur locaie, n scopul unei prelucrri ulterioare mult mai facile. Se poate considera c un depozit de date reprezint o locaie unde sunt stocate sau depozitate, ntr-o form unitar, informaii colectate din mai multe surse de date (n mare parte eterogene), n marea majoritate a cazurilor, depozitul de date fiind rezident pe un singur site. Un data warehouse se realizeaz n urma unui proces de curare a datelor, de transformare a acestora, de integrare i de ncrcare n structurile existente i, periodic, de reactualizare. Conform definiiei lui William Inmon din lucrarea Building the Data Warehouse (1996), depozitul de date (Data Warehouse - DW) reprezint o colecie de date orientate pe subiect (tematice), integrate, non-volatile i istorice, organizate n scopul asistrii procesului decizional. Se consider urmtoarea situaie: SC Leasing Romania SA este o companie din domeniul leasing-ului, care dispune filiale n toat ara, fiecare dintre filiale beneficiind de o baz de date proprie. La nivelul consiliului de administraie este cerut o analiz a contractelor de leasing ncheiate pe fiecare produs, de ctre fiecare filial, n trimestrul al treilea al anului n curs. n cazul n care compania nu dispune de un depozit de date, aceast operaiune este dificil de realizat, ntruct datele necesare sunt disipate n mai multe baze de date, aflate n locaii fizice diferite, situate la distane mari unele de celelalte. Dac

14

organizaia dispune de un depozit de date, arhitectura acestuia poate fi cea reprezentat n figura 4.

Figura 4 Arhitectura unui depozit de date pentru Leasing Romania n scopul desfurrii unui proces de adoptarea deciziei mult mai eficient, datele din depozitul de date sunt organizate n jurul problemelor principale (de exemplu: clieni, produse, linii de credit etc.); cu alte cuvinte, datele sunt orientate pe subiect (tematice), fapt diferit de modelul clasic, n care datele sunt grupate pe funciuni. Acest mod de organizare asigur construirea unei viziuni transversale asupra organizaiei, mult mai bogat n informaii dect viziunea clasic vertical. Datele dintr-un depozit de date sunt consistente (n sensul codificrii unitare a informaiei). Spre exemplu: se consider c o persoan poate fi fizic sau juridic. Codificarea acestui atribut poate varia de la o baz de date la alta, putndu-se ntlni urmtoarele variante: PF / PJ sau 0 / 1 sau True / False sau Yes / No sau F / J etc. n momentul n care datele respective urmeaz s fie incluse ntr-un depozit de date, aceast codificare specific fiecrei baze de date va fi nlocuit cu o singur codificare, o codificare unitar (datele suferind un proces de transformare), de exemplu: PF / PJ. Datorit faptului c este obligatorie realizarea conservrii informaiilor care au stat la baza adoptrii unei decizii (rezultatul unei cereri pentru care valorile parametrilor se pstreaz constante, lansate de mai multe ori i la intervale mari de timp trebuie s fie ntotdeauna acelai) este necesar ca informaiile stocate ntr-un depozit de date s nu poat fi modificate. Se poate afirma c aceste date sunt non-volatile, ngheate (frozen). n consecin, n momentul n care o dat a fost introdus n cadrul unui depozit de date ea nu va mai putea fi actualizat ulterior (nici modificat, nici suprimat), ci va deveni o parte component a istoricului, a evoluiei n timp a organizaiei. Acest lucru este fundamental diferit fa de concepia clasic a unui sistem tranzacional, care permite reactualizarea datelor; din acest motiv, se

15

consider c ntr-un sistem tranzacional datele sunt volatile, spre deosebire de data warehouse, unde trebuie, n mod obligatoriu, s fie non-volatile. Datele sunt stocate n scopul furnizrii informaiilor dintr-o perspectiv istoric (de exemplu ultimii 10-15 ani) i sunt, n general, date agregate, acest lucru derivnd din necesitatea urmririi n timp a evoluiei valorilor unor indicatori. Spre exemplu, n locul stocrii detaliilor pentru fiecare contract de leasing, n depozitul de date se va memora numai valoarea total a contractelor ncheiate pentru fiecare marf, pe fiecare filial, sau chiar pe fiecare zon. Se poate aprecia c un depozit de date reprezint o baz de date multidimensional, n care fiecare dimensiune corespunde unui atribut sau set de atribute, iar fiecare celul memoreaz valori ale unor msuri agregate (numrul de, valoarea total a, valoarea medie a). n exemplul din figura 5 este prezentat un cub care cumuleaz valoarea contractelor de leasing ncheiate de ctre filialele companiei Leasing Romania (din motive de spaiu au fost prezentate numai o parte dintre valorile dimensiunilor adresa i produse). Cubul prezint trei dimensiuni: timp (cu valorile corespunztoare celor patru trimestre ale unui an: Trim I, Trim II, Trim III, Trim IV), adresa (cu valorile: Ardeal, Banat, Dobrogea,) i produse (cu valorile: auto, echipamente de producie, tehnic de calcul, ). Valorile agregate stocate n fiecare celul a cubului reprezint volumul total al contractelor ncheiate (exprimat n sute de mii de u.m.). Prin operaiuni de drill-down, respectiv roll-up, se pot realiza detalieri, respectiv agregri ale datelor prezentate. Spre exemplu, prin operaiunea de drill-down asupra adresei Ardeal, se poate realiza o detaliere a valorii totale a contractelor de leasing ncheiate la nivel de jude de fiecare filial, iar prin operaiunea de roll-up asupra timpului exprimat n trimestre se pot obine valorile agregate la nivel de semestru ale contractelor ncheiate. Este posibil ca nu ntreg setul de date existent ntr-un depozit de date s fie necesar pentru furnizarea de informaii necesare fundamentrii deciziei, ci numai o mic parte a acestuia. n aceste condiii, se poate realiza un magazin de date (Data Mart),

16

care reprezint un subset dintr-un data warehouse. n literatura de specialitate se consider c depozitul de date acoper cerinele informaionale ale ntregii organizaii, n timp ce magazinul de date se rezum la furnizarea informaiilor necesare unui anumit departament din cadrul companiei.

17

Figura 5

18

Referitor la modelarea conceptual a unui depozit de date, n literatura de specialitate sunt acceptate urmtoarele modele: modelul stea; modelul fulg de nea; modelul constelaie. msuri ale activitii sunt reprezentate de datele cantitative la nivel agregat (totaluri (sume), medii, contorizri (numrri)). dimensiuni - sunt reprezentate de criteriile de agregare, acestea coninnd n mod obligatoriu timpul (data calendaristic) i alte astfel de criterii (de exemplu: codul clientului, codul produsului, codul filialei etc.). Bineneles c aceste dimensiuni trebuiesc explicitate n tabele distincte, tabele care trebuie s respecte urmtoarele condiii: o s descrie datele din tabela de fapte; o fiecare cheie trebuie s fie unic; o cheile trebuie s reprezinte nivelul de detaliere cel mai reprezentativ pentru problema dat; o numrul dimensiunilor trebuie s fie rezonabil, ntruct un numr prea mare de dimensiuni conduce la o gestionare mai dificil a acestora, precum i la un timp de rspuns ridicat din partea sistemului n urma solicitrilor venite de la utilizatori. tabela de fapte - reprezint locaia unde se afl stocate msurile activitii grupate pe dimensiuni. Aceast tabel de fapte trebuie s ndeplineasc urmtoarele condiii: o s realizeze cuantificarea datelor descrise de ctre dimensiuni; o fiecare cheie trebuie s fie o combinaie unic a cheilor primare din tabelele de dimensiuni; o cheile trebuie s conin ntotdeauna dimensiunea timp.

Elementele componente ale unui astfel de model sunt:

19

Modelul de baz al reprezentrii la nivel conceptual al unui depozit de date este reprezentat de modelul stea, din acesta obinndu-se i celelalte dou modele. n figura 6 este prezentat modelul stea pentru contractele de leasing ncheiate de firma Leasing Romania, contractele fiind grupate pe patru dimensiuni: timp, produs, client i filial. Acest model conine o tabel de fapte pentru contracte, care conine chei corespunztoare pentru fiecare dintre cele patru dimensiuni, precum i dou msuri ale activitii: TotalValoare, TotalCantitate. ntr-un model stea, fiecare dimensiune este reprezentat printr-o singur tabel, care conine la rndul su un set de atribute. Spre exemplu tabela Clienti conine urmtoarele atribute: CodClient, NumeClient, TipClient, LocalitateClient, JudetClient, ZonaClient. Aceast structur a tabelei poate conduce la apariia unor redundane: localitile Constana, Mangalia i Medgidia fiind toate din judeul Constana, regiunea Dobrogea, nregistrrile de tipul (, Constanta, Constanta, Dobrogea), (, Mangalia, Constanta, Dobrogea), (, Medgidia, Constanta, Dobrogea) determin redundane ntre cmpurile JudetClient i ZonaClient (de fapt, este vorba despre o dependen funcional tranzitiv ntre cmpurile LocalitateClient, JudetClient i, ZonaClient). Figura 6 - Modelul stea al unui depozit de date Dac n cazul unei model de tip stea se dorete realizarea unei subclasificri a anumitor dimensiuni, obinndu-se astfel subdimensiuni, modelul nou-obinut se va numi model fulg de nea. n figura 7 este prezentat modelul fulg de nea (derivat din modelul stea prezentat anterior) pentru contractele de leasing ncheiate de firma Leasing Romania, contractele fiind grupate pe cinci dimensiuni: timp, sezon, produs, client i filial. n model se observ o detaliere a dimensiunilor produs (cu CategoriiProduse), client (cu CategoriiClienti), i filial (cu judete), precum i faptul c exist dou dimensiuni alternative (timp i sezon).

Figura 7 - Modelul fulg de nea al unui depozit de date

20

Dac n cadrul unei model exist dou sau mai multe tabele de fapte care au n comun anumite dimensiuni (partajeaz anumite tabele), modelul obinut se numete model constelaie. Bineneles c una dintre dimensiunile comune ale tabelelor de fapte o reprezint timpul, n urma asocierilor tabelelor de fapte putndu-se obine o serie de corelaii interesante ntre acestea. n figura 8 este prezentat modelul constelaie (derivat din modelul stea prezentat anterior) pentru contractele de leasing i ncasrile companiei Leasing Romania, att contractele, ct i ncasrile fiind grupate pe patru dimensiuni: pentru contracte timp, produs, client i filial, pentru ncasri - timp, DocumentDeIncasare, client i filial. Se poate observa c cele dou tabele de fapte au trei dimensiuni comune, i anume: timp, client i filial. Figura 8 - Modelul constelaie al unui depozit de date Cele trei tipuri de modele conceptuale ale unui depozit de date pot fi modificate pe parcursul existenei acestuia, fr a fi periclitat existena sa. De altfel, n literatura de specialitate se consider c dezvoltarea unui data warehouse este un proces ciclic i repetitiv, care se desfoar de-a lungul ntreagii sale existene (dup cum se poate observa i n figura 9). Figura 9 - Ciclul de via al unui depozit de date n etapa de proiectare se elaboreaz structura depozitului de date, plecndu-se de la premisa c trebuie s se asigure o identificare exact a informaiilor, urmat de un acces rapid la date. n etapa de populare se realizeaz preluarea automat a datelor din sursele disponibile, datele suferind un proces de curare i transformare, urmat de integrarea lor n depozitul de date. Aceast operaiune are loc periodic, n scopul reactualizrii datelor coninute de ctre depozitul de date. Etapa de exploatare se desfoar dup ce depozitul de date este operaional, n urma utilizrii acestuia aprnd o serie de noi cerine informaionale din partea decidenilor, cerine menite s vin n sprijinul procesului de asistare a elaborrii

21

deciziei. Pentru rezolvarea noilor cerine, se va realiza o reproiectare a depozitului de date, urmat de o repopularea a acestuia i de o nou etap de exploatare.

Evoluia n timp a metodelor de analiz a datelor


Dintotdeauna sistemele informaionale pentru asistarea deciziilor s-au bazat pe analiza datelor istorice ale organizaiei. Astfel, n perioada anilor 60, datele erau structurate n fiiere, iar salvarea acestora se realiza pe discuri sau benzi magnetice. ntruct tehnica de calcul nu dispunea de performane ridicate, pentru sporirea vitezei de calcul datele din fiiere se refereau la perioade limitate de timp (trimestru, semestru, an). Periodic se realizau aa-numitele fiiere istorice care reprezentau de fapt, concatenri ale fiierelor de date din fiecare perioad. Bineneles c analiza datelor existente n aceste fiiere se desfura destul de greoi, n general datele furnizate de acestea fiind statice. O dat cu apariia sistemelor de gestiune a bazelor de date, precum i a tehnologiilor aferente acestora, s-a realizat o cretere a calitii analizei datelor existente, precum i a timpului necesar pentru realizarea unei analize. Totui, procesul analizei datelor era ngreunat datorit faptului c, de multe ori, sursele de date erau eterogene. Acest lucru a contribuit la apariia unei noi tehnologii a bazelor de date intitulat data warehouse care a fost prezentat anterior. Cu toate c aceste tehnologii au condus la o cretere considerabil a calitii analizei datelor, aceasta avea n continuare un mare impediment, i anume faptul c era retrospectiv, adic nu oferea nici un fel de informaie referitoare la evoluiile ulterioare. Prin urmare, urmtorul pas a fost elaborarea unei tehnologii care s permit rspunsul la ntrebri de genul: Ce se va ntmpla cu volumul creditelor care urmeaz s fie acordate n Bucureti trimestrul viitor? De ce?. Pentru a se putea rspunde la o astfel de ntrebare este necesar descoperirea unor abloane (modele) care s descrie ct mai bine comportamentul sistemului studiat i care s permit o previzionare a evoluiei n timp a acestuia.

22

Evoluie Colecii de date (anii '60)

Tipuri de ntrebri "Care au profiturile realizate de fiecare filial n ultimii trei ani?"

Tehnologii disponibile fiiere de date baze de date ierarhice, reea, orientate obiect,

Caracteristici Retrospectiv Furnizarea de date statice

Acces la date (anii '70)

"Care au clienii care au solicitat cele mai multe credite n Bucureti n luna martie?"

relaionale, deductive

Retrospectiv Furnizarea de date dinamice la nivel de nregistrare

Query Language: SQL On-Line Transaction Processing

(OLTP) "Care a fost volumul creditelor Depozite de date (anii '90) acordate n luna martie n zona Moldova? Detaliere pe fiecare data warehouse On-Line Analytical Processing Retrospectiv Furnizarea de date dinamice la multiple nivele de agregare Prospectiv Mining Furnizarea de informaii prognozate

(OLAP) localitate" algoritmi avansai "Ce se va ntmpla cu volumul creditelor care urmeaz s fie acordate n Bucureti trimestrul viitor? De ce?" knowledge discovery On-Line Analytical

Descoperirea cunotinelor

(OLAM)

23

Explorarea datelor (Data Mining)


n literatura de specialitate exist dou curente de opinii cu privire la termenii explorarea datelor (Data Mining - DM) i descoperirea cunotinelor din bazele de date (Knowledge Discovery in Databases - KDD): unul consider c cei doi termeni desemneaz acelai lucru (Turban i Aronson n lucrarea "Decision Support Systems and Intelligent Systems" (1998) atribuie i alte nelesuri conceptului de data mining/knowledge discovery in databases: arheologia datelor, dragarea datelor, culegerea informaiilor), iar cellalt insist asupra faptului c nu trebuie fcut confuzie ntre de data mining i knowledge discovery in databases, cei doi termeni nefiind sinonimi, explorarea datelor reprezentnd doar o etap n procesul descoperii cunotinelor din bazele de date. n articolul Knowledge Discovery in Databases: an Overview (1991), Frawley, Piatetsky-Shapiro i Matheus afirm c data mining const n extragerea, de o manier nu tocmai simpl, a unor informaii potenial utile, implicite i necunoscute anterior dintr-o baz de date. n articolul The new DSS: Data Warehouses. Olap, MDD and KDD (1996), Gray i Watson definesc data mining ca fiind o activitate care permite analitilor i managerilor s identifice n depozitele de date rspunsuri la problemele organizaiei, pe care acetia nici mcar nu i le puseser. n lucrarea La construction du datawarehouse, du datamart au dataweb (1998), Goglin definete data mining ca reprezentnd cutarea de corelaii, legturi schematice ntr-o baz voluminoas sau complex de informaii n scopul transformrii acestora n cunotine. n lucrarea Data Mining: Concepts and Techniques (2001), J. Han i M. Kamber definesc data mining ca fiind procesul de extragere a cunotinelor din volume foarte mari de date, stocate n baze de date, depozite de date sau n alte surse. Cei doi autori realizeaz o analogie ntre activitatea de minerit propriu-zis i cea de data mining (mineritul datelor n traducere exact a sintagmei data mining din limba englez), ambele activiti presupunnd prelucrarea de cantiti nsemnate de minereu, respectiv de volume mari de date, n scopul obinerii ctorva grame de

24

metal preios, respectiv a unor noi informaii, cunotine; acestea din urm pot fi valorificate ulterior n scopul maximizrii obiectivelor organizaiei. Conform acelorai autori, etapele procesului descoperii cunotinelor din bazele de date sunt urmtoarele: 1. Curarea datelor (Data Cleaning) eliminarea datelor nefolositoare i a celor inconsistente (completarea valorilor inexistente sau incorecte acolo unde este posibil, ignorarea nregistrrilor unde nu pot fi atribuite valori cmpurilor necompletate). 2. Integrarea datelor (Data Integration) combinarea datelor obinute din surse eterogene de date ntr-o singur surs omogen de date. 3. Selectarea datelor (Data Selection) datele relevante pentru etapa de analiz sunt extrase din baza de date inndu-se cont de criteriile de selecie menionate. 4. Transformarea datelor (Data Transformation) datele sunt transformate i consolidate ntr-o form ct mai util pentru procesul de explorare al datelor (au loc operaii de omogenizare, agregare, generalizare, normalizare a datelor). 5. Explorarea datelor (Data Mining) n aceast etap are loc o analiz atent a datelor, bazat pe aplicarea unor metode inteligente de identificare a abloanelor ascunse n interiorul datelor. 6. Evaluarea modelelor (Pattern Evaluation) modelele (abloanele) obinute sunt apreciate n conformitate cu criteriile specificate de decident, rezultatul acestei etape fiind o ierarhizare a modelelor obinute n urma etapei precedente. 7. Prezentarea cunotinelor (Knowledge Presentation) noile cunotine obinute sunt prezentate utilizatorului ntr-o form ct mai prietenoas i mai simplu de neles, astfel nct decidentulului s i fie extrem de uor s asimileze i s integreze aceste cunotine pentru adoptarea unei decizii care s maximizeze scopurile, obiectivele stabilite de ctre organizaie. Printre principalele obiective ale explorrii datelor se numr:

25

explicarea unui proces, eveniment sau fenomen n urma analizei datelor furnizate de ctre compartimentul Credite al unei firme de leasing se poate ajunge la concluzia c volumul creditelor acordate ntr-o anumit zon a rii pentru un anumit tip de produse a sczut semnificativ. Acest fapt determin formularea ntrebrii: De ce volumul total al creditelor acordate pentru produsul A n zona Z a sczut cu peste P procente n ultimele N luni?. Prin consultarea i analizarea unor volume mari de date, instrumentul de data mining va cuta s explice acest fenomen bazndu-se pe datele interconectate sau pe anumite ipoteze valorificnd parametrii furnizai de ctre decident.

confirmarea unei ipoteze prin aplicarea unor metode statistice sau specifice inteligenei artificiale, se va contribui la validarea sau invalidarea anumitor ipoteze ale explicaiilor descoperite.

explorarea datelor n scopul descoperirii unor corelaii necunoscute este posibil ca setul de date disponibil s nu ne permit formularea nici unei ipoteze referitoare la un anumit fenomen. n acest caz, instrumentul de data mining va cuta s explice acest fenomen, cutnd o serie de legturi, corelaii ascunse existente ntre factorii care l-au determinat, fapt care va contribui la descoperirea unor evenimente marcante, urmate de furnizarea unor explicaii.

innd cont de definiia termenului de data mining, precum i de etapele procesului descoperii cunotinelor din bazele de date, arhitectura unui sistem bazat pe data mining (prezentat n figura 10) are la baz urmtoarele ase componente principale: Baza de date, depozitul de date sau alt surs de date aceast component este format dintr-un set de baze de date, depozite de date, foi de calcul sau alte surse de date, tehnicile de curare i respectiv de integrare a datelor aplicndu-se asupra datelor existente. Server de baze de date sau depozit de date aceast component este extrem de util n procesul identificrii datelor relevante (etapa de selectare a datelor). Baza de cunotine reprezint componenta pe baza creia se desfoar procesul de cutare, identificare i evaluare a modelelor (abloanelor).

26

Motorul de explorare a datelor este componenta principal, inima sistemului, acest motor dispunnd, n general, de un set de proceduri care s i permit efectuarea anumitor analize asupra datelor (de exemplu: asocieri, clasificri, analiza de tip cluster). Figura 10 - Arhitectura unui sistem bazat pe explorarea datelor

Modulul de evaluare al modelelor este componenta care permite o clasificare a modelelor obinute n funcie de anumite criterii. n unele lucrri din literatura de specialitate se consider c acest modul poate fi integrat cu succes n motorul de explorare a datelor.

Interfaa grafic cu utilizatorul este componenta care asigur comunicarea sistemului de explorare al datelor cu utilizatorul final, punnd la dispoziia utilizatorului o serie de faciliti, dintre care se pot enumera: furnizarea anumitor informaii care s l conduc pe decident la specificarea anumitor criterii sau restricii avnd ca efect o diminuare a timpului alocat determinrii modelelor, posibilitatea vizualizrii bazei de date sau a depozitului de date (att din punct de vedere al structurii, ct i al datelor coninute), vizualizarea modelelor n diferite stadii ale evoluiei acestora.

27

S-ar putea să vă placă și