Documente Academic
Documente Profesional
Documente Cultură
Codul cursului:
Denumirea cursului: Sisteme informatice pentru asistarea deciziei
Tip curs: obligatoriu
Durata cursului / Nr. credite: un semestru /
Perioada de accesare a cursului: prelegeri 25 febr. 2008- iunie 2008
laboratoare
consultaţii
Manuale recomandate:
1. Gherasim, Z., Fusaru, D., Andronie, M. – Sisteme informatice pentru asistarea deciziei
economice, Editura Fundaţiei România de Mâine, Bucureşti, 2008.
2. Fusaru, D., Cocianu, C.L., Gherasim, Z., Andronie, M. – Sisteme expert şi Sisteme
informatice pentru asistarea deciziei, Teste grilă, Editura Fundaţiei România de Mâine,
Bucureşti, 2006.
3. Zaharie, D., Albescu, F., Bojan, F., Ivancenco, V., Vasilescu, C. – Sisteme informatice
pentru asistarea deciziei, Editura Dual Tech, Bucureşti, 2001.
4. Filip, Fl.Gh. – Decizie asistată de calculator. Decizii, decidenţi. Metode şi instrumente de
bază, Editura Tehnică şi Editura Expert, Bucureşti, 2002.
5. Filip, Fl.Gh. – Sisteme suport pentru decizii, Editura Tehnică, Bucureşti, 2004.
6. Oancea, M. – Sisteme informatice pentru asistarea deciziei bancare, Editura ASE,
Bucureşti, 2005.
Obiectivele cursului:
Obiectivele cursului de Sisteme informatice pentru asistarea deciziei (SIAD) sunt:
revederea şi fixarea noţiunilor de bază din teoria sistemelor economice integrate şi teoria deciziei
în general, şi a sistemelor informatice integrate, în special; definirea conceptelor fundamentale
specifice SIAD; tratarea celor trei tipuri de SIAD-uri: bazate pe modele, bazate pe analiza şi
sinteza datelor (tehnica OLAP) şi Data Mining; câştigarea unor deprinderi în folosirea
componentelor de asistare a deciziei din produsul informatic Microsoft Excel, din instrumentul
informatic QM şi din Microsoft SQL Server 2005 (Analyses Services, Data Mining).
Modul de stabilire a notei finale: nota este cea care rezultă din evaluarea prin teste
grilă, pe platforma BlackBoard.
Consultaţii pentru studenţi: în fiecare marţi de la ora 10 - 12 pe perioada cursurilor.
Adresa e-mail responsabil pentru contactul cu studenţii:zgherasim.mfc@spiruharet.ro
Titularul / titularii cursului / serie:Prof.univ dr. Zenovic GHERASIM
zgherasim.mfc@spiruharet.ro sau
zenovic.gherasim@yahoo.com
Str. Splaiul Independenţei nr. 313, 3169785/110
Consultaţii: în fiecare marti orele 10.00-12.00
pe perioada cursurilor.
Asistent seminarii-laboratoare: Asist.univ. mat. Măriuţa TUDOR,
t_mariuta@yahoo.com
Asist.univ. Alexandru DUMITRU
alexd@ines.ro
Tematica disciplinei:
Cuvinte-cheie: SIAD, DSS, OLAP, modelare, depozite de date, Data Warehouse, Data Mining.
General Manager
Management
operaţional TPS, Transaction
(de exploatare) Processing Systems
1
Oancea, M. – Sisteme informatice pentru asistarea deciziei financiare, Editura ASE, Bucureşti, 2005.
2
Lungu, I., Sabău, Gh., Velicanu, M., Muntean, M., Ionescu, S., Posdarie., E., Sandu, D, - Sisteme informatice.
Analiză, proiectare şi implementare, Editura Economică, Bucureşti, 2003.
5. realizează interactivitatea sistem-decident.
Sistemele informatice pentru asistarea deciziei, SIAD – implică folosirea elementelor
aplicative din discipline diverse cum sunt statistica, economia, cercetările operaţionale,
tehnologiile informaţiei şi ale comunicaţiilor – IT&C, inteligenţa artificială, psihologia cognitivă
etc.
Sistemul informaţional economic reprezintă un cumul de resurse umane şi capital investit
într-o organizaţie economică pentru colectarea şi prelucrarea datelor necesare obţinerii
informaţiilor care vor fi utilizate la toate nivelurile de decizie ale conducerii şi controlului
activităţii acelei organizaţii.
Informaţie devine în felul acesta centrul în jurul căruia basculează întreaga activitate a unei
organizaţii economice.
Informaţia este văzută de DeMarco (1982) ca fiind abordabilă din trei perspective specifice
sistemelor informaţionale şi anume:
1) Datele care sunt văzute sub formă de atribute şi care reflectă structura statică a
sistemului informaţional.
2) Funcţiile scot în evidenţă ceea ce face sistemul. Ele pot fi văzute şi ca procese,
deoarece elementele sistemului care stochează datele sunt supuse transformărilor
funcţionale prin intermediul proceselor.
3) Comportamentul reflectă de fapt stările prin care trece sistemul la apariţia diverselor
evenimente care au impact asupra lui şi care îi conferă un statut dinamic.
Reenginering-ul organizaţiei economice semnifică regândirea din temelii şi reproiectarea
radicală a proceselor de afaceri cu scopul de a obţine o îmbunătăţire semnificativă a indicatorilor
critici de performanţă ai acestei organizaţii economice (costuri, calitate, viteză, service etc). În
reingineria proceselor de afaceri, BPR (Business Process Reengineering), IT&C joacă un rol
determinant.
3
Acad. Florin Gheorghe FILIP, Decizie asistată de calculator, decizii, decidenţi, metode şi instrumente de bază,
Editura Tehnică şi Editura Expert, Bucureşti, 2002.
(stabilite de nivelul de management strategic), în mod curent şi pe termen scurt; se folosesc date
şi informaţii mediu agregate provenite atât din surse interne cât şi din surse externe organizaţiei;
c) decizii de conducere (control) operaţională care determină modul în care sunt duse la
îndeplinire sarcinile primite de la nivelele de management superioare; orizontul de timp este de
săptămâni şi zile; se folosesc date şi informaţii provenite, în principal, din surse interne
organizaţiei;
În unele lucrări de specialitate, la acest criteriu de clasificare a deciziilor sunt cuprinse
şi:
d) decizii în ceea ce priveşte cunoştinţele, acestea fiind indisolubil legate de ideile care
se referă la noi produse şi servicii, metode de răspândire a acestor cunoştinţe şi de difuzare a
datelor şi informaţiior în cadrul organizaţiei. Sunt satisfăcute astfel toate nivelurile de
management ale organizaţiei economice prezentate în fig.1.1.
Clasificarea deciziilor în funcţie de gradul de structurare este:
a) decizii structurate sau programabile adică decizii uzuale pentru care există proceduri
realizate. Acest tip de decizii intervin în momentul în care apare un proces cunoscut. Dacă
decizia este supusă procesului de informatizare, ea este descrisă printr-un program a cărui
execuţie este fixă, deci nu pot exista reveniri, iar calea raţionamentelor nu este schimbată nici
prin program şi nici de utilizatori.
b) decizii nestructurate (neprogramabile) sunt cele care se bazează pe flerul şi modul de
judecată al decidentului care analizează problema. Acest tip de decizie se referă la tipuri de
probleme atipice pentru organizaţie, pentru care nu există proceduri prestabilite. O decizie este
considerată nestructurată atunci când elementele sale sunt de tip calitativ, obiectivele şi
finalitatea nu sunt precise şi nu există un algoritm cunoscut pentru rezolvarea lor;
c) decizii semistructurate sunt cunoscute ca decizii care pot fi rezolvate parţial cu
proceduri cunoscute, întrucât acestea au elemente predominant cantitative, scopurile nu sunt
precise, iar procedura de rezolvare nu asigură ansamblul elementelor problemei. Gradul de
structurabilitate a deciziei depinde de experienţa acumulată de decident precum şi de nivelul şi
importanţa ei. Conform terminologiei lui H. Simon, în cazul proceselor semistructurate apare
nevoia unui “asistent”, de fapt de “asistare a deciziei”. Acest termen de “asistare a deciziei”
trebuie definit la modul general ca fiind o serie de operaţii cum sunt sortarea clasificarea,
selectarea, evaluarea ce au ca scop final organizarea informaţiei, reducerea incertitudinii şi
obţinerea de variante de rezolvare. Dacă se consideră evoluţia în timp a acestui termen, atunci se
poate constata că acesta s-a dezvoltat prin folosirea metodelor cercetării operaţionale, dar sunt
greu de aplicat. De aceea a apărut un alt nivel de abordare a asistării deciziei şi anume “asistarea
interactivă”. Pe baza acesteia au apărut sistemele informatice de asistare a deciziei sau Decision
Support Systems (DSS), situate generic pe nivelul de management mediu.
O altă clasificare a deciziilor poate fi făcută în funcţie de cunoştinţele de care dispune
decidentul referitoare la evoluţia problemei pe care o are de rezolvat. În funcţie de acest criteriu,
deciziile sunt:
1. decizii în condiţii de certitudine ce presupun o cunoaştere a evoluţiei fenomenelor
viitoare, ceea ce se petrece mai rar în realitatea economică. O astfel de decizie se bazează pe
criteriul costului minim de funcţionare;
2. decizii în condiţii de incertitudine ce presupun cunoaşterea evoluţiei anterioare a
fenomenului economic. Acest mod de cunoaştere va permite o previziune şi o alegere cât de cât
corectă a variantei de decizie. Acest tip de decizie face parte din clasa generală a deciziilor de
orientare în care alegerea unei variante se face în funcţie de previziunile viitoare ale decidentului
precum şi de criterii obiective care presupun raţionament logic;
3. decizii în condiţii de risc ce presupun că decidentul cunoaşte aproximativ evoluţia
viitoare a fenomenului, posibilul trend al variabilelor necontrolabile şi chiar ce rezultate are
fiecare strategie analizată pe baza criteriului speranţei matematice. În acest caz procesul de
decizie va avea o multitudine de consecinţe, iar fiecăreia i se va asocia o probabilitate. Se obţine
o distribuţie a probabilităţilor din care se va alege varianta cu speranţa matematică cea mai bună.
Dacă există variante de decizie care au aceeaşi speranţă matematică, atunci se va calcula
intervalul de variaţie şi abaterea standard. Ca variantă optimă se va alege aceea care are cea mai
mică abatere standard.
După modul de abordare, deciziile se clasifică astfel4:
1. decizii rezultate ale activităţilor de management desfăşurate la întâmplare;
2. decizii rezultate ale activităţilor de management bazate pe rutină; se folosesc şabloane
ale activităţilor din trecut;
3. decizii rezultate ale activităţilor de management bazate pe instruire (iînvăţare); modelele
de decizii din trecut sunt modificate în funcţie de dobândirea de cunoştinţe, experienţe şi tehnici
noi;
4. decizii rezultate ale activităţilor de management paradigmatice; modelele de decizii de
succes din trecut sunt preluate ca exemple pentru situaţia actuală;
5. decizii bazate pe analiza deciziilor (analiza şi modelarea sistemică şi previzională);
analiza deciziilor, ca abordare prescriptivă, asistă decidentul în înţelegerea problemelor
decizionale şi în pregătirea acestuia pentru a face faţă situaţiilor neaşteptate şi nefavorabile;
analiza deciziilor nu poate influenţa hazardul şi nu poate provoca manifestarea norocului.
Deciziile rezultate ale activităţilor de management bazate pe instruire, precum şi cele
paradigmatice fac obiectul tehnicilor de inteligenţă artificială (sisteme expert, reţele neuronale
artificiale, sisteme bazate pe cazuri etc.).
După gradul de urgenţă, deciziile sunt:
• decizii luate strict în timp real; sunt adoptate pentru managementul situaţiilor de criză (de
exemplu, pentru conducerea unor instalaţii industriale, pentru gestionarea efectelor unor
calamităţi naturale – inundaţii, cutremure, incendii etc.); acest tip de decizii pot fi asistate de
tehnici de inteligenţă artificială;
• decizii luate aproape în timp real; sunt adoptate pentru gestionarea unor situaţii
decizionale importante pentru organizaţie cum sunt, de exemplu, oportunităţile de afaceri,
lansarea unui produs nou, prefalimentul firmei etc;
• decizii care nu sunt urgente; timpul la dispoziţia decidentului este suficient pentru
asiguraarea desfăşurării unei analize detaliate şi obţinerea unei rezolvări optime a problemei
decizionale.
După criteriul de secvenţialitate a deciziilor5, se deosebesc:
a) decizii independente, în situaţia în care decidentul ia o decizie complet
implementabilă;
b) decizii dependent-secvenţiale sau în cascadă (o decizie după alta);
4
G. Boldur-Lăţescu - Logica decizională şi conducerea sistemelor, Editura Academiei Române, Bucureşti, 1992.
5
Acad. Florin Gheorghe FILIP, Sisteme suport pentru decizii, Editura Expert, 2004.
c) decizii interdependente, adică decizii independente (în prima fază) sunt agregate (în
faza a doua).
1.3. Decidenţii
7
Acad. Florin Gheorghe FILIP, op.cit.ant..
externe sistemului, cum sunt abaterile intolerabile ale stării subsistemului condus faţă de o stare
prestabilită, stările noi ale sistemului, precum şi modificările sistemului economic observate în
mediul socioeconomic extern. De exemplu, contul de profit şi pierdere al unei firme semnalează
celorlalţi actori de pe piaţă starea de profitabilitate sau de faliment pentru acea firmă, iar bilanţul
firmei indică modificări intervenite în anul curent faţă de anul precedent. Achiziţionarea de către
o societate comercială de producţie unui utilaj performant în locul muncii manuale asigură
creşterea productivităţii muncii, determinând astfel o stare nouă a sistemului economic. O
abatere intolerabilă la o bancă comercială este depăşirea limitei de creditare impusă şi
supravegheată de Banca Centrală. Situaţiile decizionale forţate determină decizii corective şi
reactive în raport cu abaterile intolerabile, stările noi sau modificările intervenite în sistemul
economic. Un stimulent pentru o situaţie decizională forţată şi o decizie reactivă poate fi
observarea existenţei unei oportunităţi de afaceri pentru firmă.
Situaţiile decizionale neforţate (subiective sau neprovocate) reprezintă situaţiile
decizionale, determinate de voinţa decidentului, care se referă la luarea din timp a unor măsuri
preventive pentru situaţii ca producerea unor accidente de muncă sau boli profesionale la
angajaţii firmei, producerea unui incendiu, pierderea avansului competiţional al societăţii etc.
Situaţiile decizionale neforţate determină decizii proactive ca rezolvări ale problemelor de
explorare şi exploatare a oportunităţilor.
Procesul decizional este ansamblul de activităţi executat de o persoană sau grup de
persoane (decident) care sunt puse în faţa unui fenomen care poate genera mai multe variante de
acţiune şi având drept obiectiv alegerea uneia dintre ele care să răspundă cel mai bine sistemului
de valori ale persoanei, grupului de persoane sau organizaţiei în ansamblul său.
Decidentul uman, ca element fundamental al procesului decizional, prezintă mai multe
limite care determină necesitatea şi oportunitatea asistării informatizate a deciziilor. Astfel, se
deosebesc limite cognitive (se referă la capacitatea limitată a omului de a memora şi prelucra
date, informaţii şi cunoştinţe), limite de timp (multe decizii trebuiesc adoptate de decidentul
uman sub presiunea timpului la dispoziţie extrem de mic; ca urmare, aceste decizii pot fi eronate
în raport cu problema decizională) şi limite economice (sunt determinate de costurile obţinerii,
stocării, prelucrării, transmiterii şi diseminării datelor, informaţiilor şi cunoştinţelor către toţi
membrii echipelor manageriale).
Procesul de adoptare a deciziilor este constituit din următoarele etape sau faze ale
procesului decizional (cu caracter generic):
1. Informarea generală (sau „intelligence”, după H.Simon), etapă în care sunt analizate
evenimentele apărute în organizaţia economică şi depistate cauzele lor de apariţie. Această
etapă conţine subetapele de stabilire a obiectivelor, de identificare a problemei, de
descompunerea a ei, de stabilire a responsabilităţilor şi are ca rezultat descrierea formală a
problemei decizionale, a categoriei din care aceasta face parte şi a tuturor responsabilităţilor
care decurg de aici.
2. Design-ul (proiectarea) sau modul de concepere al procesului de asistare a deciziei –
presupune alegerea sau construcţia unui model pentru asistarea deciziei precum şi subetapele
de testare şi validare. Una din subetapele design-ului este modelarea ce implică modul de
concepere a problemei precum şi abstractizarea ei cantitativă şi/sau calitativă. Experienţa
decidentului îşi pune amprenta pe modul de alegere a modelului dintr-o multitudine
existentă, dezvoltă proceduri mentale care ajută la încadrarea problemei de rezolvat într-o
anume clasă de modele existente.
3. Alegerea (sau „choice”) este etapa de bază pentru adoptarea deciziei deoarece în cadrul ei se
concretizează rezultatele obţinute în celelalte etape. Decidentul alege o singură acţiune din
multitudinea existentă în funcţie de criteriul de selecţie propus şi de modelul decizional pe
care l-a ales (din clasa de modele la dispoziţie). Decidentul alege între posibilităţile în funcţie
de soluţionarea definitivă a modelului, de selectarea celei mai adecvate alternative şi tot el
selectează planul pentru implementare. Pentru alegere sunt evidenţiate mai multe metode de
căutare ca de exemplu: tehnici analitice, metode de căutare exhaustive prin care rezultatele
obţinute de fiecare alternativă sunt comparate, metode euristice care sunt aplicabile în
metodele descriptive.
Metodele analitice sunt utilizate datorită utilizării formulelor matematice pentru a găsi
soluţia optimă. Utilizarea lor este restricţionată de natura problemelor, iar acestea trebuie să fie
structurate. Se pot aplica astfel de metode pentru probleme de gestiune a stocurilor sau de
alocare a resurselor. Algoritmii stau la baza acestor metode şi conduc la obţinerea unor soluţii
viabile pentru modelul ales.
Metodele de căutare exhaustivă sunt utilizate în genere la luarea în considerare a tuturor
căilor de acţiune pentru a ajunge la scopul propus. Aceste metode au la bază un proces neghidat,
proces în urma căruia se alege soluţia optimă. Căutarea de obicei este incompletă întrucât
posibilităţile de căutare sunt limitate de timp, spaţiu de memorie şi el se va opri când se va găsi o
soluţie apropiată de cea optimă (numită suboptim).
Metodele de căutare euristice se bazează pe o riguroasă analiză a problemei sau printr-o
căutare prin încercări succesive a spaţiului soluţiilor. Raţionamentul făcut prin parcurgerea
spaţiului de căutare a soluţiri permite trecerea prin toate stadiile intermediare către o stare finală
care poate fi un rezultat satisfăcător sau o nereuşită (eşec). Se precizează că metoda de căutare
care este implementată de un sistem de asistare a deciziilor este o metodă euristică.
Ca ultimă etapă în adoptarea deciziei este evaluarea rezultatelor soluţiei.
4. Implementarea (sau „review”) este etapa în care se face declanşarea acţiunii alese (propuse)
de decident.
De obicei, această etapă este o mare consumatoare de timp, resurse şi în cursul ei pot apare
diverse probleme de rezolvat, ca de exemplu gradul de suport al nivelurilor superioare
decizionale.
Analiza deciziilor asigură un cadru sistematic de abordare, structurare, descompunere şi
rezolvare a problemelor decizionale, ajutându-l şi stimulându-l pe decident să gândească şi să
preia critic alternativele propuse de echipa managerială sau de către un sistem informatic de
asistare a deciziei. Analiza deciziilor este sprijinită de metode, tehnici şi instrumente informatice
specifice sau preluate din alte discipline (cercetări operaţionale, statistică, probabilităţi, simulare
etc.).
Pentru procesul decizional structurat şi pentru cel semistructurat se pot folosi modelele
cantitative bazate pe metode şi modele ale cercetării operaţionale. Această abordare presupune
automatizarea totală sau parţială a procesului de adoptare a deciziei şi constă în următorii paşi:
a) descrierea şi definirea problemei;
b) găsirea categoriei din care face parte problema;
c) elaborarea unui model matematic care să se plieze cel mai bine pe descrierea problemei;
d) alegerea soluţiei.
Modelele cercetării operaţionale se obţin prin metodele acestei cercetări. Metodele
cercetării operaţionale, utilizate la fundamentarea procesului decizional, sunt programarea
matematică (liniară, neliniară, pătratică), teoria stocurilor, teoria jocurilor, teoria grafurilor, teria
echipamentelor etc. Se obţin astfel soluţii optimale pentru problema decizională de rezolvat.
Procesul decizional care poate fi modelat presupune că situaţia reală se poate configura
pe un model. S-au implementat o serie de metodologii automate care permit obţinerea soluţiilor
pentru un model cunoscut.
Calculatorul electronic poate primi modelul pentru decizii structurate şi tot el poate fi
decidentul. Spre exemplu, el poate decide când să se facă reaprovizionarea stocului cu materii
prime şi materiale al societăţii comerciale şi, în acest caz, libertatea de a alege în afara soluţiei
optime, dispare.
În cazul în care există decizii mai puţin structurate se va utiliza un gen de modelare locală
sau personalizată care presupune utilizarea mai multor modele sau chiar construirea altora
proprii. Modelarea personalizată este un proces interactiv şi a dat şi numele primelor sisteme:
sisteme interactive de asistare a deciziei. Acestea reprezintă, în esenţă, sisteme informatice de
asistare a deciziei orientate pe modele.
Sistemele de asistare a deciziei orientate pe date prelucrează date ce se găsesc în
depozitul de date al organizaţiei. Aceste sisteme funcţionează pe baza analizei şi agregării datelor
şi au ca funcţii accesul imediat la date, dispun de un mecanism pentru analiza imediată a datelor,
creează statistici. Acest tip de sisteme este rezultatul creării unor tehnologii speciale cum sunt:
• depozitarea unor volume enorme de date istorice ale organizaţiei (Data Warehousing);
• exploatarea acestor depozite prin procesare analitică on-line (OLAP, OnLine Analytical
Processing).
Adoptarea deciziilor constituie un proces care pe lângă suportul tehnic are nevoie de un
suport cognitiv care este asigurat de partea umană componentă integrantă a sistemului
decizional. Suportul cognitiv înglobează cunoştinţele şi experienţa decidentului precum şi
capacitatea acestuia de raţionament. Suportul cognitiv este sprijinit şi marcat în ultimele decenii
de apariţia sistemelor informatice de lucru cu cunoştinţe, KWS (Knowledge Work System) care
se ocupă de probleme de stocare, clasificare, menţinere şi calitate a cunoştinţelor.
Dacă în sistemele informatice de asistare a deciziei se includ şi bazele de cunoştinţe, se
definesc astfel sisteme informatice de asistare a deciziei orientate pe cunoştinţe sau aşa numitele
sisteme informatice de asistare inteligentă a deciziei.
După clasificarea lui Schneider (1994), există patru categorii de probleme decizionale:
a) decizia de tip alegere (se porneşte de la o mulţime de alternative din care se alege o
singură alternativă);
b) decizia simplă (se porneşte cu problema bine formulată şi cu o mulţime de activităţi
de rezolvare a problemei şi se finalizează cu soluţionarea problemei prin realizarea unui plan de
acţiune);
c) decizia complexă (problema de rezolvat se descompune în mai multe probleme simple
sau subprobleme care se soluţionează cu decizii simple);
d) decizia de tip proces (este o decizie de tip secvenţial).
Procesul decizional este puternic influenţat de caracteristicile mediului socio-economic
în care-şi desfăşoară activitatea organizaţia economică, cum sunt:
1. existenţa competiţiei pe piaţă, din ce în ce mai acerbă şi mai evoluată; produsele şi
serviciile oferite pieţii sunt apreciate în conformitate cu un ansamblu de criterii (preţ, calitate,
nivel tehnologic încorporat, termen de livrare, durata de viaţă sau existenţă pe piaţă);
2. ritmul schimbărilor tehnologice (se reaminteşte aici, deja celebra lege a lui Moll,
conform căreia, în domeniul tehnologiilor informaţiei şi ale comunicaţiilor, IT&C, fiecare
generaţie tehnologică asociată, de regulă, cu microprocesorul structurii de calcul, se modifică la
fiecare 18 luni) şi de alte tipuri (politice, legislative, sociale) care determină creşterea numărului
de alternative ce constituie input-uri ale procesului decizional;
3. modificarea modului de organizare şi de funcţionare a organizaţiei economice (ca, de
exemplu, apariţia şi dezvoltarea organizaţiei virtuale) ce determină mărirea ponderii decidenţilor
de tip multiparticipant asociaţi în echipe virtuale; prin reingineria proceselor de afaceri, BPR
(Business Process Reengineering) sunt gestionate toate aceste modificări organizaţionale;
4. creşterea continuă şi diversificarea surselor externe de date, informaţii şi cunoştinţe;
5. creşterea continuă a pretenţiilor acţionarilor faţă de performanţele organizaţiei
economice, dar şi a aspiraţiilor personale ale angajaţilor acesteia şi ale candidaţilor la angajare
proveniţi din mediul socioeconomic.
1
Zaharie D, Albescu F, colectiv – Sisteme informatice pentru asistarea deciziei, Editura Dual Tech, Bucureşti,
2001.
a) SIAD-uri organizaţionale, adică acele SIAD-uri integrate în sistemul informatic total
(integrat) al organizaţiei economice care prezintă obiective precise pentru asistarea deciziilor ce
posedă caracter de repetabilitate; sunt puse la punct şi utilizate pe perioade mari de timp;
b) SIAD-uri ad-hoc, adică acele SIAD-uri care rezolvă probleme unicat de asistare a
deciziei; prezintă costuri ridicate de dezvoltare.
În ultimii ani au apărut SIAD de grup (Groupware) ca tip de suport al deciziilor pentru
un grup de decidenţi ale căror decizii au o pondere însemnată în luarea deciziilor într-o
organizaţie. Scopul utilizării unor astfel SIAD-uri este creşterea calităţii procesului decizional
datorită lucrului în echipă precum şi creşterea gradului de creativitate al grupului.
La realizarea SIAD-urilor (şi nu numai), este avut în vedere un ansamblu de
caracteristici. Dintre aceste caracteristici, cele mai importante sunt:
- să fie flexibile şi să furnizeze mai multe opţiuni pentru gestionarea datelor şi
evaluarea lor intermediară şi finală;
- să fie capabile să suporte o mare varietate de stiluri, calificări şi clasificări;
- să se bazeze pe mai multe modele analitice şi intuitive pentru evaluarea datelor şi să
dispună de capacitatea de a urmări mai multe alternative şi consecinţe;
- să reflecte înţelegerea grupurilor şi proceselor organizaţionale de luare a deciziilor;
- să fie sensibile la birocraţia şi cerinţele politicilor organizaţionale;
- să reflecte şi să conştientizeze limitele sistemelor informatice.
Aşa cum s-a arătat deja, SIAD-urile sunt încorporate în cadrul sistemelor informatice
integrate (la nivelul organizaţiei economice), asimilate după unele lucrări, cu sistemele de
planificare a resurselor întreprinderii, ERP (Enterprise Resource Planning).
Ca şi alte tipuri de sisteme informatice, SIAD-urile au ca bază un suport soft care le oferă
un mediu de întreţinere, dezvoltare şi funcţionalitate, ele funcţionând într-un mediu creat de
sisteme suport de asistare a deciziei (SSAD).
Funcţiile unui SIAD sunt: gestiunea datelor, gestiunea modelelor, gestiunea cunoştinţelor
şi gestiunea comunicării între utilizator şi sistem şi între date şi modele, cunoştinţe.
Un sistem suport pentru SIAD (SSAD) prezintă în arhitectura sa următoarele subsisteme:
subsistemul de gestiune a datelor; subsistemul de gestiune a modelelor; subsistemul de gestiune
a cunoştinţelor; subsistemul de gestiune a dialogului (sau interfaţa cu utilizatorul).
1
Zaharie D, Albescu F, colectiv – Operă citată
Modelul se poate defini ca o reprezentare abstractă şi simplificată a unui proces
economic. Metoda modelării este astfel un instrument al cunoaşterii ştiinţifice şi are drept obiect
construirea unor reprezentări care să permită o cunoaştere pertinentă a diverselor domenii. În
esenţă metoda modelării constă în substituirea procesului real studiat cu un model care este mai
accesibil studiului.
Rezultatele obţinute prin modelare se pot extrapola către procesul modelat, cu condiţia ca
modelul să reprezinte proprietăţile, structura şi particularităţile acestuia. De aceea trebuie ţinut
cont de faptul că indiferent de modelul economico-matematic ales, el va reprezenta fidel un
anume fenomen, numai în măsura în care acesta are la bază teoria economică, teorie care descrie
categoriile, conceptele şi legile obiective ale realităţii economice. Modelele se pot grupa pe
categorii în funcţie de anumite criterii.
1. După sfera de cuprindere a problematicii economice sunt:
- modele macroeconomice care sunt definite ca modele de ansamblu ale economiei;
- modele mezoeconomice care au ca domeniu de reflectare nivelel regional, teritorial;
- modele microeconomice care au un domeniu mai restrâns şi se referă la nivelul firmelor.
2. După domeniul de provenienţă şi concepţie :
- modele cibernetico-economice, care se bazează pe relaţii I/O cu evidenţierea fenomenelor
de reglare;
- modele econometrice în care elementele numerice sunt determinate statistic şi identifică
tendinţe sau periodicităţi;
- modele ale cercetării operaţionale care permit obţinerea soluţiei optime sau apropiate de
optim pentru un anume fenomen supus studiului;
- modele din teoria deciziei;
- modele de simulare prin care se poate stabili modul de funcţionare al unui sistem micro sau
macroeconomic prin combinaţii aleatoare de valori pentru variabilele independente
- modele specifice de marketing.
3. După caraterul variabilelor modelele sunt:
- modele deterministe cu mărimi cunoscute;
- modele stochastice sau probabiliste în care intervin mărimi a căror valoare este permanent
însoţită de o probabilitate.
4. După factorul timp modelele sunt statice şi dinamice.
5. După orizontul de timp considerat sunt modele discrete sau secvenţiale şi modele
continue.
6. După structura proceselor modelate sunt:
- modele cu profil tehnologic;
- modele informaţional-decizionale;
- modele ale relaţiilor umane;
- modele informatice.
În cadrul celor şase grupe, modelele mai pot fi caracterizate ca fiind:
- descriptive pentru că realizează o cunoaştere directă a procesului studiat;
- normative deoarece permit realizarea unui comportament viitor cerut de factorii de
decizie.
Metodele folosie pentru rezolvare constau dintr-o succesiune de operaţii logice şi
aritmetice care sunt denumite algoritmi.
Se poate afirma că algoritmii pot fi exacţi (riguroşi), aproximativi şi euristici.
Pentru ca un algorim să răspundă cerinţelor opentru care a fost construit, el va trebui să
satisfacă următoarele cerinţe:
- universalitatea, adică să asigure prelucrarea unui număr mare de date de intrare;
- finitudinea, adică timpul de obţinere a rezultatelor să fie de ordinul ore, iar necesarul de
memorie să fie minim;
- determinismul.
Adaptările modelării matematice la fenomene economice au la bază şi concepţia asupra
mărimilor care intervin în procesul de fundamentare corectă a deciziilor. De menţionat este
faptul că aceste mărimi care intervin implică observări, anchete, raportări care permit o măsurare
a lor cu diferite grade de precizie. Conform cu gradul de precizie mărimile care caracterizează
procesele economice se pot clasifica în:
- mărimi deterministe care sunt bine definite şi au o valoare unică;
- mărimi stochastice sau aleatoare ce deţin o multitudine de valori cărora li se asociază o
probabilitate;
- mărimi fuzzy care nu au valoare unică, ci dispun de o mulţime de valori cărora li se asociază
un grad de apartenenţă la o anume proprietate.
Conform cu clasificarea mărimilor ce caracterizează procesele economice se ajunge la o
similară clasificare a metodelor de prelucrare pentru adoptarea deciziilor.
Astfel se poate afirma că sunt metode deterministe, metode stochastice şi metode fuzzy.
Se poate face o clasificare care are la bază criteriul exactităţii şi astfel metodele pot fi: exacte,
aproximative şi euristice.
Metodele exacte permit ca pentru o problemă de decizie economică să se obţină o soluţie
S care îndeplineşte fără nici un dubiu restricţiile impuse şi/sau condiţiile de optim, condiţii cerute
de criteriile de eficienţă. Dacă se face notaţia S1 pentru vectorul soluţiilor adevărate şi notaţia S
vectorul soluţiei efectiv adoptate, atunci: S-S1=0.
Metode aproximative permit obţinerea unei soluţii S diferită de soluţia adevărată S1
printr-un vector ε dominat de un alt vector ∝ dinainte stabilit astfel că vom avea:
S-S1=ε≤∝ (1)
Metode euristice sunt utilizate în cazul unor probleme complexe pentru că într-un timp
relativ scurt, comparativ cu alte metode, se obţine o soluţie acceptabilă din punct de vedere
practic, S care nu prezintă garanţii asupra rigurozităţii rezolvării.
Este dat vectorul erorii admisibile ∝, dar metodele euristice nu pot totdeauna să ducă la o
soluţie S care să îndeplinească proprietatea (1). Sunt însă cazuri când metodele euristice reuşesc
să asigure respectarea relaţiei (1), cu o anumită probabilitate. Acest tip de metode sunt
considerate a fi o succesiune de încercări sau tatonări a căror alegere este de fiecare dată legată
de natura problemei care se rezolvă şi de analistul de sistem.
Actul de decizie care presupune un număr relativ finit şi rezonabil de alternative se poate
modela prin analiza decizională. Aceasta presupune ataşarea unor valori estimate (cu
probabilităţile aferente) pentru fiecare alternativă şi care se vor înscrie într-un tabel sau un graf.
Modul de alegere a deciziei se face prin a vedea care dintre alternative este cea mai bună.
Această metodă utilizează tabelele de decizie care caracterizează acţiunea decizională şi conţine:
stări generale care sunt date de totalitatea condiţiilor în care se desfăşoară evenimentul de
analizat; alternative decizionale ce determină modul de realizare a unei acţiuni independente de
voinţa decidentului; consecinţe decizionale ce sunt rezultatul acţiunii conjugate a stării generale,
criteriilor decizionale şi alternativelor. Condiţia este ca numărul de consecinţe să fie mai mare
sau egal cu numărul de criterii.
În cazul problemelor de decizie multicriterială în condiţii de risc, în care se cunosc
probabilităţile de realizare a fiecărei stări, soluţia optimă este dată de (p – probabilitatea, u –
utilitatea):
n
Sopt = max i ∑ p ij * u ( x j )
j =1
Problemele manageriale în care decidentul poate aloca doar o cantitate limitată de resurse
mai multor activităţi se pot rezolva cu setul de instrumente şi metode puse la dispoziţie de
programarea matematică, din care cea mai utilizată este programarea liniară. Aceasta din urmă
impune anumite reguli pe care decidentul trebuie să le respecte: existenţa unui set de variabile
măsurabile pentru care se caută valoarea optimă; construirea unui set de restricţii cu aceste
variabile care, în cazul decizional, sunt variabile de decizie, care sunt de fapt relaţii de egalitate
sau inegalitate faţă de anumite valori; o funcţie obiectiv care reprezintă o relaţie matemetică
liniară între variabilele de decizie şi rezultatul scontat a cărei valoare trebuie minimizată sau
maximizată; crearea legăturilor între elemente realizată cu ajutorul relaţiilor matematice numite
ecuaţii, în care apar şi coeficienţi.
Modelul unei probleme de programare liniară devine astfel: determinarea unui min sau
max pentru funcţia obiectiv care depinde de una sau mai multe variabile care satisfac restricţiile
modelului (condiţii implicite) sau care se referă la valorile ce pot fi luate de variabile (condiţii
explicite); problemele de programare liniară au restricţii de tip inegalităţi şi condiţii explicite
puse unora dintre variabile.
Modelul de programare liniară are forma:
max (min ) f ( x 1, x 2 ,..., x n ) = c 1 * x 1 + c 2 * x 2 + ... + c n * x n
a 11 * x 1 + a 12 * x 2 + ... + a 1 n * x n ≤ b 1
a 21 * x 1 + a 22 * x 2 + ... + a 2 n * x n ≤ b 2
.......... .......... .......... .......... ..........
a m 1 * x 1 + a m 2 * x 2 + ... + a mn * x n ≤ b m
În forma standard toate restricţiile sunt ecuaţii, iar variabilele sunt >=0:
max (min ) f (x ) = cx
Ax = B
x ≥ 0
max f ( x ) = cx min f ( x ) = cx
Ax ≤ B Ax > B
x ≥ 0 x ≥ 0
Aceste probleme se rezolvă cu algoritmul SIMPLEX (Dantzing, 1951) care este de fapt
iterativ, la fiecare pas se obţine o îmbunătăţire a soluţiei, oferind:
- soluţia admisibilă ce satisface doar condiţiile explicite sau
- soluţia optimă.
Programul Excel prin componenta sa Solver rezolvă problema de programare liniară. În
ultimul timp majoritatea problemelor sunt de programare liniară multidimensională, ca de
exemplu: metoda utilităţii globale în care problema de programare liniară este luată drept o
problemă de decizie multidimensională. În acest caz, funcţia obiectiv este înlocuită cu funcţia de
utilitate; metoda P.O.P. – algoritmul care descrie această metodă presupune o ordonare a
soluţiilor în funcţie de criterii de preferinţă definite de decident; metoda STEM ce constă în
definirea unei funcţii obiectiv de sinteză cu coeficienţi care vor fi ataşaţi fiecărui criteriu.
2.5 Simularea
Această etapă constă în stabilirea în mod detaliat a tuturor aspectelor legate de problema
pusă în studiu, chiar dacă uneori tinde către o rezolvare analitică. În această etapă se precizează:
• ipotezele care se vot testa;
• efectele probabile care urmează să apară;
• schimbările caracteristicilor operative asupra variabilelor şi parametrilor de ieşire;
• studiul efectelor asupra variabilelor şi parametrilor de intrare;
• intervalul admisibil pentru variabilele şi parametrii de stare,
• strategiile luate în calcul la eventuale apariţii a evenimentelor perturbatoare şi a
costurilor corespunzătoare fiecărei strategii;
• strategiile de urmat pentru modificarea parametrilor de stare în cazul în care au fost
depăşite limitele admisibile ale altor parametri de stare;
• vectorul iniţial al probabilităţilor de prevenire a apariţiei evenimentelor perturbatoare sau
de modificare a mărimii parametrilor de stare;
• tehnici de reducere a datelor şi de analză a rezultatelor;
• forma ecuaţiilor matematice;
• ecuaţiile suprafeţei de răspuns etc.
Un loc important îl are colectarea şi prelucrarea primară a datelor, fază în care se
stabilesc datele necesare, cum se obţin ele şi mai ales cum sunt introduse în model.
Datele se vor organiza în fişiere, tabele, rapoarte şi se prelucrează pentru a intra în
prelucrare numai cele care sunt necesare. Un alt obieciv îl reprezintă stabilirea modelului
potenţial, pentru care se va lua în considerare fenomenul aşa cum se produce el în realitate.
Pentru această etapă este necesar a se stabili :
1. ce funcţii trebuie să realzeze sistemul;
2. care sunt funcţiile care se vor modela;
3. care sunt funcţiile deterministe;
4. care sunt factorii de mediu care influenţează performanţele sistemului;
5. cum se face aproximarea efectelor factorilor de mediu asupra sistemului;
6. ce interacţiuni intervin între om, sistem şi mediu şi cum se evaluează.
Având răspunsurile la aceste întrebări se poate obţine o primă formă a modelului, se pot
defini parametrii şi variabilele. De remarcat este faptul că parametrii modelului sunt: de sistem
sau auxiliari. Parametrii sistemului sunt direct legaţi de sistemul care va fi simulat, iar parametrii
auxiliari nu sunt asociaţi direct cu sistemul, însă au efect asupra performanţelor acestuia. Există
parametri cinematici care sunt asociaţi cu mişcarea în sistem sau în mediu, iar cei dinamici deţin
valori care sunt influenţate de alţi parametri sau variabile. Există şi o categorie de parametri care
sunt denumiţi statici şi care prin valorile lor influenţează stochasic procesele şi schimbă
elementele în sistem. Parametrii de mediu sunt asociaţi mediului din care face parte sistemul şi-i
pot influenţa performanţele.
În model există şi variabile aleatoare, adică valorile lor sunt necunoscute, dar pot apare
în condiţii datorate întâmplării cu probabilităţi determinate. O altă categorie de variabile sunt
cele controlabile ale căror valori sunt măsurabile printr-o anumită procedură şi sunt şi variabile
necontrolabile.
O altă clasificare a variabilelor este aceea că acestea pot fi de intrare (mărime exogenă
controlabilă), perturbatoare (mărime exogenă necontrolabilă), intermediare (variabile de stare a
unei componente a sistemului), de ieşire (variabile exogene).
Variabilele de intrare sunt deterministe sau stochastice. Variabilele deterministe sunt
date pe suporţi de informaţii ori determinate de reguli precise. Variabilele stochastice sunt
generate prin algoritmi corespunzători pe calculator. Dacă cel puţin una dintre variabile de
intrare este stochastică, rezultă că cel puţin una dintre variabilele de ieşire este stochastică, iar
parametrii ei devin parametrii de ieşire. În model fiecare parametru şi variabilă a modelului se
specifică prin: simbol, definiţie, descriere, unitate de măsură, ordin de mărime pentru valori,
caracteristici, locul în model, sursa.
De remarcat este faptul că variabilele se modifică într-un ciclu de simulare cât şi de la o
variantă de evoluţie simulată la alta. Dacă variabila nu se modifică de la o variantă la alta atunci
putem afirma că ea devine parametru. Caracteristica parametrilor este aceea că ei rămân
constanţi în cadrul aceleiaşi variante, dar se pot schimba de la o variantă la alta. O clasificare a
parametrilor dă posibilitatea grupării lor în:
• parametrii cei mai importanţi şi pentru care se iau în considerare toate valorile provenite
din măsurători ;
• parametri de importanţă medie, pentru care se iau în considerare numai trei valori
caracteristice : maximă, medie şi minimă ;
• parametri de mică importanţă pentru care se ia în considerare doar o singură valoare
caracterisică care poate fi valoarea medie sau valoarea cea mai probabilă.
Simularea unui sistem economic porneşte de la definirea evenimentelor care survin în
derularea procesului economic supus analizei şi de la specificarea legăturilor existente între
evenimente. Evenimentele care intervin în procesul de simulare se clasifică în funcţie de
anumite criterii şi anume :
1. După natura evenimentelor acestea pot fi:
• Evenimente sistem;
• Evenimente program, care sunt asociate programului de prelucrare a datelor.
2. După natura condiţionărilor dintre evenimente:
• evenimente noncontingente în care apariţia unor evenimente nu depinde de
apariţia sau existenţa altor evenimente în sistem :
• evenimente contingente la care apariţia este influenţată sau condiţionată de
apariţia altor evenimente.
3. După modul de prelucrare care este asociat evenimentului:
• evenimente care nu apar în urma unor decizii :
• evenimente cu decizii.
Conform caracterului deciziei, evenimentele au la bază decizii deterministe, adică decizia
se adoptă după reguli de natură algoritmică sau euristică ; sau au la bază decizii probabiliste,
unde decizia este adoptată cu o anumită probabilitate.
4. După probabilităţile de prevedere evenimentele se clasifică în:
• previzibile, adică apariţia lor este planificată;
• perturbatoare, adică apariţia lor nu se poate stabili anticipat şi sunt cele care
influenţează defavorabil evoluţia sistemului.
5. După acţiunea asupra parametrilor de stare:
• cu acţiune imediată, ele modifică parametrii de stare ai unor componente
chiar din momentul în care apar;
• cu acţiune întârziată, ele modificând componentele sistemului după o
anumită perioadă de timp.
La elaborarea modelului se are în vedere relaţiile funcţionale dintre variabile, care dacă
nu au date suficiente, ele se pot obţine recurgâd la metoda analogiilor. Când se simulează un
model complex este eficientă formularea unor submodele specializate în rezolvarea unor funcţii
precise şi mai apoi acestea vor fi agregate într-un model general pe baza relaţiilor logice dintre
ele.
O astfel de operaţie este denumită integrare şi are la bază construcţia modulară a
modelului. Modulele sunt de două tipuri : de sistem şi auxiliare.
Modulele de sistem simulează o funcţie sau o operaţie logică în sistem, iar cele auxiliare
constituie o parte a modelului dar nu sunt o funcţie directă a sistemului. De exemplu, generatorul
de numere aleatoare este utilizat în orice tip de model fără a avea legătură cu problema de
rezolvat.
Se cunoaşte că în model există variabile şi parametri care vor trebui explicitaţi prin
limite accesibile minime şi maxime. Aceste limite nu pot fi depăşite în cazul modelelor
deterministe, iar pentru celelalte tipuri de modele se vor stabili aşa numitele penalizări dacă
limitele se vor depăşi. Simularea presupune evoluţia în timp a sistemului simulat, ceea ce
provoacă apariţia succesivă a unor evenimente care dau de fapt schimbările din sistem. Apare
astfel pericolul ca diverse variabile să parcurgă intervale de timp diferite. Pentru menţinerea
ordinii evenimentelor care ori schimbă ori menţin starea sistemului, se introduce în algoritmul
simulării o variabilă care va măsura scurgerea timpului real în care se execută simularea.
Această variabilă poartă numele de ceasul simulării şi are posibilitatea de a preciza după
fiecare pas al simulării, care este intervalul de timp care a trecut de la un pas la altul al simulării
şi când aceasta se poate opri. Iniţial variabila ceas este zero, ca mai apoi să se modifice într-un
număr finit de paşi, pas care poate fi constant sau variabil.
Ceasul cu incrementare finită generează pe parcursul procesului de simulare o creştere
constantă T>0.
Programul de simulare permite determinarea tuturor evenimentelor posibile care se
produc în intervalul T, precum şi efectele asupra stării sistemului şi deciziile ce se vor adopta.
Ceasul cu creştere variabilă are la bază tehnica sau regula evenimentului următor, deoarece
mărimea cu care este incrementat ceasul este egală cu intervalul de timp de trecere de la o stare
notată Si la starea determinată de apariţia celui mai apropiat eveniment notată cu Si+1. Se poate
afirma că un model de simulare se construieşte prin discretizarea timpului cu creştere constantă
sau variabilă.
Timpul simulat se scurge perioadă cu perioadă, iar calculatorul va executa toate
tranzacţiile care au loc pas cu pas până la expirarea orizontului de simulare. Sunt cazuri în care
perioadele vor fi relativ scurte pentru că pot apare prea multe evenimente în cazul perioadelor
lungi şi aceasta face ca programul să fie greu de executat. Există şi situaţia în care perioadele
sunt prea scurte şi atunci apare riscul să nu apară nici o tranzacţie.
Remedierea acestei deficienţe se face prin mărirea perioadei sau prin utilizarea ceasului
cu increment variabil.
Fiecărui tip de sistem simulat îi corespunde un anumit tip de funcţie obiectiv.
După această etapă se verifică validitatea modelului prin utilizarea testelor statistice care
vor arăta dacă parametrii de intrare au fost corect estimaţi. Se verifică apoi şi dacă modelul
conţine toate variabilele esenţiale iar relaţiile dintre variabile şi parametri sunt cele corecte. După
ce modelul a fost scris într-un limbaj natural el va fi transformat într-un model scris în limbaj de
simulare.
Ca exemplificare se vor da câteva detalii despre cea mai cunoscută metodă de simulare a
proceselor economice şi anume metoda Monte Carlo.
Metoda Monte Carlo stă la baza procedeelor de generare a proceselor stochastice sau de
căutare a unor puncte în domeniu. Rezultatele obţinute prin utilizarea acestei metode se referă la
evaluări şi ierarhizări care fundamentează o decizie economică.
Domeniile în care se aplică această metodă sunt:
• Procese de stocare complexe, unde ritmul de aprovizionare este aleator sau sezonier,
suprafaţa de depozitare este limitată, sunt penalizări pentru lipsa de stoc sau în condiţiile
în care nu este posibilă o modelare clasică prin teoria stocurilor;
• Procese de aşteptare în care evenimentele se intercondiţioneează, iar rezolvarea lor prin
modele de aşteptare este practic imposibilă;
• Procese de repartiţie care se analizează în legătură cu activitatea de producţie şi cu cea
de investiţii.
Dacă se dispune de structura graficului reţea şi de repartiţia duratelor, simularea va consta
în aplicarea algoritmului de calcul al drumului critic pentru un număr suficient de mare de
generări ale duratelor activităţilor în concordanţă cu repartiţia stabilită.
Simularea are ca rezultat estimarea parametrilor repartiţiei duratei totale şi poate da şi
determinarea frecvenţei caracterului critic pentru orice activitate în parte.
• Procese de muncă complexe care se referă la deciziile legate de programarea operativă a
producţiei (ca de exemplu încărcarea utilajelor, lansarea în fabricaţie, urmărirea realizării
producţiei), de la locul de muncă la atelier sau secţie.
Tabelul de simulare
Tabelul de simulare din Excel este un instrument informatic dedicat din categoria
analizei datelor şi rezolvării problemelor complexe de asistare a deciziei economico-financiare.
Tabelul de simulare din Excel reprezintă o zonă de celule ce indică rezultate obţinute ca urmare a
substituirii unor valori din formule definite în prealabil de utilizator. Se pot obţine:
• Tabele de simulare cu o singură variabilă de intrare;
• Tabele de simulare cu două variabile de intrare.
În cazul tabelelor de simulare cu o singură variabilă de intrare, dacă se introduce un
set de valori pentru variabila de intrare, se poate astfel pune în evidenţă influenţa pe care o are
această modificare de valori într-una sau mai multe formule.
În cazul tabelelor de simulare cu două variabile de intrare, se aplică seturi de valori
pentru cele două variabile şi se pune în evidenţă efectul modificărilor asupra unei singure
formule.
Scenariul
Scenariul serveşte pentru realizarea previziunilor asupra unui proces economic prin
compararea seturilor de valori care conduc la rezultate diferite. Practic, în instrumentul
Microsoft Excel, scenariul (Scenario) reprezintă o mulţime de valori pe care acesta le poate
substitui automat într-o foaie de calcul. Cu ajutorul scenariului se obţin simulări ale mai multor
variante ale unui proiect, variante care au valori diferite ale parametrilor şi rezultate diferite.
2.6.Teoria jocurilor
La baza luării deciziilor de obicei intervin condiţiile care influenţează asupra diverselor
alternative. Condiţiile sunt legate de acţiunea omului sau pot reprezenta complexul factorilor
naturali în care se desfăşoară evenimentele.
Modelarea matematică a procesului de decizie se face cu ajutorul conceptului de joc
strategic. Jocul se poate defini ca fiind acel proces competitiv care se desfăşoară între mai mulţi
participanţi , care se numesc jucători, dintre care unul este inteligent şi prudent, adică poate
analiza situaţia creată şi poate lua decizii asupra acţiunilor ce vor urma. Ca noţiune apare partida
care este dată de un set de reguli după care jucătorii îşi desfăşoară acţiunile. Partida se
caracterizează printr-o stare denumită iniţială şi o stare finală, aceasta din urmă fiind determinată
de regulile jocului.
Strategia este definită în contextul jocului ca fiind o succesiune de acţiuni ale unui
jucător, fiecare succesiune este astfel pregătită în aşa fel încât să facă faţă strategiei adversarului
de joc, pentru atingerea scopului propus. În acest fel se atinge acea stare finală în care regulilor
jocului li se asociază maximum de câştig posibil de realizat. Un joc în care intervin doar doi
parteneri se poate reprezenta matriceal astfel:
J/N N1 N2 ........ Nn
J1 c11 c12 .... c1n
J2 c21 c22 ...... c2n
.............. .... .... .... ....
Jm cm1 cm2 .... cmn
unde s-a notat cu:
J– jucătorul;
N – adversarul din cadrul jocului;
Ji = {J1,J2,…..,Jm}este mulţimea strategiilor lui J;
Nj = {N1,N2 ,…,Nn}mulţimea strategiilor lui N;
Ci,j{i=1,m; j=1,n}este consecinţa adoptării strategiei Ji de către J şi a strategiei Nj de către
N;
Când se pune problema alegerii uneia sau alteia dintre strategii, în procesul de adoptare a
deciziei, se iau în considerare utilităţile fiecărei consecinţe.
Jocurile sunt cu punct şa şi fără punct şa. Jocurile cu punct şa presupun că cei doi jucători
se supun unui raţionament corect care conduce la alegerea strategiei optime (fiecare dintre
jucători îşi va alege propria strategie optimă). Astfel cele două strategii optime alese de fiecare
jucător va constitui soluţia jocului.
Cazul general al problemei generate de jocul cu punct şa are ca principiu de bază principiul
maxim. Fie un joc de ordinul m*n are asociată următoarea matrice:
a11 .... a1n
... ... ...
am1 ... amn
Principiul maximului presupune că primul jucător alege acea strategie care are câştigul
minim.
V1= max(min aij); 1≤ i ≤m, 1≤ j ≤n
i j
Pentru determinarea valorii V1 se vor determina toate valorile minime pe linii (minj ai,j), iar
dintre acestea se va lua valoarea maximă (maxi ai,j). Jucătorul doi va proceda în mod similar:
V2= min (max aij); 1≤ i ≤m, 1≤ j ≤n
j i
Valoarea V2 precum şi strategia care îi corespunde se vor afla prin alegerea tuturor
maximelor pe coloană (maxi aij) şi luând pe cel mai mic dintre ele (minj maxi).
V=V1=V2=maxi(minj aij)=min j(max i aij); V1= max(min ai,j); 1≤ i ≤m, 1≤ j ≤n
Jocurile fără punct şa au ca fundament un raţionament, care oricât de riguros ar fi, nu îl
va conduce pe jucător la alegerea unei perechi de strategii, aşa cum se întâmplă în cazul jocurilor
cu punct şa. Soluţia unei astfel de probleme este dată de determinarea strategiilor mixte optime
ale celor doi parteneri, prin metode algebrice, geometrice sau iterative. Jocurile cu doi parteneri
se modelează în situaţii conflictuale între două sau mai multe părţi care se reduc tot la jocuri cu
doi participanţi, prin formarea de coaliţii. Fiecare dintre părţi urmăreşte alegerea unei strategii
care să asigure un rezultat avantajos în detrimentul adversarului sau adversarilor.
Modele asemănătoare sunt utilizate în probleme de decizie în care este doar un singur
participant care trebuie să aleagă strategia optimă, care în acest caz se numesc stări ale naturii.
Astfel se poate afirma că natura nu acţionează ca un adversar inteligent care urmăreşte un
beneficiu cât mai mare din partea adversarului şi în consecinţă nu se pot stabili reguli de
comportare a ei. Se pot însă culege informaţii statistice şi se pot face previziuni probabilistice.
Deciziile în cazul jocurilor contra naturii se clasifică în:
• decizii în condiţii de certitudine, adică există informaţii certe despre evoluţia
viitoare;
• decizii în condiţiide risc, în care se cunosc doar probabilităţile de realizare a
stărilor naturii;
• decizii în condiţii de incertitudine, nu există informaţii privind probabilităţile de
realizare a stărilor naturii.
Referitor la deciziile în condiţii de risc se poate afirma că în procesul managerial,
decidenţii sunt puşi în faţa unor situaţii deosebite deoarece trebuie să aleagă dintr-o multitudine
de strategii.
Elementele unui model de decizie sunt:
• decidentul;
• stabilirea şi formularea problemei;
• totalitatea variantelor sau alternativelor posibile care definesc o situaţie
decizională;
• mulţimea tuturor consecinţelor anticipate pentru fiecare variantă;
• totalitatea criteriilor de decizie ale decidentului;
• obiectivele propuse de decident;
• stările naturii, factori independenţi de decidenţi şi care sunt de tip conjunctural.
Din multitudinea de variante posibile, decidentul urmează să aleagă drept soluţie
convenabilă, doar una. În acest proces apare necesitatea de a se compara variantele decizionale
între ele prin efectul consecinţelor şi astfel apare conceptul de utilitate. Utilitatea este de fapt
unitatea comună de măsură a consecinţelor multitudinii de alternative decizionale.
Teooria jocurilor este utilizată pentru simularea diverselor procese economice.
Jocurile de întreprindere (Business Games) facilitează simularea dinamică a unor
decizii secvenţiale. Utilizarea jocurilor de întreprindere are ca scop formarea deprinderilor de a
rezolva diverse situaţii limită la factorii de conducere, precum şi dezvoltarea de aptitudini de
abordare complexă şi sistemică a procesului simulat. Cu ajutorul unor astfel de jocuri, specialiştii
pot testa ipoteze referitoare la natura deciziilor pe care urmează să le adopte cu identificarea
efectelor probabile ale diverselor decizii. De aceea se poate afirma că jocul oferă posibilitatea
acumulării de experienţă în problemă, înainte ca procesul economic să se fi petrecut şi permite
anticiparea acelor consecinţe referitoare la resurse.
Jocurile se pot clasifica după anumite criterii şi anume:
• după sfera de acţiune sunt:
a. jocuri pentru întreaga întreprindere prin care se simulează funcţiile principale ale
întreprinderii în aşa fel încât participanţii la joc să înţeleagă legităţile unităţii economice în
ansamblu, în condiţiile influenţei reciproce dintre subsistemele interne sau dintre acestea şi un
sistem exterior.
b. jocul funcţional, se referă doar la o funcţie specifică a întreprinderii analizate, participanţii la
joc exprimâmnd decizii în cadrul compartimentului care îndeplineşte funcţia simulată şi pot
estima eventuale consecinţe pentru alte compartimente cu care acesta acţionează în legătură
strânsă.
c. jocuri complexe. Acestea au ca scop analiza mai multor funcţii ale întreprinderii şi relaţiile
principale cu alte compartimente sau cu exteriorul. În acest tip de joc, particupanţii trebuie să
estimeze implicaţiile unei decizii adoptate într-un compartiment asupra altor compartimente ale
aceleiaşi întreprinderi. Se evaluează în acest caz efectele unor perturbaţii asupra
compartimentului luat în studiu chiar dacă aceste perturbaţii au apărut în compartimente din
afară dar legate de cel studiat.
d. jocuri pentru alte zone de specialitate.
• După elementul competiv, jocurile sunt:
a. jocuri concurenţiale în care fiecare participant adoptă decizii în aşa fel încât să-şi depăşească
adversarul. Acestea pot fi jocuri independente şi jocuri interdependente.
- jocurile interdependente au drept caracteristică faptul că succesul unui participant este
dependent de propriile decizii cât şi de deciziile concurenţiale.
- jocurile independente se caracterizează prin aceea că fiecare jucător realizează îmbunătăţirea
propriilor performanţe economice, fără a acţiona asupra celorlalţi jucători. În cadrul coaliţiilor de
jucători se consideră că un joc este independent, atunci când jucătorii din coaliţie se ajută
reciproc.
b. jocurile cooperative presupun existenţa a doi parteneri care convin că în privinţa anumitor
clase de decizii şi acţiuni, acestea să nu fie îndreptate împotriva intereselor celuilalt partener. În
economia de piaţă pentru anumite tipuri de produse, aceştia îşi împart piaţa.
c. jocurile contra naturii au nevoie de un decident real sau o coaliţie de decidenţi care se
coalizează împotriva unui prtener fictiv, care este de fapt mediul ambiant.
• După criteriul prelucrarea rezultatelor, jocurile sunt pe calculator sau manuale.
• După scopul urmărit sunt jocurii de instruire, jocuri de întreprindere sau pentru
fundamentarea deciziilor operative.
Jocurile de instruire permit celor care participă la ele să poată să adopte decizii optime în
condiţiile unor situaţii ipotetice, dar posibile în practica economică.
Jocuri de întreprindere sau pentru fundamentarea deciziilor operative permit
specialiştilor să adopte decizii pertinente în condiţiile reale existente în întreprinderele pe care le
conduc sau le organizează. Astfel de jocuri necesită utilizarea calculatorului electronic, întrucât
deciziile se adoptă pe baza unui algoritm complex, care analizează efectele economice ale mai
multor soluţii. În acest caz decidentul poate cunoaşte consecinţele asupra performanţelor
economice atât ale soluţiilor optime cât şi ale soluţiilor ineficiente.
Principalele etape de desfăşurare a unui joc de întreprindere sunt următoarele:
• Etapa de instruire a participanţilor;
• Adoptare deciziilor de către participanţi. În această etapă există un arbitru care
adoptă deciziile considerate cele mai bune pentru participanţi. Arbitrul nu pune la dispoziţia
jucătorilor nici un algoritm pentru ca aceştia să găsească soluţia cea mai bună. Astfel, jucătorii
trebuie să adopte decizia fie pe baza competenţei, fie pe baza unui algoritm euristic elaborat în
timpul participării la joc, sau alegând la întâmplare valori numerice ale parametrilor economici.
Se poate modifica algoritmul ales la următoarea iteraţie. Dacă jucătorul adoptă decizii la
întâmplare, el le poate perfecţiona pe parcursul jocului, ajungând fie la un algoritm, fie la o
procedură de căutare aleatoare, dar accelerată. Fiecare etapă de adoptare a deciziilor constituie o
iteraţie a jocului, care corespunde unei perioade de timp de obicei următoare. N, numărul maxim
de iteraţii pentru un joc este stabilit în prima etapă de arbitru. În timpul jocului , consilierii de
joc, precizează arbitrului perturbaţiile care au avut loc în timpul în care jucătorii au adoptat
decizii.
• Arbitrul efectuează calculele prin evaluare consecinţelor apărute după primirea de la
participanţi a deciziilor adoptate şi a perturbaţiilor de la consilieri, de obicei cu ajutorul unui
program pe calculator.
• Arbitrul publică o informare asupra rezultatelor obţinute, în urma cărora jucătorii fac
la rândul lor o analiză rezultatelor. Se remarcă faptul că în situaţia în care numărul de iteraţii nu
este suficient de mare, există riscul ca unii jucători să obţină rezultate bune din pură întâmplare.
După dezbaterea rezultatelor care s-au obţinut şi după analiza regulilor aplicate, arbitrul crează
condiţii jucătorilor pentru pregătire accelerată în adoptarea deciziilor.
• Efectuarea unui test de continuare sau de încetare a jocului de către arbitru. Testul
constă în compararea iteraţiei I la care se află jocul cu numărul maxim N de iteraţii. Dacă I < N,
atunci jocul trece la iteraţia următoatre I+1, iar dacă I=N, atunci se trece la etapa următoare.
• Se anunţă sfârşitul jocului şi a rezultatelor finale. Arbitrul decide încetarea jocului,
iar după parcurgerea celor N iteraţii se evaluează rezultatele jocului. Pentru aceasta arbitrul
calculează funcţii de performanţă care permit acordarea unui calificativ global fiecărui
participant la joc. În acest fel se face ordonarea participanţilor la joc din punct de vedere al
aptitudinilor de conducători şi organizatori.
Această metodă conduce la generarea unei soluţii aproximate pentru probleme complexe
de obicei nestructurate. Pentru astfel de probleme nu se poate descrie un algoritm care nu poate
oferi soluţii optime într-un număr finit de paşi.
Programarea euristică se poate utiliza şi pentru probleme complexe structurale întrucât
poate conduce la opţiunea mai rapidă a soluţiilor faţă de un algoritm de optimizare (de exemplu
sunt problemele combinatoriale cu extrem de multe soluţii posibile).
De remarcat este faptul că procesul decizional se caracterizează printr-o formalizare a
spaţiului stărilor şi presupune o explorare atentă şi pertinentă a acestuia. În cazul acestei
programări euristice, spaţiul de rezolvare a problemelor implică: spaţiul stărilor, spaţiul
operatorilor, starea iniţială, starea sau stările finale precum şi informaţia asociată fiecărei stări.
Soluţia finală obţinută prin programarea eurstică poate fi un eşec sau un succes.
În utilizarea programării euristice se are în vedere evaluarea rezultatelor care va ţine cont
de calea raţionamentului, de paşii de parcurs ulterior precum şi de experienţa acumulată în
probleme similare şi nu în ultimul rând şi de model.
Evaluarea rezultatelor se realizează cu ajutorul funcţiei de evaluare care depinde de stare
şi de informaţiile referitoare la acea stare. Starea va fi acceptată dacă funcţia de evaluare va
depăşi un anumit prag prestabilit sau dacă este mai bună decât valorile stărilor în aşteptare.
Euristicile se pot grupa în: cantitative dacă sunt în baza de modele a unui sistem
informatic de asistare a deciziei; calitative dacă furnizează cunoştinţe pentru un sistem expert.
Programarea euristică se aplică în cazul în care datele de care se dispune pentru o
problemă complexă sunt insuficiente sau are un grad mare de inexactitate.
Gradul de complexitate al problemei nu permite utilizarea modelelor de optimizare, nu
există soluţie algoritmică iar modelul de simulare simplifică inadmisibil de mult problema şi
trebuie obţinută o soluţie rapidă.
Acest tip de programare are o serie de avantaje dintre care se enumeră: sunt metode uşor
de aplicat şi implementat, produc mai multe soluţii acceptabile, se poate face o măsurare
empirică sau teoretică a calităţii soluţiei obţinute.
Totuşi prezintă şi dezavantaje referitoare la garanţia obţinerii unei soluţii optime, iar în
cazul în care se fac alegeri secvenţiale într-o decizie, există riscul de a nu anticipa corect
consecinţele alegerilor făcute. Toate aceste riscuri sunt de fapt asumate de decident în momentul
în care a ales ca rezolvare programare euristică.
Modul în care datele sunt retransformate în informaţii şi apoi în cunoştinţe este de fapt un
proces de valorificare a datelor care se realizează prin sintetizarea şi analiza lor şi, în final, prin
interpretare. Procesul de sintetizare a datelor presupune centralizarea lor, având în vedere
diverse criterii şi este utilizat în crearea situaţiilor de sinteză necesare informării managerilor ca
suport pentru luarea deciziilor. Soluţiile oferite de informatică pentru procesul de sintetizare a
datelor sunt: programe specifice şi dedicate; interogări care dau posibilitatea grupării datelor
după criterii stabilite şi oferă funcţii pentru domeniile astfel create; funcţiile de total şi subtotal
oferite de generatoarele de rapoarte care permit indicarea ierarhiilor criteriilor de grupare.
În ultimul timp, problema centralizării datelor a rămas aceeaşi, însă volumul de date de
explorat este imens, ceea ce duce la faptul ca metodele clasice să devină ineficiente. De aceea
câştigă tot mai mult teren tehnologii moderne ca Data Warehousing (depozitarea datelor) şi
OLAP (On-Line Analytical Processing) pe măsură ce suporturile soft devin suport de date pentru
sistemele tranzacţionale.
Depozitele de date (Data Warehouse) ajută la:
- îmbunătăţirea valorii performanţelor organizaţiei economice cu management centrat pe
client, printr-o mai bună înţelegere a nevoilor clientului;
- analiza percepţiilor clienţilor asupra valorii produselor şi serviciilor care sunt oferite sau
care ar putea fi oferite în viitor;
- integrarea marketingului cu tehnologiile informaţiei şi ale comunicaţiilor (IT&C), cu
sursele de date operaţionale, obţinându-se depozitul de date de tip întreprindere, EDW
(Enterprise Data Warehouse);
- contribuie la creşterea valorii strategice a organizaţiei economice.
Într-un cadru mai larg, se aplică noul concept de cercetare (inteligentă) a afacerilor, BI
(Business Intellgence) ce devine o componentă critică a ansamblului de operaţiuni zilnice ale
organizaţiei economice, astfel încât se dezvoltă depozite de date în timp real ce asigură
utlizatorilor finali actualizări rapide şi emiterea unor semnale de alarmă (alerte) generate din
cadrul sistemelor tranzacţionale (TPS). Depozitele de date în timp real, RTDW (Real-Time Data
Warehouse), şi BI sprijină îndeplinirea planului de afaceri al organizaţiei economice. Aplicaţiile
RTDW ale organizaţiei economice cuprind:
- managementul şi contabilitatea veniturilor şi cheltuielilor;
- managementul relaţiilor cu clienţii, CRM (Customer Relationship Management);
- operaţiuni şi bilanţuri la nivel de echipă;
- managementul securităţii informatice;
- managementul activităţilor specifice îndeplinirii obiectivelor organizaţiei economice.
Pentru administrarea eficientă a afacerilor sunt necesare RTDW, SIAD (DSS) şi
instrumente BI.
OLAP reprezintă o categorie de tehnologie software care permite analiştilor, managerilor
şi persoanelor de execuţie din organizaţia economică să beneficieze de un acces rapid, consistent
şi interactiv la depozitul de date; acest lucru se obţine printr-o varietate de vizualizări posibile
ale informaţiilor ce au fost transformate din datele operaţionale şi reflectă dimensionalitatea reală
a organizaţiei din punctul de vedere al utilizatorului. Ca urmare, prin tehnologiile de centralizare
se transformă datele în informaţii de sinteză şi se asigură analiza lor. Analiza datelor presupune a
găsi relaţii între datele sintetizate cum ar fi: asocieri, corelaţii structurale, cauzale sau
funcţionale. Funcţionalitatea OLAP este caracterizată de o analiză dinamică multidimensională
dinamică a datelor consolidate ale organizaţiei economice ce sprijină activităţile analitice şi de
căutare şi regăsire a informaţiilor (prin navigare sau browsing) desfăşurate de utlizatorul final:
• calcule şi modele aplicate dimensiunilor transversale prin intermediul ierarhiilor sau
membrilor;
• analize asupra tendinţelor din perioade de timp secvenţiale;
• submulţimi obţinute prin secţionare (slicing) pentru vizualizările prezentate pe ecranul
monitorului calculatorului;
• efectuarea unor operaţiuni de drill-down pentru adâncirea nivelurilor de consolidare a
datelor;
• efectuarea operaţiunii de rotaţie (rotation) pentru obţinerea unor noi comparaţii
dimensionale în zona de vizualizare a datelor.
O formă simplă de analiză a datelor este compararea datelor cu date similare, comparare
care se face păstrând toate criteriile identice, doar unul singur având valori diferite. Comparare se
face între seturi de date comparabile, iar tehnologiile de comparaţie sunt dotate cu tehnici de
observare pentru semnalizarea tiparelor, corelaţiilor, asocierilor prin similitudini sau sesizează
abateri, excepţii. Informatica a venit în întâmpinarea acestor cerinţe cu tehnicile de prezentare
grafică care transformă informaţia cantitativă în informaţie calitativă. Au apărut şi tehnici de
observare analitică a datelor care au la bază teorii matematice prin care datele reale sunt
comparate cu date teoretice produse de un model ipotetic.
Dezvoltarea tehnicilor de observare a dus la apariţia tehnicilor de observare automată
bazate pe data-driven. Rezultatul unor astfel de tehnici se regăsesc într-un model cu caracter
general. Tehnicile de observare analitică a datelor se regăsesc într-o tehnologie modernă
denumită Data Mining (în traducere liberă “Mineritul datelor”).
Rezultatul procesului de observare analitică este obţinerea unor tipare, corelaţii şi uneori
modele din care se pot deduce tendinţe sau se poate previziona cu o anumită probabilitate cum
vor arăta datele pe o perioadă ulterioară. Modelul permite interpretarea datelor, ce reprezintă un
proces cognitiv cu o apreciere generală a situaţiei, şi identifică probleme, oportunităţi sau
potenţiale cauze de eşec.
De remarcat este faptul că interpretarea datelor duce la apariţia de cunoştinţe noi care se
vor cumula la cele deja existente. Instrumentele soft clasice pentru asistarea deciziei au avut ca
principal scop asigurarea tehnicilor de analiză, optimizare şi simulare precum şi reprezentarea
grafică a rezultatelor. Dintre aceste instrumente se amintesc procesoarele de tabele Lotus şi Excel
orientate pe volume mici de date, cele referitoare la sistemele de gestiune a bazelor de date
Access, Visual Foxpro, capabile să lucreze cu volume mari de date cu structură uniformă.
Principalul dezavantaj al acestor instrumente clasice este că operează numai asupra acelor date
care au o structură prestabilită şi provin dintr-o sursă unică. Noile sisteme de asistare a deciziei
folosesc tehnici speciale de comasare a datelor stocate în structuri neuniforme, pentru a utiliza
informaţii implicite care nu sunt specificate în datele existente. Suporturile software de asistare a
deciziei oferă utilizatorilor o serie de facilităţi cum ar fi: interogarea în limbaj natural, accesul la
modele conceptuale, sisteme de gestiune OLAP şi servicii de integrare cu alte suporturi soft.
Depozitul de date (Data Warehouse) este un ansamblu de date special produse pentru a
sprijini luarea deciziei manageriale. Depozitul de date conţine date istorice şi curente de interes
potenţial pentru manageri în cadrul organizaţiei economice. În mod obişnuit, datele sunt
structurate pentru a putea fi oricând disponibile pentru activităţi de prelucrare analitică online
(OLAP), Data Mining, interogări, rapoarte, alte aplicaţii pentru asistarea luării deciziei8.
Trebuie precizat că noţiunea de depozit de date (Data Warehouse) se referă la rezultatul
final – date memorate pe suport informaţional, date ce prezintă caracteristici distincte faţă de
bazele de date tranzacţionale, în timp ce noţiunea de depozitarea datelor (Data Warehousing)
priveşte întregul proces de creare, menţinere şi exploatare a unui depozit de date.
Depozitele de date (Data Warehouse) reprezintă din perspectiva metodologică, pur didactică,
o ramură a informaticii aplicate în domeniul sistemelor informatice pentru asistarea deciziei,
SIAD sau DSS, prin intermediul căreia se asigură:
1) administrarea complexă a afacerilor;
2) accesarea din exterior, oportună şi eficace, a informaţiilor şi cunoştinţelor necesare
afacerilor (business information and business knowledge).
Procesul de depozitare a datelor (Data Warehousing) conţine următoarele componente majore
(fig.3.1):
1) Sursele de date;
2) Extragerea, transformarea şi încărcarea datelor din bazele de date operaţionale, ETL
(Extraction, Transformation and Load);
3) Depozitul de date de tip întreprindere, EDW (Enterprise Data Warehouse);
8
Turban E., Aronson, J.E., Liang, T.P., Sharda, R. - Decision Support and Business Intelligence Systems, Pearson
Prentice Hall, New Jersey, 2007.
4) Metadatele (programe soft pentru date şi reguli pentru organizarea rezumatelor de date.
Sunt uşor de indexat şi regăsit, inclusiv prin instrumente Web);
5) Instrumente de tip middleware, ce asigură accesul la depozitul de date (OLAP, Data
Mining, instrumente soft de întocmire a rapoartelor şi de vizualizare a datelor).
Necesitatea depozitelor de date este dată de volumul imens de date acumulat în timp de
organizaţiile economice. Integrarea acestor date istorice ale organizaţiei într-o structură care să
stea la baza luării deciziilor a devenit principala preocupare a noilor tehnologii informatice.
Depozitele de date integrează diferitele tipuri de baze de date din organizaţie, asigurând date
oportune şi relevante (în timp real sau aproape de răspuns în timp real) pentru sistemele
informatice pentru asistarea deciziei manageriale, SIAD. Implementarea depozitelor de date
conferă valoare strategică organizaţiei economice. De asemenea, depozitele de date contribuie la
reducerea costurilor. De exemplu, în primul an de operare a depozitelor de date, această reducere
a costurilor este similară cu investiţiile în sistem pe timp de şase ani9.
APLICAŢII:
Rafturi
de date OLAP
EDW Interfeţe de
aplicaţii Web
middleware
Data Mining
Instrumente de
interogare
ETL relaţionale
Instrumente de
SURSE DE DATE raportare
(OLTP, externe, moştenite
de la sistemele informatice vechi)
Vizualizare
rezultate
9
Turban E., op.cit.
Sistemele de asistare a deciziei care au la bază analiza şi sinteza datelor realizează
comasarea, sistematizarea, corelarea şi gruparea datelor pentru a obţine informaţii care să
reliefeze factorii care influenţează pozitiv sau negativ performanţele companiei. Ca urmare a
obţinerii unor astfel de informaţii se poate adopta o strategie de ameliorare a factorilor cu
influenţă negativă asupra performanţelor organizaţiei economice.
Obţinerea rezultatelor, sub formă de rapoarte care conţin informaţii utile factorilor de
decizie sunt într-o formă accesibilă şi sunt rezultatul tehnicilor speciale de explorare a masivelor
de date. Aceste tehnici conduc la evidenţierea unor corelaţii între date, pot face estimări şi
prognoze precum şi atenţionări ale managerilor asupra unor disfuncţii.
Caracteristicile fundamentale ale depozitelor de date (Inmon – 2005, Tuban – 2007) sunt
următoarele:
a) orientarea pe subiecte (de exemplu, produse, clienţi, vânzări etc.) conţinând numai informaţia
relevantă pentru procesul de decizie managerială; prin aceasta, managerii, în calitate de
utilizatori finali, calculează sau evaluează performanţele obţinute în afaceri, formulând şi
explicaţiile justificative pentru aceste performanţe.
b) integrarea, nemijlocit legată de caracteristica orientarea pe subiecte; datele provenite din
surse diverse sunt dispuse într-un format consistent, eliminându-se astfel conflictele şi
discrepanţele ce pot apare datorită unităţilor de măsură diferite. Un depozit de date se presupune
că este total integrat.
c) nonvolatilitatea: odată ce datele au fost introduse („scrise”) într-un depozit de date,
utilizatorii nu mai pot modifica sau actualiza datele. Un depozit de date este proiectat din
perspectiva utilizatorului, în mod exclusiv, numai pentru acces la date.
d) variabilitatea în timp (serii de timp). Un depozit de date menţine datele istorice ale
organizaţiei economice. Datele nu trebuie să asigure, în mod necesar, starea curentă (excepţie
fac doar sistemele în timp real). Pe baza depozitelor de date sunt detectate trenduri, deviaţii,
relaţii pe termen lung pentru comparaţii şi prognoze ce conduc la luarea deciziei. Pentru fiecare
depozit de date există o calitate temporală. Timpul reprezintă una din dimensiunile importante pe
care trebuie să le posede toate depozitele de date. Datele pentru analize ce provin din surse
multiple conţin referinţe de timp multiple (de exemplu, vizualizări zilnice, săptămânale, lunare
etc.).
e) includerea aplicaţiilor bazate pe Web.
f) utilizarea arhitecturii client/server.
g) utilizarea structurilor de baze de date relaţionale sau de baze de date multidimensionale.
h) folosirea metadatelor (date despre date).
Caracteristicile depozitelor de date rezultă din faptul că ele pot înmagazina volume mari
de date preluate din arhive şi/sau din bazele de date ale aplicaţiilor informatice specifice
activităţii curente a întreprinderii (sunt volume de ordin 1012 terabytes), precum şi din surse
externe organizaţiei economice. Exploatarea acestor volume uriaşe de date, provenind de la surse
de date diverse, este asigurată de existenţa unor motoare speciale care dau posibilitatea ca
masivele să poată fi interogate, precum şi existenţa unor servicii speciale de analiză on-line a
datelor (OLAP). Suporturile software susţin performanţele acestor servicii prin transformarea
datelor, corelarea şi completarea lor precum şi prin crearea dicţionarului de date, toate acestea
asigurând accesul la structurile primare. Datele sunt extrase din baze de date heterogene create
de sistemele informatice deja existente în organizaţie pe diversele platforme hard şi soft.
Se poate remarca faptul că datele sunt introduse nu la întâmplare ci sub controlul unor
aplicaţii şi al SGBD-ului. Acestea asigură prin serviciile de integritate, stocarea şi lucrul în
condiţii de siguranţă maximă. Datele care formează suportul pentru tranzacţiile primare sunt
apoi prelucrate pentru a se obţine informaţiile de sinteză necesare planificării şi luării deciziilor
şi sunt tratate de instrumentele SGBD.
Deoarece exploatarea unui volum enorm de date, pentru a obţine diverse rapoarte, este
asigurată de integritatea şi coerenţa bazei de date, reuniunea tuturor acestor date duce la
exploatarea unui mare număr de tabele, la crearea unor multiple legături virtuale şi tabele
temporare. Acest volum mare de muncă conduce la principalul inconvenient al depozitelor de
date şi anume timpul mare necesar exploatării lor. Un alt inconvenient îl constituie şi
aglomerarea motorului bazei de date cu task-uri de centralizare care încetineşte astfel
tranzacţiile curente.
Astfel a apărut necesitatea stocării datelor care sunt dedicate planificării şi deciziilor
strategice într-un sistem diferit de sistemul operaţional în aşa fel încât funcţionarea celor două
sisteme să se facă fără inconveniente. În depozitul de date se pot stoca atât arhive de date privind
activitatea anterioară cât şi date referitoare la tranzacţii ulterioare fără ca utilizatorul să poată
interveni.
Depozitele de date sunt o concentrare de date care organizează, consolidează şi
centralizează datele din surse eterogene şi care vor constitui baza procesărilor analitice atât de
necesare proceselor de decizie. Depozitul de date se construieşte progresiv adică el permite
completări şi dezvoltări ulterioare. Pentru a se asigura o calitate sporită a datelor acestea sunt
supuse unui proces de curăţire şi transformare, menţionând şi maniera de obţinere a unor date
colectate pe baza celor existente, acest proces ducând la micşorarea timpului cerut pentru
obţinerea unor rapoarte finale. În depozitele de date se face transformarea codurilor în date
explicite precum şi integrarea datelor din nomenclatoare în datele referitoare la tranzacţii. Acesta
este numit şi proces de denormalizare şi este caracterizat de faptul că nu modifică integritatea
datelor şi grăbeşte procesul de regăsire. Într-un depozit de date redundanţa datelor este permisă.
Literatura de specialitate prezintă mai multe arhitecturi de depozite de date, grupate în
două categorii: depozitele de date de tip întreprindere, EDW (Enterprise Data Warehouse) şi
rafturi de date (Data Marts). Un exemplu de arhitectură de depozit de date bazată pe Web
(Turban, 2007) este prezentat în fig.3.2. Această arhitectură pe 3-entităţi (three-tiers) cuprinde
clientul, serverul Web şi serverul de aplicaţie. Pe partea de client există o conexiune Internet şi
un navigator Web bazat pe o interfaţă grafică de tip GUI (Graphical User Interface). Mediul de
comunicaţie dintre client (atenţie: aici client are sensul de staţie de lucru – Work Station - pentru
utilizatorul final) şi servere este de tipul Internet/Intranet/Extranet. Pe partea de server se
foloseşte un server Web pentru gestionarea fluxurilor informaţionale dintre client şi server,
urmat de serverul de aplicaţie şi depozitul de date.
Navigator Server Web Depozit de
Web date
1. Client
2. Server Web 3.Server de aplicaţie
10
www.wikipedia.com
11
searchsoa.target.com
format HTML sau PDF (Portable Document Format). Prin CMS se asigură actualizarea cu
ultima versiune a unui document sau restaurarea unui document în versiunea precedentă.
Decizie de alegere a unei arhitecturi de depozit de date este influenţată de mai mulţi
factori, dintre care se menţionează:
- cerinţele de informaţie ale managementului de vârf (top-management);
- interdependenţele informaţionale existente între departamentele şi entităţile funcţionale
ale organizaţiei economice;
- gradul de limitare a resurselor organizaţiei economice;
- existenţa compatibilităţii cu sistemele informatice aflate deja în exploatare în organizaţie;
- motivaţia profundă a angajaţilor în dezvoltarea unui depozit de date.
Integrarea datelor într-un depozit de date conţine trei procese majore:
a) accesul la date;
b) realizarea federaţiei de date;
c) reflectarea oportună în depozitul de date a modificărilor semnificative ale datelor
provenite din sursele de date de tip întreprindere.
Există mai multe tehnologii de integrare a datelor şi metadatelor în depozit de date:
1) integrarea aplicaţiilor de tip întreprindere, EAI (Enterprise Application Integration);
2) arhitectura orientată pe servicii, SOA (Service-Oriented Architecture);
3) extragerea, transformarea şi încărcarea datelor în depozitul de date, ETL (Extraction,
Transformation and Load);
4) integrarea informaţiilor de tip întreprindere, EII (Enterprise Information Integration).
Integrarea aplicaţiilor de tip tip întreprindere, EAI (Enterprise Application Integration)
asigură modalitatea unitară de preluare a datelor din surse diverse şi stocarea lor în depozitul de
date de tip întreprindere, DEW. Această integrare a aplicaţiilor de tip întreprindere se realizează
la nivelul interfeţei de programare a aplicaţiei, API (Application Programming Interface). EAI
este combinată cu arhitectura orientată pe servicii, SOA (Service-Oriented Atchitecture) care
estre focalizată pe un ansamblu coerent de procese de afaceri orientate pe servicii Web.
Extragerea, transformarea şi încărcarea datelor în depozitul de date, ETL (Extraction,
Transformation and Load) reprezintă componenta integrală a oricărui proiect centrat pe
organizarea, stocarea şi prelucrarea datelor, aşa cum este depozitarea datelor (Data
Warehousing). Această componentă ETL consumă circa 70% din perioada de lucru la un proiect
centrat pe date12.
Extragerea datelor înseamnă citirea datelor destinate depozitului de date din una sau mai
multe baze de date.
Transformarea datelor reprezintă conversia datelor extrase din forma iniţială în forma
standard necesară pentru stocarea în depozitul de date sau în alte baze de date cu care depozitul
de date lucrează direct.
Încărcarea datelor înseamnă stocarea datelor, anterior transformate în forma standard,
curăţate şi rafinate, în depozitul de date.
Pot constitui surse de date relevante pentru depozitul de date (raftul de date): baze de
date tranzacţionale (provenite din sistemul informatic de procesare a tranzacţiilor, TPS), baze de
date provenite din aplicaţii ERP, din aplicaţii CRM, din tabele Excel (într-un cadru mai larg, din
baze de date specifice OAS), din baze de cunoştinţe specifice KWS, din şiruri de mesaje, din
fişiere externe etc.
Datele stocate în depozitul de date sunt conforme (prin forma standard dobândită prin
intermediul procesului ETL) cu regulile de afaceri ce definesc modul de folosire a datelor
stocate, cu regulile de întcomire a rezumatelor (sintezelor, rapoartelor), cu regulile de
standardizare a atributelor codificate, cu regulile de efectuare a calculelor. Toate aceste reguli
sunt memorate într-o bază de metadate şi sunt aplicate unitar în întreg depozitul de date.
Turban (2007) diferenţiază trei tipuri principale de depozite de date: rafturile de date,
DM (Data Marts), memoriile-tampon de date operaţionale, ODS (Operational Data Stores) şi
depozitele de date de tip întreprindere, EDW (Enterprise Data Warehouse).
Aşa cum s-a arătat în primul capitol al lucrării, organizaţia economică este structurată pe
departamente şi entităţi funcţionale, figurate ca domenii de gestiune ale organizaţiei economice.
La nivelul acestor departamente şi entităţi funcţionale, datele ce prezintă caracteristicile
prezentate în paragraful anterior sunt depuse în rafturi de date, DM (Data Marts). În unele
lucrări, noţiunea românească asociată lui Data Marts este de magazie de date, Altfel exprimat,
12
Turban, E., Op.cit.
dacă depozitele de date (Data Warehouse) combină baze de date la nivelul întregii organizaţii
economice (adică la nivelul sistemului informatic integrat al organizaţiei economice), în schimb
rafturile de date cu dimensiuni mai mici decât depozitele de date, sunt destinate unui anumit
departament al organizaţiei economice sau unui anumit subiect definit la dorinţa utilizatorului
final.
Utilizarea magaziilor sau rafturilor de date (Data Marts) conduce la creşterea
performanţelor în exploatare. Aceste depozite de date se construiesc de obicei cu tehnologii
relaţionale.
Majoritatea rafturilor de date sunt rafturi de date dependente (adică sunt generate direct
din depozitul de date). Există, însă, şi rafturi de date independente de depozitul de date al
organizaţiei ce sunt realizate special pentru o unitate strategică de afaceri, SBU (Strategic
Business Unit) şi care nu folosesc date din depozitul de date al organizaţiei economice. Raftul de
date independent poate constitui o alternativă „low cost” pentru firmele care nu-şi pot permite
achiziţionarea, menţinerea şi exploatarea unui depozit de date.
13
Turban, E., 2007, Op.cit.
EDW utilizează date în format standard ce provin de la surse diverse. Datele din EDW
sunt folosite ca date de intrare pentru majoritatea tipurilor de sisteme informatice pentru asistarea
deciziei economice, cum sunt sistemele informatice pentru managementul relaţiilor cu clienţii,
CRM (Customer Relationship Management), sistemele informatice pentru managementul
lanţului de aprovizionare, SCM (Supply Chain Management), sistemele informatice pentru
managementul performanţelor afacerilor, BPM (Business Performance Management), sistemele
informatice pentru managementul ciclului de viaţă al produselor, PLM (Product Lifecycle
Mangement), sistemele informatice pentru monitorizarea activităţilor afacerilor, BAM (Business
Activity Monitoring), sistemele (aplicaţiile) informatice pentru managementul veniturilor,
sistemele informatice pentru automatizarea lucrărilor de birou, OAS (Office Automation
Systems), sistemul informatic de lucru cu cunoştinţe, KWS (Knowledge Work Management)14
etc.
14
Idem.
informaţii parţiale (incomplete). Depozitele de date elimină acest dezavantaj prin accesarea,
integrarea şi organizarea datelor operaţionale cu rol-cheie într-o formă care se caracterizează
prin consistenţă, fiabilitate, oportunitate, disponibilitate rapidă şi cu referinţă în timp (timely).
*
Dinu Airinei – Operă citată
pot exista mai multe nomenclatoare alternative. Dacă se integrează aceste subdimensiuni şi
dimensiuni alternative, se creează o schemă sub formă de fulg de zăpadă.
Schemele de tip stea, fulg de nea sau constelaţie sunt modele conceptuale
multidimensionale ale depozitelor de date, având ca rol organizarea datelor pe subiecte, necesară
procesului de decizie. Schema este deschisă, adică ea se poate modifica pe tot parcursul vieţii
depozitului de date.
*
Zaharie D, Albescu F, colectiv – Operă citată
Produsul Oracle Express cuprinde următoarele componente arhitecturale: utilitare pentru
administrare (Express Instance Manager, Express Administrator şi Relational Access Manager),
instrumente pentru dezvoltare (Oracle Express Analyser, Oracle Express Objects etc) şi nucleul
(limbajul de programare Express). Instrumentul OLAP denumit Oracle Express Analyser
asigură selectarea, analiza şi vizualizarea datelor memorate în baza de date multidimensională,
iar instrumentul Oracle Express Objects asigură dezvoltarea de aplicaţii OLAP cu ajutorul
limbajului de programare Express. Prin integrarea instrumentului Oracle Express Objects cu
Oracle Discoverer, este facilitată realizarea aplicaţiilor destinate cercetării (inteligente) a
afacerilor (Oracle Integrated Business Intelligence Tools). Este prevăzut, de asemenea, un editor
de conexiuni, Express Connection Editor, care asigură definirea conexiunilor la baza de date
multidimensională.
Pentru ca un depozit de date să poată fi procesat este necesară existenţa unui set
specializat de instrumente pentru: descrierea fizică şi logică a surselor de date, a depozitelor sau
a magaziei de date în care acestea urmează să fie încorporate; validarea, curăţirea şi
transformarea datelor care urmează a fi stocate în depozitul de date; utilizatorii finali,
instrumente care permit acestora accesul la datele stocate în depozitul respectiv. Astfel de
instrumente sunt specializate pentru medii de dezvoltare a aplicaţiilor, produse program
specializate pe analiza datelor precum şi pentru aplicaţii personale (individuale).
Dacă se analizează tehnologia relaţională se observă că cea mai mare parte a problemelor
tratate relaţional sunt în realitate multidimensionale. În modelul relaţional problemele sunt
tratate în tabele care au două dimensiuni: linie şi coloană. Problemele reale, care în cea mai mare
parte a lor sunt multidimensionale, nu impun limite stocării spaţiale a datelor. Astfel, un SGBDR
obişnuit nu poate face faţă cerinţelor de agregări de date, sintetizări, consolidări şi proiecţii
multidimensionale. De aceea, a apărut necesitatea extinderii funcţionalităţii unui SGBDR prin
adăugarea unor componente speciale care să permită modelare şi analiză multidimensională
(OLAP) şi Data Mining.
La modul general, termenul de procesare analitică online, OLAP (OnLine Analytical
Procesing) se referă la o varietate de activităţi ce sunt realizate de către utilizatorii finali în
sistemele informatice interactive (online). În mod obişnuit, OLAP cuprinde activităţi ca
generarea şi obţinerea răspunsurilor la interogări şi cererile ad-hoc de rapoarte şi grafice.
Obţinerea acestor răspunsuri la interogări, rapoarte şi grafice se fundamentează pe metodele
moderne ale statisticii şi cercetărilor operaţionale, precum şi pe tehnologiile de construire a
prezentărilor vizuale. Unele lucrări de specialitate includ analizele şi prezentările
multidimensionale, sistemele informatice pentru suportul executivului, ESS (Executive Support
Systems) sau EIS (Executive Information Sytstems) şi Data Mining în tehnologia OLAP15. În
esenţă, produsele de firmă OLAP furnizează posibilităţi de modelare, analiză şi vizualizare
15
Lungu, I. ş.a., Sisteme informatice executive, Editura ASE, Bucureşti, 2007.
pentru volume mari de date din baze de date (prin intermediul SGBDR) sau din depozite de date.
OLAP asigură vederi conceptuale multidimensionale asupra datelor. Modelele de date asociate
sistemelor OLAP se încadrează astfel în două categorii: extensii ale modelului de date relaţional
şi modelele bazate pe cuburi n-dimensionale. Din categoria extensiilor modelului de date
relaţional pentru OLAP fac parte, între altele:
- modelul Kimball (fundamentat pe schema tip stea ca o reprezentare relaţională a cubului
n-dimensional; din aceasta s-au dezvoltat schema tip fulg de nea şi schema tip
constelaţie);
- modelul Gary (fundamentat pe operatorii CUBE şi ROLLUP ai clauzei Group By din
limbajul de interogare structurată SQL);
- modelul Gyssens şi Lakshmanan (fundamentat pe o extensie ale algebrei relaţionale).
Din categoria modelelor bazate pe cuburi n-dimensionale se pot menţiona, între altele:
- modelul lui Agrawal, Gupta şi Sarawagi (fundamentat pe o mulţime de operatori
asemănători cu cei din algebra relaţională, cu organizarea datelor bazată pe cuburi n-
dimensionale);
- modelul Cabbibo şi Torlone (fundamentat pe o schemă multidimensională compusă din
mulţimea de dimensiuni, tabelele de fapte şi descrierile nivelurilor ierarhice)16.
Tehnologia OLAP permite utilizatorilor navigarea rapidă de la o dimensiune la alta şi
facilităţi sporite de obţinere a celor mai detaliate informaţii din depozitul de date. Tehnologia
OLAP se bazează pe 12 principii formulate de Ted Codd (1993), extinse la 18 principii în anul
1995. Acestea sunt:
1. abordarea conceptuală multidimensională a datelor; ca urmare, se folosesc modele
multidimensionale;
2. asigurarea unei transparenţe sporite prin existenţa unei arhitecturi deschise a sistemului;
3. accesibilitatea asigurată utilizatorului prin asistarea implicării acestuia în modalităţile
tehnice de furnizare a datelor (utilizatorul final reprezintă şi el o sursă de date); trebuie să se
realizeze o singură viziune logică a datelor din organizaţie (enterprise);
4. complexitatea dimensională a analizei oferă performanţe stabile; instrumentele OLAP
trebuie să aibă implementate patru modele de analiză: direct, explicativ, contemplativ şi
formativ;
5. utilizarea arhitecturii client-server, unde server-ul are ca scop omogenizarea datelor;
6. posibilitatea de a efectua aceleaşi operaţii asupra tuturor dimensiunilor şi care poartă
numele de prelucrare generică a dimensiunilor;
7. dimensiunile trebuie să fie echivalente operaţional şi structural (dimensionalitate
generică); prin intermediul acestui principiu sunt astfel asigurate ierarhii multiple;
8. gestionarea dinamică a matricilor încrucişate prin facilitatea de a elimina combinaţiile
dimensionale nule, pentru a nu încărca memoria calculatorului; indiferent de sursa lor, valorile
lipsă sunt ignorate;
9. posibilităţile de acces simultan al mai multor utilizatori (multi-user) la aceeaşi fază
(etapă) de analiză;
10. operaţii nerestrictive, ceea ce dă posibilitatea executării fără restricţii a calculelor pentru
toate combinările de dimensiuni şi niveluri ierarhice;
11. posibilitatea manipulării intuitive a datelor;
16
Muntean, M., Iniţiere în tehnologia OLAP. Teorie şi practică, Editura ASE, Bucureşti, 2004.
12. număr nelimitat de niveluri de agregare şi de dimensiuni 1.
13. valorile lipsă sunt diferite de valorile invalide şi de valorile zero (împrăştiere); valoarea
zero este validă; modelele OLAP satisfac regula referitoare la valorile NULL din modelul
relaţional. Ca urmare, datele lipsă şi invalide trebuie tratate în mod individual;
14. denormalizarea datelor, la introducerea lor în depozitul de date;
15. memorarea rezultatelor generate de OLAP; sistemele OLAP stochează datele în depozite
de date separat de sistemele tranzacţionale;
16. flexibilitatea rapoartelor, prin selectarea axelor la raportare la dorinţa utlizatorului final;
17. caracteristici superioare ale raportării, în funcţie de locaţia procesării datelor (client sau
server) şi de modul de efectuare a calculelor (după modele de preprocesare sau calcule executate
în momentul interogării depozitului de date);
18. ajustarea automată a nivelului fizic, în funcţie de volumul datelor şi de tipul de model
logic folosit.
OLAP este tehnologia de agregare a datelor stocate în depozite de date într-o manieră de
abordare multidimensională cu facilităţi referitoare la accesul la informaţii a managerilor în mod
interactiv şi flexibil. Legătura dintre OLAP şi depozitele de date este aceea că OLAP le
completează prin transformarea volumului imens de date stocate şi gestionat în depozite în
informaţii utile procesului de decizie. Cele 12 reguli (iniţiale, din 1993) ale lui Codd au fost apoi
regrupate într-un test cu 5 reguli denumit FASMI (Fast Analysis Shared Multidimensional
Information).
OLAP presupune existenţa unor tehnici care permit de la o navigare şi selecţie simplă a
datelor până la analiza detaliată şi complexă. Aplicaţiile care se rezolvă pe baza acestei
tehnologii au la bază analiza rapidă a informaţiei multidimensională dispersată în locaţii multiple
dar accesibile unui mare număr de utilizatori. Pentru utilizarea acestor facilităţi, OLAP dispune
de eficacitatea bazelor de date multidimensionale şi de posibilitatea de a construi alternative
pentru diverse probleme de decizie. OLAP presupune că analiza datelor (care pot fi de tip
numeric sau statistic) poate fi predefinită de cel care creează aplicaţia sau chiar de utilizatorul
final.
OLAP se caracterizează prin: perspectiva multidimensională a datelor, capacitatea de
calcul intensiv şi orientare în timp (time intelligence).* Aspectul multidimensional al datelor este
dat de posibilitatea de a integra multiplele aspecte care caracterizează activitatea unei
întreprinderi şi care sunt considerate din perspective multiple ca: timp, bani, produse. Fiecare
dimensiune este definită în genere prin mai multe niveluri ca de exemplu: timpul este divizat în
an, trimestre, luni, sezoane; produsul în: categorii, clasă. Conceptul de dimensiune este folosit ca
înţeles de aspect, dimensiunile fiind independente şi cu unităţi de măsură specifice dimensiunii
respective.
1
Grupul BDASEID – Operă citată şi M.Muntean, Iniţiere în tehnologia OLAP. Teorie şi practică, Editura ASE,
Bucureşti, 2004.
*
Zaharie D, Albescu F, colectiv – Operă citată
Fig.3.4. Hipercubul de date
Unităţile de măsură pot constitui criterii de agregare a datelor, iar nivelele unei
dimensiuni formează ierarhia care la rândul ei poate constitui criteriu de agregare a datelor.
Privite din punct de vedere multidimensional, datele sunt reprezentate în hipercuburi de date
(fig.3.4), prin extinderea cubului tridimensional la cel n-dimensional.
Pe acest tip de cub se pot efectua calcule prin aplicarea unor algoritmi complecşi asupra
datelor structurate în acesta. Acestea implică posibilitatea de adresare multidimensională directă
a cuburilor unitare şi optimizarea timpului de răspuns.
Caracteristica de orientare în timp (time intelligence) presupune flexibilitatea exploatării
acestei dimensiuni care este necesară pentru comparaţii şi aprecieri de valoare în analizale
economice. Această dimensiune este luată de obicei din calendarele tranzacţiilor economice aşa
cum se află în bazele de date ale sistemului informatic al companiei. Se pot face astfel grupări pe
dimensiuni ca: trimestre, luni, ani, sezoane. Se pot utiliza şi dimensiuni speciale cum sunt:
perioada curent, perioada precedentă, aceeaşi perioadă din anul..., care trebuie neapărat luate în
considerare la proiectarea hipercubului. Bazele de date multidimensionale folosite de OLAP sunt
suprapuse depozitelor de date şi stochează straturi de date agregate pe diferite criterii ierarhice.
De asemenea, aceste baze de date multidimensionale conţin şi date statistice pentru fiecare nivel
de agregare.
Un server OLAP reprezintă un motor de manipulare a datelor multiutilizator de mare
capacitate ce a fost proiectat pentru a sprijini şi funcţiona cu structuri de date multidimensionale.
O structură de date multidimensională este astfel aranjată încât fiecare articol (item) de date este
localizat şi accesat pe baza intersecţiei membrilor dimensiunii care definesc acel articol (irem).
Proiectarea serverului şi a structurii de date sunt optimizate pentru regăsirea rapidă („ad-hoc”) a
dalelor în oricare dintre orientările dorite, pentru calculul flexibil şi rapid, precum şi
transformarea rândurilor de date pe baza relaţiilor de tip formulă. O formulă este un obiect al
bazei de date (calcul, regulă sau altă expresie) destinat pentru manipularea datelor în interiorul
bazei de date multidimensionale. Serverul OLAP poate să reprezinte, fie o etapă fizică a
procesării informaţiei multidimensionale pentru a furniza timp de răspuns rapid şi consistent
utilizatorilor finali, fie poate să populeze structurile sale de date în timp real având ca surse baze
de date relaţionale sau alte tipuri de baze de date. De asemenea, serverul OLAP poate să fie o
reprezentare a ambelor alternative de mai sus.
Baza de date multidimensională este formată din două structuri: structura datelor în care
se stochează măsurile activităţilor preluate din tabela de fapte a depozitului de date. Datele vor fi
prezentate utilizatorului în celulele tabelelor pivot; structura metadatelor care este formată din
totalitatea dimensiunilor şi membrilor acestora precum şi din structurile ierarhice ale
dimensiunilor. Utilizatorul poate vizualiza această structură ca nume de coloane şi linii care
reprezintă informaţiile de pe axele cuburilor.
Numerotarea nivelurilor începe de la rădăcină (nivel 0) către frunze (unde va apare
nivelul maxim). Ierarhiile posedă propriile lor seturi de niveluri, chiar dacă unele ramuri sunt
comune. De exemplu: ierarhia Calendar este formată din nivelele (0-5): Timp, An, Semestru,
Trimestru, Lună, Dată calendaristică, ierarhia Anotimp este formată din nivelele (0-4): Timp,
An, Sezon, Lună, Dată calendaristică, iar ierarhia Anotimp este formată din nivelele (0-3): Timp,
Săptămână, Zi, Dată calendaristică. Pe fiecare nivel se stochează membrii dimensiunilor
respective. Rădăcina care se observă că este comună (Timp) este nivelul de agregare maxim
având ca unic membru implicit “all”. Orice nod în arbore este un membru al unei subdimensiuni.
Nodurile subordonate unui nod formează un set, iar orice membru al unui set are un număr de
ordine începând cu 0. De asemenea, orice membru poate avea proprietăţi ca de exemplu unele
zile sunt sărbători legale, unii ani sunt bisecţi. Exemplul prezentat presupune o structură strict
arborescentă întrucât fiecare membru al unei dimensiuni are submembri distincţi, chiar dacă
aceştia au aceleaşi valori. De exemplu fiecare an are setul lui de luni, fiecare săptămână are setul
ei de zile. Ca mod de identificare, membrii vor fi calificaţi cu numele membrului de pe nivelul
precedent căruia acesta i se subordonează: 2007-feb, 2008-feb. Tipul acesta de dimensiuni care
au membri ce se repetă se pot crea şi ulterior prin combinarea a două nivele din ierarhie sau din
ierarhii diferite pentru a crea un nivel nou, virtual.
17
Turban E., Op.cit.
Pentru a se putea naviga pe o structură arborescentă, sistemele de gestiune pun la
dispoziţie operatori ierarhici. De exemplu, pentru exploatarea datelor, sistemele de gestiune
oferă operatori pe hipercuburi. Fizic, datele sunt stocate într-un fişier cu acces direct pe baza
adresei fizice absolute sau relative a înregistrării obţinute prin exploatarea tabelelor bitmap
obţinute în urma creerii structurii de date. Aceste tabele sunt puntea de legătură dintre structura
de date şi structura de metadate. Iată cum se face această legătură: se ştie că pentru fiecare
membru al fiecărei dimensiuni există o coloană (1 bit) în tabele bitmap pentru fiecare înregistrare
există un rând în acelaşi tabel în care se stochează 1 în dreptul biţilor asociaţi membrilor
dimensiunii existente în înregistrare. Datorită acestui procedeu, câmpul respectiv nu trebuie
stocat în înregistrare, iar structura datelor este redusă la un minim necesar. Din tabelul de măsuri
se vor putea selecta acele înregistrări care au un bit 1 în poziţia corespunzătoare biţilor 1 din
mască. Un inconvenient al tabelelor bitmap este acela că ele sunt greu de obţinut, iar apariţia
unor noi membri sunt greu de inserat în poziţia corespunzătoare. Procesul de refacere a unui
tabel bitmap este mare consumator de timp având în vedere că tabelul de fapte din depozit (care
se va transforma în baza multidimensională) poate avea un număr imens de înregistrări.
Masca de interogare se obţine prin exploatarea structurii ierarhice a metadatelor de unde
se pot extrage seturi de membri pentru dimensiunile desemnate prin specificatorii de axe.
Adresarea tabelului de măsuri se face în mod direct pe baza unui set de adrese de înregistrări
care se suprapun cu tiparul măştii. Din tabel se preiau în această manieră valorile care se
centralizează pentru celula cubului cu dimensiunile sale.
Se poate afirma că structura metadatelor este de tip ierarhic, fiecare dimensiune fiind
stocată într-o structură arborescentă cu o singură rădăcină (all) şi cu o multitudine de ramuri care
pot conţine frunze comune (ierarhii alternative). Orice nivel al unei ierarhii poartă un nume şi
conţine un set de membri. De altfel şi ierarhiile alternative poartă un nume pentru a putea fi
distinse. Structura în care sunt stocate datele este o structură cu acces direct prin tabele bitmap
exploatate prin măşti.
Un hipercub este proiectat astfel încât el să aibă în vedere nivelul de detaliu necesar în
procesul de analiză. Nivelul de detaliu (granularitatea) reprezintă numărul de membri ai unei
dimensiuni. Datele pot fi vizualizate printr-o selecţie în hipercub pe baza unui criteriu ierarhic
care ar putea fi de exemplu structura organizaţională pe care o conduce un anumit manager. Dacă
de la pornire, granularitatea este prea mare, datele vor fi mult prea centralizate şi nu se va putea
face decât o analiză grosieră. Ajustarea nivelului de granularitate este realizată de OLAP prin
exploatarea ierarhiilor dimensiunilor prin comasări şi descompuneri ale măsurilor prin proceduri
care poartă numele de roll-up şi drill-down. Prin intermediul acestor proceduri se face o
deplasare a proiecţiei cubului în sus sau jos pe nivelele ierarhice ale fiecărei dimensiuni (zoom
in; zoom out), executând de fiecare dată centralizări ale măsurilor stocate la cea mai mică
granularitate după criterii ierarhice stabilite în prealabil.
Este stabilit un nivel de granularitate iniţial sub care nu se poate coborî. Din acest motiv
este important ca dimensiunile de bază să fie cât mai rafinate sau să se creeze Data Marts unde
hipercuburile sunt proiectate la nivelul de detaliu stabilit de managementul operaţional. Pentru
managementul superior se va construi un depozit cu hipercuburi centralizatoare cu granularitate
mare. Prin drill-down se obţin detalii, iar prin roll-up se obţin date sintetice.
Un alt grup de operaţii oferit de OLAP este secţionarea (slicing) şi defalcarea (dicing).
Prin secţionare, se creează posibilitatea selectării prin vizualizare doar pentru un membru al unei
dimensiuni, adică un plan din cubul tridimensional. Secţiunea astfel obţinută va apare ca un tabel
pilot cu valorile dimensiunilor pe laturi şi cu specificarea valorii alese pentru dimensiunea
suprimată. Defalcarea (dicing) este operaţia de proiectare a unei dimensiuni pe o alta. De obicei
o dimensiune din primul plan este combinată cu o altă dimensiune din adâncime. Acest proces se
mai numeşte imbricarea dimensiunilor.
Dimensiunile unui cub pot fi private sau pot fi utilizate în comun şi de alte cuburi (ele
provin din depozitele cu schema de tip constelaţie). Proiectarea structurilor depozitelor de date şi
a cuburilor OLAP este un proces ce se desfăşoară continuu pe tot parcursul existenţei (vieţii)
aplicaţiei, dimensiunile cuburilor fiind în strânsă dependenţă cu detaliile activităţii structurate.
Aplicaţiile construite cu tehnologia OLAP îşi găsesc locul în multiplele domenii ale
activităţii întreprinderilor, de la finanţe, bănci, marketing până la producţie şi vânzări. De
exemplu, activitatea de producţie poate fi susţinută de aplicaţii OLAP cum sunt: planificarea
operaţiilor, controlul calităţii produselor, analiza rebuturilor, analiza optimizării raportului dintre
cost-beneficii.
OLAP, utilizând tehnici inteligente de optimizare, beneficiază de avantajul timpului de
răspuns mic.
Datele referitoare la gestiunea mijloacelor fixe sunt stocate într-o bază de date
tranzacţională ce stă la baza construirii cuburilor de date. Datele sunt organizate în tabele care
corespund dimensiunilor, ierarhiilor şi tabelelor de fapte ale cuburilor multidimensionale.
Această bază de date tranzacţională este denumită MIFIX şi conţine următoarele tabele
(fig. 3.5):
• Dbo.fapte_miscare_MF– conţine faptele referitoare la mişcarea mijloacelor fixe (intrări
şi ieşiri), precum şi la valoarea de inventar şi amortizarea acestora.
• Dbo.PV_intrare – conţine date referitoare la intrarea mijloacelor fixe;
• Dbo.PV_iesire – conţine date referitoare la ieşirea mijloacelor fixe;
• Dbo.Gestionari - conţine date cu privire la identificarea gestionarilor care răspund de
mijloace fixe;
• Dbo.Timp - datele conţinute în acest tabel reprezintă perioadele de timp de manipulare a
mijloacelor fixe; pe baza acestor date se realizează dimensiunea Timp cu următoarea ierarhie: an,
luna, trimestru, sezon.
Fig.3.5 Structura bazei de date MIFIX realizată în Microsoft SQL Server 2005
1
Han, J., Kamber, M. - Data Mining- Concepts and Technique, Second Edition, Morgan Kaufmann Publishers,
USA, San Francisco CA 2006.
Existenţa unor volume imense de date a pus problema reorientării utilizării lor de la un
proces de exploatare retrospectiv către unul prospectiv. Data Mining poate avea mai multe
definiţii, însă toate converg în esenţă către miezul problemei şi anume că acest concept
reprezintă un proces de extragere de informaţii noi din colecţiile de date existente. Termenul de
dată are semnificaţia de descriere a unui eveniment bine determinat care se produce în lumea
reală şi este perfect verificabil. Prin tehnologia Data Mining se prelucrează date care referă
perioade anterioare (date istorice), care sunt examinate şi sunt deja cunoscute, pe baza lor
constituindu-se un model sau şablon. Acest model sau şablon va putea fi aplicat situaţiilor noi de
acelaşi tip cu cele deja cunoscute. Informaţiile care se pot obţine prin Data Mining sunt
predictive sau descriptive. De exemplu direcţionarea acţiunilor de marketing pot constitui o
problemă tipică predictivă.1 Detectarea fraudelor produse cu carduri bancare reprezintă o
problemă tipică de aplicaţie descriptivă.
Dezvoltarea tehnicilor de Data Mining se explică prin acumularea de volume imense de
date pe care organizaţiile economice le-au derulat de-a lungul anilor. De asemenea, concurenţa
tot mai acerbă precum şi creşterea exigenţelor pieţei au determinat firmele să ia tot mai mult în
considerare potenţialul uriaş pe care îl oferă arhivele de date. Alături de arhivele de date
memorate pe suporturi informatice mai există încă doi factori care au dus la necesitatea Data
Mining: existenţa şi perfecţionarea algoritmilor şi a produselor-program dedicate precum şi
creşterea capacităţii de memorare şi prelucrare a calculatoarelor electronice care permit tratarea
corelativă a volumelor mari de date.
Este de remarcat că depozitele de date pot fi surse pentru Data Mining, iar rezultatele
obţinute pot completa câmpurile înregistrărilor din depozitele de date, care apoi pot fi
valorificate prin proiecţiile multidimensionale specifice OLAP.
Potenţialul oferit de Data Mining se încorporează în procesele comerciale ale firmelor,
iar căutarea informaţiilor şi cunoştinţelor nu devine un scop în sine ci este utilă doar dacă este
transformată ca acţiune. Astfel firmele pot alege să reacţioneze sau nu la situaţiile diverse create
de realitate (diminuarea numărului de clienţi, scăderea vânzărilor, pierderea unor pieţe de
desfacere etc.). Pasul următor după această alegere este exploatarea propriu-zisă a datelor
utilizând diverşi algoritmi. De multe ori, acţiunea de Data Mining poate fi un eşec şi nu o reuşită,
fiind posibil ca măsurile luate să nu fie adecvate informaţiilor obţinute.
Prin Data Mining, oamenii de afaceri reuşesc să se focalizeze mai bine pe cei mai buni
clienţi ai lor, să depisteze şi să prevină fraudele, să descopere caracteristicile de influenţă care
afectează cel mai mult indicatorii-cheie de performanţă, KPI (Key Performance Indicators) ai
afacerii, respectiv ai societăţii, să găsească informaţia ascunsă în baza de date/depozitul de date.
Cu ajutorul tehnicilor Data Mining, orice proces sau fenomen reflectat în bazele de date,
respectiv depozitele de date, constituie temă de analiză şi raportare în cadrul unei platforme
dedicate pentru cercetarea afacerilor, BI (Business Intelligence), impropriu dar sugestiv tradusă
în unele lucrări româneşti sub denumirea de „inteligenţa afacerilor”.
Spre deosebire de tehnicile OLAP (abordate în capitolul anterior) care abordau interogări
şi raportări standard (care sunt clienţii cei mai valoroşi, care produse s-au vândut cel mai mult
sau care sunt zonele de costuri cele mai ridicate), tehnicile Data Mining explorează volumele
foarte mari de date heterogene cu scopul de a previziona, a înţelege şi de a dezvolta noi abordări
1
Zaharie D, Albescu F, colectiv – Operă citată
asupra problematicii supuse soluţionării. Pe piaţa actuală extrem de competitivă, companiile
trebuie să-şi administreze şi să exploateze cu eficienţă cele mai valoroase active (assets) şi
depozite de date (Data Warehouse), cu precădere informaţia valoroasă ascunsă în aceste
depozite.
Instrumentele tradiţionale de cercetare a afacerilor – rapoarte, interogări şi raportări
interactive – permiteau sintetizarea a ceea ce s-a întâmplat în trecut, aspecte reflectate de datele
istorice ale companiei şi de unele date curente. Prin tehnica OLAP se obţin analize asupra unor
tendinţe, bazate în special pe rezumate, comparări, analize şi previziuni ce au la bază valori
medii, sume şi grupări de date prin agregare. Prin Data Mining se adânceşte explorarea
depozitelor de date prin descoperirea informaţiei ascunse cu ajutorul şabloanelor (patterns),
factorilor de influenţă, clusterelor, profilelor şi predicţiilor aplicate volumului mare de date. De
exemplu, prin analiza profilurilor celor mai buni clienţi actuali, prin Data Mining se pot construi
modele şi aplicaţii integratoare destinate identificării clienţilor care au cele mai mari şanse să
devină performanţi în viitor, cu toate că, în prezent, nu fac parte din portofoliul cu cei mai buni
clienţi ai companiei. Managerii organizaţiilor economice lucrează astfel, în deciziile lor, cu
„valoarea strategică” a clienţilor actuali prin care se previzionează însăşi viitorul afacerii.
Toate elementele considerate anterior conduc spre ideea de ciclu în utilizarea Data
Mining în cursul căruia sunt patru etape:
• definirea oportunităţilor comerciale şi a datelor pe care se face exploatarea;
• obţinerea de informaţi şi cunoştinţe din colecţiile de date existente prin tehnici Data
Mining;
• adoptarea deciziilor şi acţiunilor în urma informaţiilor rezultate;
• cuantificarea cât mai corectă a rezultatelor concrete pentru a identifica şi alte căi de
exploatare a datelor.
1
Han, J., Op.cit.
UTILITATOR
pentru
cunoştinţe
MODELE
DE DATE
selecţie, transformare
şi eventual reducere
Data
Warehouse
curăţire şi integrare
În mod uzual, datele rezultate din procesele de curăţire şi integrare sunt stocate în Data
Warehouses, caz în care transformarea şi unificarea lor se realizează înainte de procesul de
selecţie. Pentru a obţine o reprezentare mai „mică” a datelor originale poate fi realizată şi
reducerea datelor (data reduction), fără a le afecta integritatea datelor.
Procesul Data Mining interacţionează cu utilizatorul prin baza de cunoştinţe destinată
acestuia, dintre modelele de date descoperite, cele cu importanţă pentru utilizator reprezentând,
de fapt, cunoştinţe noi care se stochează în baza de cunoştinţe spre a-i fi prezentate.
Procesul Data Mining este o parte esenţială a procesului de descoperire a cunoştinţelor
din date deoarece descoperă modelele de date “ascunse” pentru a fi evaluate, în conformitate cu
cerinţele utilizatorilor.
Din punctul de vedere al funcţionalităţii sale, Data Mining este procesul de descoperire a
cunoştinţelor care interesează dintr-o cantitate mare de date stocată în baze de date, Data
Warehouses sau în alte tipuri de depozite de date.
Privit din perspectiva depozitului de date - Data Warehouse, procesul Data Mining
reprezintă un stadiu avansat de procesare analitică on-line (OLAP). Data Mining depăşeşte însă
procesul analitic limitat, de tip rezumativ, al sistemelor Data Warehouse prin tehnicile specifice
de analiză a datelor, mult mai avansate.
Data Mining implică o integrare de tehnici din mai multe domenii. Practic, Data Mining
reprezintă un domeniu interdisciplinar, principalele discipline cu care se intersectează fiind cele
cuprinse generic sub denumirea de Tehnologia Bazelor de Date - Databases (DB), Tehnologia
depozitelor de date - Data Warehouse (DW), Tehnologia Digitală, Tehnologiile Informaţiei şi
ale Comunicaţiilor (IT&C) şi Statistică (fig. 4.2).
Calculatoare Modelarea
datelor
Statistică
Vizualizarea
Tehnologiile datelor
Bazelor de Date Tehnologia
(DB) şi Data Tehnologia Analiza
Digitală şi datelor
Warehouses Data Mining
(DW)
IT&C
Procesarea
imaginilor
Alte domenii
Machine Reţele Regăsirea
learning neurale informaţiilor
or
18
Two Crows: Data Mining Glossary.
Modelarea este o tehnică general acceptată de specialiştii din toate domeniile de
activitate. Se construiesc modele arhitecturale pentru a ajuta utilizatorii lor să vizualizeze
clădirile. Se construiesc modele matematice pentru a analiza traiectoria navetelor spaţiale în
cosmos sau tendinţele de evoluţie a pieţei. În era comunicaţiilor digitale şi a internet- ului, se
construiesc modele software care conduc la realizarea unor sisteme informatice flexibile, uşor
adaptabile la schimbările rapide de tehnologice şi la cerinţele utilizatorilor, mereu în creştere.
După cum, se construiesc modele de date pentru a descoperi cunoştinţele “ascunse” în depozitele
de date, utile în fundamentarea deciziilor manageriale strategice şi de perspectivă.
Extragerea modelelor de date, aplicând asupra datelor stocate în baze de date, data
warehouse sau în orice alt tip de depozit de date tehnici inteligente (avansate) de analiză,
denumite generic tehnici data mining, este un proces laborios denumit, în mod uzual, proces
data mining sau, pe româneşte, proces de “minerit”, prin similitudine cu procesul clasic de
minerit care urmăreşte extragerea minereurilor din roci. În acest context, se spune, în mod uzual,
că modelele de date care pot fi extrase printr-un proces de “minerit” sunt “minate”, adică
sunt căutate şi extrase din datele stocate în depozitele de date ale utilizatorului, aşa cum sunt
căutate şi extrase minereurile din roci.
Modelele de date care pot fi “minerite” sunt grupate pe categorii determinate de funcţiile
sistemului Data Mining, denumite pe scurt funcţii Data Mining, care urmăresc extragerea
modelelor de date din datele utilizatorului stocate în depozite de date. Pentru îndeplinirea
(realizarea) funcţiilor sale, sistemul Data Mining execută sarcini specifice, denumite în mod
uzual sarcini Data Mining, care au ca rezultat modele de date care pot fi “minerite” de
utilizator.
O sarcină Data Mining se defineşte ca fiind o activitate sau un set de activităţi care se
execută pentru îndeplinirea sau realizarea unei funcţii a sistemului Data Mining. Practic, sarcina
Data Mining reprezintă partea procesului Data Mining care se desfăşoară pentru îndeplinirea
unei funcţii Data Mining. La modul general, sarcinile Data Mining pot fi clasificate în două mari
categorii:
- sarcini descriptive, cele care descriu caracteristicile generale ale datelor stocate
în baza de date, Data Warehouse sau în orce alt tip de deposit de date;
- sarcini predictive, cele care realizează deduceri de date din datele curente cu
scopul de a face previziuni, determinând tendinţele de evoluţie ale acestora.
Principalele funcţii Data Mining, sarcinile Data Mining care trebuie executate pentru
realizarea lor şi categoriile de modele Data Mining care se pot obţine ca rezultat, sunt
următoarele:
- descriere clasă/concept este funcţia sistemului Data Mining realizată prin
executarea sarcinilor Data Mining - caracterizare date şi discriminare date care au
ca rezultat un model Data Mining de tip descriere, denumit în mod uzual descriere;
- “mineritul” modelelor frecvente este funcţia sistemului Data Mining realizată prin
executarea sarcinilor Data Mining asociaţie date şi corelaţie date care au ca rezultat
modele Data Mining frecvente;
- clasificarea şi predicţia, este funcţia sistemului Data Mining realizată prin
executarea sarcinilor Data Mining de clasificare date şi predicţie care au ca rezultat
modele Data Mining de clasificare (clasificator) şi predicţie (predictor);
- analiza grupurilor, este funcţia sistemului Data Mining realizată prin executarea
sarcinii Data Mining de grupare a datelor cu caracteristici representative
commune, care are ca rezultat un model Data Mining de grupare;
- analiza excepţiilor, este funcţia sistemului data mining realizată prin executarea
sarcinii Data Mining de analiză a excepţiilor care are ca rezultat un model Data
Mining al excepţiilor (date atipice);
- analiza evoluţiei, este funcţia sistemului Data Mining realizată prin executarea
sarcinii Data Mining de analiză a evoluţiei datelor care are ca rezultat un model
Data Mining tendinţelor de evoluţie (a datelor).
De cele mai multe ori, utilizatorii nu ştiu ce modele de date prezintă interes pentru ei şi
doresc să extragă mai multe categorii diferite de modele din datele stocate în depozitlele de date
la dispoziţia lor (baze de date, Data Warehouse etc.). De aceea, este important ca un sistem Data
Mining să poată “mineri” categorii variate de modele de date pentru a răspunde diverselor
aplicaţii şi/sau aşteptărilor diferiţilor utilizatori. Este important ca un sistem Data Mining să
permită extragerea de modele de date pe diferite nivele de abstracţie, corespunzătoare nivelelor
de detaliu solicitate de utilizatori. Şi este important ca un sistem Data Mining să accepte
sugestiile utilizatorilor pentru a direcţiona căutările către modelele de date care îi interesează.
Într-un sistem Data Mining datele stocate în baze de date, Data Warehouse sau în orice
alt tip de depozit de date sunt grupate în clase sau asociate la concepte. Spre exemplu, datele
stocate în baza de date de evidenţă a producţiei organismului economic definit generic pot fi
grupate în două clase care conţin produse de categoria a I-a şi produse de categoria a II-a, iar
datele stocate în baza de date de evidenţă a clienţilor pot fi asociate conceptelor mariClienţi şi
bugetClienţi. După cum, datele stocate în baza de date de evidenţă a articolelor unui magazin de
tehnică de calcul pot fi grupate în şase clase care conţin calculatoare, imprimante, scannere,
camere video şi produse software, şi pot fi asociate conceptelor articolePentruCasa,
articoleProfesionale, articoleScumpe şi articoleCuPreţRedus.
Descrierea clasă/concept este funcţionalitatea sistemului Data Mining care se realizează
prin executarea următoarelor sarcini Data Mining:
- caracterizarea datelor, este sarcina Data Mining care constă în rezumarea datelor din clasa
analizată, denumită în mod uzual clasă-ţintă;
- discriminarea datelor, este sarcina Data Mining care constă în compararea datelor din clasa
ţintă cu datele dintr-una sau din mai multe clase de comparat;
- caracterizarea şi discriminarea datelor, este sarcina Data Mining care constă atât în
rezumarea datelor din clasa ţintă, cât şi în compararea acestora cu cu datele dintr-una sau din
mai multe clase de comparat.
Caracterizarea datelor este rezumarea, în termeni cât mai concişi şi mai precişi cu
putinţă, a caracteristicilor sau trăsăturilor generale, esenţiale, aferente datelor din clasa ţintă.
Datele din clasa ţintă, specificate de utilizator, se pot colecta, în mod tipic, printr-o interogare a
bazei de date (database query) în care sunt stocate. Spre exemplu, pentru caracterizarea
produselor fabricate de un organism economic ale căror vânzări au crescut cu mai mult 20% în
ultimul an, utilizatorul colectează datele de analizat prin executarea unei interogări (query) SQL
asupra bazei de date de evidenţă a vânzărilor.
Caracterizarea efectivă a datelor stocate într-o bază de date, Data Warehouse sau în orice
alt tip de depozit de date se realizează prin aplicarea următoarelor metode de analiză a datelor:
- rezumarea simplă a datelor, bazată pe măsurători statistice şi pe eşantionare;
- cubul de date, bazat pe operaţiile OLAP roll- up şi drill- down, care poate fi utilizat pentru
rezumarea datelor, proces controlat de utilizator, de-a lungul dimensiunilor specificate de
acesta;
- tehnica de inducţie orientată pe atribut, care poate fi utilizată pentru a realiza caracterizarea
şi generalizarea datelor fără interacţiunea directă a utilizatorului cu sistemul Data Mining.
Caracterizarea datelor, ca sarcină Data Mining descriptivă, are ca rezultat descoperirea
unui model Data Mining de tip descriere (denumit în mod uzual descriere), care poate fi
prezentat utilizatorului sub diferite forme denumite în mod uzual forme de caracterizare, cele
mai uzuale fiind diagramele, graficele, tabelele, cuburile de date, relaţiile generalizate sau
regulile de caracterizare.
Discriminarea datelor este comparaţia caracteristicilor generale, esenţiale, aferente
datelor din clasa ţintă cu caracteristicile generale, esenţiale, aferente datelor dintr-una sau mai
multe clase de comparat. Datele din clasele ţintă şi de comparat, specificate de utilizator, se pot
colecta, în mod tipic, prin interogarea bazei de date (database query) în care sunt stocate. De
exemplu, pentru compararea trăsăturilor generale ale studenţilor cu medie de promovare în anul
universitar anterior, cu trăsăturile generale ale studenţilor cu medie sub media de promovare în
aceeaşi perioadă de timp, utilizatorul poate colecta datele de analizat prin executarea unei
interogări (query) SQL asupra bazei de date de evidenţă a studenţilor.
Metodele de analiză a datelor, utilizate pentru discriminarea datelor stocate într-o bază de
date, Data Warehouse sau în orice alt tip de depozit de date, sunt similare celor utilizate pentru
caracterizarea datelor, şi anume:
- compararea simplă a datelor, bazată pe rezumarea acestora, obţinută prin măsurători
statistice şi de eşantionare efectuate asupra datelor din clasele ţintă şi de comparat;
- cubul de date, bazat pe operaţiile OLAP roll- up şi drill- down, care poate fi utilizat pentru
rezumarea şi compararea datelor prin controlul utilizatorului, de-a lungul dimensiunilor
specificate de acesta;
- tehnica de inducţie orientată pe atribut, care poate fi utilizată pentru a realiza discriminarea
şi generalizarea datelor fără interacţiunea directă a utilizatorului cu sistemul Data Mining.
Discriminarea datelor, ca sarcină Data Mining descriptivă, are ca rezultat descoperirea unui
model Data Mining de tip descriere (denumit în mod uzual descriere), care poate fi prezentat
utilizatorului sub aceleaşi forme ca şi modelul data mining rezultat prin caracterizarea datelor,
cu deosebirea că formele de prezentare obţinute în acest caz sunt denumite, în mod uzual, forme
de discriminare (grafice de discriminare, reguli de discriminare etc.) şi descrierile
discriminărilor pot conţine măsuri de comparaţie care ajută la deosebirea clasei ţintă de clasele
de comparat.
Sistemul Data Mining este sistemul informatic format din ansamblul componentelor
hardware şi software care interacţionează şi comunică între ele pentru descoperirea (extragerea)
modelelor de date care reprezintă cunoştinţele ce interesează dintr-o cantitate mare de date
stocată în baze de date, Data Warehouses sau în alte tipuri de depozite de date. Altfel spus, este
sistemul informatic în cadrul căruia se desfăşoară procesul Data Mining.
4.5.1. Structura sistemului Data Mining
Structura sistemului Data Mining (model de principiu) reprezintă, prin definiţie, modul
de organizare internă a acestuia pentru îndeplinirea funcţiei sale: aplicarea tehnicilor Data
Mining asupra datelor stocate în baze de date, Data Warehouses sau în alte tipuri de depozite de
date, cu scopul de a descoperi modele de date care interesează în fundamentarea deciziilor
manageriale, proces denumit generic proces Data Mining (fig. 4.3).
Setul de date care trebuie “minerit”, tehnicile Data Mining şi modelele de date
descoperite în procesul Data Mining reprezintă componentele structurale ale sistemului Data
Mining.
Interfaţa utilizator
Evaluarea modelului
Bază de
Data mining engine cunoştinţe
1
Zaharie D, Albescu F, colectiv – Op. Cit.
semnificaţie în maniera că distanţa de la elementul A la elementul B este egală cu distanţa de la
B la A şi nu există un punct C intermediar lui A şi B prin a cărei parcurgere să se scurteze
drumul de la A la B. Ca moduri de calcul pentru distanţa câmpurilor numerice se enumeră:
• diferenţa între valoare absolută |A-B|;
• pătratul diferenţei (A-B)2
• diferenţa între valoare absolută normalizată |A-B| (diferenţa maximă). Ultima variantă
produce rezultate cu valori cuprinse între 0 şi 1.
Măsurarea distanţei între înregistrări. Când apare necesitatea de a considera simultan
mai multe câmpuri ale înregistrării, se calculează distanţa pentru fiecare câmp în parte, iar
rezultatul se combină într-o valoare mică care reprezintă distanţa înregistrării respective.
Se vor enumera câteva procedee de combinare a distanţei câmpurilor: însumarea,
însumarea normalizată (suma distanţelor/suma maximă), distanţa euclidiană (rădăcina pătrată din
suma pătratelor distanţelor). Distanţa euclidiană evidenţiază cel mai bine înregistrările pentru
care toate câmpurile sunt vecine.
Combinarea rezultatelor presupune aflarea celor mai apropiaţi vecini, iar soluţia
problemei se obţine prin combinarea răspunsurilor obţinute de la aceştia. Fiecare vecin poate
avea diverse variante de răspuns, dar se vor lua în calcul doar cei care sunt mai apropiaţi.
Rezultatul ce obţine majoritatea va fi atribuit cazului curent. Cerinţa minimă este ca numărul
votanţilor să fie impar, pentru a evita situaţiile de nedeterminare.
Metodele care se bazează pe vot dau rezultate satisfăcătoare în situaţiile în care
răspunsurile aşteptate sunt de tip enumerativ. O altă soluţie posibilă este interpolarea valorilor
înregistrărilor vecine care însă introduce o aplatizare a rezultatelor care se înscriu între cele două
limite folosite în calcul. De asemenea, se poate constata că rezultate bune se obţin prin metode de
regresie statistică aplicate asupra valorilor date de vecinii cei mai apropiaţi. Se obţine ecuaţia
unei drepte sau a unei curbe care permite calcularea mai precisă a valorilor aferente cazului
curent.
Se poate concluziona că raţionamentul bazat pe cazuri este o tehnică de Data Mining
suficient de bună şi care se poate aplica unui mare număr de probleme, caz în care conduce la
soluţii acceptabile. Toate acestea sunt valabile dacă volumul de date pe care se bazează este bine
ales şi concludent. Ca avantaje pentru această metodă se pot enumera:
• aplicarea unui mare număr de tipuri de date, pe structuri de date complexe, iar câmpurile
tip text sunt mai bine tratate decât în alte tehnici;
• luarea în considerare a oricât de multor câmpuri;
• rezultatele obţinute sunt explicite;
• elementele de noutate care apar în procesul de învăţare sunt uşor de înglobat şi de folosit
în raţionamente.
Ca orice metodă prezintă şi unele dezavantaje dintre care se pot menţiona: volumul mare
de memorie şi resursă timp de prelucrare relativ mare, şi de asemenea, timpul de prelucrarea
mare pentru aplicarea funcţiilor de distanţă asupra tuturor înregistrărilor şi câmpurilor necesare
pentru obţinerea rezultatelor.