Filip Academia Romana i Institutul naional de cercetare-dezvoltare n informatica-ICI Rezumat. Analza datelor constitue o etapa initiala importanta in luarea deciziilor. Ea permite identificarea cauzelor care duc la aparitia unei situatii decizionale. Acest al doilea articol al unei serii dedicate prezentarii conceptelor i solutiilor din domeniul deciziei asistate de calculator face o trecere n revista a unor rezultate recente privind magaziile de date, prelucrarea analitica on-line i mineritul datelor. Acestea reprezinta tehnologii noi si in plina dezvoltare, care au atras atentia in primul rand a marilor firme producatoare de produse informatice. 1. Introducere ntr-un articol anterior(Filip,2000), au fost prezentate cteva metode de asistare a proceselor decizionale n care poziia central era ocupat de intuiia i judecata uman. Tot n acel capitol, s-a afirmat c, acele metode, n care caracterul calitativ predomin, necesit de multe ori efectuarea unei analize a datelor. Scopul acestui articol este de a face o prezentare sistematic a principalelor concepte i rezultate n domeniul asistrii cu mijloace informatice a acelor activiti din procesul decizional care presupun analiza datelor. Este vorba de trei concepte i anume: a) magaziile(sau depozitele) de date (Data warehouse DW); prelucrarea analitic on line (On line analytic processing OLAP) i c) mineritul datelor (Data mining DM), denumit uneori descoperirea cunotinelor (knowledge data discovery KDD). Raiunile care au condus la alegerea coninutului acestui articol privesc att continuitatea prezentrii ct i, mai ales, efervescena domeniului abordat. ntr-adevr, dup cum s-a artat mai sus, metodele i tehnicile care urmeaz a fi prezentate n acest articol au ca scop facilitarea proceselor decizionale n
2 care intuiia i judecata sunt prevalente i au i au uneori nevoie de un suport informaional. n ceea ce privete dezvoltarea puternic a domeniului, n special n partea a doua a ultimei decade scurse, se observ un interes major i o competiie acerb din partea marilor productori de tehnologii informatice. Acestea au contientizat limitele sistemelor actuale de gestiune a bazelor de date n contextul schimbrilor petrecute (i oportunitilor aprute) n modul de administrare a ntreprinderilor i afacerilor, care presupune considerarea ct mai operativ a unei multitudini de surse informaionale diverse. n continuare, articolul este organizat dup cum urmeaz: Capitolul 2 abordeaz problematica magaziei de date. Magazia de date este un concept afirmat la nceputul anilor 90 i este definit prin analogie cu depozitele de bunuri industriale. Ca i acestea, magazia de date este alimentat dintr-o multitudine de baze de date care au meniri diverse n scopul combinrii elementelor intrate n magazie ntr-un pachet integrat, care conine elemente verificate. Mai nti (n subcapitolul 2.1.), se evoc o taxonomie vizionar (propus cu peste dou decenii n urm) a instrumentelor informatice de asistare a deciziilor, urmat de enumerarea tipurilor de date folosite n administrarea i funcionarea unei organizaii i de prezentarea necesitii noului concept. Subcapitolul 2.2. prezint caracteristicile definitorii generale ale magaziei de date i descrie cteva tipuri particulare. Capitolul 3. este dedicat sistemelor de prelucrare analitic on line (OLAP). OLAP este instrumentul informatic care permite realizarea pachetului de date plecnd de la surse diferite i livrarea informaiilor n forma solicitat pentru luarea deciziei. Se prezint mai nti (n subcapitolul 3.1.) definiia dat de Codd, care a inspirat, micarea OLAP, tipurile funcionale i testul FASMI, care poate califica un produs informatic n categoria OLAP. n continuare, subcapitolul 3.2. conine o descriere a principalelor dou direcii tehnologice i anume: a) bazele de date multidimensionale (Multidimensional data bases MDB) i soluiile
3 relaionale OLAP (Relational/OLAP ROLAP) denumite uneori OLAP-perelational. Ideile OLAP au rdcini vechi i acestea se evoc n subcapitolul 3.3. Capitolul 4. trece n revist definiiile i tehnicile folosite n mineritul datelor. Capitolul 5., care ncheie acest articol, conine unele comentarii privind domeniul instrumentelor de asistare a deciziilor centrate pe date i recomand cteva surse importante de documentare (n special pe Internet), care sunt n curs de continu mbogire. Articolul de fa are o orientare mai pronunat dect cel anterior( Filip,2000) ctre tehnologiile informatice. El este recomandat n primul rnd analitilor i facilitatorilor proceselor decizionale. 2. Magazii de date Magazia (sau depozitul) de date reprezint un nou care vizeaz asistarea proceselor decizionale n contextul noilor cerine de administrare a organizaiilor folosind analiza a ct mai multe informaii provenind din surse diferite. 2.1. Evoluii n asistarea deciziei centrate pe date Asistarea deciziei centrat pe date au un caracter normativ relativ sczut. Caracteristica sa esenial const n furnizarea la timp a informaiilor cerute de decident n activitile sale bazate n primul rnd pe intuiie i judecat pentru rezolvarea problemei decizionale. 2.1.1. O viziune timpurie La sfritul anilor 70, Alter (1977, 1980), n ncercarea sa de a realiza o clasificare a instrumentelor i sistemelor informatice folosite n acea vreme pentru asistarea deciziilor, ajungea la concluzia c, cel mai util criteriu de
4 clasificare este gradul n care rezultatele furnizate de produsul informatic poate determina n mod direct decizia, sau, altfel spus, gradul n care ieirile sistemului implic o aciune [efectiv]. Alter distingea apte clase, pe care le propunea n ordinea cresctoare a gradului de normativitate. Aceste clase variau de la sistemele de tip sertare cu dosare (cele mai pasive), la modelele computerizate care sugereaz direct decizia (cele mai normative) n cazul unor situaii decizionale bine structurate. Cele apte clase se grupau n final n dou superclase: a) sistemele informatice orientate ctre date i b) sistemele orientate ctre modele. Metodele i tehnicile care corespund celei de a doua superclase vor fi descrise n capitolele 4 7 care urmeaz. Instrumentele orientate ctre date ndeplinesc funcii de regsire a datelor i/sau de analiz a datelor. Principalele clase identificate de Alter (1977) sunt prezentate n continuare: 1. Sistemele de tip sertar cu dosare, care au ca scop automatizarea unui mod de lucru manual i servesc la accesul on-line la anumite date. Ele sunt destinate persoanelor cu sarcini operaionale (funcionari, efi de ateliere) care au nevoie de a avea acces imediat la valoarea curent a anumitor variabile. De exemplu, un ef de atelier, atunci cnd dorete s lanseze o anumit lucrare pentru a suferi o prelucrare mecanic, are nevoie s cunoasc situaia curent a ncrcrii mainilor unelte din atelier. n acelai mod, patronul unui magazin trebuie s cunoasc nivelul stocurilor produselor aflate n aprovizionare. 2. Sisteme pentru analiza datelor, care ajut personalul cu sarcini de sprijin al conducerii n analiza fiierelor cu date curente i istorice cu scopul de a produce rapoarte pentru manageri. Produsele generalizate permit analize cu caracter general folosind datele existente ntr-o baz de date i chiar formularea i programarea unor modele matematice simple. Ca exemple, depozit sau la raft pentru a lansa comenzi de
5 se pot enumera rapoartele privind stadiul de realizare a unor comenzi de fabricaie, sau analiza eficienei unor investiii. 3. Sistemele pentru analiza informaiilor, care asigur accesul la o serie de baze de date destinate asigurrii informaionale a deciziilor i la modele de dimensiuni reduse n scopul furnizrii informaiilor specifice pentru rezolvarea unor situaii decizionale particulare. Dup cum arta Alter (1977), sistemele din aceast clas sunt proiectate s extrag datele relevante din aplicaiile de prelucrare electronic a datelor (Electronic data processing EDP) proprii ale ntreprinderii i s le completeze cu date externe. O caracteristic definitorie a unor astfel de sisteme o constituia faptul c accesul nu trebuia s fie stnjenit de considerente privind planificarea funcionrii eficiente a unui centru de calcul. Dup cum se va vedea n continuare n acest capitol, sistemele din categoria 3 anticipeaz din punct de vedere funcional dezvoltrile tehnologice ale anilor 90 n domeniul magaziilor de date i n realizarea de instrumente de tip OLAP sau EIS (Executive information systems). 2.1.2. Tipuri de date nainte de a analiza tipurile de date care se acumuleaz ntr-o organizaie cu o vitez din ce n ce mai mare, se va ncerca o foarte sumar clarificare a coninutului unor noiuni, care sunt, de multe ori, folosite n mod amestecat. Este vorba de date, informaii i cunotine. Fr a avea pretenia unei abordri aprofundate, fcute din mai multe perspective (teoria comunicrii, tiinele cognitive, tiina organizrii, tiinele politice, literatura, informatica), precum cea propus de Rowley (1988), se vor adopta n continuare urmtoarele nelesuri care sunt asemntoare cu cele propuse de Turban i Aronson (1998) i Targett (1996). 1. Datele sunt urmele lsate de anumite obiecte (evenimente, stri, situaii sau activiti petrecute sau anticipate, procese de calcul, judeci, opinii
6 etc.) care pot fi reprezentate sub forma unor numere, iruri de caractere, grafice, sunete sau imagini statice (fotografie) sau n micare (video) n vederea colectrii, memorrii i altor prelucrri ulterioare. Luate ca atare, n contextul unei anumite probleme, datele pot s nu aib un neles care ar putea servi unei activiti decizionale. 2. Informaiile sunt acele date care sunt luate n considerare i sunt organizate n aa fel nct au un neles i o valoare n contextul problemei decizionale i i sunt de folos utilizatorului pentru rezolvarea sarcinii sale. 3. Cunotinele sunt acele date organizate i prelucrate astfel nct favorizeaz nelegerea unui anumit domeniu ct i identificarea rezolvarea eficace a problemelor din domeniul respectiv. n continuare, se va urmri folosirea termenului cel mai potrivit, dar pot aprea situaii n care denumiri ncetenite deja n literatur nu sunt aparent n concordan cu accepiunile adoptate mai sus. Turban i Aronson (1998) identific mai multe tipuri de date care se acumuleaz ntr-o organizaie i anume: 1. Datele interne se refer la resursele organizaiei (umane, tehnice, financiare etc.) i procesele, evenimentele i activitile desfurate n acea organizaie. ntr-o organizaie informatizat, aceste date sunt stocate de obicei n diferite baze de date care servesc n aplicaii distincte. 2. Datele externe privesc mediul nconjurtor (natural, economic, social, de reglementri) n care organizaia i desfoar activitatea i pot avea surse diferite precum: mijloacele de informare n mas, opiniile comunicate de ctre clieni i parteneri, bibliotecile specializate sau generale, Internetul i serviciile diferite de bncile de date. 3. Datele care aparin unor persoane angajate n organizaie i pe care acestea le folosesc n interesul organizaiei. Principalele probleme generale care pot aprea n ceea ce privete coninutul datelor au fost semnalate de Alter (1980) i sunt legate de i
7 imprecizia, incompletitudinea, indisponibilitatea sau chiar inexistena (deoarece nu le-a cerut nimeni) acelor date care sunt considerate necesare la un moment dat. Explozia informaional asociat cu multiplicarea i diversificarea surselor au condus n ultima vreme la alte tipuri de complicaii precum: opacitate (supraabunden a datelor disponibile asociat cu nerelevanta lor pentru sarcinile de rezolvat), coninut contradictoriu i formate incompatibile datorit platformelor diferite pe care datele se stocheaz. Acestor complicaii li se adaug problemele de natur tehnologic care vor fi expuse n continuare. 2.1.3. Raiuni tehnologice Apariia conceptului de magazie de date este justificat prin limitele sistemelor de prelucrare on line a tranzaciilor (On line transaction Processing OLTP) . Acestea nu pot furniza cu promptitudinea cerut i n formatul dorit ctre manageri acele informaii care le sunt necesare. De cele mai multe ori, este vorba de informaii care servesc la verificarea unor ipoteze nlnuite considerate n rezolvarea problemelor decizionale. Aceste informaii se pot obine (n majoritatea cazurilor) din analiza unor serii de timp diferite, care se gsesc n baze de date distincte. n contrast cu datele operaionale, pe care le manipuleaz sistemele de tip OLTP, cerinele decidentelor se numesc n terminologia IBM (1996) date informaionale. Cteva motive pentru o abordare nou sunt date n continuare (Dhar, Stein, 1997; IBM, 1996; Turban, Aronson, 1998). n primul rnd, sistemele de tip OLTP, sunt specializate pe tipuri de probleme, de exemplu conducerea produciei, efectuarea de tranzacii comerciale etc. Prin firea lucrurilor, ele au ca misiune principal manipularea rapid i sigur a datelor i sunt denumite uneori sisteme cu misiune critic, sau cu timp critic (mission/time critical systems). Pentru a asigura performanele cerute i, uneori, din motive istorice sau de securitate, ele nu sunt proiectate pentru a lucra n cooperare cu
8 alte sisteme. n consecin, cu toate progresele tehnologice relative privind integrarea aplicaiilor (Filip, Brbat, 1999), realizarea de misiuni suplimentare ca de exemplu cele de furnizare de informaii ctre manageri, altele dect cele originare, poate reprezenta o perturbaie inacceptabil, care poate impieta asupra performanelor proceselor conduse cu astfel de sisteme. Alte motive care indic sistemele de tip OLTP ca neadecvate pentru nevoile managerilor sunt legate de: a) limitarea datelor manipulate de aceste sisteme la valorile curente necesare ndeplinirii misiunii lor i b) aspectele de securitate n cazul din ce n ce mai rspndit al produciei globalizate n care diferitele baze de date sunt distribuite din punct de vedere geografic. Dac se analizeaz problema din punct de vedere al instrumentului informatic care administreaz baza de date se pot observa alte complicaii. ntr-o organizaie exist sisteme motenite(legacy systems) care sunt realizate prin folosirea unei diversiti de sisteme de gestiune a bazelor de date (SGBD) (Date, 1986; Ulman, 1982). Acestea sunt fie mai vechi (indexat secveniale, de tip reea, ierarhice), fie mai noi (relaionale, orientate pe obiecte), sau specializate (de exemplu pentru lucrul n timp real, pentru stocarea de date multimediale etc.). La ora actual predomin SGBD de tip relaional, care permit efectuarea de zeci de mii de tranzacii pe minut (1996). SGBD relaionale au o serie de avantaje. Ele permit acumularea unor volume impresionante de date ntr-un mod neredundant sub forma unor tabele, care pot fi combinate prin anumite operaii, bine fundamentate matematic, pentru a obine informaiile dorite. Interogarea poate fi realizat ntr-un mod flexibil folosind limbajul SQL (Structured querry language). Cu toate aceste avantaje, folosirea direct a SQL de ctre un manager de pe nivelurile superioare ale ierarhiei de conducere, necesit din partea acestuia cunotine i timp pe care acesta nu le are n unele cazuri. Pentru a ocoli aceste neajunsuri, o soluie intermediar au constituit-o sistemele de informare a directorilor (Executive information systems- EIS).
9 Acestea sunt nite sisteme de tip front-end pentru sistemele de tip OLTP i au ca misiune realizarea de operaii de agregare a datelor primite de la sistemele de tip OLTP care sunt stocate n mod intermediar n dispozitivele de memorare ale EIS. Managerul, n loc s formuleze comenzi de interogare ntr-un limbaj misterios pentru el (SQL) au posibilitatea s aleag dintr-un meniu prestabilit pentru a obine informaia necesar. Dei soluiile de tip EIS au reprezentat un pas important nainte n asistarea deciziilor centrate pe date, ele sufer de anumite neajunsuri izvorte din nsi concepia de realizare. n primul rnd, culegerea de date de la sisteme de tip OLTP rmne o problem care, uneori, nu este simpl din punct de vedere tehnic. n al doilea rnd, soluia EIS sufer de inflexibilitate. Inflexibilitatea se manifest att n utilizare (este necesar parcurgerea de ctre manager a unor secvene de meniuri prestabilite i nimic mai mult sau mai puin) ct i n ntreinere i dezvoltare, situaie n care poate fi necesar reproiectarea de la nceput pentru a considera cerine de informare suplimentare. Subiectul EIS va fi dezvoltat ntr-un articol ulterior. Cele artate mai sus ct i limitele atinse de instrumentele de tip sisteme de gestiune a bazelor de date au determinat necesitatea unui concept nou (magazia de date) i, respectiv, a unor instrumente informatice noi (OLAP). Acestea vor fi prezentate n subcapitolele care urmeaz. 2.1.4. O soluie modern Soluia pentru asistarea deciziei centrate pe date, adoptat cu entuziasm de furnizori mai mari sau mai mici de produse informatice(Pendse, 2000 c) se bazeaz pe conceptul de magazie de date (DW) i pe instrumentele de prelucrare analitic on-line (OLAP). Magazia de date este o baz de date specializat care rspunde nevoilor i cerinelor specifice decidenilor aflai pe nivelurile superioare ale ierarhiei de conducere a ntreprinderii. Ea cuprinde multe tipuri de date, provenind de
10 la mai multe surse de aprovizionare, care pot fi sisteme de tip OLTP, calculatoare de proces, reele industriale, biblioteci de cri, fotografii sau CD-ROM, Internet etc. Existenta mai multor tipuri de date diferentiaza magazia de date de noile versiuni 3-D ale foilor de calcul electronic. Acestea au fost inaugurate de3-D sheet al IBM-Lotus i au fost urmate de solutiile de tip notebook i workbook ale produselor Quatro Pro for Windows (al lui Corel) i respectiv Excel (al lui Microsoft). Principalele operaii care se efectueaz asupra datelor primite sunt (Dhar, Stein, 1997): 1. ncrcarea datelor din diferite surse, care const n urmtoarele: a) detectarea datelor noi de interes aflate n bazele de date surs i b) determinarea modului i a locului pentru ncrcare. ncrcarea se efectueaz la momente programate, n regim pe loturi (batch) pentru a nu perturba funcionarea sistemelor furnizoare de tip OLTP; 2. conversia datelor din formatul original n cel adoptat n magazia de date; 3. curirea datelor, care cuprinde funcii de identificare i corectare a erorilor de conversie i completarea omisiunilor; 4. transformarea datelor prin operaii de agregare i rezumare. Instrumentele de tip OLAP servesc la manipularea datelor ntr-un mod care extinde i flexibilizeaz funciile i maniera de operare a sistemelor de tip EIS descrise n subcapitolul anterior. ntr-un mod intuitiv, funcionarea OLAP este sugerat de operaii de tip feliere i decupare de cubulee (Slice and diceig S&D) a bazei de date n scopul de a permite decidentul s gseasc acele informaii care i permit constatarea unor situaii de interes sau verificarea unor ipoteze. Mai multe detalii despre OLAP vor fi date n capitolul 3. 2.2. Definiii
11 Conform definiiei lui Inmon (1995), aparent cea mai rspndit i acceptat pn n prezent, o magazie de date este o colecie integrat de date de tip serii de timp, nevolatile, orientat pe un subiect i care are ca scop sprijinirea proceselor decizionale ale managerilor. Aceast definiie a celui care este considerat printele magaziei de date (Gray, 1997) va fi detaliat i particularizat n urmtoarele dou subcapitole (2.2.1. i 2.2.). 2.2.1. Caracteristici O magazie de date este n general un lucru scump. Ea poate costa milioane de dolari i stoca volume de date cuprinse ntre 50 de Gigaocteti i civa Terraocteti (Gray, Watson, 1996). Pentru ca magazia de date s merite investiia fcut, ea trebuie s serveasc necesitile managerilor prin oferirea de rspunsuri rapide i n conformitate cu cerinele de interogare i de prezentare ale acestora. Pentru ca magazia de date s merite investiia fcut, ea trebuie s serveasc necesitile managerilor prin oferirea de rspunsuri rapide i n conformitate cu cerinele de interogare i de prezentare ale acestora. Pentru aceasta, o magazie de date trebuie s posede o serie de caracteristici generale (Inmon, 1995; Gray, Watson, 1996), care se prezint mai jos: 1. Separarea fizic de bazele de date operaionale. Aceast cerin are ca scop pe de o parte, furnizarea operativ a informaiilor necesare procesului decizional i pe de alt parte, evitarea perturbrii aplicaiilor operative, care trebuie s satisfac standardele legate de timpul de rspuns i de sigurana operaiilor. 2. Orientarea ctre un subiect. Spre deosebire de bazele de date operaionale care sunt centrate pe aplicaii sau funcii, magazia de date este organizat ca s vizeze anumite subiecte de interes pentru manager precum: clieni, produse, activiti.
12 3. Integrarea fr excepii a datelor. Aceasta se traduce prin consistena (uniformitatea): a) conveniilor folosite n definirea datelor, b) unitilor de msur utilizate, c) atributelor datelor etc. 4. Pstrarea seriilor de timp. Spre deosebire de datele operaionale, care sunt valabile numai n momentul accesului, cele coninute n DW sunt valabile oricnd. Aceasta se traduce prin urmtoarele trsturi derivate: a) orizontul de timp de 5-10 ani (fa de maximum cteva zeci de zile n cazul operaional), b) structura cheii de acces, care conine elementul timp (zi, lun, an) i c) interzicerea modificrii datelor stocate corect la un anumit moment discret de timp. 5. Nevolatilitatea datelor. Aceasta se traduce prin reducerea numrului de tipuri de operaii permise n cazul DW la dou: a) ncrcarea iniial i b) accesul la date, spre deosebire de cazul operaional, n care se efectueaz o multitudine de nserri, tergeri i actualizri la nivelul unei singure nregistrri. Consecinele acestei caracteristici sunt diverse. n primul rnd, dispare pericolul potenial al actualizrilor eronate. n al doilea rnd, se poate realiza proiectarea la nivel fizic pentru a optimiza accesul fr a mai ine cont de cerinele de neredondan i normalizare. n al treilea rnd, dispare necesitatea folosirii unor tehnici complicate pentru asigurarea integritii datelor i pentru jurnaliere i recuperare ct i pentru deblocare din punct mort. 2.2.2. Tipuri de magazii de date Termenul de magazie de date este destul de general. Unii autori sau furnizori de produse informatice folosesc diferite denumiri pentru a numi unele cazuri particulare sau componente ale DW. Astfel Turban i Aronson (1998) identific urmtoarele componente: a) baze de date fizice mari (n care sunt coninute datele i metadatele ct i programele de curare, organizare, asamblare i preprocesare), b) magazii de date logice (care
13 cuprind numai metadatele i programele de organizare, asamblare, preprocesare mpreun cu informaiile necesare pentru a gsi i a avea acces la date indiferent de locul unde sunt stocate) i c) trguri sau compartimente de date (data mart), care reprezint subseturi ale unei DW, necesitile unei pri sau funcii a ntreprinderii. Trgurile de date mpreun cu legturile stabilite prin intermediul DW logice constituie componente n dezvoltarea incremental a unei DW de ntreprindere (Inmon, 1998). O clasificare recent i sistematic a tipurilor de magazii de date este propus de ctre Firestone (2000), care identific cinci tipuri de magazii de date. Toate tipurile au n comun faptul c sunt colecii integrate, nevolatile, de date de tip serie de timp care au ca scop asistarea proceselor decizionale manageriale. Ceea ce difereniaz tipurile de magazii de date este aria de cuprindere a proceselor decizionale, dup cum se arat mai jos: 1. Magazia de date galactic (GDW), asist procesele decizionale manageriale care privesc oricare i toate procesele de business i compartimentele ntreprinderi ct i ntreprinderea luat ca un ntreg. 2. Magazia de date orientat pe un proces de business (BPDW) asist procesele decizionale care privesc oricare i toate procesele de business i legturile lor reciproce precum i cu mediul lor nconjurtor. 3. Magazia de date departamental (DDW) asist procesele decizionale care privesc oricare i toate compartimentele i interaciunile lor reciproce precum i cu mediul lor nconjurtor. 4. Un trg de date (data mart) de tip proces de business (BPDM) asist procesele decizionale centrate pe un singur proces de business. 5. Un trg de date departamental (DDM) asist procesele decizionale centrate pe un singur compartiment. Legat de aceast clasificare, Firestone (2000) face cteva observaii interesante. n primul rnd el consider c interesul ctre GDW este n descretere i c, BPDW i BPDM sunt mai de dorit datorit orientrii
14 actuale ctre considerarea proceselor de business, care nu in seama de graniele compartimentelor (Hammer, Champy, 1993). n acelai timp, Firestone (2000) mai observ c simpla reuniune a unor DDM nu constituie o magazie de date deoarece nu asigur suportul pentru deciziile manageriale care privesc procesele care traverseaz graniele compartimentelor sau interaciunile dintre compartimente i pe cele cu mediul nconjurtor. n acelai spirit se arat c, reuniunea unor BPDM nu constituie o magazie de date. Totui autorul citat nu respinge posibilitatea distribuirii la nivel fizic a unei magazii de date care poate fi caracterizat la nivel logic aa cum s-a artat la nceputul acestui subcapitol n prima clasificare prezentat. 3. Prelucrarea analitic on line Conform cu Glosarul propus de OLAP Council (1997), prelucrarea analitic on line (OLAP) desemneaz o categorie de instrumente software, care permit analitilor, managerilor i directorilor s neleag esena datelor printr-un acces rapid, consistent i interactiv la o mare varietate de vederi posibile ale informaiilor, care au fost obinute prin transformarea datelor primare, astfel nct s reflecte dimensiunile reale ale ntreprinderii aa cum o percepe i o nelege utilizatorul. Un server OLAP este, conform aceluiai Glosar (OLAP Council, 1997) un motor de tip multi-utilizator, de mare capacitate pentru manipularea datelor proiectat astfel nct s poat lucra cu structuri de date multidimensionale. O structur multidimensional este alctuit astfel nct orice dat poate fi localizat i accesat prin intersecia coordonatelor sale dea lungul acelor dimensiuni care definesc amplasarea datei. Proiectarea serverului i a structurii de date sunt realizate astfel nct s se poat realiza att optimizarea regsirii ad-hoc a informaiei ct i calcule flexibile folosind formule matematice.
15 OLAP i magazia de date sunt complementare. Dup cum se arat n Cartea alb a Consiliului OLAP (Forsman, 1997), este important s se fac distincia ntre conceptul de magazie de date i OLAP. n timp ce magazia de date acumuleaz informaii cu caracter tactic ntr-o baz de date relaional specializat, cu scopul de a furniza rspunsuri la ntrebri de tipul Cine? i Ce?, OLAP folosete de obicei o vedere cu mai multe dimensiuni a unor date agregate pentru a putea a rspunde la ntrebri suplimentare de tipul De ce.? (Why?) i Ce se ntmpl dac? (What if?), tipice pentru sistemele de asistare a deciziei. 3.1. Evoluii Dei, dup cum arat Pendse (2000 b), rdcinile OLAP pot fi identificate cu muli ani n urm n limbajul APL, adevrata lansare a termenului a fost prilejuit de un articol al lui Codd et all. (1993). Cel care este socotit printele bazelor de date relaionale a artat c, datele ar trebui folosite pentru o prelucrare analitic i c n acest scop bazele de date multidimensionale sunt mai adecvate i, n consecin, le vor nlocui pe cele relaionale. 3.1.1. Funcii Raden (1995) distinge dou tipuri de baz de instrumente OLAP: 1. OLAP n sens restrns care permite interogri interactive ale datelor prin care se poate realiza o analiz constnd din felieri i decupri de cubulee (slice and dice) ale bazei de date i din forri (drill-down) succesive pe niveluri de detaliere, din ce n ce mai pronunate. Informaiei i se atribuie caracteristica de multidimensionalitate i poate fi afiat n tabele ncruciate, pentru care exist instrumente specializate pentru a realiza pivotarea axelor i tabularea ncruciat. Toate operaiile sunt numai de citire.
16 2. OLAP n sens larg permite operaii suplimentare precum: a) actualizare, b) calcule de baz de agregare sau consolidare pe una sau mai multe dimensiuni i c) calcule mai avansate de tipul: preducie, analiz de trenduri i chiar optimizare. 3. 3.1.2. Regulile lui Codd i testul FASMI Cartea alb propus n 1993 de Codd et all, intitulat Providing OLAP (On line Analytical Processing) to User - Analyst: An IT Mandate, la comanda firmei Arbor Software (Pendse, 2000 a), coninea 12 reguli, a cror ndeplinire putea califica un produs software ca fiind de tip OLAP. Aceste reguli, au fcut epoc la vremea respectiv, dei au existat suspiciuni c ele au fost influenate de comanda unui productor de software (Pendse, 2000 a). Regulile defineau urmtoarele caracteristici ale produselor de tip OLAP (Gray, Watson, 1996; Pendse, 2000 a): R1 Posiblitatea unor vederi conceptuale multidimensionale care este asociat cu operaii de feliere i decupare de cuburi (slice and dice). R2 Transparen pentru utilizator, n sensul c acesta putea nici mcar s nu aib idee de sursele datelor, care puteau fi orict de eterogene. R3 Accesibilitatea, care ddea motorului OLAP caracterul de mediator (middleware) ntre sursele eterogene de date i front-end-ul OLAP. R4 Raportarea consistent, care cere ca performanele rapoartelor s nu fie degradate n msur semnificativ prin creterea numrului de dimensiuni ale bazei de date. R5 Arhitectura de tip client prestator (client server), asociat cu un grad ridicat de inteligen a instrumentului OLAP, astfel nct clieni noi i diveri s poat fi ataai cu un efort minim de programare. R6 Numr generic de dimensiuni echivalente att n ceea ce privete structura ct i operaiile posibile. Aceast regul este cea mai controversat din tot setul celor 12 reguli. Pendse (2000 a) arat c, n
17 sistemele aplicative, exist tendine de a ignora aceast regul, n timp ce furnizorii de produse informatice declar c ncearc s o respecte. R7 Manipularea automat a unor matrici rare. Ulterior aceasta a fost extins la ajustarea automat a schemei la nivel fizic n scopul adaptrii la tipul de model de date, la volumul i la existena unor poziii goale n matricea datelor, care poate deveni rar. R8 Suport multi-utilizator, care extindea accesul dincolo de aplicaiile numai citire (read only) i permitea acces concurent (inclusiv actualizri) cu faciliti de asigurare a integritii i securitii datelor. R9 Efectuarea fr restricii de operaii ntre dimensiuni care nsemna c, se putea realiza orice fel de operaii folosind datele care aveau coordonatele n dimensiuni diferite. R10 Manipularea intuitiv a datelor, care trebuia realizat prin aciunea direct asupra celulelor dintr-o vedere fr a recurge la micarea prin meniuri, sau la comenzi multiple. R11 Raportarea flexibil, care cerea ca aranjamentul axelor n rapoarte s fie la libera alegere a utilizatorului. R12 Numrul nelimitat de dimensiuni i niveluri de agregare, fiind acceptate totui (din motive de capacitate limitat a calculatoarelor) valori de minimum 15 dimensiuni i fiind recomandate valori de 20 de dimensiuni. Dhar i Stein (1997) indic o limit maxim practic de 7 dimensiuni iar, mai de curnd, Pendse (2000 a) arat c sunt puine aplicaii care depesc cifre care variaz ntre 8 i 10 dimensiuni. Pendse (2000 a) arat c, n 1995, Codd a mai adugat ase reguli i a restructurat ntregul set n patru grupe de trsturi (features), dup cum urmeaz: 1. Trsturi de baz, care sunt numerotate de la F1 la F8. Dintre acestea, trsturile F1, F2, F3, F5, F6, F7 i F8 corespund n ordine regulilor R1,
18 R10, R3, R5, R2 i respectiv R8. n plus, sunt introduse urmtoarele trsturi noi: F4.Extracie pe loturi (batch) vs. de tip interpretor, care se traduce prin posibilitatea de a folosi fie propria baz de date aranjat special, fie de avea acces pe viu, direct de la surse externe. F5.Asistarea modelelor de natur de tip OLAP i anume: a) raportarea static parametrizat, b) felierea si decuparea de cubulee cu forarea n adncime, c) analiza de tip Ce se ntmpl dac.? (simulare) i d) model de urmrire a unui scop (optimizare). 2. Trsturile speciale, numerotate cu F9 F12: F9. Tratarea datelor nenormalizate. F10. Memorarea rezultatelor OLAP i pstrarea lor separat de datele surs. F11. Extragerea valorilor care lipsesc, interpretat de Pendse (2000 a) prin realizarea distinciei acestor valori de valorile nule. F12. Tratarea valorilor care lipsesc, care sunt ignorate de analizorul OLAP, indiferent de provenien. Plecnd de la constatarea c, 18, sau chiar 12 reguli sunt prea mult i ncercnd s defineasc, n mod independent de implementare, caracteristicile unei aplicaii OLAP, Pendse (2000 a) propune testul FASMI (Fast Analysis of Shared Multidimensional Information Analiza rapid a informaiei multidimensionale partajate). Cele patru cuvinte cheie care calific un produs ca fiind compliant cu OLAP sunt descrise mai jos. 1. Cuvntul cheie analiz cere ca sistemul de tip OLAP s permit efectuarea de ctre utilizator, ntr-un mod suficient de facil i intuitiv a oricrei analize logice sau statistice care este relevant pentru aplicaie. Aceasta include, pe lng funcii preprogramate i posibilitatea de definire a unor calcule ad hoc i furnizarea de rapoarte n orice form dorit fr a face apel la limbaje de programare profesionale.
19 2. Cuvntul cheie rapid, indic faptul c, sistemul trebuie s furnizeze majoritii utilizatorilor datele cerute ntr-un interval de timp pn la cinci secunde. Pentru analize simple, cerina de timp de rspuns este de o secund i, numai n foarte puine cazuri excepionale, se admite un timp de rspuns mai mare de 20 de secunde. 3. Cuvntul cheie informaie se refer la toate datele primare i informaiile care au fost obinute din acestea n msura n care ele sunt relevante pentru aplicaie. Msura volumului de informaie se refer la cantitatea de informaie care poate fi manipulat i nu la capacitatea de stocare. 4. Cuvntul cheie multidimensional, care reprezint punctul esenial al testului FASMI, arat c o aplicaie OLAP trebuie s poat furniza vederi conceptuale ale datelor cu mai multe dimensiuni, fr a fi nevoie s se specifice a priori numrul acestora, care e dependent de aplicaie. 5. Cuvntul cheie partajat implic cerine privind asigurarea confidenialitii i de blocare a actualizrilor concurente cnd e cazul unor accese multiple de tip nscriere. 3.2. Tehnologii de implementare Dup cum s-a artat mai nainte cuvntul cheie care definete conceptul de OLAP (produs sau aplicaie) este n mod constant multidimensionalitatea vederilor folosite n analiz. n prezent, coexist dou soluii de implementare a multidimensionalitii: a) Soluia MOLAP (Multidimensional OLAP), care folosete baze de date multidimensionale (Multidimensional Data Base MDB), sau baze de date de tip hipercub (de fapt, hiperpoliedru) i b) Soluia bazelor de date relaionale care asigur multidimensionalitatea pentru analiz, denumite pe scurt ROLAP (Relational/OLAP sau OLAP - on Relational). 3.2.1. Soluii de tip ROLAP
20 O baz de date relaional are dou dimensiuni sau axe (coloane i rnduri) i presupune existena unui limbaj de interogare de tip SQL (sequential query language). Asigurarea posibilitii de a efectua analize multidimensionale folosind o baz de date relaional se realizeaz n implementrile actuale prin folosirea unei scheme de proiectare intitulat schema stea, sau floarea soarelui (IBM, 1996; Gray, Watson, 1996; Grady, 2000). Aceasta creeaz dou tipuri de tabele: a) o tabel de fapte (care poate avea milioane de rnduri) i conine informaiile care sunt subiectul interogrilor i b) mai multe tabele care conin datele descriptive privind fiecare dimensiune. Raden (1998) propune cteva criterii pentru a califica un produs drept ROLAP dintre care amintim: existena unui generator SQL, care poate realiza operaii de posibilitatea de a realiza clasificri nebanale, comparaii i existena unui mecanism care descrie modelul datelor prin selectare n mai multe treceri; calculul procentelor pe clase: intermediul metadatelor i care poate folosi metadatele n timp real pentru a realiza interogri; posibilitatea de a partiiona aplicaia ntre clieni, prestatori i un element mediator care gestioneaz irurile de apeluri la baza de date. Primul produs de tip ROLAP, denumit Metaphor, a fost lansat n 1984 pentru aplicaiile de marketing la companiile productoare de bunuri de consum. Succesul comercial al lui Metaphor (deinut din anul 1991 de ctre firma IBM) a fost destul de limitat. De atunci o serie de alte produse au fost lansate, ca de exemplu, AXSYS al firmei Advantage, Beacon al firmei Prodea sau MetaCube al lui Stanford Technology Group. De asemenea s-au petrecut o serie de fuziuni i achiziii de firme din domeniu (Raden, 1995; Pendse, 2000 b).
21
3.2.2. Soluii de tip MOLAP Operaiile primare i tipice pentru aplicaiile OLAP sunt felierea i forarea. Ele presupun o organizare logic a datelor sub forma unui hipercub (n dimensional) format din celule n care timpul este o dimensiune obligatorie (Gray, Watson, 1996) n locul tabelelor bidimensionale ale bazelor de date relaionale. Raden (1995) identific trei etape de proiectare a hipercubului: a) alegerea subiectelor de interes pentru ntreprindere (de exemplu: vnzrile, reclamaiile, sau capacitile de producie), b) stabilirea valorilor care trebuie culese (de exemplu volumul lucrrilor, elementele de cost, sau gradul de ncrcare i timpii de staionare ai mainilor i instalaiilor) i c) determinarea granularitii datelor sau a nivelului de detaliu. Acelai autor observ c, spre deosebire de bazele de date relaionale, MDB nu au nc un model acceptat de toat lumea i nici o metod de acces standard cum era SQL n cazul relaional. Primul instrument informatic pentru MDB a fost Express, care a fost gndit la nceputul anilor 70, pentru aplicaii cu timp partajat n mediul academic. n prezent, Express este deinut din anul 1995 de ctre firma ORACLE (un mare productor de instrumente pentru bazele de date relaionale) i i menine conceptele iniiale dei prezint noi soluii de implementare. De atunci, alte produse au fost lansate ca de exemplu: System W al firmei Comshare, sau Essbasse al firmei Arbor i Produsul Tensor al firmei Microsoft, care a fost adoptat ca standard industrial chiar nainte a fi lansat. Cel mai nou produs al aceleiai firme (Microsoft), denumit Plato, posed o arhitectur sofisticat (ROLAP/MOLAP/Hibrid) (Pendse, 2000 b; Raden, 1995). ). Detalii practice practice privind implementarea solutiilor de tip MOLAP sunt date de Thomsen(1997). Pentru completitudine tabloului, vom mentiona n treacat dezvoltarea n paralel a solutiei Improve a lui IBM Lotus pentru foile de calcul tabelar electronic.
22 O comparaie a soluiilor de tip ROLAP i MOLAP/MDB, folosind mai multe criterii precum: a) funcionalitatea, b) adecvana, c) performanele i d) scalabilitatea mpreun cu recomandri de a folosi una sau alta dintre cele dou soluii este data de Raden (1995 4. Mineritul datelor Mineritul datelor (Data Mining DM), denumit uneori i descoperirea cunotinelor n bazele de date (Knowledge Discovery in Data Bases KDD) este cea mai recent tehnologie de analiz a datelor, asociat, alturi de OLAP, cu conceptul de magazie de date. Alte denumiri i nelesuri cuprinse n conceptul de DM/KDD sunt: arheologia datelor, prelucrarea pattern-urilor de date, culesul informaiilor sau dragarea datelor (Turban, Aronson, 1998). Rdcinile DM/KDD sunt considerate a fi n principal n statistica matematic i n pachetele software folosite n tiinele sociale (Agosta, 2000) i n inteligena artificial (Moxon, 1996). 4.1. Definiii Ca i n cazul OLAP, n literatur exist mai multe definiii pentru DM/KDD, lucru absolut explicabil n cazul unei tehnologii noi, aflate ntr-o mare efervescen. O definiie mai veche (Frawley, 1991, citat de Mertens et all, 1996) spune c, mineritul datelor const n extragerea nu simpl i banal a unor informaii potenial utile, implicite i recunoscute dinainte dintr-o baz de date. Gray i Watson (1996) arat c, mineritul datelor permite analitilor i managerilor s gseasc n magazia de date rspunsuri la problemele ntreprinderii, pe care acetia nici mcar nu i le-au pus. Moxon (1996) adopt un neles mai restrns al mineritului datelor pe care l consider un set de tehnici folosit n abordarea automatizat a operaiilor de explorare
23 exhaustiv a unor baze de date foarte mari i de aducere la suprafa a unor relaii complexe existente n acele baze de date. ntr-o ntreprindere se acumuleaz de-a lungul timpului foarte multe date. Datele pstrate de mult vreme n fiiere pot conine informaii i cunotine ascunse care pot servi la bunul mers al ntreprinderii, dar luate ca atare, nu au mare utilitate dac nu sunt nsoite de mecanisme care s permit explorarea lor i nelegerea fenomenelor care au guvernat funcionarea surselor de date. Dup cum arta H. Simon, laureatul Premiului Nobel pentru economie, la Conferina Internaional pentru Economie, Management i Tehnologia Informaiei (desfurat la Tokio n anul 1992), Informaia nu lipsete. Ceea ce lipsete este timpul managerului de a considera toate informaiile care sunt disponibile. Tehnologiile de analiz a datelor prezentate mai nainte (EIS, OLAP) pot fi vzute ca jucnd rolul unor ajutoare de verificare ale ipotezelor formulate de utilizatori (manageri sau analiti) privind relaiile care exist ntre diferitele date acumulate. Cheia succesului const n intuiia utilizatorului de a formula cele mai adecvate interogri iniiale i n capacitatea lui de a continua rafinarea analizei pe baza informaiilor primite de la sistemul informatic. Contribuia principal a acestuia const n facilitarea procesului de analiz. Aceasta se realiza fie prin uurarea activitii de formulare a interogrilor i de obinere a unor rapoarte care permiteau o vizualizare sugestiv (n cazul EIS), fie prin obinerea rapid a unor rspunsuri prin explorarea multidimensional a unor ierarhii de date agregate, nsoit eventual de prelucrri statistice (n cazul OLAP). Dup cum se poate observa (Fayyad, Uthurusamy, 1996; Moxon, 1996), succesul unei astfel de abordri poate fi afectat de capacitatea limitat a utilizatorului de a intui fenomenele i de ndemnarea sa de a folosi toate posibilitile oferite de instrumentul informatic. Eficacitatea procesului poate
24 scdea dramatic n cazurile complexe, n care utilizatorul are de a face cu milioane de situaii, fiecare descris prin sute de nregistrri. n cazul DM/KDD, sistemul informatic are ca misiune investigarea exhaustiv a datelor pentru a scoate la lumin clasificri, asocieri, sau alte modele ale datelor, n timp ce analistului (sau managerului) i revine sarcina de a decide ce s fac apoi cu aceste rezultate (IBM, 1996). 4.2. Funcii Principalele funcii realizate de DM/KDD sunt (Moxon, 1996): 1. Gruparea (clustering), care este, de cele mai multe ori, prima etap n analiza bazat pe mineritul datelor. Ea const n identificarea grupurilor de nregistrri nrudite care pot constitui punctul de plecare pentru explorarea n continuare a unor alte relaii. 2. Clasificarea, care este cea mai rspndit tehnic de minerit al datelor, folosete un set de exemple n scopul realizrii unui model pentru aranjarea n clase a mulimii de nregistrri. Alte funcii pot fi: estimarea (o variant a clasificrii), asocierea i analiza bazat pe secvene. Mineritul datelor folosete o serie de algoritmi i tehnici de analiz, care sunt descrii n alte articole ale acestei serii, precum arborii de decizie raionamentul bazat pe situaii, logica vag, algoritmii genetici , sau transformrile bazate pe fractali. O list bogat i la zi de referine privind soluiile dezvoltate n domeniu este dat de Fayyad, Piatetsky Shapiro i Smith (2000) iar lucrarea recent a lui Witten, Frank i Gray (1999) descrie o serie de tehnici bazate n special pe instruire. n ceea ce privete aplicaiile DM/KDD se pot enumera o serie de realizri (Turban, Aronson, 1998; Cox, 2000) dintre care de interes n contextul acestei lucrari sunt: a) clasificarea clienilor n categorii, b) stabilirea preurilor i poziionarea produselor pe pia, c) descoperirea de clieni poteniali i pstrarea celor existeni, d) predicia i prevenirea
25 situaiilor de faliment, e) determinarea nivelului de siguran al portofoliului de comenzi i a msurilor adecvate care trebuie s fie luate etc. Toate aceste aplicaii se caracterizeaz prin aceea c datele sunt sub forma numeric sau a unor iruri de simboluri ordonate ntr-un mod consistent (de obicei, tabele cu rnduri i coloane n baze de date relaionale sau n foi de calcul tabelar electronic). Aceasta permite din capul locului nelegerea semanticii i a structurii datelor de ctre utilizator, n timp ce tehnologiei DM i revine rolul de a descoperi paternuri prin explorarea exhaustiv a bazei de date. n ultima vreme se constat o nou direcie promitoare de dezvoltare i anume cea denumit mineritul textelor cu format liber (Cox, 2000). Mineritul datelor este o tehnologie n cretere, care pare s fie pe punctul de a deveni o tehnologie cheie. Exist o serie de prototipuri i chiar produse comerciale propuse att de firme mici i inovatoare ct i de marii productori (de exemplu, Intelligent Miner al IBM lansat n 1998). Simptomul cel mai semnificativ care poate fi observat este tendina multor gigani ai pieei tehnologiei informaiei (Microsoft, Oracle, IBM, NCR, Yahoo, Amazon etc.) de a achiziiona produse i firme inovatoare n domeniul DM/KDD (Augusta, 2000). Cu toate acestea, dezvoltarea i afirmarea deplin a domeniului este condiionat de rezolvarea adecvat a unor probleme tehnice (Moxon, 1996) precum: a) sensibilitatea fa de datele necurate i b) capacitatea limitat de explicare a rezultatelor n termeni inteligibili pentru om (cum se ntmpl de altfel n cazul sistemelor expert bazate pe reguli. 5. Note i comentarii n acest articol s-a ncercat s se prezinte, ntr-un numr rezonabil de pagini, principalele abordri privind instrumentele informatice de asistare a deciziilor bazate pe date. Aceste abordri, care poart denumiri cumva insolite pentru un decident, precum magazii i trguri de date, mineritul datelor, sau sunt referite prin abrevieri misterioase ca de exemplu MOLAP, ROLAP, au
26 cunoscut o dezvoltare impresionant ncepnd cu mijlocul anilor 90. Aceast micare a fost susinut n principal de interesul marilor firme de pe piaa tehnologiilor informaiei i n mai mic msur de lumea academic. O serie de produse comerciale n domeniul DW, OLAP, DM/KDD elaborate de IBM i partenerii si sunt menionate de IBM (1996), iar solutiile furnizate de alte mari firme (NCR,ORACLE, Comshare, Seagate Software) sunt descrise de Watson i Gray (1997). Cu toate acestea, se pot auzi voci care ndeamn la precauie. Astfel, P. Keen (1997), o mare autoritate i un pionier n domeniul deciziei asistate de calculator, arat c, furnizarea de date nu creeaz informaie. Informaia nu conduce automat la cunotine. Cunotinele nu conduc n mod direct la aciuni. Aciunea n business i impactul su trebuie s fie inta. Este un pericol real ca nmagazionarea de date i domeniul managementului cunotinelor s treac uor cu vederea cele de mai sus. Trebuie s ncepem cu oamenii, nu cu informaia. Capitolul nu a abordat unele subiecte care, de multe ori, sunt descrise n literatur n contextul instrumentelor informatice care asist decizia bazat pe analiza datelor precum sistemele centrate pe date spaiale/geografice (Geographic Information Systems - GIS), sau ncercrile de folosire a abordrii obiectuale 1. n magaziile de date. Cititorului interesat de aceste subiecte i se recomand adresele: http://mis.ucd.ie/iswsdss/sdss.html, unde se poate gsi pagina lui P.Keenan referitoare la sisteme de asistare a deciziilor bazate pe date spaiale i 2. http://www.dkms.com/OODW2.html, unde se poate gsi Cartea alb nr.5 a Consiliului OLAP, din august 1997 privind magaziile de date orientate pe obiecte. Dup cum observ Gray (1997), anul 1996 a fost anul magaziei de date (n ceea ce privete publicarea de lucrri n domeniu). Dintre lucrrile
27 aprute n acest an, se recomand studierea mpreun a crilor scrise de Inmon (1996), Inmon i Hackarthorn (1996) i Kimball (1996), care dau o imagine aproape complet asupra construirii i utilizrii magaziilor de date i respectiv, a unor studii de caz din diferite domenii aplicative. O bun prezentare intuitiv a conceptelor DW, OLAP i DM/KDD se gsete n capitolul 4 al crii lui Dhar i Stein (1997). Combinarea recent a DW cu tehnologia web este prezentat de Kimball i Merz (2000) care introduc conceptul promitor de Data Webhouse. Cteva adrese Internet recomandate pentru aprofundarea studiului i urmrirea dezvoltrilor din domeniu sunt: 1. http://dssresources.com/dsstypes/ddss.html, care reprezint o bun poart de intrare pentru materialele disponibile pe Internet n domeniul asistrii deciziei bazate pe date. O bun parte dintre lucrrile referite n acest capitol au putut fi gsite plecnd de la aceast pagin; 2. http://dssresources.com/dssbook, care conine capitolul 7 al hipercrii lui Daniel Power (2000) dedicat asistrii deciziei bazate pe date; 3. http://www.datawarehousing.com/papers.asp, a lui Data Warehousing Center, de unde se poate ncepe explorarea unor articole interesante; 4. http://www.dkms.com/white_Papers.htm, de la care se pot explora o serie de Cri albe n domeniul magaziilor de date, OLAP i mineritului datelor. Nota. Autorul multumeste domnului profesor Horatiu Dragomirescu pentru o serie de materiale documentare i adrese furnizate. 4.5. Bibliografie Agosta, L. (2000). From data to insight: the critical path to data mining, a short history of data mining. PC/AI, Sept/Oct, 16-21. Alter, S. (1977). A taxonomy of Decision Support Systems. Sloan Management Review, Fall, 39-56.
28 Alter, S. (1980). Decision Support Systems; Current Practices and Continuing Challenges. Addison Wesley, Reading MA. Codd, E.F., S.B. Codd, T.S. Clinch (1993). Beyond decision support. Computerworld, 26 July. Cox, E. (2000). Free form text data mining integrating fizzy systems, self organizing neural nets and rule-based knowledge bases. PC/AI, Sept.Oct., 22-25. Date. C.J. (1986). An Introduction to Database Systems. Fourth Edition, Addison Wesley Publishing Co., Reading MA. Dhar, V., R. Stein (1997). Intelligent Decision Support Methods; the Science of Knowledge Work. Prentice Hall, Upper Saddle River, New Jersey. DKMS (2000). White Papers. Reports, Working Papers, and DKMS Briefs. Executive Information Systems Inc http://www.dkms.com/ white_Papers.htm). DWC Data Warehousing Center. Paper and Articles (www.datawarehousing.com/papers). Fayyad, U. (1996). Data mining and knowledge discovery in data bases. Communications of the ACM, (Special Issue), 39 (11). Fayyad, U., G. Piatetsky - Shapiro, P. Smith (2000). Expanded references. The KDD process for extracting useful knowledge from volumes of data (http://www.research.microsoft.com/research/dataware/ CACM-DMrefs/fayyad-intrs.htm). Filip, F. G. (2000). Decizie asistata de calculator; metode i tehnici de asistare a deciziilor centrate pe judecata umana. Informatica economica, IV (3), 10-22. Filip, F.G., B. Barbat (1999). Informatica aplicat; noi paradigme i aplicaii. Editura Tehnic, Bucureti. Firestone, J.M. (1997). Object Oriented Data Warehousing. White Paper No. Five. Executive Information Systems, Inc. (http://www.dlms.com/ 00DW2.html). Firestone, J.M. (2000). DKMS Brief No. Six: Data Warehouses, Data Marts, and Data Warehousing: New Definitions and New Concepts (http://www.dkms.com/DWDMED.html). Forsman, Sarah (1997). OLAP Council White Paper (http://www.olapcouncil.org/research/whtpapco.htm). Frawley J. F., G. Piatetsky Shapiro, G.J. Matheus (1991). Knowledge discovery in data bases: an overview. A.I. Magazine, 3 (13), 57-70. Grandy, Cheril (2000). Breakthrough Performance for Star Schemas A Data Warehousing Solutions. A White Paper. Dynamic Information Systems Corporation (http://www.disc.com./dwhpaper.html).
29 Gray, P. (1997). Data warehousing; review of Building the Data Warehouse (by W.H. Inmon). Journal of Information Systems Management, 14(1) (http://dss.cba.uni.edu/books/review1.html) Gray,P. H.J. Watson (1996). The new DSS: Data Warehouses, OLAP, MDD, and KDD. (http://hsb.baylor.edu/ramsower/ais.ac.96/papers/ graywats. htm). Hammer, M.J. Champy (1993). Reengineering the Corporation. A Manifesto for Business Revolution. Harper Business, New York. IBM(1996). Data Warehousing Concepts for AS/400 (http://www. as400.ibm.com/db2/dataware.htm). Inmon, W.H. (1993). Building Data Warehouse. John Wiley & Sons. New York. Inmon, W.H. (1995). What is a Data Warehouse? (http://www.cait.wvstl.edu/cait/papers/prism/vol1_no1/subject/home.html). Inmon, W.H., Claudia Imhoff, R. Sousa (1998). Corporate Information Factory. John Wiley & Sons, New York. Inmon, W.H., R.D. Hackathorn (1994). Using the Data Warehouse. John Wiley & Sons. New York. Keen, P.G.W. (1997). Lets focus on action not info. Computerworld. 17 November. (http://www2.Computerworld.com/home/ print9497.nsf/AII/SL46keen16F02). Kimball, R. (1996). The Data Warehouse Toolkit. John Wiley & Sons. New York. Kimball, R. Merz (2000). The Data Web house Toolkit : Building the Web-Enabled Data Warehouse. John Wiley & Sons, New York. Mertens, P., J. Hagedorn, M.Fischer, N.Bissantz, M.Haase (1996). Towards active management systems. In P. Humphrey, L. Bannon, A. McCosh, P.Migliarese, J.Ch. Pomerol (Eds.). Implementing Systems for Management Decisions; Concepts, Methods and Experience. Chapman & Hall, p.305-325. OLAP Council (1997). OLAP: On - Line Analytical Processing (http://dssresources.com/glossary/olaptrms.html). Pendse, N. (2000 a) What is OLAP? An analysis of what the increasingly misused OLAP term is supposed to mean. OLAP Report (http://www.olapreport.com/FASMI.HTM). Pendse, N. (2000 b). The origins of todays OLAP products. The OLAP Report. (http://www.olapreport.com/origins.htm). Pendse, N. (2000 c) Whats in a name? The OLAP Report (http://www.olapreport.com/name.html). Poe, V. (1996). Building a Data Warehouse for Decision Support. Prentice Hall, Upper Saddle River, New Jersey.
30 Power, D. (2000). Decision Support Systems: Concepts and Resources. Cedar Falls, I.A.: DSS Resources. COM, prepublication PDF version (http://dssresources.com/dssbook). Raden, N. (1995). Data, data everywhere. Information Web, Oct.30 (http://www.members.aol.com/nraden/iw_mct01.htm). Rowley, Jennifer (1998). What is information? Information Services & Use, 18(4), 243-255. Thomsen, E. (1997). OLAP Solutions: Building Multidimensional Information Systems. John Wiley & Sons, New York. Turban, E., J.E. Aronson (1998). Decision Support Systems and Intelligent Systems. (Fifth Edition). Prentice Hall, Upper Saddle River, New Jersey. Ulman, J.D. (1982). Principles of Database Systems. Computer Science Press, M.D. Watson, H.J., P. Gray (1997). Decision Support n the Data Warehouse. Prentice Hall, Enghlewood Cliffs, New Jersey. Witten, I.H., E. Frank, J. Gray (editors). (2000). Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations. Morgan Kaufmann Publishers. Publicat in INFORMATICA ECONOMICA IV (4),8-22