Cursul 12 - Depozitele de Date - Un Nou Model de Structurare A Bazelor de Date de Mari Dimensiuni - 1

CURSUL 12 Depozitele de date un nou model de structurare a bazelor de date de
mari dimensiuni
Sistemele informatice operaionale de marketing utilizeaz baze de date relaionale i distribuite care nmagazineaz date din activitatea zilnic privind aprovizionrile, comenzile, vnzrile, ncasrile, plile i activitile specifice de marketing, precum i informaiile culese prin interogarea unor baze de date publice din reele locale, metropolitante sau de pe Internet. n bazele de date de marketing se regsesc stocate informaii privind practic toat activitatea ntreprinderilor, indiferent de domeniu. Accesul rapid la baze de date permite obinerea informaiilor n timp util contribuind la creterea eficienei. De asemenea, capacitatea de stocare a dispozitivelor de astzi permite gsirea i accesarea unor date de mai muli ani vechime, care fr ajutorul acestor baze de date ar fi fost practic inutilizabile. Aceste date sunt ulterior organizate multidimensional fcnd posibile analize dup cele mai variate criterii la anumite intervale (lunar, trimestrial, anual etc.). Aceste analize sunt necesare echipei de conducere pentru o mai bun fundamentare a deciziilor. Datele acumulate zi de zi sunt organizate n depozite de date, care permit obinerea celor mai variate situaii.
6.2.1. Conceptul de depozit de date de marketing

nainte de a oferi o definiie se cuvine a preciza c depozitul de date1 este ntr-un fel complementul sistemului informatic operaional (subsistemele de contabilitate, subsistemul comercial, subsistemul de vnzri i marketing, subsistemul personal-salarizare etc.). Deci un depozit de date (data warehouse) este o colecie de date tematic, integrat, plasat ntr-un context temporal i permanent fiind destinat fundamentrii deciziei de marketing . Datele din warehouse provin n principal din datele capturate din sistemul informatic operaional de marketing, din bazele de date de arhiv, istoric precum i din baze de date publice cum ar fi: baze de date demografice, statistice (furnizate de institute specializate), prognoza economic (furnizate de instituii de sondare a pieei), de cercetri de marketing. Aceste date pot fi cumprate, pot fi peluate pe baz de abonament sau pot fi date publice gratuite. Depozitele de date, stocnd cantiti mari de date, sunt baze de date de mari dimensiuni caracterizate din punct de vedere al numrului i varietii nregistrrilor i respectiv al aspectului multidimensional ce implic o mulime de variabile selectate i incluse n modele de analiz. Proiectarea arhitecturii depozitului de date presupune definirea structurii logice i fizice a bazei de date, configurarea serverului depozitului care s poat procesa rapid volume foarte mari de date i alegerea SGBD-ului de gestiune a depozitului de date. Se ntlnesc trei tipuri de abordri a arhitecturii unui depozit de date: a) abordarea centralizat care contribuie la maximizarea puterii de calcul i presupune stocarea datelor, care provin din surse externe i interne ntr-un depozit integrat; b) abordarea federativ ce implic distribuirea informaiilor n baza de date distribuite dup funciuni (cele financiare ntr-un nod al reelei, cele de marketing ntr-un alt nod, cele de fabricaie ntr-un al treilea nod);
1
(engl.) Data Warehouse = depozit de date
c) abordare stratificat ce presupune pstrarea datelor foarte sumarizate pe staia de lucru, datele mai puin sumarizate pe un al doilea server iar datele de detaliu pe un al treilea. Staia de la primul nivel manevreaz datele cele mai cerute, cu tot mai puine cereri de detaliere ctre nivelele inferioare. Calculatoarele de pe primul nivel pot fi optimizate pentru procesri intense pe volume mici de date, pe cnd serverele de pe nivelele doi i trei pot fi adaptate pentru procesri simple pe volume mari. Odat decis arhitectura logic trebuie analizate posibilitile oferite de structurile hard. Factorii de influen asupra alegerii tipului de server se refer la dimensiunea depozitului i la nevoile ntreprinderii n ceea ce privete scalabilitatea, disponibilitatea i administrarea sistemului, fiind ntlnite: a) serverele monoprocesor sunt cel mai uor de ntreinut dar sunt limitate ca putere calcul i scalabilitate. Reelele de servere monoprocesor se pot extinde prin intermediul arhitecturilor distribuite. b) Sistemele cu multiprocesare simetric i sporesc puterea prin adugarea de procesoare care partajaz memoria intern a serverului precum i unitile de stocare. Aceast arhitectur este ideal pentru cutri n baze mari de date. Referitor la deciziile privitoare la SGBD alese, acestea se bazeaz pe nevoia de flexibilitate i pe dimensiunile depozitului de date. Versiunile moderne ale SGBD-urilor relaionale i distribuite dau posibilitatea analizei multidimensionale i pot beneficia din plin de hardware-ul specializat pentru bazele de date (de exemplu Teradata). Depozitele de date permit o analiz independent de procesare zilinc a datelor din cadrul firmei. De asemenea, s-a constatat c mai mult de o treime din datele existente n DB nu sunt luate niciodat n considerare, fiind complet ignorate. Analiznd i aceste date se poate constata dac, unde i cnd a greit i cum se pot evita pe viitor aceste greeli. Analizele multidimensionale care permit interpretarea datelor n funcie de diferite criterii fac de trei ani obiectul marilor firme productoare de SGBD-uri. Acestea pot fi fcute n principiu i pe baza curent de date, dar n cazul unor volume mari de date obinerea de situaii este foarte dificil, deoarece implic comenzi complexe. Scopul SGBD-ului este de a asigura tranzaciile cu datele ntr-o manier sigur, i deci nu poate fi eficient. Aceste noi programe asigur o bun performan n analizarea acestui uria volum de date i posibilitatea schimbrii continue a metodelor de analiz. De aceast dat sistemul este organizat cu totul altfel deoarece nu mai este nevoie de funcia de actualizare a informaiilor i nici de protecie. Efectuarea statisticilor, analizelor i comparaiilor se face avnd la baz calculatoare foarte puternice, care pot manipula volume foarte mari de date. Exploatarea depozitelor de date poate consta din: extragerea unor rapoarte (la cerere sau pe baza unui ,,abonament cu o anumit periodicitate); extragerea unor date pentru a fi utilizate de aplicaiile de birotic (programe de calcul tabelar, procesoare de text, programe de prezentare etc.); utilizarea unor instrumente de acces de ctre aplicaii specializate de analiz, cum ar fi: a) instrumente de procesare analitic on-line (OLAP On Line Analytical Processing); b) instrumente de ,,minerit n date (Data mining aplicaii axate pe descoperirea unor modele, tendine i corelaii semnificative prin exploatarea depozitului de date).
6.2.2. Instrumente de acces i analiza multidimensional prin depozitele de date de marketing

n vreme ce datele operaionale din sistemele informatice se refer la activitile zilnice, depozitul de date este istoric prin natur i este folosit pentru a obine o perspectiv asupra tendinelor, corelaiilor i a factorilor de influen.
Activitati zilnice Interactiuni on-line Interogari si rapoarte OLAP Data mining
Baze de date
Date adunate in timp
Depozit de date
Date operationale
Date de istoric
Figura 6.3. Tendine n stocarea i procesarea informaiilor
Multe ntreprinderi colecteaz n acest moment i rafineaz masive cantiti de date n depozitele de date prin intermediul sistemelor informatice. Aceste firme au realizat c pentru a reui ntr-o lume ce se schimb n ritm rapid, utilizatorii economici au nevoie de informaie n momentul cererii. i ei mai au nevoie i de informaie neateptat, dar folositoare. Nu este niciodat suficient timp pentru a se gndi asupra tuturor problemelor importante, motiv pentru care computerul trebuie s ndeplineasc autonom i aceast sarcin. Ei privesc acum informaia ca pe una dintre cele mai valoroase resurse, iar instrumentele de analiz multidimensional permit unei firme s foloseasc la maxim aceast resurs. Fundamentarea Deciziilor (engl. Decision Support) este un termen general care se refer la folosirea informaiei ca la o resurs corporativ strategic, ce abiliteaz firmele n utilizarea bazelor lor de date pentru a lua decizii mai bune. Instrumentele de acces la depozitele de date i de analiz multidimensional se bazeaz, n mod tradiional, pe trei tipuri de unelte: Interogri i rapoarte: caz n care un utilizator pune o ntrebare, de ex. ,,care au fost vnzrile pentru un anume produs?; OLAP Procesare analitic n linie1 care se extinde la procesarea de interogri de-a lungul a mai multor dimensiuni, cum ar fi o arie geografic, o lun etc. De exemplu: ,,clasific vnzrile pe luni, judee i magazine; Data Mining2:care extrage ,,automat modele de informaii i relaii pentru formulare de ntrebri de tipul: ,,Ce anume influeneaz vnzrile unui anumit produs n judeele din Ardeal? n figura 6.4. se poate observa progresul fcut n domeniu n ultimii 30 de ani pentru a oferi informaie rafinat mai mult i mai bine.
1 2
(engl.) On Line Analytical Processing OLAP = procesare analitic on-line (engl.) Data Mining = mineritul (forarea) datelor
Cunostinte
Acces la Cunostinte Data mining OLAP/ROLAP Interogari si analize Statistici si Rapoarte 1970 1980 1990 2000
Date
Figura 6.4. Etapele de procesare i rafinare a informaiei
n cazul statisticilor i rapoartelor erau disponibile utilizatorilor rezumate ale datelor. n plus i aceste date sumare erau obinute prin intermediul unui analist. Odat cu apariia depozitelor de date, anumite interogri i rapoarte pot fi obinute chiar de utilizatorul direct prin consultarea bazelor de date. ncepnd cu OLAP, ntrebri generalizatoare multi-dimensionale au putut fi adresate chiar de utilizatorii direci, de ex. ,,un total pe produs, pe canal de distribuie, pe lun. Cu ajutorul Data mining, analitii de marketing i o categorie mai rafinat de utilizatori economici pot descoperi corelaii semnificative, modele de informaii, factorii de influen i tendinele ce reies din date. Noiunea de ,,acces la cunotine, semnific faptul c modelele relevante din date sunt gsite dinainte i stocate pentru necesitile utilizatorilor. Acetia pot folosi modelele interesante furnizate sptmnal sau lunar sau pot interoga ei nii modelele de baz. Deoarece marile baze de date adeseori ofer multe date utile, abordrile bazate pe Interogri i OLAP se confrunt, de obicei, cu greuti n a identifica generalizri utile din cauza prea multor date. Fora tehnicii Data Mining const n abilitatea de a efectua din proprie iniiativ cercetri printre date, descoperind n mod autonom modele cheie. Cu toate c cele trei abordri de mai sus sunt utile, ele mpart o trstur comun care se refer la faptul c utilizatorul trebuie s realizeze mai multe analize pentru a dobndi cunotinele, procedeu cunoscut ca Modelul de Analiz a Datelor1. O nou abordare care pune la dispoziia utilizatorilor informaie rafinat este Modelul de Acces la Cunotine2. Prin modelul de acces la cunotine analiza datelor este efctuat n prealabil, iar utilizatorul doar urmrete cunotinele ,,pre-minerite la cerere. Pentru a distila informaia dintr-o baz de date este evident necesar s se realizeze analize la un moment dat. Altfel spus, analiza se efectueaz la momentul n care utilizatorul are nevoie de cunotine sau este realizat anterior, astfel nct sunt gata de a fi accesate. n mod tradiional analizele de tip data mining erau efectuate dup lansarea cererii de ctre utilizator. Modelul accesului la cunotine elimina riscul unor analize ntrziate prin aceast operaie de preminerire a informaiei.
1 2
(engl.) Data Analysis Paradigm = Model de Analiz a Datelor (engl.) Knowledge Acces Paradigm = Model de Acces la Cunotine
Rafinare
Aadar exist dou modele distincte capabile s ofere utilizatorilor cunotine: Modelul de Analiz a Datelor: n acest caz utilizatorii opereaz asupra datelor pentru a descoperi informaia. Acest model se bazeaz pe o abordare de tipul ,,analiz la cerere. Modelul de Acces la Cunotine: n acest caz analizele sunt efectuate n mod automat n prealabil, modelele rafinate sunt pre-generate, iar utilizatorii obin cunotinele n momentul n care au nevoie de ele (abordare de tipul ,,cunotine la cerere).
6.2.3. OLAP Procesare analitic on-line

Analiza analitic multidimensional, referit de regul ca OLAP (On Line Analytical Processing) este o activitate ce d rspunsuri corecte la ntrebrile analitilor de marketing. Singura trstur comun a acestor ntrebri este caracterul lor multidimensional. Exist totui cteva tipuri uzuale de ntrebri, care pot arunca o lumin asupra complexitii instrumentelor care trebuie s furnizeze rspunsuri: Raporturi multidimensionale. Exemplu: care este contribuia la vnzrile totale a produselor farmaceutice ale societii SICOMED vndute prin farmaciile din Bucureti n perioada?; Comparaii. Exemplu: care este media abaterii procentuale de la planul de vnzri n primul semestru al acestui an comparativ cu vnzrile din primul semestru al anului trecut?; Clasificri i profiluri statistice. Exemplu: care este volumul vnzrilor i media adaosului pentru primii 20% dintre distribuitori i care este contribuia acestora la totalul vnzrilor pe trimestrul trecut?; Agregri libere. Exemplu: care sunt veniturile realizate n ultimele patru trimestre de filialele judeene din Moldova ale firmei Eurofarm?; Evaluri What-If. Exemplu: n ce msur ar influena profitul total o cretere cu zece procente a vnzrilor n judeele din Ardeal? Pentru oricine care a formulat interogri n bazele de date (engl. Query), este evident c exprimarea unor asemenea cereri depete posibilitile oricrui instrument de acces i raportare. Printre calitile pe care trebuie s le ndeplineasc un bun instrument OLAP se numr: s poat susin analize sofisticate; s poat fi utilizate eficient de diverse categorii de utilizatori; s fie scalabile la volume orict de mari de date; s permit accesul concurent al unui mare numr de utilizatori; s fie uor de intreinut i de configurat; s fie bazate pe o arhitectur deschis deoarece evoluia tehnologiei informaiei poate aduce schimbri radicale n structura sistemului informatic care, ns, nu trebuie s afecteze instrumentaia utilizat pentru analiz. Fiind o tehnologie relativ nou, modelul de arhitectur (figura 6.5.) care s-a impus pentru sistemele orientate spre analiz multidimensional este unul de tip client/server n trei straturi.
Sisteme informatice
Data Warehouse OPERATIONALE
Motor OLAP
Aplicatii OLAP
Metadate
Figura 6.5. Arhitectura unui sistem OLAP
a) Bazele de date formeaz nivelul cel mai de jos, responsabil cu stocarea i regsirea datelor. De regul aplicaiile tranzacionale utilizeaz sisteme relaionale dar pentru depozitele de date se folosesc i sisteme multidimensionale. Dat fiind volumul mare de date, este recomandabil ca SGBDurile folosite s ofere suport pentru prelucrri paralele i distribuite, s dispun de mecanisme performante de indexare i de optimizare, s ofere un nalt nivel de siguran. b) Motorul analitic OLAP (OLAP engine) are sarcina de a prelua cererile exprimate de utilizatori i, pe baza consultrii metadatelor, s genereze cererile necesare pentru obinerea datelor ce vor fi redirectate ctre clieni. n plus, datelor obinute li se vor aplica la ac est nivel o serie de prelucrri. Generarea de interogri se bazeaz pe criterii furnizate de clieni sub forma unor formule exprimate prin operatori logici. Manipulrile matematice se aplic pentru a aduce datele la forma dorit de utilizatori. Acestea constau de cele mai multe ori n calcularea unor distane (metrice) derivate pe baza unor formule date, analize statistice complexe etc. Sintetizarea rezultatelor este o alt sarcin a motorului analitic. Dei depozitul de date conine i date deja agregate, adeseori utilizatorul dorete consolidarea unor sinteze pe baza unor combinaii de atribute care nu au fost prevzute. c) Aplicaiile OLAP sunt reprezentate de instrumente mnuite de utilizatorul final. Exist aplicaii generale care rspund suficient de bine nevoilor unei categorii largi de utilizatori, exist instrumente specializate pe domenii (cum ar fi de pild analiza financiar) i, n fine, exist posibilitatea de a dezvolta instrumente foarte specifice. Din punct de vedere al utilizatorului final, aplicaia pe care o folosete trebuie s-i asigure dou funcionaliti importante: navigarea liber prin depozitul de date n cutarea informaiilor relevante i posibiliti diverse de prezentare a datelor. Aceste funcionaliti sunt strns legate ntre ele i este greu de spus care operaie este de navigare i care este de prezentare. Operaiile OLAP sunt: Specificarea criteriilor de selecie este primul pas n orice analiz. Utilizatorul trebuie s poat exprima cu uurin criterii simple, bazate pe valori ale atributelor i/sau pe valori ale metricelor. Aceste criterii simple trebuie s poat fi apoi combinate prin operatori logici i trebuie s poat fi salvate n biblioteci pentru eventuale reutilizri.
Rotaiile sunt operaii care permit utilizatorilor s gseasc perspectiva care-l intereseaz specificnd dimensiunile i direciile de rotaie sau indicnd un pivot. Schimbarea nivelului de agregare permite gsirea nivelului de agregare optim pentru analiz. Se poate adnci analiza spre nivele de detaliu (drill-down) pentru anumite dimensiuni n timp ce pentru alte dimensiuni se crete nivelul de agregare (drill-up). Specificarea modului de prezentare trebuie s permit analistului s gseasc modalitile optime de valorificare vizual a datelor extrase. n afar de posibilitile grafice tipice pentru prezentare, este important ca utilizatorul s poat vizualiza date multidimensionale ntr-o manier tabelar. n acest sens se pot utiliza tabele complexe, care s poat grupa coloane i linii exprim nd dimensiuni diferite (de pild timpul i dispunerea n spaiu) i nivele de agregare diferite. Cerinele de administrare i dezvoltare pentru OLAP, dei similare cu cele pentru instrumentele de interogare i raportare, sunt n general mult mai complexe. Punerea n funciune a unui sistem OLAP i a softului de acces la date necesit o nelegere clar a modelului de date al ntreprinderii i a funciilor analitice cerute de conducerea executiv i strategic. Produsele comerciale pot fi de mare folos, dar rareori exist soluii ,,la cheie pentru OLAP; arhitectura trebuie reglat astfel nct s suporte sursele de date folosite i s fac fa cerinelor. n schimb, odat ce sistemul OLAP este funcional, suportul tehnic pentru utilizator este minimal.
6.2.4. Data mining

Data mining (mineritul n date) reprezint, ntr-o accepiune simpl, un mod automat de detectare ntr-o baz de date a unor tipare relevante. Data mining utilizeaz o serie de tehnici statistice i de inteligen artificial ce dau posibilitatea construirii de modele ce pot previziona comportamentul clienilor. Tehnologia i sporete calitile prin integrare cu depozitele de date comerciale i cu noile modaliti de prezentare i raportare. Data mining i datorete numele similaritii dintre cutarea de informaii valoroase ntr-o baz de date mare i sparea unor galerii n munte pentru detectarea unor zcminte valoroase. Data mining este un proces de descoperire a cunotinelor (Knowledge discovery -KD), de extragere a informaiei necunoscut anterior din baze de date foarte mari. Procesul descoperirii de corelaii semnificative, modele i tendine se asigur prin explorarea unor mari cantiti de date stocate n depozite de date, utiliznd tehnologii de recunoatere a modelelor, precum i tehnici statistice i matematice. Conform unui raport din 1997 al Grupului Gartner1: ,,Data mining i inteligena artificial se afl ntre primele cinci tehnologii cheie care vor avea n mod sigur un impact major asupra unui mare numr de industrii n urmtorii 3 pn la 5 ani. Gartner situeaz data mining ntre primele 10 tehnologii n care firmele vor investi n urmtorii 5 ani. Studiile arat c ultimul an a cunoscut o explozie dramatic a nivelului de interes privind data mining, n condiiile n care utilizatorii au dorit s profite de avantajul oferit de aceast tehnologie pentru a obine un foarte util plus concurenial. Anumite produse software de vrf n domeniul data mining, provenite de la companii ca SAS sau IBM, reprezint acum mai mult dect simple motoare de modelare bazate pe algoritmi
1
Data Mining at Dun&Bradsheet, White Papers, 1998, pag. 14.
compleci. Acestea se adreseaz unei categorii mai largi de probleme tehnice i economice i se integreaz n mediile actuale de tehnologie informaional. Dei se credea c data miningul va elimina nevoia de specialiti n crearea de modele statistice, lipsa experienei umane i a intuiiei ntre nite corelaii relevante i unele nerelevante, lips ce caracterizeaz softurile, infirm aceast previziune. Tradiional sunt avute n vedere dou tipuri de analize statistice: analize confirmatorii i analize exploratorii. n cazul analizelor confirmatorii, avnd o ipotez formulat aceasta se accept sau se respinge. n analizele exploratorii, se urmrete gsirea de ipoteze, care apoi se accept sau se resping. n acest punct sistemul preia ,,iniiativa n procesul analizei datelor sistemul gndete singur ipotezele acestea ne mai fiind formulate de utilizator. n prezent termenul de data mining se refer la procesul automat de analiz a datelor n care sistemul preia iniiativa de a genera modele. a) Din punct de vedere al procesului exist trei clase de activiti data mining: descoperire, modelare predictiv i analiza excepiilor (figura 6.6.).
Depozit de date Conditionare logica

Baza de date 1
Descoperire
Afinitati si Asocieri Tendinte si Variatii
Baza de date 2
Data Mining
. . .
Modelare predictiva
Previzionarea rezultatului Previziuni Detectarea deviatiilor Analize ale legaturilor
Analiza exceptiilor
Baza de date n
Figura 6.6. Clase de activiti Data mining
Descoperirea este procesul de cutare n baza de date pentru a gsi modele, fr a avea o idee predeterminat sau ipoteza asupra ceea ce pot fi modele. Cu alte cuvinte programul preia iniiativa n gsirea a ceea ce sunt modelele interesante, fr a fi necesar ca utilizatorul s se gndeasc la ntrebrile relevante n prealabil. n marile baze de date exist att de multe modele nct utilizatorul nu ar putea niciodat practic s se gndeasc la toate ntrebrile care ar trebui pus e. Problema cheie n acest caz const n bogia de modele care pot fi gsite i exprimate, precum i n calitatea informaiei livrate elemente care determin puterea i utilitatea tehnicii de descoperire. n modelare predictiv modelele descoperite din baza de date sunt folosite pentru a face previziuni. Modelarea predictiv permite astfel utilizatorului s prelucreze nregistrri ce au
cmpuri valorice necunoscute, iar sistemul va intui valorile necunoscute pe baza unor modele anterioare din baza de date. Analiza excepiilor reprezint procesul prin care se aplic modelele extrase pentru a gsi anomalii sau elemente de date neobinuite. Pentru a descoperi anomaliile, mai nti aflm ceea ce e normal, apoi detectm acele articole care deviaz de la norm n cadrul unui interval dat. De exemplu odat ce am observat c 90% dintre cumprtori au sub 50 de ani, ne putem nteba n legtur cu cei 10% cumprtori care au peste 50 de ani i sunt n baza de date. Se observ c descoperirea ne poate ajuta s gsi m ,,cunotine uzuale, vreme n care analiza excepiilor caut cazurile neobinuite i specifice. Fiecare din aceste procese pot fi clasificate la rndul lor dup regulile If/Then, asocieri etc. n timp ce IF/THEN presupune: Dac condiie, atunci regula 1, astfel regula 2, regulile de asociere se refer la gruparea articolelor (de ex. cnd cineva cumpr un produs la magazin, el poate cumpra alt produs n acelai timp un proces numit de obicei analiza coului de cumprturi). b) Din punct de vedere al tehnicilor utilizate de data mining (figura 6.7.) identificm:
Depozit de date Vecinul imediat Date retinute Argumentare pe cazuri Reguli Logic Arbori de decizie Agenti Retele de incredere Ecuational Statistici Retele neurale Propagare inversa Kohonen Inductie Algoritmi genetici CART CHAID C4.5 etc.
Baza de date 1
Baza de date 2
Data Mining
. . .
Date distilate
Baza de date n
Tabelare incrucisata
Figura 6.7. Tehnologiile data mining
Reelele artificiale neurale modele de previzionare nonliniare care sunt capabile de acumulare de cunotine prin antrenament; Algoritmi genetici tehnici de optimizare ce se bazeaz pe procese cum ar fi combinaii genetice, mutaii i selecie natural. Sunt utilizate n modele ce folosesc concepte de evoluie natural; Arbori de decizie structuri pe trei nivele ce reprezint seturi de decizii. Aceste decizii genereaz reguli de clasificare a seturilor de date. Printre modelele bazate pe arborii de decizie se include Arborii de regresie i clasificare (CART) i Detectarea automat a interaciunilor de tip 2 (CHAID); Metoda celui mai apropiat vecin o tehnic ce permite clasificarea fiecrei nregistrri din baza de date a k clase de nregistrri, cele mai similare;
Inducia unor reguli extragerea unor reguli utile de tip dac-atunci pe baza semnificaiei statistice; Vizualizarea datelor interpretarea vizual a relaiilor complexe pentru date multidimensionale. Cea mai important dihotomizare a tehnologiilor data mining se refer la pstrarea datelor; adic, se mai pstreaz sau mai este nevoie de date odat ce au fost minerite. n abordrile iniiale mare parte din seturile de date se pstrau pentru viitoare analize. n mod evident, o astfel de tehnic se poate aplica numai n cazul sarcinilor de tip modelare predictiv i analiz a excepiilor, nefiind necesar n cazul descoperirii de cunotine ntruct nu mai sunt alte modele de distilat. Aa cum uor se poate bnui, abordrile bazate pe pstrarea datelor pot avea uor probleme din cauza dimensiunilor foarte mari ale unor astfel de seturi de date. n timp ce n cazul distilrii de modele se analizeaz datele, se extrag modelele, iar apoi se renun la date, n abordrile bazate pe pstrare, datele sunt reinute pentru analogiile de modele. Atunci cnd noi seturi de date sunt avute n vedere, atunci aceste seturi sunt comparate cu seturi anterioare de date. Un exemplu cunoscut al abordrii bazate pe reinerea datelor este metoda ,,vecinului imediat. n acest caz setul de date este pstrat (de obicei n memorie) pentru comparaii cu noi nregistrri. Cnd o nou nregistrare este supus analizei, este gsit ,,distana dintre acestea i nregistrrile similare din setul de date i ,,cele mai similare (sau vecinii cei mai apropiai) sunt identificai. Tehnologiile bazate pe distilarea modelelor extrag modelele dintr-un set de date, apoi folosesc aceste modele pentru diverse scopuri. n mod evident, este necesar ca aceste modele s fie exprimate ntr-o anumit form i limbaj. Aceast opiune a dat natere la trei abordri distincte: logic, ecuaii i tabelare ncruciat. Fiecare dintre aceste abordri i are originile istorice n anumite seciuni ale matematicii. Logica formeaz baza celor mai multe limbaje scrise. Modelele exprimate n limbaje logice se disting prin dou principale caracteristici: pe de o parte sunt citibile i inteligibile, iar pe de alt parte sunt excelente pentru reprezentarea grupurilor de elemente de date. Sistemele logice condiionate pot fi separate n dou grupuri disticte: reguli i arbori de decizie. Regulile condiionale pot fi implementate prin inducie sau algoritmi genetici. Exist mai multe abordri i pentru generarea arborilor de decizie (de ex., CART, CHAID, C4.5). Tabelarea ncruciat este o form simpl de analiz a datelor, bine cunoscut n statistic, i folosit pe larg n rapoarte. Un tabel ncruciat bidimensional este similar unei foi de calcul, cu capetele, att de rnduri ct i de coloan, fiind valori ale atributelor. Celulele din foaia de calcul reprezint o operaie agregat, de obicei numrul de co-apariii ale valorilor atributelor. Multe tabele ncruciate sunt efectiv echivalente cu un grafic tridimensional care nfiaz o numrtoare a co-apariiilor. Termenul de ,,agent este folosit uneori pentru a desemna tabelele ncruciate care sunt reprezentate grafic ntr-o reea i permit folosirea unor conjuncii AND, OR etc. Reelele de ncredere, uneori numite reele cauzale , sunt un graf direcionat, constituit din noduri (variabilele reprezentate) i legturi ntre noduri (coeficieni probabilistici de ncredere). Abordrile ecuaionale folosesc de obicei un set de ecuaii pentru a defini ,,o suprafa (reprezentare grafic a unei funcii de orice grad) n cadrul unui spaiu iar apoi msurarea distanelor de la aceast suprafa pentru a face estimri.

Cursul 12 - Depozitele de Date - Un Nou Model de Structurare A Bazelor de Date de Mari Dimensiuni - 1

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Cursul 12 - Depozitele de Date - Un Nou Model de Structurare A Bazelor de Date de Mari Dimensiuni - 1

Încărcat de

Drepturi de autor:

Formate disponibile

CURSUL 12 Depozitele de date un nou model de structurare a bazelor de date de

6.2.1. Conceptul de depozit de date de marketing

(engl.) Data Warehouse = depozit de date

6.2.2. Instrumente de acces i analiza multidimensional prin depozitele de date de marketing

Date adunate in timp

Figura 6.3. Tendine n stocarea i procesarea informaiilor

Figura 6.4. Etapele de procesare i rafinare a informaiei

6.2.3. OLAP Procesare analitic on-line

Data Warehouse OPERATIONALE

Figura 6.5. Arhitectura unui sistem OLAP

6.2.4. Data mining

Data Mining at Dun&Bradsheet, White Papers, 1998, pag. 14.

Depozit de date Conditionare logica

Afinitati si Asocieri Tendinte si Variatii

Previzionarea rezultatului Previziuni Detectarea deviatiilor Analize ale legaturilor

Figura 6.6. Clase de activiti Data mining

Figura 6.7. Tehnologiile data mining

S-ar putea să vă placă și