Documente Academic
Documente Profesional
Documente Cultură
Prin tehnologiile BI sunt adunate toate datele, sunt prelucrate n informaii, care fiind bine analizate pot fi
utilizate n luarea deciziilor si n final puse n aciune.
Business Intelligence este o direcie n evoluia sistemelor informaionale de business bazat pe concepte de
transformare a volumurilor mari de date n informaii analitice utile. Ea cuprinde o totalitate de concepte,
arhitecturi, tehnologii i instrumente pentru acumularea datelor din diferite surse i extragerea din ele a
informaiilor analitice cu scopul sprijinirii procesului decizional la toate nivelurile.
n jurul acestui concept s-au lansat ali termeni legai de analiza informaiilor economice componente BI
vechi, precum:
business performance management (BPM);
business process management (tot BPM):
corporate performance management (CPM);
business activity monitoring (BAM).
Aceste componente sunt incluse n BI si depind de instrumentele BI
Desi este legat de aplicaiile de ntreprindere, BI nu este un produs sau un sistem, ci este un concept
umbrela, care adposteste arhitecturi, aplicaii si baze de date. Menirea sa vizeaza accesul ct mai
simplu la date al utilizatorilor dintr-o organizaie prin accesarea interactiva, n timp real la bazele de
date, manipularea si analiza acestora. Prin analiza datelor istorice, BI realizeaza o valoroas introspecie
asupra activitailor si situaiilor de afaceri, iar managerii sunt sprijinii concret n luarea deciziilor prin
informaii de esen, inclusiv cele de comportament i de previziune.
Cheia nelegerii BI st n nelegerea modului n care datele sunt prelucrate n informaii si cum sunt ele apoi
analizate si n ncadrarea acestor procese n arhitectur, instrumentele i aplicaiile BI. Trebuie lmurit faptul
ca BI nu produce date, ci utilizeaz datele produse de aplicaiile de ntreprindere: ERP, CRM, SCM etc.
Asa cum aratam, BI este o combinaie de arhitecturi si tehnologii software. Arhitectura specifica BI
reuneste urmatoarele instrumente (vezi figura 1): depozite si magazii de date (data warehouse, data
mart), ETL (extract transfer load), instrumente de interogare si raportare (reporting and query),
instrumente de vizualizare (data visualization), tabloul de bord (dashboard), OLAP (OnLine Analytical
Processing), minerit de date (data mining), sisteme de alertare si notificare (alerting and notification
systems), care vor fi analizate pe scurt n continuare
1
Figura 1.2 Depozit de date cu arhitectur complex.
Pe aceast arhitectura din punct de vedere funcional se regasesc trei module funcionale distince de
realizare (fig. 1.3) (module funcionale):
2
Figura 1.3: Modulele functionale ale unui depozit de date
Modulul operaional - reprezentat de datele companiei care sunt de obicei pstrate sub form diferit la
locaii diferite. Aceste date pot proveni de la aplicaii sau de la sisteme distribuite din cadrul companiilor cum
ar fi sisteme de gestiune a comenzilor, de eliberare a facturilor, de contabilitate
Modulul central al depozitului de date reprezentat de SGBD-ul i de serverul (OLAP) pe care acesta
ruleaz i de modul n care este implementat depozitul - exist n acest moment doua tendine. Una ar fi
implementarea unui sistem distribuit, descentralizat unde datele sunt pstrate n unitati independente
(Independent DataMarts Magazii de Date) fiecare coninnd datele relevante pentru un anumit aspect al
operaiilor unei instituii
Modulul strategic, de afaceri - valoarea final a unui depozit de date este determinat de avantajele pe
care le ofer utilizatorului n diferite procese de luare a deciziilor i analiz
financiara, de gestiune a stocurilor, salarizare, etc
Arhitectura functional a depozitelor de date prezentat mai sus permite proiectarea si implementarea unor
diverse tipuri de depozite de date n funcie de cerinele de afaceri, resursele disponibile si posibilitile de
realizare.
Depozitul central al organizatiei (Enterprise Warehouse) colecteaza toate informatiile despre
subiectele care privesc ntreaga organizatie si furnizeaza un volum extins de date. De regula contine date
detaliate, dar si date agregate, iar ca ordin de marime porneste de la ctiva gigabytes pna la sute de gigabytes
si terabytes.
Un depozit de date de ntreprindere trebuie implementat pe servere puternice UNIX sau pe platforme cu
arhitecturi paralele.
Data mart-ul contine un subset al volumului de date din organizatie, specific unui grup de utilizatori
sau departament (DM pentru compartimente de afaceri sau pentru departamente DM departamentale).
Domeniul este limitat la subiecte specifice. Datele continute n data mart sunt de obicei agregate. n mod
curent data marts sunt implementate pe servere departamentale cu resurse mai reduse care se bazeaza pe
UNIX sau Windows 2000/2003.
Depozitul virtual (Virtual warehouse) este un set de tabele virtuale (views) asupra
bazelor de date operationale. Pentru eficiena procesrii interogrilor, numai unele din viziunile de agregare
pot fi materializate. Un depozit virtual este uor de construit, dar problema extragerii si prelucrrii datelor
3
revine n mod exclusiv serverului de baze de date, ceea ce poate conduce la un timp de prelucrare mare, nsa
se elimin necesitatea stocrii datelor ntr-un depozit real [HOLL00].
O alt clasificare a depozitelor de date este propus n lucrarea [POWE00] n care se identific cinci
tipuri, n functie de aria de cuprindere a proceselor decizionale i anume:
Depozitul de date de tip organizational sau galactic (galactic datawarehouse - GDW) reprezinta un
tip de depozit centralizat, cu o arie de cuprindere extinsa avnd drept obiectiv integrarea si prelucrarea
datelor la toate nivelurile organizatiei, att la nivelul departamentelor ct si al ntregii organizatii;
Depozitul de date orientat pe procese de afacere (business process datawarehouse BPDW) reprezinta
un tip de depozit specializat, orientat pe satisfacerea cerintelor de afaceri si a proceselor de afaceri;
Depozitul de date departamental (departamental datawarehouse - DDW) reprezinta un tip de depozit
orientat pe departamente, avnd drept obiectiv integrarea si prelucrarea datelor din fiecare
departament n parte;
Centru de date de tip proces de afaceri (business process data mart - BPDM) reprezinta un tip de
depozit specializat, orientat pe satisfacerea unei anumite cerinte de afaceri si a unui singur proces de
afaceri;
Centru de date departamental (departamental data mart - DDM) reprezinta un tip de depozit
specializat, cu o arie de cuprindere limitata la un anumit departament, avnd drept obiectiv integrarea
si prelucrarea datelor specifice activitatilor acestuia.
In practic ar fi recomandabil combinarea acestor tipuri de depozite, deoarece nu este indicat( ?) s se
proiecteze un data mart pentru fiecare proces de afaceri sau pentru fiecare departament i apoi s se
reuneasc ntr-un depozit centralizat, far s se in cont i de relaiile interdepartamentale.
4
In analiza multidimensionala cubul de date cu mai mult de trei dimensiuni poarta denumirea de cub n-
dimensional sau hipercub (hypercub). Consiliul OLAP defineste cubul n-dimensional ca fiind un grup
de celule de date aranjate dupa dimensiunile datelor. O matrice tridimensionala poate fi vizualizata ca
un cub cu fiecare dimensiune formnd o fa a cubului [OLAP95]. Tot n aceeasi definitie se
mentioneaza ca dimensiunile tipice ale datelor dintr-o ntreprindere sunt timpul, masurile, produsele,
regiunile geografice, canalele de distributie
5
ROLAP (Relaional OLAP) stocheaz datele i agregrile n tabele relaionale. Aceste tabele sunt
memorate n aceeai baz de date n care sunt memorate i tabelele depozitului de date. Deoarece datele sunt
stocare n depozitul de date, cuburile ROLAP nu necesit un alt spaiu de stocare. Avnd in vedere aceast
modalitate de stocare, se pot utiliza i comenzi standard Transact-SQL n afara instrumentului OLAP
Services, pentru interogarea cubului dei, numele tabelelor i a coloanelor sunt greu de utilizat fiind generate
automat de ctre sistem.
Structura datelor ROLAP este format din tabele i indeci. Dimensiunile sunt stocate n tabele iar msurile
n coloane. Fiecare nivel al unei dimensiuni este indexat.
HOLAP (Hybrid OLAP) este o combinaie ntre MOLAP i ROLAP. Astfel, HOLAP stocheaz
datele de baz n tabele relaionale n aceeai baz de date ca i depozitul de date iar agregrile n structuri
multidimensionale n afara depozitului de date.
Stocarea datelor cubului ntr-o structur de tip HOLAP este recomandat n cazul interogrilor frecvente
asupra datelor agregate ce au la baz un volum mare de date. De exemplu, rezultatele anuale ale studenilor
pot fi stocate ntr-o structur MOLAP iar rezultatele fiecrei sesiuni pot fi stocate ntr-o structur ROLAP.
Tehnologia Data Mining este pregatita pentru aplicatii deoarece ea este sustinuta de tehnologii care acum sunt
suficient de dezvoltate , cum ar fi :
1. Colectii de date masive
2. Computere multi-procesor puternice
3. Algoritmi de cautare a datelor
13. Tipuri de tipare, care pot fi descoperite prin metodele Data Mining
Se disting cinci tipuri de legiti cinci tipuri de tipare sau patterne, care pot fi identificate sau descoperite
sau recunoscute prin metodele Data Mining:
asocieri (analiza asocierilor),
secvene (analiza secvenelor),
clasificri (clasificarea i predicia),
clusterizare (analiza clusterilor),
legiti temporale (n prognoz).
Analiza asocierii este o forma necontrolata a Data Mining care cauta legaturi intre inregistrarile dintr-un set
de date. Analiza asocierii este cateodata definita ca analiza cosului de consum, care este cea mai folosita
aplicatie a sa. Scopul este de a descoperi, de exemplu, ce articol este cel mai probabil cumparat mpreun cu
articolul dat in acelasi timp, pentru a ajuta comerciantii cu amanuntul sa organizeze programe stimulente si
sa-si aranjeze magazinele cat mai eficient.
analiza secvenelor (probabilitate nalt a existenei lanurilor de evenimente legate n timp) de exemplu,
ntr-o anumit perioad de timp dup achiziionarea de bunuri este foarte probabil achiziionat un alt
exemplu, atunci cnd cumpr o cas n 45% din cazuri i o sob nou este achiziionat n termen de o lun,
iar n termen de dou sptmni 60% dintre noii venii dobndi un frigider) .
Clasificarea este operatia cel mai des folosita de catre instrumentele comerciale Data Mining. Este o operatie
care ajuta organizatiile sa descopere anumite tipare (abloane) in banci de date largi si complexe cu scopul de
a rezolva probleme specifice de afaceri. Clasificarea este un proces de subdivizare a unui set de date cu
referinta la un numar specific de rezultate. De exemplu, daca vrem sa clasificam clientii in 2 categorii: mari si
mici, facem referinta la riscul afacerii pentru fiecare. Categoria sau clasa in care este plasat fiecare client, este
rezultatul clasificarii noastre.
Predicia este
Clasificarea si predictia
Clasificarea este operatia cel mai des folosita de catre instrumentele comerciale .data mining.. Este o operatie
care ajuta organizatiile sa descopere anumite tipare in banci de date largi si complexe cu scopul de a rezolva
probleme specifice de afaceri.
Clasificarea este un proces de subdivizare a unui set de date cu referinta la un numar de specific de rezultate.
De exemplu , daca vrem sa clasificam clientii in 2 categorii : mari si mici , facem referinta la ricul afacerii
pentru fiecare. Categoria sau clasa in care este plasat fiecare client , este rezultatul clasificarii noastre.
7
Predicia este
O metoda neprelucrata ar fi sa clasificam clientii dupa venitul lor ce se incadreaza deasupra sau dedesubtul
unui prag. O abordare mult mai subtila ar fi aceea de a incerca sa gasim o relatie lineara intre 2 factori diferiti
, cum ar fi venitul si varsta , pentru a diviza setul de date in doua grupari. Problemele de clasificare ale lumii
reale , de obicei , implica mult mai multe dimensiuni si prin urmare necesita o delimitare intre clase diferite ,
mult mai complexa.
Clustering-ul este o operatie necontrolata. Este folosita acolo unde se doreste a se gasi grupuri de inregistrari
similare in datele noastre , fara nici o alta preconditie pe care o implica acea asemanare. Clustering-ul este
folosit pentru identificarea grupurilor de interes dintr-o baza de date a clientilor , care nu au mai fost
recunoscute anterior. De exemplu , poate fi utilizata pentru a identifica similaritati in utilizarea telefonului
clientilor , cu scopul de a inventa si a vinde noi servicii telefonice.
Clustering-ul este obtinut , de obicei , prin utilizarea metodelor statistice , cum ar fi algoritmul de inteles-k
( .k-means algorithm.) , sau o forma speciala a retelei neuronale numita .harta retea Kohonen.. Oricare ar fi
metoda utilizata , operatia de baza este aceeasi. Fiecare inregistrare este comparata cu un set de cluster-e
existente , care sunt definite de .centrul. lor. O inregistrare este atribuita cluster-ului de care este cel mai
aproape , si acesta , in schimb , schimba valoarea care defineste cluster-ul. Sunt facuti mai multi pasi pana
cand un set de date sa-si reatribuie inregistrarile si sa-si modifice centrii cluster-ilor , pana la gasirea solutiei
optime.
8
DTS (Data Transformation Services) Serviciul de transformare a datelor (DTS) asigur colectarea i
transferul datelor ce pot proveni din baze de date SQL Server, dar i din alte surse. DTS ofer faciliti
pentru validarea, curirea, consolidarea i transformarea datelor. Curirea datelor permite totodat
reconcilierea datelor ce provin din surse diferite i se bazeaz n special pe compararea nomenclatoarelor
utilizate de aplicaiile operaionale pentru a se folosi un nomenclator unic
6. Explicai ce nseamn abrevierea i ce este ROLAP
ROLAP (Relaional OLAP) stocheaz datele i agregrile n tabele relaionale. Aceste tabele sunt memorate
n aceeai baz de date n care sunt memorate i tabelele depozitului de date. Deoarece datele sunt stocare n
depozitul de date, cuburile ROLAP nu necesit un alt spaiu de stocare. Avnd in vedere aceast modalitate
de stocare, se pot utiliza i comenzi standard Transact-SQL n afara instrumentului OLAP Services, pentru
interogarea cubului
dei, numele tabelelor i a coloanelor sunt greu de utilizat fiind generate automat de ctre sistem.
7. Explicai ce nseamn abrevierea i ce este MOLAP
MOLAP (Multidimensional OLAP) stocheaz att datele de baz ct i agregrile n structuri
multidimensionale, numite cuburi. Aceste structuri sunt deci stocate n afara depozitului de date. Datele
stocate n cuburile OLAP au urmtoarele caracteristici:
Toate msurile sunt memorate n aceeai nregistrare ceea ce reduce timpul de acces la date ;
Cmpurile cu valori nule nu sunt stocate, se elimin astfel problema mprtierii (sparsity) datelor ;
Row segments pot avea dimensiuni de 64 KB ;
Folosete indeci speciali, de tip bitmap ce mbuntesc performanele cubului.
Stocarea cuburilor n structuri MOLAP este cea mai potrivit pentru cele care sunt interogate frecvent i care
necesit un timp de rspuns redus.
8. Explicai ce nseamn abrevierea i ce este HOLAP
HOLAP (Hybrid OLAP) este o combinaie ntre MOLAP i ROLAP. Astfel, HOLAP stocheaz datele de
baz n tabele relaionale n aceeai baz de date ca i depozitul de date iar agregrile n structuri
multidimensionale n afara depozitului de date.
Stocarea datelor cubului ntr-o structur de tip HOLAP este recomandat n cazul interogrilor frecvente
asupra datelor agregate ce au la baz un volum mare de date. De exemplu, rezultatele anuale ale studenilor
pot fi stocate ntr-o structur MOLAP iar rezultatele fiecrei sesiuni pot fi stocate ntr-o structur ROLAP.
9. Explicai ce este un depozit de date
Un depozit de date (datawarehouse) reprezint o stocare centralizat a datelor
detaliate provenite din toate sursele relevante din cadrul unei organizaii i permite interogarea
dinamic i analiza detaliat a tuturor informaiilor.
Rolul unui depozit de date este de a oferi o imagine coerent asupra datelor relative la activitatea unei
organizaii i a contextului n care acesta actioneaz. Utilizarea acestei colecii poate consta din:
extragerea unor rapoarte (la cerere sau cu o anumita periodicitate),
extragerea unor date pentru a fi utilizate de aplicatiile de birotica (programe de calcul tabelar,
procesoare de text, programe de prezentare, etc),
dar mai ales pentru a fi utilizate de catre aplicaii specializate de analiza.
10. Explicai ce este o magazie de date
Data marts (magazii de date) este un depozit de date specific unui anumit subset de cerine sau unui anumit
departament din cadrul organizaiei. Cu alte cuvinte, un data mart conine datele pertinente unui anumit
compartiment al companiei. Conectnd mpreun data mart-urile aferente diferitelor compartimente ale
companiei, formnd astfel o infrastructur specific, departamentele pot folosi n comun datele lor i se poate
crea un depozit de date mai uor de construit i mai elastic (flexibil).
11. Explicai ce este Data Mining
Data Mining este o tehnologie noua si puternica cu un mare potential in ajutorarea companiilor de a se
concentra asupra celor mai importante informatii din depozitul lor imens de date. Data Mining a fost
definite ca:
9
O colecie de modele, metode i instrumente de analiza automata a unor seturi de date largi si complexe
cu scopul de a descoperi tipare semnificante sau tendinte care altfel ar trece neobservate i care sunt
importante n procesele dezvoltrii bussinesului.
10
26. Ce este schema snowflake a depozitului de date
11
28. Ce este dimensiune n modelul multidimensional de date
Reprezint structuri compuse de atribute structurate pe diverse niveluri ierarhice n functie de care sunt
grupate datele. Aceste atribute sunt de obicei descriptive si sunt folosite ca sursa pentru restrictii si pentru
rndurile din rapoarte. Sunt considerate tabele secundare datorita dimensiunilor reduse. Consiliul OLAP
defineste conceptul de dimensiune ca fiind un atribut structural al unui cub ce consta dintr-o lista de
membrii, pe care utilizatorii i percepe ca fiind de acelasi tip (de exemplu toate lunile, trimestrele, anii
formeaza dimensiunea Timp). Dimensiunile reprezninta un mod foarte concis, intuitiv de organizare si
selectare a datelor pentru explorare si analiza.
29. Ce nseamn metrici (msuri) a atributelor fapte
Metricile (msurile) corespund atributelor (faptelor) din tabelele de fapte si sunt de regula de natura numerica
(de exemplu: volumul vnzarilor, cantitile vnzrilor, stocurile disponibile). Metricele au sens numai n
contextul unor anumite dimensiuni. Ele reprezint valorile centrale care sunt analizate prin cubul de date.
Valoarea msurii este calculat pentru un punct dat prin agregarea datelor corespondente perechii respective
valoare-dimensiune, diferite pentru punctul dat.
30. Numii tipuri de metrici (msuri) a atributelor fapte n modelul multidimensional de date
Msurile pot fi clasificate dup modalitatea de calcul n msuri de baz care se regsesc sub forma
atributelor din tabelele de fapte i care provin din sursele de date i msuri derivate (virtuale) care se obin
prin combinarea msurilor de baz i care n tabelele de fapte au precizat formul de calcul prin care se
obin .
Msurile pot fi organizate n trei categorii bazate pe tipurile de funcii agregate utilizate: distributive,
algebrice, holistice.
12
cubului ntr-un set de subcuburi, calculnd count( ) pentru fiecare subcub si apoi nsumnd rezultatele
obtinute pentru fiecare subcub. Din acest motiv functia count( ) este o functie agregata distributiva.
32. Ce este metric (msur) algebric n modelul multidimensional de date
Msuri algebrice (msuri calculate prin funcii distributive) - sunt calculate cu ajutorul unor funcii
algebrice cu M argumente (unde M este un ntreg pozitiv), fiecare din ele obtinut prin aplicarea unei funcii
agregate distributive. De exemplu, AVG( ) poate fi calculata prin sum()/count() unde ambele functii sum( ) si
count( ) sunt functii agregate distributive. n mod similar se poate demonstra ca min( ), max( ) si abaterea
standard sunt functii algebrice agregate. Masura este algebrica daca este obtinuta prin aplicarea unei functii
algebrice agregate.
Exemplu: max(a,b) = *(a+b+|a-b|), min(a,b) = *(a+b-|a-b|).
33. Ce este metric (msur) holistic n modelul multidimensional de date
Msuri holistice - sunt calculate cu ajutorul unor functii holistice. O functie agregata este holistica, daca
aceasta nu este limitata constant pe spatiul de stocare cerut de deschiderea subagregarii. n acest caz nu exista
o functie algebrica avnd M argumente (unde M este o constanta) care caracterizeaza calculul. Exemple
comune de funcii holistice sunt: median( ), mode( ), rank( ), histogram( ). O msur holistic este obtinut
prin aplicarea unei funcii agregate de tip holistic.
34. Ce nseamn tabele de fapte n modelul multidimensional de date
Sunt tabelele centrale. Acestea conin atribute de tip msuri (metrici) i chei externe ctre tabelele
dimensiuni. Faptele sunt de obicei date numerice care pot fi nsumate i analizate pe diferite nivele.
35. Ce nseamn nivele ierarhice n modelul multidimensional de date
De exemplu, toate lunile, trimestrele si anii formeaza dimensiunea Timp si toate orasele, regiunile si tarile
dimensiunea Locatie. Un membru poate apartine la una sau mai multe ierarhii sau poate sa nu fie inclus ntr-o
ierarhie (independent). De exemplu n dimensiunea Produs membru culoare nu este inclus n nici o ierarhie.
Se pot aranja membrii unei dimensiuni n una sau mai multe ierarhii. Fiecare ierarhie poate avea mai multe
nivele ierarhice. De exemplu n dimensiunea Timp putem avea doua ierarhii.
Pentru a identifica pozitia unui membru ntr-o dimensiune se folosesc conceptele de naltime si adncime n
ierarhie. naltimea se stabileste de jos n sus. Din acest motiv nivelul (L0) al ierarhiei reprezinta nodurile
frunza ale ierarhiei (naltimea cea mai mica). n schema stea, nivelul L0 se leaga la tabela de fapte.
36. Numii operatii de navigare pe diferite nivele ierarhice n cubul multidimensional de date
Navigarea pe nivelele ierarhice (Drill Down si Roll Up) reprezinta operatii de navigare n cadrul
ierarhiilor dimensiunilor, prin agregare pe nivelele superioare sau detaliere pe nivelele inferioare. Orice baza
de date multidimensionala trebuie sa permita navigarea pe diferite nivele ale ierarhiilor. Aceasta tehnica se
numeste roll up sau drill down, n functie de directie, spre vrful sau baza ierarhiei. Acestea sunt operatii de
schimbare a vederii de-a lungul nivelelor unei ierarhii. Prin facilitatea de drill down, utilizatorii pot naviga pe
nivele cu un grad de detaliu mai accentuat. Prin roll up se pot vizualiza datele la un nivel agregat.
Rotaii reprezint operaiile cele mai uzuale n structurile de date multidimensionale i ofer
utilizatorului posibilitatea de a alege perspectiva asupra datelor pe care o va utiliza. De exemplu n cazul
bidimensional exist dou posibiliti de vizualizare, iar n cazul tridimensional se pot utiliza 6 rotaii pentru
a vizualiza datele din diferite perspective, iar pentru patru dimensiuni exista 24 de perspective posibile.
Seciuni - reprezint viziuni sau imagini (views) specifice diverselor categorii de utilizatori, prin operaii
de secionare prin care se obin "felii" bidimensionale (slices). Astfel, un manager de produs poate avea la
ndemna datele legate de produsul pe care-l supervizeaza, pe toate zonele, pe toata perioada analizata. n
schimb, un manager regional, va fi interesat de toate produsele, dar numai pe toate zonele pe care le
coordoneaza. Tehnica aceasta consta n limitarea unor atribute la anumite valori si obtinerea unui cub de date
redus (procedeu numit data dicing)
37. Ce nseamn modalitatea MOLAP de stocare a datelor n cubul multidimensional de date
MOLAP (Multidimensional OLAP) stocheaz att datele de baz ct i agregrile n structuri
multidimensionale, numite cuburi. Aceste structuri sunt deci stocate n afara depozitului de date. Datele
stocate n cuburile OLAP au urmtoarele caracteristici:
Toate msurile sunt memorate n aceeai nregistrare ceea ce reduce timpul de acces la date ;
13
Cmpurile cu valori nule nu sunt stocate, se elimin astfel problema mprtierii (sparsity) datelor ;
Row segments pot avea dimensiuni de 64 KB ;
Folosete indeci speciali, de tip bitmap ce mbuntesc performanele cubului.
Stocarea cuburilor n structuri MOLAP este cea mai potrivit pentru cele care sunt interogate frecvent i care
necesit un timp de rspuns redus.
14
algoritmi de selectie - care conduc la selectarea a trei elemente importante care apar n DM, si anume:
modelul, care se selecteaza din baza de modele, datele, care se selecteaza din baza de date si constituie
parametrii, si criteriul sau criteriile de preferinte, care se selecteaza din baza de criterii;
stabilirea abaterilor - care consta n general n algoritmi de determinare a deviatiei si stabilitatii; o categorie
specifica de astfel de algoritmi sunt cei statistici, prin care se stabilesc abaterile modelului fata de ideal.
43. Numii elementele cheie a tehnologiii Data Mining
Elementele cheie care fac parte din uneltele Data Mining a unei forme distincte de software sunt:
Analiza automata
Seturi de date largi sau complexe
Descoperirea de tipare semnificante sau tendinte care altfel ar trece neobservate
44. Numii domenii de aplicaie a tehnologiilor Data Mining
vinzari cu amanunt
domeniul bancar
domeniu de telecomunicare
domeniu de asigurri
domeniu de medicina
Genetica Moleculara si Ingineria genetic
Chimie Aplicata
Data Mining poate fi folosit n multe alte domenii:
Dezvoltarea industriei automobilelor
Politica de garanie
Stimulari pentru calatorii care frecvent folosesc transportul avia
45. Numii tipuri de legiti (tipare) care pot fi descoperite prin metodele Data Mining
Se disting cinci tipuri de legiti cinci tipuri de tipare sau patterne, care pot fi identificate sau descoperite
sau recunoscute prin metodele Data Mining:
asocieri (analiza asocierilor),
secvene (analiza secvenelor),
clasificri (clasificarea i predicia),
clusterizare (analiza clusterilor),
legiti temporale (n prognoz).
46. Ce este analiza asocierilor n Data Mining
Analiza asocierii este o forma necontrolata a Data Mining care cauta legaturi intre inregistrarile dintr-un set
de date. Analiza asocierii este cateodata definita ca analiza cosului de consum, care este cea mai folosita
aplicatie a sa. Scopul este de a descoperi, de exemplu, ce articol este cel mai probabil cumparat mpreun cu
articolul dat in acelasi timp, pentru a ajuta comerciantii cu amanuntul sa organizeze programe stimulente si
sa-si aranjeze magazinele cat mai eficient
47. Ce nseamn clasificare n Data Mining
Clasificarea este operatia cel mai des folosita de catre instrumentele comerciale .data mining.. Este o
operatie care ajuta organizatiile sa descopere anumite tipare in banci de date largi si complexe cu scopul de a
rezolva probleme specifice de afaceri.
Clasificarea este un proces de subdivizare a unui set de date cu referinta la un numar de specific de
rezultate. De exemplu , daca vrem sa clasificam clientii in 2 categorii : mari si mici , facem referinta la ricul
afacerii pentru fiecare. Categoria sau clasa in care este plasat fiecare client , este rezultatul clasificarii noastre.
Retele Neuronale: o reea neuronal funcioneaz dup analogie cu trecerea impulsurilor (semnalelor)
nervoase n esutul viu nervros (o analogie cu funcionarea neuronilor). O diferenta cheie intre retelele
neuronale si oricare alta tehnica este aceea ca retelele neuronale opereaza numai direct pe numere. Rezulta ca
orice date nenumerice din coloanele independente sau dependente trebuiesc convertite in numere inainte sa
putem folosi datele intr-o retea neuronala.
16
17