Intrebari DW - DM 2016 - Pe Nivele 1

1.
Obiective, noiuni generale i concepte de baz a tehnologiei BI
Prin tehnologiile BI sunt adunate toate datele, sunt prelucrate n informaii, care fiind bine analizate pot fi
utilizate n luarea deciziilor si n final puse n aciune.
Business Intelligence este o direcie n evoluia sistemelor informaionale de business bazat pe concepte de
transformare a volumurilor mari de date n informaii analitice utile. Ea cuprinde o totalitate de concepte,
arhitecturi, tehnologii i instrumente pentru acumularea datelor din diferite surse i extragerea din ele a
informaiilor analitice cu scopul sprijinirii procesului decizional la toate nivelurile.
n jurul acestui concept s-au lansat ali termeni legai de analiza informaiilor economice componente BI
vechi, precum:
business performance management (BPM);
business process management (tot BPM):
corporate performance management (CPM);
business activity monitoring (BAM).
Aceste componente sunt incluse n BI si depind de instrumentele BI
Desi este legat de aplicaiile de ntreprindere, BI nu este un produs sau un sistem, ci este un concept
umbrela, care adposteste arhitecturi, aplicaii si baze de date. Menirea sa vizeaza accesul ct mai
simplu la date al utilizatorilor dintr-o organizaie prin accesarea interactiva, n timp real la bazele de
date, manipularea si analiza acestora. Prin analiza datelor istorice, BI realizeaza o valoroas introspecie
asupra activitailor si situaiilor de afaceri, iar managerii sunt sprijinii concret n luarea deciziilor prin
informaii de esen, inclusiv cele de comportament i de previziune.
Cheia nelegerii BI st n nelegerea modului n care datele sunt prelucrate n informaii si cum sunt ele apoi
analizate si n ncadrarea acestor procese n arhitectur, instrumentele i aplicaiile BI. Trebuie lmurit faptul
ca BI nu produce date, ci utilizeaz datele produse de aplicaiile de ntreprindere: ERP, CRM, SCM etc.
2. Arhitectura si componentele principale a unui sistem BI
Asa cum aratam, BI este o combinaie de arhitecturi si tehnologii software. Arhitectura specifica BI
reuneste urmatoarele instrumente (vezi figura 1): depozite si magazii de date (data warehouse, data
mart), ETL (extract transfer load), instrumente de interogare si raportare (reporting and query),
instrumente de vizualizare (data visualization), tabloul de bord (dashboard), OLAP (OnLine Analytical
Processing), minerit de date (data mining), sisteme de alertare si notificare (alerting and notification
systems), care vor fi analizate pe scurt n continuare
1
Figura 1.2 Depozit de date cu arhitectur complex.
3. Depozite de date. Arhitectura depozitelor de date
Arhitectura depozitelor de date poate varia n funcie de situaia specific a fiecrei

organizaii. n cazul unei arhitecturi de baz, datele sunt ncarcate din una sau mai multe surse, iar utilizatorii
acceseaz n mod direct depozitul de date. n continuare vom aborda dou aspecte a arhitecturii depozitului
de date:
arhitectur structural;
arhitectur funcional.
Arhitectur structural (niveluri de structur)

O arhitectur datawarehouse complex prezentat n figura 1.2 este structurat pe patru niveluri
distincte de realizare a datelor astfel (niveluri de structur)
Pe aceast arhitectura din punct de vedere funcional se regasesc trei module funcionale distince de
realizare (fig. 1.3) (module funcionale):
Nivelul surselor de date n care se colecteaz date eterogene provenite din diverse sisteme
operationale ale organizatiei.
Nivelul transformrii i stocrii centralizate a datelor n care se folosete un proces de extragere,
transformare (curare) si ncrcare a datelor (ETL - Extract, Transform, Load) ce presupune prelucrarea
datelor din punct de vedere al integritaii, preciziei, acurateii i al formatului
Nivelul depozitului de date contine datele prelucrate (procesate), ncarcate n
structuri multidimensionale i agregate pe diferite niveluri (cuburi de date) pregtite pentru a fi utilizate n
analiz.
Nivelul de prezentare i raportare a datelor presupune extragerea datelor din depozit sau direct prin
interogri SQL sau prin utilizarea unor instrumente i tehnologii de inteligena afacerii (Business
Intelligence) pentru analiza i interpretarea informatiilor furnizate
Arhitectur funcional (module funcionale)
Pe aceast arhitectura din punct de vedere funcional se regasesc trei module funcionale distince de
realizare (fig. 1.3) (module funcionale):
2
Figura 1.3: Modulele functionale ale unui depozit de date
Modulul operaional - reprezentat de datele companiei care sunt de obicei pstrate sub form diferit la
locaii diferite. Aceste date pot proveni de la aplicaii sau de la sisteme distribuite din cadrul companiilor cum
ar fi sisteme de gestiune a comenzilor, de eliberare a facturilor, de contabilitate
Modulul central al depozitului de date reprezentat de SGBD-ul i de serverul (OLAP) pe care acesta
ruleaz i de modul n care este implementat depozitul - exist n acest moment doua tendine. Una ar fi
implementarea unui sistem distribuit, descentralizat unde datele sunt pstrate n unitati independente
(Independent DataMarts Magazii de Date) fiecare coninnd datele relevante pentru un anumit aspect al
operaiilor unei instituii
Modulul strategic, de afaceri - valoarea final a unui depozit de date este determinat de avantajele pe
care le ofer utilizatorului n diferite procese de luare a deciziilor i analiz
financiara, de gestiune a stocurilor, salarizare, etc
4. Tipuri de depozite de date
Arhitectura functional a depozitelor de date prezentat mai sus permite proiectarea si implementarea unor
diverse tipuri de depozite de date n funcie de cerinele de afaceri, resursele disponibile si posibilitile de
realizare.
Depozitul central al organizatiei (Enterprise Warehouse) colecteaza toate informatiile despre
subiectele care privesc ntreaga organizatie si furnizeaza un volum extins de date. De regula contine date
detaliate, dar si date agregate, iar ca ordin de marime porneste de la ctiva gigabytes pna la sute de gigabytes
si terabytes.
Un depozit de date de ntreprindere trebuie implementat pe servere puternice UNIX sau pe platforme cu
arhitecturi paralele.
Data mart-ul contine un subset al volumului de date din organizatie, specific unui grup de utilizatori
sau departament (DM pentru compartimente de afaceri sau pentru departamente DM departamentale).
Domeniul este limitat la subiecte specifice. Datele continute n data mart sunt de obicei agregate. n mod
curent data marts sunt implementate pe servere departamentale cu resurse mai reduse care se bazeaza pe
UNIX sau Windows 2000/2003.
Depozitul virtual (Virtual warehouse) este un set de tabele virtuale (views) asupra
bazelor de date operationale. Pentru eficiena procesrii interogrilor, numai unele din viziunile de agregare
pot fi materializate. Un depozit virtual este uor de construit, dar problema extragerii si prelucrrii datelor
3
revine n mod exclusiv serverului de baze de date, ceea ce poate conduce la un timp de prelucrare mare, nsa
se elimin necesitatea stocrii datelor ntr-un depozit real [HOLL00].
O alt clasificare a depozitelor de date este propus n lucrarea [POWE00] n care se identific cinci
tipuri, n functie de aria de cuprindere a proceselor decizionale i anume:
Depozitul de date de tip organizational sau galactic (galactic datawarehouse - GDW) reprezinta un
tip de depozit centralizat, cu o arie de cuprindere extinsa avnd drept obiectiv integrarea si prelucrarea
datelor la toate nivelurile organizatiei, att la nivelul departamentelor ct si al ntregii organizatii;
Depozitul de date orientat pe procese de afacere (business process datawarehouse BPDW) reprezinta
un tip de depozit specializat, orientat pe satisfacerea cerintelor de afaceri si a proceselor de afaceri;
Depozitul de date departamental (departamental datawarehouse - DDW) reprezinta un tip de depozit
orientat pe departamente, avnd drept obiectiv integrarea si prelucrarea datelor din fiecare
departament n parte;
Centru de date de tip proces de afaceri (business process data mart - BPDM) reprezinta un tip de
depozit specializat, orientat pe satisfacerea unei anumite cerinte de afaceri si a unui singur proces de
afaceri;
Centru de date departamental (departamental data mart - DDM) reprezinta un tip de depozit
specializat, cu o arie de cuprindere limitata la un anumit departament, avnd drept obiectiv integrarea
si prelucrarea datelor specifice activitatilor acestuia.
In practic ar fi recomandabil combinarea acestor tipuri de depozite, deoarece nu este indicat( ?) s se
proiecteze un data mart pentru fiecare proces de afaceri sau pentru fiecare departament i apoi s se
reuneasc ntr-un depozit centralizat, far s se in cont i de relaiile interdepartamentale.
5. Sisteme ETL de populare a depozitelor de date i funciile lor

Extract, Transform, Load (ETL), se refer la un procedeu n utilizarea bazelor de date i n special n
depozite de date.Extragerea datelor este n cazul n care datele sunt extrase din surse de date omogene
sau eterogene; transformarea datelor n cazul n care datele sunt transformate pentru stocarea n formatul
corespunztor sau a structurii n scopul interogari i analiz; ncrcarea datelor n cazul n care datele
sunt ncrcate n baza de date int final, mai precis, un depozit de date operaionale, jder de date sau
depozit de date.
Sistemele ETL integreaz n mod obinuit date din mai multe aplicaii (sisteme), n mod tipic dezvoltate
i sprijinite de ctre diferii furnizori sau gzduite pe hardware-ul computerului separat. Sistemele
disparate care conin datele originale sunt frecvent gestionate i exploatate de ctre diferii angajai. De
exemplu, un sistem de contabilitate a costurilor se pot combina date din salarii, de vnzri i de
cumprare.
extragerea datelor(extracting ) din sistemele surs (SAP, ERP, alte sisteme de oprational), date din
diferite sisteme de surs este transformat ntr-un singur format de depozit de date consolidate, care este
gata pentru prelucrare de transformare.
transformarea datelor( transforming ) poate implica urmtoarele sarcini:
aplicarea regulilor de business (aa-numitele produsele derivate, de exemplu, calcularea msuri noi i
dimensiuni),
de curare (de exemplu, cartografierea NULL la 0 sau "Male" to "M" i "Femeie" la "F", etc.),
de filtrare (de exemplu, selectarea numai anumite coloane pentru a ncrca),
divizarea unei coloane n mai multe coloane i vice-versa,
reunirea datelor din mai multe surse (de exemplu, cutare, mbinare),
care transpune rnduri i coloane,
aplicarea oricrui tip de validare a datelor simple sau complexe (de exemplu, n cazul n care primele 3
coloane ntr-un rnd sunt goale, apoi resping rndul din prelucrare)
ncrcarea datelor(loading ) ntr-un depozit de date sau date ale altor aplicaii de raportare depozit
6. Modelul de date multidimensional. Hipercub de date
4
In analiza multidimensionala cubul de date cu mai mult de trei dimensiuni poarta denumirea de cub n-
dimensional sau hipercub (hypercub). Consiliul OLAP defineste cubul n-dimensional ca fiind un grup
de celule de date aranjate dupa dimensiunile datelor. O matrice tridimensionala poate fi vizualizata ca
un cub cu fiecare dimensiune formnd o fa a cubului [OLAP95]. Tot n aceeasi definitie se
mentioneaza ca dimensiunile tipice ale datelor dintr-o ntreprindere sunt timpul, masurile, produsele,
regiunile geografice, canalele de distributie
7. Concepte de ierarhii i nivele n valorile dimensiunilor n modelul multidimensional de date

8. Clasificarea msurilor n categorii dup tipurile de funcii agregate utilizate
9. Operaii realizate asupra cubului multidimensional de date
Navigarea pe nivelele ierarhice (Drill Down si Roll Up) reprezinta operatii de navigare n cadrul ierarhiilor
dimensiunilor, prin agregare pe nivelele superioare sau detaliere pe nivelele inferioare. Orice baza de date
multidimensionala trebuie sa permita navigarea pe diferite nivele ale ierarhiilor. Aceasta tehnica se numeste
roll up sau drill down, n functie de directie, spre vrful sau baza ierarhiei. Acestea sunt operatii de schimbare
a vederii de-a lungul nivelelor unei ierarhii. Prin facilitatea de drill down, utilizatorii pot naviga pe nivele cu
un grad de detaliu mai accentuat. Prin roll up se pot vizualiza datele la un nivel agregat.
Rotaii reprezint operaiile cele mai uzuale n structurile de date multidimensionale i ofer utilizatorului
posibilitatea de a alege perspectiva asupra datelor pe care o va utiliza. De exemplu n cazul bidimensional
exist dou posibiliti de vizualizare, iar n cazul tridimensional se pot utiliza 6 rotaii pentru a vizualiza
datele din diferite perspective, iar pentru patru dimensiuni exista 24 de perspective posibile.
Seciuni - reprezint viziuni sau imagini (views) specifice diverselor categorii de utilizatori, prin operaii de
secionare prin care se obin "felii" bidimensionale (slices). Astfel, un manager de produs poate avea la
ndemna datele legate de produsul pe care-l supervizeaza, pe toate zonele, pe toata perioada analizata. n
schimb, un manager regional, va fi interesat de toate produsele, dar numai pe toate zonele pe care le
coordoneaza. Tehnica aceasta consta n limitarea unor atribute la anumite valori si obtinerea unui cub de date
redus (procedeu numit data dicing)
10. Modaliti de stocare a cuburilor multidimensionale de date. Tipuri servere OLAP

Datele din cuburile de analiz pot fi stocate n trei modaliti: multidimensional, relaional sau hibrid.
Modalitatea de stocare trebuie aleas cu grij deoarece fiecare dintre acestea prezint att avantaje ct i
dezavantaje.
MOLAP (Multidimensional OLAP) stocheaz att datele de baz ct i agregrile n structuri

multidimensionale, numite cuburi. Aceste structuri sunt deci stocate n afara depozitului de date. Datele
stocate n cuburile OLAP au urmtoarele caracteristici:
Toate msurile sunt memorate n aceeai nregistrare ceea ce reduce timpul de acces la date ;
Cmpurile cu valori nule nu sunt stocate, se elimin astfel problema mprtierii (sparsity) datelor ;
Row segments pot avea dimensiuni de 64 KB ;
Folosete indeci speciali, de tip bitmap ce mbuntesc performanele cubului.
Stocarea cuburilor n structuri MOLAP este cea mai potrivit pentru cele care sunt interogate frecvent i care
necesit un timp de rspuns redus.
5
ROLAP (Relaional OLAP) stocheaz datele i agregrile n tabele relaionale. Aceste tabele sunt
memorate n aceeai baz de date n care sunt memorate i tabelele depozitului de date. Deoarece datele sunt
stocare n depozitul de date, cuburile ROLAP nu necesit un alt spaiu de stocare. Avnd in vedere aceast
modalitate de stocare, se pot utiliza i comenzi standard Transact-SQL n afara instrumentului OLAP
Services, pentru interogarea cubului dei, numele tabelelor i a coloanelor sunt greu de utilizat fiind generate
automat de ctre sistem.
Structura datelor ROLAP este format din tabele i indeci. Dimensiunile sunt stocate n tabele iar msurile
n coloane. Fiecare nivel al unei dimensiuni este indexat.
HOLAP (Hybrid OLAP) este o combinaie ntre MOLAP i ROLAP. Astfel, HOLAP stocheaz
datele de baz n tabele relaionale n aceeai baz de date ca i depozitul de date iar agregrile n structuri
multidimensionale n afara depozitului de date.
Stocarea datelor cubului ntr-o structur de tip HOLAP este recomandat n cazul interogrilor frecvente
asupra datelor agregate ce au la baz un volum mare de date. De exemplu, rezultatele anuale ale studenilor
pot fi stocate ntr-o structur MOLAP iar rezultatele fiecrei sesiuni pot fi stocate ntr-o structur ROLAP.
11. Tehnologia Data Mining definiie i elementele cheie

Existenta unor volume imense de date a pus problema reorientrii utilizrii lor de la un proces de exploatare
retrospectiv ctre unul prospectiv. Data Mining poate avea mai multe definitii, ins toate converg in esent
ctre miezul problemei, si anume c acest concept reprezint un proces de extragere de informatii noi din
colectiile de date existente. Termenul de dat are semnificatia de descriere a unui eveniment bine determinat
care se produce in lumea real si este perfect verificabil.
Prin tehnologia Data Mining se prelucreaz date care refer perioade anterioare (date istorice), care sunt
examinate si sunt deja cunoscute, pe baza lor
constituindu-se un model. Acest model va putea fi aplicat situatiilor noi de
acelasi tip cu cele deja cunoscute. Informatiile care se pot obtine prin Data
Mining sunt predictive sau descriptive. De exemplu directionarea actiunilor de
marketing pot constitui o problem tipic predictiv. Detectarea fraudelor
6
produse cu carduri bancare reprezint o problem tipic de aplicatie descriptiv.
Dezvoltarea tehnicilor de Data Mining se explic prin acumularea de volume pe care acestea le-au
derulat de-a lungul anilor. De asemenea, concurenta tot mai acerb precum si cresterea exigentelor pietei au
determinat firmele s ia tot mai mult in considerare potentialul urias pe care il ofer arhivele de date. Alturi
de arhivele de date memorate pe suporturi informatice mai exist inc doi factori care au dus la necesitatea
Data Mining: existenta si perfectionarea algoritmilor si a produselor program dedicate precum si cresterea
capacittii de memorare si prelucrare a calculatoarelor care permit tratarea corelativ a volumelor mari de
date.
12. Exemple de business-aplicaii Data Mining
Tehnologia Data Mining este pregatita pentru aplicatii deoarece ea este sustinuta de tehnologii care acum sunt
suficient de dezvoltate , cum ar fi :
1. Colectii de date masive
2. Computere multi-procesor puternice
3. Algoritmi de cautare a datelor
13. Tipuri de tipare, care pot fi descoperite prin metodele Data Mining
Se disting cinci tipuri de legiti cinci tipuri de tipare sau patterne, care pot fi identificate sau descoperite
sau recunoscute prin metodele Data Mining:
asocieri (analiza asocierilor),
secvene (analiza secvenelor),
clasificri (clasificarea i predicia),
clusterizare (analiza clusterilor),
legiti temporale (n prognoz).
Analiza asocierii este o forma necontrolata a Data Mining care cauta legaturi intre inregistrarile dintr-un set
de date. Analiza asocierii este cateodata definita ca analiza cosului de consum, care este cea mai folosita
aplicatie a sa. Scopul este de a descoperi, de exemplu, ce articol este cel mai probabil cumparat mpreun cu
articolul dat in acelasi timp, pentru a ajuta comerciantii cu amanuntul sa organizeze programe stimulente si
sa-si aranjeze magazinele cat mai eficient.
analiza secvenelor (probabilitate nalt a existenei lanurilor de evenimente legate n timp) de exemplu,
ntr-o anumit perioad de timp dup achiziionarea de bunuri este foarte probabil achiziionat un alt
exemplu, atunci cnd cumpr o cas n 45% din cazuri i o sob nou este achiziionat n termen de o lun,
iar n termen de dou sptmni 60% dintre noii venii dobndi un frigider) .
Clasificarea este operatia cel mai des folosita de catre instrumentele comerciale Data Mining. Este o operatie
care ajuta organizatiile sa descopere anumite tipare (abloane) in banci de date largi si complexe cu scopul de
a rezolva probleme specifice de afaceri. Clasificarea este un proces de subdivizare a unui set de date cu
referinta la un numar specific de rezultate. De exemplu, daca vrem sa clasificam clientii in 2 categorii: mari si
mici, facem referinta la riscul afacerii pentru fiecare. Categoria sau clasa in care este plasat fiecare client, este
rezultatul clasificarii noastre.
Predicia este
Clasificarea si predictia
Clasificarea este operatia cel mai des folosita de catre instrumentele comerciale .data mining.. Este o operatie
care ajuta organizatiile sa descopere anumite tipare in banci de date largi si complexe cu scopul de a rezolva
probleme specifice de afaceri.
Clasificarea este un proces de subdivizare a unui set de date cu referinta la un numar de specific de rezultate.
De exemplu , daca vrem sa clasificam clientii in 2 categorii : mari si mici , facem referinta la ricul afacerii
pentru fiecare. Categoria sau clasa in care este plasat fiecare client , este rezultatul clasificarii noastre.
7
Predicia este
O metoda neprelucrata ar fi sa clasificam clientii dupa venitul lor ce se incadreaza deasupra sau dedesubtul
unui prag. O abordare mult mai subtila ar fi aceea de a incerca sa gasim o relatie lineara intre 2 factori diferiti
, cum ar fi venitul si varsta , pentru a diviza setul de date in doua grupari. Problemele de clasificare ale lumii
reale , de obicei , implica mult mai multe dimensiuni si prin urmare necesita o delimitare intre clase diferite ,
mult mai complexa.
Clustering-ul este o operatie necontrolata. Este folosita acolo unde se doreste a se gasi grupuri de inregistrari
similare in datele noastre , fara nici o alta preconditie pe care o implica acea asemanare. Clustering-ul este
folosit pentru identificarea grupurilor de interes dintr-o baza de date a clientilor , care nu au mai fost
recunoscute anterior. De exemplu , poate fi utilizata pentru a identifica similaritati in utilizarea telefonului
clientilor , cu scopul de a inventa si a vinde noi servicii telefonice.
Clustering-ul este obtinut , de obicei , prin utilizarea metodelor statistice , cum ar fi algoritmul de inteles-k
( .k-means algorithm.) , sau o forma speciala a retelei neuronale numita .harta retea Kohonen.. Oricare ar fi
metoda utilizata , operatia de baza este aceeasi. Fiecare inregistrare este comparata cu un set de cluster-e
existente , care sunt definite de .centrul. lor. O inregistrare este atribuita cluster-ului de care este cel mai
aproape , si acesta , in schimb , schimba valoarea care defineste cluster-ul. Sunt facuti mai multi pasi pana
cand un set de date sa-si reatribuie inregistrarile si sa-si modifice centrii cluster-ilor , pana la gasirea solutiei
optime.
1. Explicai ce nseamn abrevierea i ce este BI

Business Intelligence este o direcie n evoluia sistemelor informaionale de business bazat pe concepte de
transformare a volumurilor mari de date n informaii analitice utile. Ea cuprinde o totalitate de concepte,
arhitecturi, tehnologii i instrumente pentru acumularea datelor din diferite surse i extragerea din ele a
informaiilor analitice cu scopul sprijinirii procesului decizional la toate nivelurile.
2. Explicai ce nseamn abrevierea i ce este OLTP
OLTP - On-Line Transaction Processing - prelucrarea (procesarea) on line (operativ) a tranzaciilor; Funcia
principal a acestor sisteme const n ndeplinirea mulimilor de tranzacii scurte. Tranzaciile sunt simple (a
transfera banii der pe un cont pe altul, etc.) dar problema este n aceea c ele sunt multe i se ndeplinesc
concomitent de la mai multe calculatoare din reea (intens se lucreaz cu muli utilizatori). n al treilea rnd n
caz de eroare tranzacia se abandoneaz i BD se ntoarce la starea care era la nceputul tranzaciei.
3. Explicai ce nseamn abrevierea i ce este OLAP
OLAP - On-Line Analitical Processing - prelucrarea (procesarea) on line (operativ) analitic a datelor.On
Line Analytical Processing (OLAP) este tehnologia care permite utilizatorilor sa analizeze o baza de date
larga sau un depozit de date. Baza de date a unui sistem OLAP este proiectata pentru stocarea datelor de tip
static. O unitate de stocare OLAP este o unitate multidimensionala numita cub - spre deosebire de denumirea
de tabela din teoria relationala. Cubul permite stocarea datelor agregate si ierarhice. Un cub este format din
mai multe dimensiuni pna la 64 - iar agregarea datelor se face dupa atribute denumite masuri (measures).
O dimensiune poate avea mai multe niveluri.
4. Explicai ce nseamn abrevierea i ce este ETL
ETL (Extract, Transform and Load extragere-transformare-ncarcare) este un proces n utilizarea bazei de
date i n special n depozite de date care constituie de fapt trei funciuni distincte. Prima, extragerea,citeste
datele dintr-o sursa si extrage setul de date dorit. Apoi, funciunea de transformare lucreaza cu datele extrase
utiliznd reguli ori tabele de cautare si creind combinaii cu alte date converteste datele n forma dorita.
n fine, ncarcarea scrie datele obinute n baza de date inta, asigurnd conversia ntre bazele de date si
migraia de pe o platforma pe alta.
5. Explicai ce nseamn abrevierea i ce este DTS
8
DTS (Data Transformation Services) Serviciul de transformare a datelor (DTS) asigur colectarea i
transferul datelor ce pot proveni din baze de date SQL Server, dar i din alte surse. DTS ofer faciliti
pentru validarea, curirea, consolidarea i transformarea datelor. Curirea datelor permite totodat
reconcilierea datelor ce provin din surse diferite i se bazeaz n special pe compararea nomenclatoarelor
utilizate de aplicaiile operaionale pentru a se folosi un nomenclator unic
6. Explicai ce nseamn abrevierea i ce este ROLAP
ROLAP (Relaional OLAP) stocheaz datele i agregrile n tabele relaionale. Aceste tabele sunt memorate
n aceeai baz de date n care sunt memorate i tabelele depozitului de date. Deoarece datele sunt stocare n
depozitul de date, cuburile ROLAP nu necesit un alt spaiu de stocare. Avnd in vedere aceast modalitate
de stocare, se pot utiliza i comenzi standard Transact-SQL n afara instrumentului OLAP Services, pentru
interogarea cubului
dei, numele tabelelor i a coloanelor sunt greu de utilizat fiind generate automat de ctre sistem.
7. Explicai ce nseamn abrevierea i ce este MOLAP
8. Explicai ce nseamn abrevierea i ce este HOLAP
HOLAP (Hybrid OLAP) este o combinaie ntre MOLAP i ROLAP. Astfel, HOLAP stocheaz datele de
baz n tabele relaionale n aceeai baz de date ca i depozitul de date iar agregrile n structuri
multidimensionale n afara depozitului de date.
Stocarea datelor cubului ntr-o structur de tip HOLAP este recomandat n cazul interogrilor frecvente
asupra datelor agregate ce au la baz un volum mare de date. De exemplu, rezultatele anuale ale studenilor
pot fi stocate ntr-o structur MOLAP iar rezultatele fiecrei sesiuni pot fi stocate ntr-o structur ROLAP.
9. Explicai ce este un depozit de date
Un depozit de date (datawarehouse) reprezint o stocare centralizat a datelor
detaliate provenite din toate sursele relevante din cadrul unei organizaii i permite interogarea
dinamic i analiza detaliat a tuturor informaiilor.
Rolul unui depozit de date este de a oferi o imagine coerent asupra datelor relative la activitatea unei
organizaii i a contextului n care acesta actioneaz. Utilizarea acestei colecii poate consta din:
extragerea unor rapoarte (la cerere sau cu o anumita periodicitate),
extragerea unor date pentru a fi utilizate de aplicatiile de birotica (programe de calcul tabelar,
procesoare de text, programe de prezentare, etc),
dar mai ales pentru a fi utilizate de catre aplicaii specializate de analiza.
10. Explicai ce este o magazie de date
Data marts (magazii de date) este un depozit de date specific unui anumit subset de cerine sau unui anumit
departament din cadrul organizaiei. Cu alte cuvinte, un data mart conine datele pertinente unui anumit
compartiment al companiei. Conectnd mpreun data mart-urile aferente diferitelor compartimente ale
companiei, formnd astfel o infrastructur specific, departamentele pot folosi n comun datele lor i se poate
crea un depozit de date mai uor de construit i mai elastic (flexibil).
11. Explicai ce este Data Mining
Data Mining este o tehnologie noua si puternica cu un mare potential in ajutorarea companiilor de a se
concentra asupra celor mai importante informatii din depozitul lor imens de date. Data Mining a fost
definite ca:
9
O colecie de modele, metode i instrumente de analiza automata a unor seturi de date largi si complexe
cu scopul de a descoperi tipare semnificante sau tendinte care altfel ar trece neobservate i care sunt
importante n procesele dezvoltrii bussinesului.
12. Cum se ntroduc datele n depozit de date

13. Care este menirea tehnologiilor BI
14.
15. Care sunt cele mai importante domenii de aplicare a soluiilor BI
16. Numii i explicai menirea componentelor principale a unui sistem BI
17. Numii i explicai menirea instrumentelor ETL
18. Numii i explicai modelele de date implementate n sistemele OLTP i OLAP
19. Numii aplicaii tipice a sistemelor OLTP
20. Numii aplicaii tipice a sistemelor OLAP
21. Numii operaii tipice cu datele n aplicaiile OLTP
22. Numii operaii tipice cu datele n aplicaiile OLAP
23. Numii nivelurile de structut a depozitului de date
24. Numii modulele funcionale a depozitului de date
25. Numii i explicai tipurile principale ale depozite de date
10
26. Ce este schema snowflake a depozitului de date
27. Ce este schema constelaie a depozitului de date
11
28. Ce este dimensiune n modelul multidimensional de date
Reprezint structuri compuse de atribute structurate pe diverse niveluri ierarhice n functie de care sunt
grupate datele. Aceste atribute sunt de obicei descriptive si sunt folosite ca sursa pentru restrictii si pentru
rndurile din rapoarte. Sunt considerate tabele secundare datorita dimensiunilor reduse. Consiliul OLAP
defineste conceptul de dimensiune ca fiind un atribut structural al unui cub ce consta dintr-o lista de
membrii, pe care utilizatorii i percepe ca fiind de acelasi tip (de exemplu toate lunile, trimestrele, anii
formeaza dimensiunea Timp). Dimensiunile reprezninta un mod foarte concis, intuitiv de organizare si
selectare a datelor pentru explorare si analiza.
29. Ce nseamn metrici (msuri) a atributelor fapte
Metricile (msurile) corespund atributelor (faptelor) din tabelele de fapte si sunt de regula de natura numerica
(de exemplu: volumul vnzarilor, cantitile vnzrilor, stocurile disponibile). Metricele au sens numai n
contextul unor anumite dimensiuni. Ele reprezint valorile centrale care sunt analizate prin cubul de date.
Valoarea msurii este calculat pentru un punct dat prin agregarea datelor corespondente perechii respective
valoare-dimensiune, diferite pentru punctul dat.
30. Numii tipuri de metrici (msuri) a atributelor fapte n modelul multidimensional de date
Msurile pot fi clasificate dup modalitatea de calcul n msuri de baz care se regsesc sub forma
atributelor din tabelele de fapte i care provin din sursele de date i msuri derivate (virtuale) care se obin
prin combinarea msurilor de baz i care n tabelele de fapte au precizat formul de calcul prin care se
obin .
Msurile pot fi organizate n trei categorii bazate pe tipurile de funcii agregate utilizate: distributive,
algebrice, holistice.
31. Ce este metric (msur) distributiv n modelul multidimensional de date

Msurile distributive sunt calculate cu ajutorul unor functii de agregare distributive de tip z = a*(x + y)
=a*x + a*y. Presupunem ca datele sunt mpartite n n seturi. Calcularea functiei pe fiecare partitie determina
o valoare agregata. Daca rezultatul obtinut prin aplicarea functiei asupra a n valori agregate este acelasi cu cel
obtinut prin aplicarea functiei asupra tuturor datelor fara partitionare, functia poate fi calculata n maniera
distributiva. De exemplu, functia count( ) poate fi calculata pentru cubul de date printr-o prima partitionare a
12
cubului ntr-un set de subcuburi, calculnd count( ) pentru fiecare subcub si apoi nsumnd rezultatele
obtinute pentru fiecare subcub. Din acest motiv functia count( ) este o functie agregata distributiva.
32. Ce este metric (msur) algebric n modelul multidimensional de date
Msuri algebrice (msuri calculate prin funcii distributive) - sunt calculate cu ajutorul unor funcii
algebrice cu M argumente (unde M este un ntreg pozitiv), fiecare din ele obtinut prin aplicarea unei funcii
agregate distributive. De exemplu, AVG( ) poate fi calculata prin sum()/count() unde ambele functii sum( ) si
count( ) sunt functii agregate distributive. n mod similar se poate demonstra ca min( ), max( ) si abaterea
standard sunt functii algebrice agregate. Masura este algebrica daca este obtinuta prin aplicarea unei functii
algebrice agregate.
Exemplu: max(a,b) = *(a+b+|a-b|), min(a,b) = *(a+b-|a-b|).
33. Ce este metric (msur) holistic n modelul multidimensional de date
Msuri holistice - sunt calculate cu ajutorul unor functii holistice. O functie agregata este holistica, daca
aceasta nu este limitata constant pe spatiul de stocare cerut de deschiderea subagregarii. n acest caz nu exista
o functie algebrica avnd M argumente (unde M este o constanta) care caracterizeaza calculul. Exemple
comune de funcii holistice sunt: median( ), mode( ), rank( ), histogram( ). O msur holistic este obtinut
prin aplicarea unei funcii agregate de tip holistic.
34. Ce nseamn tabele de fapte n modelul multidimensional de date
Sunt tabelele centrale. Acestea conin atribute de tip msuri (metrici) i chei externe ctre tabelele
dimensiuni. Faptele sunt de obicei date numerice care pot fi nsumate i analizate pe diferite nivele.
35. Ce nseamn nivele ierarhice n modelul multidimensional de date
De exemplu, toate lunile, trimestrele si anii formeaza dimensiunea Timp si toate orasele, regiunile si tarile
dimensiunea Locatie. Un membru poate apartine la una sau mai multe ierarhii sau poate sa nu fie inclus ntr-o
ierarhie (independent). De exemplu n dimensiunea Produs membru culoare nu este inclus n nici o ierarhie.
Se pot aranja membrii unei dimensiuni n una sau mai multe ierarhii. Fiecare ierarhie poate avea mai multe
nivele ierarhice. De exemplu n dimensiunea Timp putem avea doua ierarhii.
Pentru a identifica pozitia unui membru ntr-o dimensiune se folosesc conceptele de naltime si adncime n
ierarhie. naltimea se stabileste de jos n sus. Din acest motiv nivelul (L0) al ierarhiei reprezinta nodurile
frunza ale ierarhiei (naltimea cea mai mica). n schema stea, nivelul L0 se leaga la tabela de fapte.
36. Numii operatii de navigare pe diferite nivele ierarhice n cubul multidimensional de date
Navigarea pe nivelele ierarhice (Drill Down si Roll Up) reprezinta operatii de navigare n cadrul
ierarhiilor dimensiunilor, prin agregare pe nivelele superioare sau detaliere pe nivelele inferioare. Orice baza
de date multidimensionala trebuie sa permita navigarea pe diferite nivele ale ierarhiilor. Aceasta tehnica se
numeste roll up sau drill down, n functie de directie, spre vrful sau baza ierarhiei. Acestea sunt operatii de
schimbare a vederii de-a lungul nivelelor unei ierarhii. Prin facilitatea de drill down, utilizatorii pot naviga pe
nivele cu un grad de detaliu mai accentuat. Prin roll up se pot vizualiza datele la un nivel agregat.
Rotaii reprezint operaiile cele mai uzuale n structurile de date multidimensionale i ofer
utilizatorului posibilitatea de a alege perspectiva asupra datelor pe care o va utiliza. De exemplu n cazul
bidimensional exist dou posibiliti de vizualizare, iar n cazul tridimensional se pot utiliza 6 rotaii pentru
a vizualiza datele din diferite perspective, iar pentru patru dimensiuni exista 24 de perspective posibile.
Seciuni - reprezint viziuni sau imagini (views) specifice diverselor categorii de utilizatori, prin operaii
de secionare prin care se obin "felii" bidimensionale (slices). Astfel, un manager de produs poate avea la
ndemna datele legate de produsul pe care-l supervizeaza, pe toate zonele, pe toata perioada analizata. n
schimb, un manager regional, va fi interesat de toate produsele, dar numai pe toate zonele pe care le
coordoneaza. Tehnica aceasta consta n limitarea unor atribute la anumite valori si obtinerea unui cub de date
redus (procedeu numit data dicing)
37. Ce nseamn modalitatea MOLAP de stocare a datelor n cubul multidimensional de date
13
38. Ce nseamn modalitatea ROLAP de stocare a datelor n cubul multidimensional de date

ROLAP (Relaional OLAP) stocheaz datele i agregrile n tabele relaionale. Aceste tabele sunt memorate
n aceeai baz de date n care sunt memorate i tabelele depozitului de date. Deoarece datele sunt stocare n
depozitul de date, cuburile ROLAP nu necesit un alt spaiu de stocare. Avnd in vedere aceast modalitate
de stocare, se pot utiliza i comenzi standard Transact-SQL n afara instrumentului OLAP Services, pentru
interogarea cubului dei, numele tabelelor i a coloanelor sunt greu de utilizat fiind generate automat de ctre
sistem.Structura datelor ROLAP este format din tabele i indeci.
Dimensiunile sunt stocate n tabele iar msurile n coloane. Fiecare nivel al unei dimensiuni este indexat.
39. Ce nseamn modalitatea HOLAP de stocare a datelor n cubul multidimensional de date
HOLAP (Hybrid OLAP) este o combinaie ntre MOLAP i ROLAP. Astfel, HOLAP stocheaz datele de
baz n tabele relaionale n aceeai baz de date ca i depozitul de date iar agregrile n structuri
multidimensionale n afara depozitului de date.Stocarea datelor cubului ntr-o structur de tip HOLAP este
recomandat n cazul interogrilor frecvente asupra datelor agregate ce au la baz un volum mare de date. De
exemplu, rezultatele anuale ale studenilor pot fi stocate ntr-o structur MOLAP iar rezultatele fiecrei
sesiuni pot fi stocate ntr-o structur ROLAP.
40. Care este diferena dintre metodele OLAP i Data Mining
O caracteristic important a Data Mining este un non-standard a modelelor dorite.Modelul Data Mining
difer de instrumente de prelucrare a datelor statistice i mijloacele OLAP prin aceea ca n loc de a verifica n
prealabil utilizatorii potentiali, ele sunt interdependente pe baza datelor disponibile, si sunt n msur s
gseasc o astfel de interdependen singuri i sa speculeze despre caracterul lor. Ar trebui remarcat faptul c
utilizarea Data Mining nu exclude utilizarea instrumentelor statistice i a mijloacelor OLAP, deoarece
rezultatele prelucrrii datelor prin intermediul acesteia din urm, ca regul, s contribuie la o mai bun
nelegere a legilor naturii, care ar trebui cutate.
41. Ce este Data Mining
Data Mining este o tehnologie noua si puternica cu un mare potential in ajutorarea companiilor de a se
concentra asupra celor mai importante informatii din depozitul lor imens de date. Data Mining a fost
definite ca:
O colecie de modele, metode i instrumente de analiza automata a unor seturi de date largi si complexe cu
scopul de a descoperi tipare semnificante sau tendinte care altfel ar trece neobservate i care sunt
importante n procesele dezvoltrii bussinesului.
42. Care este concepia de baz a Data Mining
Functia principala a DM este, deci, de a extrage modele de cunostinte din date. Pentru aceasta, DM utilizeaza
o varietate de algoritmi din statistica, recunoasterea formelor, clasificare, logica fuzzy, machine learning,
algoritmi genetici, retele neuronale, vizualizarea datelor, etc. Varietatea de algoritmi poate fi grupata n
principalele componente ale DM. Numarul acestor componente difera de la un autor la altul. Astfel, unii
considera ca DM are 3 componente, altii, 4, etc.
Principalele componente ale DM sunt:
modelul - care, ca orice model informatic, se reprezinta printr-o functie ntr-un spatiu unidimensional sau
multidimensional (un ansamblu de functii), depinznd de parametri. El poate fi reprezentat fie ca o functie
liniara de parametri, fie ca o functie de probabilitate (de exemplu normala), fie ca o functie fuzzy, etc.
Obtinerea modelului se realizeaza prin diferiti algoritmi, cum ar fi cei de clasificare si clusterizare;
criteriile de preferinta - care pot fi de natura diferit, unele dintre acestea bazndu-se pe ordonare, altele pe
interpolare sau cea mai buna aproximare;
14
algoritmi de selectie - care conduc la selectarea a trei elemente importante care apar n DM, si anume:
modelul, care se selecteaza din baza de modele, datele, care se selecteaza din baza de date si constituie
parametrii, si criteriul sau criteriile de preferinte, care se selecteaza din baza de criterii;
stabilirea abaterilor - care consta n general n algoritmi de determinare a deviatiei si stabilitatii; o categorie
specifica de astfel de algoritmi sunt cei statistici, prin care se stabilesc abaterile modelului fata de ideal.
43. Numii elementele cheie a tehnologiii Data Mining
Elementele cheie care fac parte din uneltele Data Mining a unei forme distincte de software sunt:
Analiza automata
Seturi de date largi sau complexe
Descoperirea de tipare semnificante sau tendinte care altfel ar trece neobservate
44. Numii domenii de aplicaie a tehnologiilor Data Mining
vinzari cu amanunt
domeniul bancar
domeniu de telecomunicare
domeniu de asigurri
domeniu de medicina
Genetica Moleculara si Ingineria genetic
Chimie Aplicata
Data Mining poate fi folosit n multe alte domenii:
Dezvoltarea industriei automobilelor
Politica de garanie
Stimulari pentru calatorii care frecvent folosesc transportul avia
45. Numii tipuri de legiti (tipare) care pot fi descoperite prin metodele Data Mining
Se disting cinci tipuri de legiti cinci tipuri de tipare sau patterne, care pot fi identificate sau descoperite
sau recunoscute prin metodele Data Mining:
asocieri (analiza asocierilor),
secvene (analiza secvenelor),
clasificri (clasificarea i predicia),
clusterizare (analiza clusterilor),
legiti temporale (n prognoz).
46. Ce este analiza asocierilor n Data Mining
Analiza asocierii este o forma necontrolata a Data Mining care cauta legaturi intre inregistrarile dintr-un set
de date. Analiza asocierii este cateodata definita ca analiza cosului de consum, care este cea mai folosita
aplicatie a sa. Scopul este de a descoperi, de exemplu, ce articol este cel mai probabil cumparat mpreun cu
articolul dat in acelasi timp, pentru a ajuta comerciantii cu amanuntul sa organizeze programe stimulente si
sa-si aranjeze magazinele cat mai eficient
47. Ce nseamn clasificare n Data Mining
Clasificarea este operatia cel mai des folosita de catre instrumentele comerciale .data mining.. Este o
operatie care ajuta organizatiile sa descopere anumite tipare in banci de date largi si complexe cu scopul de a
rezolva probleme specifice de afaceri.
Clasificarea este un proces de subdivizare a unui set de date cu referinta la un numar de specific de
rezultate. De exemplu , daca vrem sa clasificam clientii in 2 categorii : mari si mici , facem referinta la ricul
afacerii pentru fiecare. Categoria sau clasa in care este plasat fiecare client , este rezultatul clasificarii noastre.
48. Ce nseamn clusterizare n Data Mining

Clustering-ul este o operatie necontrolata. Este folosita acolo unde se doreste a se gasi grupuri de inregistrari
similare in datele noastre , fara nici o alta preconditie pe care o implica acea asemanare. Clustering-ul este
folosit pentru identificarea grupurilor de interes dintr-o baza de date a clientilor , care nu au mai fost
15
recunoscute anterior. De exemplu , poate fi utilizata pentru a identifica similaritati in utilizarea telefonului
clientilor , cu scopul de a inventa si a vinde noi servicii telefonice.
Clustering-ul este obtinut , de obicei , prin utilizarea metodelor statistice , cum ar fi algoritmul de inteles-
k ( .k-means algorithm.) , sau o forma speciala a retelei neuronale numita .harta retea Kohonen.
49. Numii unele metode de analiza a datelor n Data Mining
n funcie de metoda de analiz a datelor utilizate, caz n care se deosebesc sisteme Data Mining care folosesc
metode de analiz a datelor orientate pe:
- modelul de date n jurul cruia este construit depozitul de date care conine datele asupra crora se aplic
procesul Data Mining, care, la modul general, poate fi bidimenional pentru baze de date sau multidimensional
pentru data warehouse;
- forma de analiz a datelor asupra crora se aplic procesul Data Mining, caz n care se deosebesc sisteme
Data Mining pentru analiza statistic sau vizual, pentru reele neurale etc.
50. Care este diferena dintre clasificare i clusterizare n Data Mining
Clasificarea este actul de asignare a unei categorii pentru fiecare caz. Fiecare caz conine un set de atribute,
dintre care unul este atributul de clas. Activitatea necesit gsirea unui model care descrie atributul de clas
ca i o funcie de atribute de intrare. Un model bazat pe clasificare va folosi celelalte atribute ale unui caz
(atribute de intrare) pentru a determina modele/tipare despre clas(atributul de ieire). Clusterizarea mai este
numit i segmentare. Este folosit pentru a identifica grupuri naturale de cazuri bazate pe un set de atribute.
Cazurile din acelai grup au mai multe sau mai puine atribute similare. Este un algoritm nesupervizat/
necontrolat. Toate atributele de intrare sunt considerate egale.Diferenta este ca la clasificare putem diviza
obiectele pe grupe stiind clasele reesind din caracteristici iar la clusterizare nu se stiu clasele.
51. Pentru ce este utilizat metoda arborelui de decizie n Data Mining

Un Arbore de decizie (arbore de clasificare) este o structura folosita pentru a devide o colectie mare de
articole in seturi mai mici successive aolicind o secventa de reguli simple de decizie.
Avantajul utilizarii arborelui de decizie este cel al furnizarii unei imagini echilibrate a riscurilor si
cistigurilor ,asociate cu fiecare curs posibil al alternativelor.
52. Care este structura arborelui de decizie n Data Mining
Fiecare nod intern exprim un test relativ la un atribut al problemei care partitioneaza obiectele
Fiecare arc semnifica partitia rezultata in urma aplicarii testului ce corespunde acelui nod
Nodurile terminale reprezinta clasa (dominanta intre clasele problemei) ce a rezultat pe acea
ramura
53. Pentru ce este utilizat metoda Bayes Naive n Data Mining
Bayes Naive este o metoda de clasificare care si datoreaza numele ministrului britanic Thomas Bayes. .
Bayes este o tehnica de clasificare cu potential att predictiv, ct si descriptiv. Ea permite analiza relatiei
dintre fiecare variabila independenta si variabila dependenta, prin calcularea unei probabilitati
conditionate pentru fiecare din aceste relatii. Cnd o noua instanta se doreste a fi clasificata, predictia se
realizeaza prin combinarea efectelor variabilelor independente asupra variabilei dependente.
54. Ce este o reea neuronal
Retele Neuronale: o reea neuronal funcioneaz dup analogie cu trecerea impulsurilor (semnalelor)
nervoase n esutul viu nervros (o analogie cu funcionarea neuronilor). O diferenta cheie intre retelele
neuronale si oricare alta tehnica este aceea ca retelele neuronale opereaza numai direct pe numere. Rezulta ca
orice date nenumerice din coloanele independente sau dependente trebuiesc convertite in numere inainte sa
putem folosi datele intr-o retea neuronala.
16
17

Intrebari DW - DM 2016 - Pe Nivele 1

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Intrebari DW - DM 2016 - Pe Nivele 1

Încărcat de

Drepturi de autor:

Formate disponibile

1.

Obiective, noiuni generale i concepte de baz a tehnologiei BI

2. Arhitectura si componentele principale a unui sistem BI

3. Depozite de date. Arhitectura depozitelor de date

Arhitectura depozitelor de date poate varia n funcie de situaia specific a fiecrei

Arhitectur structural (niveluri de structur)

Arhitectur funcional (module funcionale)

4. Tipuri de depozite de date

5. Sisteme ETL de populare a depozitelor de date i funciile lor

6. Modelul de date multidimensional. Hipercub de date

7. Concepte de ierarhii i nivele n valorile dimensiunilor n modelul multidimensional de date

10. Modaliti de stocare a cuburilor multidimensionale de date. Tipuri servere OLAP

MOLAP (Multidimensional OLAP) stocheaz att datele de baz ct i agregrile n structuri

11. Tehnologia Data Mining definiie i elementele cheie

1. Explicai ce nseamn abrevierea i ce este BI

12. Cum se ntroduc datele n depozit de date

27. Ce este schema constelaie a depozitului de date

31. Ce este metric (msur) distributiv n modelul multidimensional de date

38. Ce nseamn modalitatea ROLAP de stocare a datelor n cubul multidimensional de date

48. Ce nseamn clusterizare n Data Mining

51. Pentru ce este utilizat metoda arborelui de decizie n Data Mining

S-ar putea să vă placă și