Sunteți pe pagina 1din 235

ACADEMIA DE SISTEME INFORMATICE DE BUSINESS

STUDII ECONOMICE
BUCURESTI INTELLIGENCE
- SOLUȚII DE BUSINESS INTELLIGENCE AVANSATE -

NOTE DE CURS
Cuprins

I. Tipuri de sisteme pentru management

II. Tehnologii utilizate

III. Metodologii si ciclul de dezvoltare

IV. Soluţii practice de realizare


Structura cursului

Secţiunea I Secţiunea II Secţiunea III Secţiunea IV

Solutii de
Cadrul general: Arhitectura: Solutii practice:
dezvoltare:
Tehnologii de Metodolologii de Realizarea unui
- Managementul
realizare a realizare a sistem informatic de
organizaţiei
sistemelor informatice sistemelor informatice BI
De BI: de BI:

- Sisteme informatice - Depozite de date - Ciclu de dezvoltare - Propunerea soluţiei

- Tehnologia OLAP - Cadre de dezvoltare - Dezvoltarea sistemului


- Soluţii informatice - Data mining - Evaluarea sistemului
- Metodologii
pentru realizat
managementul - Interogări SQL - Criterii si factori de
strategic influenţă
ANALIZA TIPURILOR DE S.I. DESTINATE
ASISTĂRII DECIZIILOR

•Sisteme informatice pentru management la nivel tactic


(MIS – Management Information System) destinate
asigurării rapoartelor sintetice necesare în procesul
fundamentării deciziilor curente, tactice, controlului şi
planificării pe termen scurt.
•Sisteme suport de decizie (DSS – Decision Support
System) oferă managerilor modele complexe şi
aprofundate de analiză în vederea fundamentării deciziilor.
•Sisteme informatice de BI sau suport ale executivului
reprezintă sisteme informatice destinate conducerii
strategice şi permit luarea unor decizii nestructurate, altele
decât cele de rutină.
ANALIZA TIPURILOR DE SI DESTINATE
ASISTĂRII DECIZIILOR
Caracteristica MIS DSS SBI
Nivelul de decizie vizat Operaţional, Tactic Tactic şi strategic Strategic

Beneficiarii sistemului Manageri la nivel Manageri la nivel tactic Manageri executivi, la nivel
operaţional strategic

Tipuri de informaţii furnizate Informaţii şi indicatori ai Informaţii şi indicatori ai Informaţii şi indicatori


activităţii curente activităţii curente, la nivel strategici, indicatorii cheie de
departamental sau performanţă
organizaţional

Sectiunea I.
Oferă previziuni şi predicţii ale Rar, la cerere Uneori, în cazul indicatorilor la Obligatoriu, pentru indicatorii
evoluţiei indicatorilor de nivel central şi organizaţional cheie de performanţă
activitate

Tipuri de rapoarte Rapoarte detaliate, statice, Rapoarte detaliate, sintetice, Rapoarte sintetice, flexibile şi
rar cu facilităţi de analiză dinamice, cu unele facilităţi de dinamice, cu facilităţi de
multidimensională analiză multidimensională analiză multidimensională

Tipuri de informaţii de ieşire ale Informaţii detaliate Informaţii detaliate/ agregate Informaţii de sinteză
sistemelor
SIBI – SOLUŢIA INFORMATICĂ PENTRU
MANAGEMENTUL STRATEGIC

•Millet şi Mawhinney , 1992: “un sistem ce integrează


informaţii din surse interne şi externe făcând posibile
monitorizarea şi prezentarea indicatorilor cheie către
managerii executivi prin intermediul unor formate şi
rapoarte flexibile şi adaptabile cerinţelor acestora.“

•E. Turban, 1995: “ reprezintă un sistem informatic


proiectat pentru a satisface cerinţele de afaceri ale
managerilor executivi. Acesta furnizează acces rapid şi
direct la rapoarte şi informaţii temporale. Interfaţa
sistemului este prietenoasă, oferind reprezentări grafice,
raportare de excepţie şi facilităţi de navigare pe niveluri
ierarhice cu funcţii de drill-down. De asemenea oferă acces
la servicii online şi poştă electronică“
SIBI – SOLUŢIA INFORMATICĂ PENTRU
MANAGEMENTUL STRATEGIC

 Business Intelligence se referă la sisteme informatice


de identificare, extragere și analizare a datelor
disponibile într-o companie, sisteme al căror scop este
de a oferi un suport real pentru luarea de decizii de
business.
 Sistemele informatice de tip Business Intelligence au
fost considerate până recent ca fiind instrumente
destinate managerilor – soluții care oferă
managementului unei companii informațiile necesare
pentru îmbunătățirea performanței generale a
acesteia.
SIBI – SOLUŢIA INFORMATICĂ PENTRU
MANAGEMENTUL STRATEGIC

 Putem spune că un sistem informatic de BI este un


sistem informatic complex ce dispune de o interfaţă
prietenoasă şi oferă acces rapid şi direct la informaţii
corecte şi relevante referitoare la domeniile şi
activităţile principale ale afacerilor şi permite analiza
indicatorilor cheie de performanţă, ajutând la
îndeplinirea funcţiilor manageriale şi la atingerea
obiectivelor strategice ale organizaţiei.
 Este un sistem proiectat special pentru a satisface
cerinţele senior managerilor, pentru a concentra,
organiza şi filtra datele interne şi externe ale
organizaţiei astfel încât acestea să poată fi mai bine
utilizate.
BI operational

 Un sistem BI de tip operațional susține activitățile


zilnice prin funcționalități specifice: informații actualizate
în timp real, acces securizat la date din orice locație,
analize ușor de realizat de către orice utilizator, fără
sprijin specializat etc.
 Trecere spre un management bazat pe obiective
clare, măsurabile, asumate de către companie și
angajați la fiecare nivel execuțional. Pentru ca acest
model să funcționeze, trebuie ca angajatul să poată
lua decizii pentru atingerea propriului obiectiv.
 BI-ul operațional intervine în aceste companii, oferind
acces la informație relevantă la fiecare nivel și viteză
decizională.
BI operational

 Un sistem BI operațional presupune în plus


depistarea trendurilor, problemelor și altor
factori imediat după ce apar, permițându-le
angajaților să le rezolve imediat și nu la
câteva zile, când acestea pot lua amploare și
pot avea un impact puternic nefavorabil
asupra companiei.
 Implementarea unui astfel de sistem
presupune o cultură organizațională în care
rolul angajatului nu mai este pur execuțional,
acesta devine decident.
Democratizarea BI

Gartner menționează "democratizarea BI-ului" ca


fiind principalul trend în industria de Business
Intelligence dupa anul 2011.
Acest concept se traduce prin disponibilitatea
informației în timp real și din orice locație, acces
la sistem pentru mai multe categorii de utilizatori
și relevanță crescută.
Sistemele BI clasice se bazează în principal pe
informație obținută în intervale de timp mai mari.
Acest tip de informație este foarte importantă
pentru a observa trenduri, probleme, zone de
business care necesită îmbunătățiri.
BI-istoric

• Termenul de Business Intelligence a


fost introdus de către Gartner Group
la jumătatea anilor 1990.
• Conceptul de Business Intelligence a
fost utilizat cu mult timp înainte, chiar
din anii 1970 fiind folosit în sistemele
de raportare cu calculatoarele de tip
mainframe.
BI-istoric

• Dupa anii 1990 domeniul Business


Intelligence (BI) a fost extins și perfecționat
cu noi analize, cu noi tehnologii, cu noi
instrumente
• In curând, va deveni parte integrată a
sistemului informatic integrat al companiilor
BI-Domenii APARUTE

• Sisteme de raportare dinamice, multi-dimensionale, care


să ofere suport pentru decizii predictive
• Au determinat dezvoltarea domeniului Business
Intelligence, care a devenit realitate odată cu emergența
noilor tehnologii.
BI-DOMENII APARUTE
• Analiza datelor a devenit un domeniu
deosebit de căutat în combinație cu noile
tehnologii informatice.
• În condițiile în care orice companie din
zilele noastre lucrează cu seturi de date de
mari dimensiuni și generează zilnic noi
volume mari de date, este deosebit de
important ca aceste date să fie analizate și
factorii de decizie să le utilizeze în scopul
creșterii performanței organizației.
BI-DOMENII APARUTE

• Organizarea datelor in volume mari


date care să răspundă rapid la cerințe
complexe și la interogări într-un timp
cât mai redus.
• In domeniul BI timpul este o resursă
foarte importantă.
Functii ale SIBI

• Bi-functia de vizualizare interactivă a datelor


• BI-functia de accesare a datelor
• BI-functia de explorare, intelegere si descoperirea de noi
informatii
• BI-functia de comunicare a informatiilor
Bi-functia de vizualizare
interactivă a datelor

 Analiza datelor generate de activitățile unei companii este o activitate


solicitantă, care implică resurse de timp și umane considerabile.
Reprezentările vizuale simplifică lucrurile, permițându-le utilizatorilor
din orice nivel al companiei să înțeleagă mai bine datele pe baza
cărora trebuie să-și îndeplinească obiectivele.
 Un sistem BI de tip operațional vine în ajutorul utilizatorilor non-tehnici
cu modalități de prelucrare și vizualizare a datelor foarte rapide și
intuitive, permițând persoanelor din orice nivel al companiei să pună
întrebări și să primească răspunsuri
BI-FUNCTIA DE Accesare a datelor
 Un sistem BI de ultimă generație poate prelucra și analiza
un volum imens de date, din surse variate, aducând la un
click distanță informații consolidate Indiferent de volumul
de date, acestea pot fi reprezentate și analizate printr-un
număr nelimitat de vizualizări.
 Vizual, trendurile sau problemele pot fi mai ușor de
observat, iar deciziile sunt luate mult mai simplu când
informația este prezentată clar.
 Analiza datelor într-un sistem BI nu se rezumă doar la
câteva grafice statice, pe intervale de timp mai mari.
Acestea pot fi studiate în profunzime, trecerea de la o
imagine de ansamblu la detalii specifice făcându-se foarte
ușor.
BI-FUNCTIA de explorare,
înțelegerea și descoperirea de noi
informații
 Un sistem BI operațional este simplu, vizual și ușor de
înțeles, oferindu-le oamenilor libertatea de a răspunde
întrebărilor imediat cum apar.
 Sistemul BI poate realiza vizualizări interactive în doar
câteva secunde chiar și când se lucrează cu volume
foarte mari de date.
 Permite utilizatorilor din diferite niveluri ale companiei să
treacă de la tabele de date la vizualizări interactive de
date cu doar un click.
 Utilizatorii vor putea să exploreze, vizualizeze și să
obtina informații fără suport specializat.
SIBI- FUNCTIA de comunicare a
informațiilor

 Vizualizările interactive pot fi ”asamblate” într-un


dashboard interactiv, pentru o viziune de ansamblu.
 În funcție de facilitățile sistemului BI sau ale platformei
pe care este dezvoltat, dashboard-urile pot fi oferite
oricui, prin Internet.
 Utilizatorii pot interacționa direct cu dashboard-ul:
pot filtra, sorta și rearanja informația. Dashboard-urile
pot fi vizualizate și prin alte metode: încorporate pe
un site, pe blog, pot fi folosite în prezentări sau
exportate într-un format static.
Soluții actuale de BI

• Optimizarea proceselor de afaceri


• Asigurarea suportului pentru business
• Identificarea unor noi oportunitati de afaceri
• Consolidarea Business-lui curent
• Pregatirea previziunilor de business
BI-caracteristici generale
• oferă vizualizări istorice, actuale și
predictive ale operațiunilor de afaceri
• oferă factorilor de decizie cunoștințe
obținute din prelucrarea datelor, prin
aplicarea modelelor matematice și a
algoritmilor
• presupun analize dezvoltate ce impun
utilizarea modelelor avansate de
optimizare, învățare inductivă și predicție.
• contin un set de modele matematice și
metodologii de analiză care să exploateze
sistematic date disponibile pentru a prelua
informații și cunoștințe utile în sprijinirea
proceselor decizionale.
BI-caracteristici generale

• Conţin un nivel de date distinct;


• Oferă facilităţi de agregare a datelor;
• Permit raportarea de excepţie;
• Permit analiza tendinţelor;
• Oferă o interfaţă prietenoasă cu utilizatorii;
• Conţin instrumente de analiză dinamică a
informaţiilor;
• Oferă facilităţi de modelare;
• Oferă facilităţi de comunicare şi legături
automate la surse de date externe;
BI-caracteristici generale

• Permit accesul la informaţii globale ale


organizaţiei;
• Oferă acces la datele curente, istorice şi
previzionate;
• Analiza datelor se realizează direct, online,
bazându-se pe analiza multidimensională a
datelor;
• Prezintă sintetic indicatorii de performanţă
cheie ai organizaţiei (KPI);
Caracteristici de calitate ale BI: ușor
de utilizat
• Utilizatorii finali folosesc cu ușurință rapoarte BI, deoarece sunt suficient de
”user friendly” și ajută la interpretarea datelor.
• Rezultatul final generat de instrumentele de BI este în cele mai multe cazuri
foarte ușor de interpretat și gestionat din punct de vedere al informațiilor
finale pentru factorii de decizie și nivelurile de organizare.
• O soluție de BI trebuie să fie aliniată la procesele de business astfel încât să
fie utilizată în mod eficient.
Caracteristici de calitate ale BI:
flexibilitate

• Aplicațiile BI sunt accesate și utilizate pe


mai multe tipuri de sisteme de operare
precum Linux sau Windows
• Este posibilă trecerea ușoară de la o
versiune la alta.
Caracteristici de calitate ale BI:
securitatea datelor
.
• Serverele pentru stocarea obiectelor de Business Intelligence au baze de
date criptate pentru a securiza informațiile legate de directoare, rapoarte,
utilizatori
• Furnizorii mari de instrumente BI utilizează algoritmi de criptare specializați
pentru a îndeplini aceste cerințe, puse în aplicare de către experți
specializați.
Caracteristici de calitate ale BI:
Minimizarea riscurilor
• Presupune din punct de vedere operațional asigurarea
unor funcționalități de analiză a tipologiilor de lucru și a
fluxurilor informaționale.
• Managerii au nevoie să fie la curent cu decursul
activităților din cadrul organizației pentru a putea
minimiza riscurile și apoi a maximiza oportunitățile care
apar.
• Persoanele în funcții de conducere pot să extragă, să
sintetizeze si să analizeze informația, dar si să o
partajeze la nivelurile diferitelor departamente sau
nivelurile decizionale superioare.
Caracteristici de calitate ale BI:
creșterea profitabilității

• Se obține cu ajutorul unor tehnici de identificare a


profilelor utilizatorilor, a comportamentelor de utilizare a
serviciilor oferite de produs, a unor caracteristici de
segmentare bazate pe investigarea datelor istorice din
depozitul de date.
• Particularizarea ofertei către clienți cât și facilitarea
fluxurilor de vânzare a produsului prin intermediul unor
analize sofisticate pot fi propuse spre dezvoltare alte
produse și servicii
Caracteristici de calitate ale BI:
asigurarea conformității
• Instrumentele de BI permit furnizarea de servicii
pentru a asigura respectarea cerințelor și
reglementărilor legislative și de a crea un mediu
pentru elementele operaționale, de înregistrare și
calitate a datelor, pentru stocarea acestora pe
perioade mai mari de timp.
• Valoarea adăugată de Business Intelligence este aceea
că asigură organizațiile să respecte regulamentele
domeniului în care activează și legislația
guvernamentală
BENEFICIILE OFERITE DE SISTEMELE
INFORMATICE DE BI

 Prin accesul rapid la informaţii critice facilitează atingerea


obiectivelor organizaţionale;
 Pe baza analizei indicatorilor cheie prezentaţi creşte calitatea
deciziilor luate şi astfel se oferă suportul pentru un avantaj
competiţional;
 Minimizează timpul destinat procesului decizional şi oferă un
control mai bun în organizaţie;
 Prin analizele dinamice a informaţiilor critice permite anticiparea
problemelor şi identificarea rapidă a oportunităţilor de afaceri;
 Pe baza posibilităţilor de previziune permite identificarea unor
tendinţe ale procesului de afaceri şi planificarea unor activităţi şi
stabilirea unor obiective la nivel strategic.
BI-caracteristici generale
• oferă vizualizări istorice, actuale și
predictive ale operațiunilor de afaceri
• oferă factorilor de decizie cunoștințe
obținute din prelucrarea datelor, prin
aplicarea modelelor matematice și a
algoritmilor
• presupun analize dezvoltate ce impun
utilizarea modelelor avansate de
optimizare, învățare inductivă și predicție.
• contin un set de modele matematice și
metodologii de analiză care să exploateze
sistematic date disponibile pentru a prelua
informații și cunoștințe utile în sprijinirea
proceselor decizionale.
CARACTERISTICI functionale ALE SI
DE BI

 Conţin un nivel de date distinct;


 Oferă facilităţi de agregare a datelor;
 Permit raportarea de excepţie;
 Permit analiza tendinţelor;
 Oferă o interfaţă prietenoasă cu utilizatorii;
 Conţin instrumente de analiză dinamică a
informaţiilor;
 Oferă facilităţi de modelare;
 Oferă facilităţi de comunicare şi legături
automate la surse de date externe;
CARACTERISTICI tehnice ALE
SISTEMELOR INFORMATICE DE BI
• Permit accesul la informaţii globale ale
organizaţiei;
• Oferă acces la datele curente, istorice şi
previzionate;
• Analiza datelor se realizează direct, online,
bazându-se pe analiza multidimensională a
datelor;
• Prezintă sintetic indicatorii de performanţă
cheie ai organizaţiei (KPI);
Caracteristici de calitate ale BI: ușor
de utilizat
• Utilizatorii finali folosesc cu ușurință rapoarte BI,
deoarece sunt suficient de ”user friendly” și ajută la
interpretarea datelor.
• Rezultatul final generat de instrumentele de BI este în
cele mai multe cazuri foarte ușor de interpretat și
gestionat din punct de vedere al informațiilor finale
pentru factorii de decizie și nivelurile de organizare.
• O soluție de BI trebuie să fie aliniată la procesele de
business astfel încât să fie utilizată în mod eficient.
Caracteristici de calitate ale BI:
flexibilitate

• Aplicațiile BI sunt accesate și utilizate pe


mai multe tipuri de sisteme de operare
precum Linux sau Windows
• Este posibilă trecerea ușoară de la o
versiune la alta.
Caracteristici de calitate ale BI:
securitatea datelor
.
• Serverele pentru stocarea obiectelor de Business
Intelligence au baze de date criptate pentru a securiza
informațiile legate de directoare, rapoarte, utilizatori
• Furnizorii mari de instrumente BI utilizează algoritmi de
criptare specializați pentru a îndeplini aceste cerințe,
puse în aplicare de către experți specializați.
Caracteristici de calitate ale
BI: Minimizarea riscurilor
• Presupune din punct de vedere operațional asigurarea
unor funcționalități de analiză a tipologiilor de lucru și a
fluxurilor informaționale.
• Managerii au nevoie să fie la curent cu decursul
activităților din cadrul organizației pentru a putea
minimiza riscurile și apoi a maximiza oportunitățile care
apar.
• Persoanele în funcții de conducere pot să extragă, să
sintetizeze si să analizeze informa$ia, dar si să o
partajeze la nivelor diferitelor departamente sau nivele
decizionale.
Caracteristici de calitate ale BI:
creșterea profitabilității

• Se obține cu ajutorul unor tehnici de identificare a


profilelor utilizatorilor, a comportamentelor de utilizare a
serviciilor oferite de produs, a unor caracteristici de
segmentare bazate pe investigarea datelor istorice din
depozitul de date.
• Particularizarea ofertei către clienți cât și facilitarea
fluxurilor de vânzare a produsului prin intermediul unor
analize sofisticate pot fi propuse spre dezvoltare alte
produse și servicii
Caracteristici de calitate ale BI:
asigurarea conformității
• Instrumentele de BI permit furnizarea de servicii
pentru a asigura respectarea cerințelor și
reglementărilor legislative și de a crea un mediu
pentru elementele operaționale, de înregistrare și
calitate a datelor, pentru stocarea acestora pe
perioade mai mari de timp.
• Valoarea adăugată de Business Intelligence este aceea
că asigură organizațiile să respecte regulamentele
domeniului în care activează și legislația
guvernamentală
BENEFICIILE OFERITE DE SISTEMELE
INFORMATICE DE BI

 Prin accesul rapid la informaţii critice facilitează atingerea


obiectivelor organizaţionale;
 Pe baza analizei indicatorilor cheie prezentaţi creşte calitatea
deciziilor luate şi astfel se oferă suportul pentru un avantaj
competiţional;
 Minimizează timpul destinat procesului decizional şi oferă un
control mai bun în organizaţie;
 Prin analizele dinamice a informaţiilor critice permite anticiparea
problemelor şi identificarea rapidă a oportunităţilor de afaceri;
 Pe baza posibilităţilor de previziune permite identificarea unor
tendinţe ale procesului de afaceri şi planificarea unor activităţi şi
stabilirea unor obiective la nivel strategic.
Arhitectura SBI

ARHITECTURA SISTEMELOR INFORMATICE DE BI

Arhitectura SBI este în principiu asemănătoare cu cea a sistemelor suport de


decizie şi se poate structura pe patru nivele distincte:

•Gestiunea datelor (nivelul 1) reprezintă nivelul de bază, al surselor de


date, a sistemelor de gestiune a bazelor de date şi a dicţionarelor
metadatelor.
•Gestiunea modelelor (nivelul 2) este nivelul unde se prelucrează, se
transformă şi se extrag informaţiile şi include modele de analiză şi previziune
a datelor destinate satisfacerii cerinţelor manageriale de nivel înalt.
•Interfaţa (nivelul 3) este nivelul superior prin care utilizatorul poate
comunica cu sistemul şi îl poate comanda.
•Telecomunicaţiile (nivelul 4) se referă la reţelele de calculatoare,
dispozitivele de comunicaţii, la modul cum este organizat hardware-ul în
reţea, suportul pentru software-ul distribuit şi cum sunt integrate şi conectate
fizic componentele sistemului.
Arhitectura SBI

ARHITECTURA SISTEMELOR INFORMATICE DE BI

Arhitectura SIE poate fi privită şi din punctul de vedere al nivelurilor de


realizare, de jos în sus, piramidal, pe trei niveluri:

•Nivelul datelor (bottom–tier) – reprezintă nivelul surselor de date pentru


EIS în care are loc integrarea tuturor surselor relevante de date din interiorul
organizaţiei din modulele operaţionale şi exteriorul organizaţiei, procese de
extragere, transformare şi încărcare a datelor şi depozitele de date din care
se extrag date pentru analiză.
•Nivelul de analiză (middle-tier) – reprezintă nivelul de analiză a datelor cu
ajutorul tehnologiilor OLAP şi data mining şi pin extragerea datelor din
depozite prin interogări SQL.
•Nivelul de prezentare (top-tier) – reprezintă nivelul de prezentare şi
utilizare a datelor prin instrumente grafice, rapoarte, interfeţe web, etc.
Arhitectura SBI
ARHITECTURA SISTEMELOR DE BI

NIVELUL COMUNICATIILOR

NIVELUL DATELOR NIVELUL NIVELUL


MODELELOR INTERFEŢEI

Tehnologii de extragere şi transformare şi Tehnologii de Tehnologii de


integrare a datelor procesare şi prezentare a
analiză a datelor informaţiilor

Surse eterogene

Tehnologii de Tehnologii de
Data Mining integrare a
integrare a datelor:
replicare, aplicaţiilor;
federalizare;
Tehnologia OLAP
Instrumente de Tehnologii Web;
extragere, Depozite de
transformare, date SQL Instrumente de
încărcare a datelor prezentare a datelor:
(ETL); rapoarte, grafice
Sisteme de raportare
de excepţie
Instrumente de
asigurare a calităţii;

Repartiţia tehnologiilor în cadrul arhitecturii


. Arhitectura SBI

TEHNOLOGII UTILIZATE LA REALIZAREA ARHITECTURII

DEPOZITELE DE DATE reprezintă o modalitate de


integrare şi organizare a datelor din surse omogene şi
neomogene, provenite din sisteme tranzacţionale dar şi
din fişiere externe, integrate după anumite criterii, supuse
unui proces de extragere, transformare şi încărcare,
stocate agregat pe nivele ierarhice, destinate prelucrărilor
şi analizelor dinamice, fiind soluţia optimă de organizare
a datelor pentru sistemele informatice suport de decizie
şi executive.
Arhitectura SBI

ANALIZA COMPARATIVĂ A PERFORMANŢELOR OBŢINUTE ÎN URMA


IMPLEMENTĂRII DIFERITELOR TIPURI DE DEPOZITE DE DATE

Echilibrul între datele agregate, stocate separat şi datele curente, accesate direct

In funcţie de aria de cuprindere:


•Depozitul central al organizaţiei (Enterprise Warehouse)
•Centru de date (Data mart)
•Depozitul virtual (Virtual warehouse)

In funcţie de aria de cuprindere a proceselor decizionale:


•Depozitul de date de tip organizaţional sau “galactic” (galactic datawarehouse - GDW)
•Depozitul de date orientat pe procese de afaceri (business process datawarehouse -
BPDW)
•Depozitul de date departamental (departamental datawarehouse - DDW)
•Centru de date de tip proces de afaceri (business process data mart - BPDM)
•Centru de date departamental (departamental data mart - DDM)
Arhitectura SBI

ANALIZA COMPARATIVĂ A PERFORMANŢELOR OBŢINUTE ÎN URMA


IMPLEMENTĂRII DIFERITELOR TIPURI DE DEPOZITE DE DATE

Tipuri de depozite de date: Modalităţi de implementare:

•Depozit de date organizaţional •Date agregate stocate separat

•Centru de date (Data mart) •Realizare virtuală


Arhitectura SBI

ANALIZA COMPARATIVĂ A PERFORMANŢELOR OBŢINUTE ÎN URMA


IMPLEMENTĂRII DIFERITELOR TIPURI DE DEPOZITE DE DATE

CRITERII ANALIZATE:

•Dimensiunea depozitului
•Dimensiunea surselor de date
•Obiectele depozitului
•Administrarea metadatelor
•Performanţă la încărcarea datelor din surse
•Procesul ETL
•Nivelul de detaliere al datelor
•Operatorii şi facilităţile de prelucrare analitică
•Modificarea structurilor de date
•Performanţa în analiză
•Analiza datelor istorice
•Posibilităţi de previziune
•Independenţa aplicaţiilor faţă de date
•Realizarea depozitului
•Puncte critice din punct de vedere tehnic
Arhitectura SBI

TEHNOLOGII UTILIZATE LA REALIZAREA ARHITECTURII

TEHNOLOGIA OLAP reprezintă o modalitate de prelucrare şi analiză dinamică şi


avansată a datelor, oferind decidenţilor posibilitatea de a obţine propria perspectivă
asupra datelor, de creare flexibilă şi obţinere directă a situaţiilor centralizate şi
sintetice, dar şi cu posibilitatea de navigare în detaliu, cu facilităţi de previzionare şi
simulare a unor situaţii viitoare, fiind o soluţie eficientă de analiză a datelor din
depozitele de date. Permite aplicarea de formule şi modele asupra dimensiunilor şi
ierarhiilor, previziuni pe perioade diferite de timp, analiza în adâncime (drill-down),
extragerea unui subset de date pentru vizualizare, rotaţii în cadrul dimensiunilor;
Sectiunea II. Arhitectura SBI

MODEL MULTIDIMENSIONAL PENTRU SISTEMELE INFORMATICE


EXECUTIVE – MODEL PIRAMIDAL

Nivelul I sau nivelul organizaţional – compus din dimensiuni şi fapte cu caracter general, valabile pentru
activităţile întregii organizaţii, de exemplu dimensiunea <timp>, <zonă geografică>. Nivelul datelor este
detaliat, cu mai multe ierarhii pe fiecare dimensiune.

Nivelul II sau nivelul departamental – compus din dimensiuni şi fapte cu caracter departamental, valabile
pentru anumite activităţi, de regulă grupate pe departamente sau centre, este un nivel al data marturilor, de
exemplu aici s-ar regăsi dimensiunea <cont contabil> sau <client>/<furnizor>. Nivelul datelor este semi-
agregat, cu ierarhii specializate pe care să se poată naviga.

Nivelul III sau nivelul strategic – compus din dimensiuni şi fapte derivate din cele de bază şi din cele
departamentale, având şi elemente proprii, valabile doar pentru analiza strategică, de exemplu
dimensiunea <intercompanie>. Nivelul datelor este agregat, sintetic, ierarhiile fiind compuse şi derivate din
cele de bază şi cele departamentale.
Arhitectura SBI
MODEL MULTIDIMENSIONAL PENTRU SISTEMELE INFORMATICE DE BI–
MODEL PIRAMIDAL
Avantaje: Dezavantaje:
• Flexibilitate • Complexitate mare
• Model real al cerinţelor de afaceri • Performanţă scazută la interogare
• Performanţă în navigare (drill-down, • Necesitatea de abordare pe două
roll-up) direcţii top-down şi bottom-up
• Construcţie incrementală
• Suport pentru MIS, DSS
KPI

CF VENCOST

INDICATORI
SALARII VANZARI
BUGET PLAN

STOCURI PLATI
CONT CLIENT FURNIZOR

PRODUCTIE ANGAJAT CENTRU COST ACTIVITATI


APROV

TIMP ZONA UNITATE MONEDA PRODUS


Arhitectura SBI

TEHNOLOGII UTILIZATE LA REALIZAREA ARHITECTURII

DATA MINING Se intenţionează descoperirea unor cunoştinţe noi, neintuitive,


care pot contrazice percepţia intuitivă, fiind deci informaţii complet
necunoscute la momentul realizării procesului de data mining. Din acest
motiv rezultatele obţinute sunt cu adevărat valoroase.
Tehnicile de data mining urmăresc obţinerea de răspunsuri la întrebări de
genul:
“Care sunt cauzele unui anumit fenomen?”,
“Cum se pot obţine anumite rezultate?”.
Arhitectura SBI

Rapoarte şi grafice
prin interogări SQL

Dar dacă?

Analiză
multidimensională

Analiza statistică a
datelor
Baza de date
Depozit de
date

De ce?
Cum?
Data Mining
Descoperirea de
cunoştinţe noi

Diferenţe între analiza clasică a datelor şi procesul de data mining


DD-delimitare
Ralph Kimball [2], depozitul de date ofera acces la datele
organizaţionale; datele conţinute sunt consistente; datele pot fi
separate şi combinate în funcţie de fiecare dimensiune sau
aspect al afacerii. Depozitul de date include, de asemenea, un
set de instrumente pentru interogare, analiză şi prezentare a
informaţiilor; reprezintă locul în care sunt publicate datele
folosite; calitatea datelor conţinute în depozit reprezinta o
premisă pentru reingineria afacerii".
Barry Devlin [3], “un depozit de date înseamnă o stocare a
datelor, unitară, completă şi consistentă, obţinută dintr-o
varietate de surse, disponibilă utilizatorilor finali într-un mod
uşor perceptibil şi utilizabil în contextul afacerii”.
Sam Anahory [4] subliniază finalitatea depozitelor de date
precizând că un “depozit de date include datele şi procesele
manageriale care fac informaţiile disponibile, permiţând
managerilor să ia decizii corect fundamentate”
[2]. Kimball, R., Reeves, L., Ross M., Thornthwaite, W., The Data Warehouse Lifecycle Toolkit, John Wiley/Sons, Inc., New York, 1998.
[3] Devlin, B., Data Warehouse – from Architecture to Implementation, Addison Wesley Longman, Reading, Mass, 1997
[4] Anahory, S., Dennis, M., Data Warehousing in the Real World, Addison Wesley Longman, Reading, Mass, 1997
DD-delimitare

Corey si Abbey (Oracle) definesc depozitul de


date ca fiind: „o colectie de informatii
strategice derivate direct din sistemele OLTP
si alte surse externe. Scopul specific al
depozitului de date este de a oferi suport de
decizie si nu suport pentru activitatea
operativă”.
Firma IBM foloseşte pentru depozite de date
termenul “Information Warehouse”. După
unii autori, viziunea IBM se referă mai
degrabă la conectivitatea globală a
diverselor surse de date, fiind un fel de
“middleware generalizat” bazat pe
arhitectura proprie DRDA – Distributed
Relatinal Database Architecture.
De altfel, în literatura de specialitate se
folosesc simultan cei doi termeni pentru
depozite de date: Data Warehouse si
Information Warehouse.
Dupa Efraim Turban [5], “scopul unui data
(sau information) warehouse este de a
realiza un fond de date (data repository)
care să facă accesibile datele operaţionale
într-o formă acceptabilă pentru asistarea
deciziilor şi pentru alte aplicaţii".

[5] Turban, E., Aronson, J., Decision Support Systems and Intelligent Systems, Sixth Edition,
Prentice Hall International, Upper Saddle River, New Jersey, 2001, p. 145
DD-scopurile
• depozitul de date asigură accesul la datele organizaţiei.
Accesul trebuie să fie imediat, la cerere, şi să fie
performant. Nu este acceptabil ca acest acces să fie
realizat prin intermediul altei persoane sau să fie prea lent.
• accesul presupune existenţa unor utilitare care să fie foarte
uşor de folosit. Managerii vor trebui să obţină diferite
rapoarte printr-o simplă apăsare de buton.
• datele dintr-un depozit de date trebuie să fie consistente.
Consistenţa înseamna că atunci când două persoane
solicită date despre vânzările dintr-o anumită regiune să
primească aceleaşi date, chiar dacă ele au fost cerute la
momente de timp diferite. Dacă datele nu au fost complet
încărcate atunci utilizatorul va fi avertizat cu privire la acest
lucru şi este sfătuit să aştepte până ce vor fi complet
încărcate.
DD-scopurile
• datele într-un depozit de date pot fi separate şi combinate
– cerinţa clasică de împărţire şi grupare a datelor.
• depozitele de date nu reprezintă doar datele ci şi un set
de utilitare pentru a interoga, analiza, prezenta informaţiile.
• depozitele de date sunt locurile unde publicăm datele
folosite. Datele nu sunt doar acumulate la un loc şi
păstrate, ci sunt asamblate dintr-o varietate de surse, sunt
corectate de erori, li se asigură calitatea necesară şi abia
apoi devin utilizabile.
• calitatea datelor din depozitele de date este un factor
determinant pentru procesul de reculegere a datelor. Se
întâlneste frecvent situaţia în care datele sunt de bună
calitate, dar nu sunt colectate în întregime sau sunt
“opţionale”.
DD-aria de cuprindere
• Un depozit de întreprindere colectează toate informaţiile
despre subiecte care privesc întreaga organizaţie[6].
– furnizează un volum extins de date;
– conţine date detaliate, dar şi date agregate, iar ca ordin
de mărime porneşte de la câţiva gigabytes până la sute
de gigabytes, terabytes sau mai mult.
– poate fi implementat pe tradiţionalele mainframes, pe
superservere UNIX sau pe platforme cu arhitecturi
paralele. Acesta necesită cheltuieli mai mari pentru
modelare şi ani de zile pentru proiectare şi realizare.

[6] . Ryan, J. Building and deploying an enterprise data


warehouse , White Paper, 1999
DD-aria de cuprindere
• Un data mart conţine un subset al volumului de date din organizaţie, specific
unui grup de utilizatori[7].

Domeniul este limitat la subiecte specifice. De exemplu,


un data mart pentru marketing limiteaza subiectele la
clienti, articole, vânzări. Datele conţinute în data mart sunt
de obicei agregate.

Data marts sunt, în mod curent, implementate pe servere


departamentale mai ieftine care se bazeaza pe UNIX sau
Windows/NT. Ciclul de implementare a unui data mart
este mai curând măsurat în săptămâni decât în luni sau
ani. Ca atare, un data mart poate fi considerat un
subansamblu al unui depozit de date mai uşor de construit
şi întreţinut şi mai puţin scump.

[7] . Inmon, B. Data mart does not equal data warehouse, DM Direct Newsletter, November, 1999
DD-aria de cuprindere

• Un depozit virtual este un set de viziuni (views) asupra


bazelor de date operaţionale[8].
• Pentru eficienţa procesării interogărilor, numai unele din
viziunile de agregare pot fi materializate.
• Un depozit virtual este uşor de construit, dar necesită
capacităţi suplimentare pe serverele de baze de date

[8] Holland, P. Traditional data warehouses vs virtual data warehouses , White Paper, March, 2000
DD-componentele arhitecturii

Arhitectura unui depozit de date are trei


componente principale :
– depozitul de date propriu-zis şi sistemul de gestiune a depozitului de date
– sistemul de achizitie a datelor din sistemele OLTP şi din alte surse
– sistemul de analiză şi prezentare a datelor din depozitul de date
DD-arhitectura simplificata

Există mai multe tipuri de date:


– metadate (date despre date);
– date agregate la un nivel primar;
– datea agregate la un nivel superior;
– date detaliate.
DD-arhitectura simplificata
• sursele de date pentru depozit pot fi:
bazele de date operaţionale curente, baze
de date vechi arhivate şi baze de date
externe
• datele agregate folosite, deşi determină
creşterea redundanţei, ele sunt foarte
importante pentru a asigura un timp de
răspuns cât mai mic.
Totodată putem identifica care sunt etapele
pentru construierea depozitului de date:
– extragerea datelor din bazele de date operaţionale şi sursele externe în cadrul depozitului,
urmată de copierea datelor
– curăţarea datelor şi încărcarea datelor corecte în cadrul depozitului de date
– obţinerea datelor agregate cerute de utilizatori.
DD-instrumente software

•instrumente necesare utilizatorilor (pentru


acces rapid la date): ex. limbaj de interogare
gen SQL, generatoare de rapoarte

•instrumente specializate pentru asisterea


deciziilor (obţinerea de grafice, diagrame, etc.):
instrumente OLAP şi Data Mining

•Instrumentele OLAP se bazează pe


reprezentarea multidimensională a datelor
(cubul de date) şi permite analiza interactivă şi
rapidă a datelor prin operaţiuni de tip roll-up,
drill-down, slice, dice etc. Utilizatorul poate
obţine rezultate imediate parcurgând dinamic
dimensiunile cubului de date, lucrând cu
niveluri diferite de sinteză/ detaliere.
DD-arhitectura complexa

•O arhitectură mai complexă este aceea în care se foloseşte un sistem de purificare şi integrare a
datelor precum şi multiple sisteme data mart proiectate pentru compartimente ale întreprinderii.

•sursele de date pot fi sisteme operaţionale şi fişiere. Acestea sunt extrase, curăţate, stocate şi
integrate în depozitul de date. Depozitul de date referă de asemenea şi mai multe sisteme data
mart proiectate pentru compartimentele înterprinderii.

•Datele din cadrul depozitului de date sunt în final folosite de utilizatori pentru efectuarea de
analiză, obţinerea de rapoarte şi transformarea datelor în cunoştinţe (mining).
DD-nivele de realizare
DD-nivele de realizare
Modulul operaţional

 Datele unei companii sunt de obicei păstrate sub formă diferită la locaţii
diferite.

 datele pot proveni de la aplicaţii de mainframe sau de la sisteme


distribuite din cadrul companiilor cum ar fi sisteme de gestiune a
comenzilor, de eliberare a facturilor, de contabilitate financiară.

 indiferent de originea lor, datele trebuie să fie colectate şi aduse într-o


formă consistentă pentru a putea fi folosite. Acest proces se numeşte
transformarea datelor şi reprezintă baza pe care se construieşte un
depozit de date consistent, de înaltă calitate.

 Transformarea datelor presupune un proces de extragere, condiţionare,


curăţare, fuziune, unificare pe adresă, punctare, validare şi încărcare.
DD-nivele de realizare
Modulul central al depozitului de date
• Partea centrală a unui depozit de date îl constituie
sistemul de gestiune al bazei de date şi serverul principal
pe care acesta rulează.

• Din punct de vedere al implementării unui depozit de date


există în acest moment două tendinţe:
– implementarea unui sistem distribuit, descentralizat
unde datele sunt păstrate în unităţi independente
(Independent Data Marts) fiecare conţin datele
relevante pentru un anumit aspect al operaţiilor unei
instituţii;
– implementarea unei surse de date unice, centralizate
la care au acces utilizatorii din toate deparetamentele
unei instituţii.
DD-nivele de realizare
Modulul strategic, de afaceri

Valoarea finală a unui depozit de date este determinată de


avantajele pe care le oferă utilizatorului final în diferite
procese de luare a deciziilor şi analiza.

Prin folosirea diferitelor unelte de acces la informaţie şi


“data mining” disponibile pe piaţă, utilizatorii pot obţine
informaţii care îi vor ajuta în procesele de stabilire a
strategiei firmei.
DD-arhitectura pe trei niveluri
DD-arhitectura pe trei niveluri

Nivelul de jos (bottom-tier) este constituit din serverul depozitului


de date şi este, în multe cazuri, un sistem de baze de date
relaţionale. În cadrul acestui nivel datele sunt extrase, curăţite,
transformate şi încărcate în depozitul de date.
Datele din bazele de date operaţionale şi din sursele externe sunt
extrase utilizând programe de aplicaţii tip interfaţă cunoscute
sub numele de ,,gateways".
Un gateway este sprijinit de SGBD-ul de bază şi permite
programelor client să genereze cod SQL pentru a fi executat de
server.
Exemple de gateways:
– ODBC (Open DataBase Connection) si OLE-DB (Open Linking and Embedding for DataBases) la Microsoft;
– JDBC (Java DataBase Connection).

trebuie luată în considerare şi modalitatea de împrospătare a


datelor din depozit, pe măsura trecerii timpului.
Dacă, de exemplu, dimensiunea timp are în structura lună,
trimestru, an, înseamnă că la sfarşitul fiecarei luni, a fiecarui
trimestru sau a fiecarui an datele din sistemul operaţional
trebuie să împrospateze depozitul de date
DD-arhitectura pe trei niveluri
• Nivelul mediu (middle-tier) bazat pe un server OLAP
care este implementat în mod obişnuit, utilizând fie un
model relaţional OLAP (ROLAP), fie un model
multidimensional(MOLAP).
– Modelul ROLAP este o extensie a unui SGBDR care
mapează operaţiunile pe date multidimensionale la
operaţiunile relaţionale standard.
– Modelul MOLAP este dedicat şi implementează direct
descrierea datelor şi a operaţiunilor
multidimensionale.

• Nivelul superior (top-tier) este nivelul client care conţine


instrumente pentru generarea interogărilor şi a
rapoartelor, instrumente de analiză şi/sau instrumente
data mining (de exemplu, analiza trendului, predicţii
etc.).
DD-arhitectura pe trei niveluri

•Nivelul 1 este reprezentat de


sistemele operaţionale ce gestionează
date curente şi care sunt folosite
pentru procesarea tranzacţiilor şi
interogărilor: stocuri, producţie, plăţi,
etc

•Nivelul 2 este reprezentat de depozitul


de date. În cadrul acestui nivel, datele
sunt curăţite şi prelucrate pentru a
suporta una sau mai multe data mart-
uri.
– Acest nivel poate constă din mai
multe structuri de date: ODS
(operational data store) şi depozite
de date.
DD-arhitectura pe trei niveluri
• ODS-urile integrează datele din sistemele
tranzacţionale, fiind de asemenea utile şi pentru
prelucrări de tip suport de decizie şi prelucrări
analitice care răspund cerinţelor managementului
operativ.

• Depozitele de date furnizează date integrate,


folosite în special pentru sprijinirea luării deciziilor
în cadrul unei organizaţii.

• Aceste nivel este deseori iniţial ignorat, sau uitat,


fiind adăugat mai târziu, atunci când dimensiunea
aplicaţiilor suport decizie se extinde incluzând mai
multe data mart-uri.
DD-arhitectura pe trei niveluri
• Nivelul 3 se numeşte data mart. Acest nivel este
specializat pentru un anumit department, sau grup
de utilizatori ca de exemplu: vânzări/analişti
marketing,analişti financiari, relaţii cu clienţii, etc.
• Motivele pentru care această arhitectură nu este
folosită sunt complexitatea ei, costurile, iar
implementarea ei durează timp îndelungat.
• Concepţia greşită este că depozitul de date trebuie
să fie construit în totalitate înainte ca realizarea data
mart-ului inţial să înceapă. Acest lucru nu e
adevărat. Realizarea în mod incremental a
depozitului de date s-a dovedit a fi o metodă folosită
cu succes, putând îndeplini cerinţele în continuă
dezvoltare ale clienţilor.
DD-arhitectura pe trei niveluri

În concluzie arhitectura pe trei niveluri,


presupune
• preluarea datelor din cadrul sistemelor de
date operaţionale;
• transformarea, extragerea şi curăţarea
acestor date într-un depozit de date,
acesta fiind folosit pentru construirea
uneia sau mai multor data mart-uri, ce
îndeplinesc cerinţele utilizatorilor finale.
DD- arhitectura ORACLE
DD- arhitectura ORACLE
• Orice Sursa. Datele colectate în depozitul de date
Oracle pot proveni dintr-o varietate de surse, atât
operaţionale (interne) cât şi externe.

– În mod obişnuit datele din depozitul de date provin din


sisteme operaţionale interne.

– Totusi, sursele externe de date: (demografice,


economice, internet) devin tot mai populare şi în
curând vor furniza tot mai multe date depozitelor de
date.

– Sursele interne şi externe trebuie combinate pentru a


furniza utilizatorilor finali acces la ambele tipuri de
date.
DD- arhitectura ORACLE

• Orice Date. Datorită profilului utilizatorilor


depozitului de date, proiectanţii de sisteme sunt
puşi în fata unui set divers de cerinţe.
– Accesul la date trebuie să fie rapid, direct si intuitiv.
– Majoritatea utilizatorilor necesită interogări direte si
analize în detaliu, în timp ce alţi utilizatori au cerinţe de
analize complexe.
– Sursele de date trebuie să fie capabile de manevrarea a
noi formate de date: date audio, video, texte şi spaţiale.
Mai mult, cerinţe de volume de date istorice mari pot
conduce la baze de date foarte mari (Very Large
DataBases - VLDB). Pentru a satisface aceste cerinţe,
Oracle furnizează atât soluţii relationale (Oracle) cât şi
multidimensional (Express Server).
DD- arhitectura ORACLE
• Orice Acces. Oracle oferă o suită de instrumente ce
permite tuturor utilizatorilor accesul la date, inclusiv:
interogări şi raportări ad-hoc, analiza în detaliu,
modelare, previziune şi analize de tip "ce se
intimplă dacă".
• Majoritatea utilizatorilor necesită instrumente
intuitive ce permit accesul rapid la date pentru
luarea deciziilor.
• O categorie separată de utilizatori necesită
instrumente sofisticate de analiză pentru stabilirea
strategiilor pe termen lung. Luate împreună,
necesitatea de accesare a informaţiilor se
regaseşte în întreaga organizaţie. Depozitele de
date tind să se extindă de la domeniul analiştilor la
o categorie mai largă de utilizatori. În acest context,
decizia asupra instrumentelor ce vor fi folosite
devine critică.
DD-modele multidimensionale

• Depozitele de date şi instrumentele OLAP sunt


bazate pe modele multidimensionale de date.
Aceste modele vizualizează datele sub forma
unui cub de date (data cub).
• Cubul de date permite modelarea şi vizualizarea
datelor în dimensiuni multiple. El este definit prin
dimensiuni şi fapte.
• Dimensiunile exprimă perspectivele în care o
anumită organizaţie doreşte să păstreze
înregistrarile privitoare la tranzacţiile
desfăşurate.
DD-cubul 3D
Datele 3D sunt reprezentate ca serii de tabele
2D. BH

zona DJ

OT

TM

819 358 105 405


timp (trim) T1
756 294 159 526

863 258 96 506

T2 946 359 118 598

T3

T4

uM UT UH UR
DD-cubul 4D

• Putem vedea cubul 4D ca serii de cuburi


3D furnizor =”F1” furnizor =”F2” furnizor =”F3”
zona BH
DJ

OT

TM

819 358 105 405


timp T1
(trimes
tre) T2

T3

T4

UM UT UH UR UM UT UH UR UM UT UH UR

Cuburi de date 4D
DD-matricea cuboid-ului

• În literatura data warehouse cubul de date


este denumit cuboid.
toate 0-D (apex) cuboid

produs zonă 1-D cuboizi


timp furnizor

Timp, furnizor Produs, furnizor


Zonă, furnizor
Timp, produs Timp, zonă Produs, zonă 2-D cuboizi

Timp, zonă, furnizor


Timp, produs, zonă Produs, zonă, 3-D cuboizi
Timp, produs, furnizor furnizor

Timp, produs, zonă, furnizor 4-D (baze) cuboizi

Matricea cuboidului
DD-descrierea modelelor
• Modelele de date multidemensionale enumerate
mai sus pot fi descrise şi printr-un limbaj de
programare care dispune de comenzi adecvate.
• Un limbaj relaţional de interogare cum este SQL
poate fi utilizat pentru a specifica interogările, iar
un limbaj pentru “mineritul” datelor poate fi
utilizat pentru specificarea sarcinilor data mining.
• Limbajul SQL bazat pe data mining (DMQL –
Data Mining Query Language) conţine şi
primitive pentru definirea depozitelor de date şi a
data marts.
DD-comenzi de definire

Comanda pentru definirea cubului are următoarea


sintaxă:
Define cube (nume_cub) as
[(listă_dimensiuni)]: (listă_valori)

Comanda pentru definirea dimensiunilor are


următoarea sintaxă:
Define dimension (nume_dimensiune)
as(atribut_sau_listă_subdimensiune)
DD-schema stea

Produs
Tabel dimensiune
Cheie_produs
Timp Nume_produs
Tabel dimensiune Catgorie
Cheie_timp Tip
Zi Tip_marcă
Zi_din_săpt Vanzari lubrifianti
Luna Tabel de fapte
Trimestru Cheie_timp
An Cheie_produs
Cheie_furnizor
Cheie_zona
Vânzări_lei Zonă
Furnizor Cant_vândută Tabel dimensiune
Tabel dimensiune Cheie_zonă
Cheie_furnizor Den_zonă
Nume_furnizor Strada
Tip_furnizor Locatie
Judet
Regiune
Cod_poştal
DD-definire shema stea
• Define cube vânzări-stea [timp, produs, furnizor,
zonă]: vânzări_lei = sum(vânzări_lei),
cant_vândută=count(*)
• Define dimension timp as (cheie_timp, zi,
zi_din_săpt, lună, trimestru, an)
• Define dimension produs as (cheie_produs,
nume_produs, categorie, tip tip_marcă)
• Define dimension furnizor as (cheie_furnizor,
nume_furnizor, tip_furnizor)
• Define dimension zonă as (cheie_zonă,
den_zonă, strada, locaţie, judeţ, regiune,
cod_poştal)
DD-schema fulg de zapada

• Modelul fulg de zăpadă este o variantă a


modelului stea în care o parte din tabelele
dimensiune sunt normalizate, iar datele sunt
împărţite în tabele suplimentare.
• Rezultă o schemă reprezentată într-un grafic
similar unui fulg de zăpadă.
• Diferenţa majoră între modelul fulg de zăpadă şi
modelul stea este că tabelele dimensiune din
modelul fulg de zăpadă pot fi păstrate în forma
normalizată, ceea ce determină o redundanţă
redusă.
DD-shema fulg de zapada
• Asemenea tabele sunt uşor de întreţinut şi astfel
se economiseşte spaţiu de stocare, deoarece un
tabel dimensiune mare poate deveni enorm
când structura dimensională este inclusă în
coloane. Totuşi această economie de spaţiu
este neglijabilă în comparaţie cu volumul foarte
mare de date din tabelul de fapte.
• Mai mult, structura fulg de zăpadă poate reduce
eficacitatea “browsing-ului” când mai multe “join-
uri” trebuie executate la o interogare. De aceea,
schema fulg de zăpadă este mai puţin
răspândită faţă de schema stea în proiectarea
depozitelor de date
DD-shema fulg de zapada-vanzari
lubrifianti Produs Marcă
Tabel dimensiune Tabel dimensiune
Timp
Tabel dimensiune Cheie_produs Cheie_marcă
Nume_produs Tip_marcă
Cheie_timp
Zi Vanzari lubrifianti Catgorie
Zi_din_săpt Tabel de fapte Tip
Luna Cheie_marcă
Cheie_timp
Trimestru
Cheie_produs
An
Cheie_furnizor
Cheie_zona
Vânzări_lei Zonă
Cant_vândută Tabel dimensiune Localitate
Tabel dimensiune

Furnizor Cheie_zonă Cheie_localitate


Tabel dimensiune Den_zonă Localitate
Cheie_localitate Strada
Cheie_furnizor
Nume_furnizor Judet
Tip_furnizor Regiune
Cod_poştal

Schema fulg de zăpadă a unui depozit de date pentru vânzări lubrifianţi


DD-comenzi pentru definire –fulg
de zapada
• Define cube vânzări-fulg_de_nea [timp, produs, furnizor, zonă]:
vânzări_lei = sum(vânzări_lei), cant_vândută=count(*)
• Define dimension timp as (cheie_timp, zi, zi_din_săpt, lună, trimestru,
an)
• Define dimension produs as (cheie_produs, nume_produs, categorie,
tip, marcă(cheie_marcă, tip_marcă))
• Define dimension furnizor as (cheie_furnizor, nume_furnizor,
tip_furnizor)
• Define dimension zonă as (cheie_zonă, den_zonă, localitate
(cheie_localitate, localitate, strada, judeţ, regiune, cod_poştal))
DD-schema galaxie

• Aplicaţii sofisticate pot solicita tabele


multiple de fapte care partajează tabelele
dimensiune.
• Acest gen de schemă poate fi văzută ca o
colecţie de stele şi, de aici, denumirea de
schemă galaxie sau constelaţie de fapte
(fact constellation).
DD-schema galaxie-lubrifianti
Timp Produs
Tabel dimensiune Tabel dimensiune
Cheie_timp Cheie_produs
Zi Vanzari lubrifianti Nume_produs Transport
Zi_din_săpt Tabel de fapte Tabel de fapte
Catgorie
Luna Cheie_timp Tip Cheie_produs
Trimestru Cheie_produs Tip_marcă Cheie_timp
An Cheie_furnizor Cheie_transportator
Cheie_zona Expeditor
Vânzări_lei Destinatar
Cant_vândută Zonă Cost_lei
Furnizor Tabel dimensiune Cant_transportată
Tabel dimensiune
Cheie_zonă Transportator
Cheie_furnizor
Den_zonă Tabel dimensiune
Nume_furnizor
Strada Cheie_transportator
Tip_furnizor
Locatie Nume_transportator
Judet Cheie_zonă
Regiune Tip_transportator
Cod_poştal

Fig. 11. Schema constelaţie de fapte a unui depozit de date


DD-reguli pentru definirea cubului de date

• Un cub de date este definit prin măsurile şi dimensiunile


pe care le conţine. De exemplu, un cub pentru analiza
vânzărilor poate include ca măsuri preţ-produs-vândut,
cost-produs-vândut, cantitate-vândută, iar ca dimensiuni
zonă, produs, timp.
• Din punct de vedere multidimensional în spaţiul cub de
date poate fi definit un set de perechi valoare-
dimensiune, de exemplu (timp = “trim2”, zonă =
“Bucureşti”, produs = Ulei RO3 Regular Activ 30 S2).
• O măsură într-un cub de date este o funcţie numerică ce
poate fi evaluată în fiecare punct din spaţiul cubului de
date. Măsurile reprezintă valorile centrale care sunt
analizate prin cubul de date. Valoarea măsurii este
calculată pentru un punct dat prin agregarea datelor
corespondente perechii respective valoare-dimensiune,
diferite pentru punctul dat.
DD-masuri distributive
• O funcţie de agregare este distributivă dacă poate fi
calculată în mod distributiv.
• Presupunem că datele sunt împărţite în n seturi.
Calcularea funcţiei pe fiecare partiţie determină o
valoare agregată. Dacă rezultatul obţinut prin aplicarea
funcţiei asupra a n valori agregate este acelaşi cu cel
obţinut prin aplicarea funcţiei asupra tuturor datelor fără
partiţionare, funcţia poate fi calculată în manieră
distributivă.
• De exemplu, funcţia count( ) poate fi calculată pentru
cubul de date printr-o primă partiţionare a cubului într-un
set de subcuburi, calculând count( ) pentru fiecare
subcub şi apoi însumând rezultatele obţinute pentru
fiecare subcub. Din acest motiv funcţia count( ) este o
funcţie agregată distributivă.
DD-masuri algebrice
• O funcţie agregată este algebrică, dacă poate fi
calculată printr-o funcţie algebrică cu M
argumente (unde M este un întreg pozitiv),
fiecare din ele obţinută prin aplicarea unei funcţii
agregate distributive.
• De exemplu, AVG( ) poate fi calculată prin sum(
)/count( ) unde ambele funcţii sum( ) şi count( )
sunt funcţii agregate distributive.
• În mod similar se poate demonstra că min( ),
max( ) şi abaterea standard sunt funcţii
algebrice agregate. Măsura este algebrică dacă
este obţinută prin aplicarea unei funcţii algebrice
agregate.
DD-masuri holistice
• O funcţie agregată este holistică, dacă aceasta nu
este limitată constant pe spaţiul de stocaj cerut de
deschiderea subagregării. În acest caz nu există o
funcţie algebrică având M argumente (unde M este o
constantă) care caracterizează calculul.
• Exemple comune de funcţii holistice sunt: median( ),
mode ( ), rank( ).
• O măsură holistică este obţinută prin aplicarea unei
funcţii agregate de tip holistic.
DD-structura unui cub de date

• Timp (cheie_timp, zi, zi_din_săpt, trim, an)


• Produs (cheie_produs, nume_produs,
categorie, tip, tip_marcă)
• Furnizor (cheie_furnizor, nume_furnizor,
tip_furnizor)
• Zonă (cheie_zonă, den_zonă, strada,
locaţie, judeţ, regiune, cod_poştal)
• Vânzări (cheie_timp, cheie_produs,
cheie_furnizor, cheie_zonă, cant_văndută,
preţ)
DD- interogare relationala
SELECT v.cheie_timp, v.cheie_produs,
v.cheie_furnizor, v.cheie_zonă,
SUM (v.cant_vândută*v.preţ), SUM
(v.cant_vândută)
FROM timp t, produs p, furnizor f, zonă z, vânzări
v
WHERE v.cheie_timp = t.cheie_timp and
v.cheie_produs = p.cheie_produs and
v.cheie_furnizor = f.cheie_furnizor and
v.cheie_zonă = z.cheie_zonă
GROUP BY v.cheie_timp, v.cheie_produs,
v.cheie.furnizor, v.cheie_zonă
DD-eficienta interogarilor
• Depozitele de date conţin volume imense de date.
Serverele OLAP cerute de interogările DSS pot da
răspunsuri în timp de câteva secunde
• De aceea este crucial pentru sistemele data warehouse
să dispună de tehnici de tip cub foarte eficiente pentru
calcule, metode de acces şi de procesare a
interogărilor.În centru analizelor multidimensionale de
date stă eficienţa calculelor de agregare la intersecţia
multor seturi de dimensiuni
• În termeni SQL aceste agregări sunt referite prin group
by
• O abordare a calculelor tip cub extinde SQL prin
includerea operatorului compute cube. Operatorul
compute cube calculează agregări asupra tuturor
subseturilor, pe dimensiunile specificate în operaţie.
DD-exemple COMPUTE

• Compute the sum of vanzari,


grouping by produs and oras
• Compute the sum of vanzari,
grouping by produs
• Compute the sum of vanzari,
grouping by oras
Data mining

• Mineritul de date (data mining = DM),


cunoscut si ca descoperire de cunostinte
in baze de date (knowledge-discovery in
databases = KDD), este procesul de
cautare automata de sabloane, tipare
semnificative in volume foarte mari de
date.
Solutiile de Data Mining in SIBI

• Solutiile de data mining descopera si


verifica automat sau semiautomat legaturi
intre evenimente corelate.
• Sunt necesare datorita volumului de date
tot mai mare, complexitatii datelor si
multitudinii relatiilor dintre ele.
Arhitectura unui SIBI ce foloseste tehnici de
data mining
Provenienta datelor

• Tehnologiile avansate din ultimele decenii


au permis colectarea in baze de date
puternice a unor cantitati imense de date
pe anumite perioade si din cele mai
diverse domenii.
• Datele provin din aplicatiile software
folosite in eBusiness, precum aplicatiile
financiare, ERP, CRM, fisierele de log ale
site-urilor Web.
DM-extragere si transformare

• Aceste date ne ofera posibilitatea obtinerii


unor informatii si cunostinte dintr-un
“depozit” imens de date
• Data mining permit extragerea unor
informatii si transforma date in cunostinte
aplicand diversi algoritmi precum arbori de
decizie, grupari (clustering), asociatii, serii
de timp.
Utilizarea tiparelor

Tiparele obtinute pot fi utilizate pentru:


• rapoarte;
• strategii de marketing;
• strategii financiare;
• previzionari.
Domenii de utilizare

Domeniu
CRM 39.1%
Detectarea fraudelor 21.8%
Marketing direct/ Fundraising 20.0%
Credit Scoring 19.1%
Biotehnica/Genetica 15.5%
Minierit/cautare Web 13.6%
Alteler 13.6%
Telecom 12.7%
Mineritul utilizarii web 10.9%
Stiinta 10.9%
Asigurari 10.9%
Comertul cu amanuntul 10.0%
Investitii / Bursa 10.0%
Medicina/ Farmacologie 7.3%
Manufacturing 6.4%
Guvern/Armata 6.4%
Comert electronic 5.5%
Calatorie 4.5%
Securitate / Anti-terorism 4.5%
Ingrijire medicala 4.5%
Email nedorite/ Anti-spam 1.8%
Distractii/ Muzica 1.8%
Banci 0.9%
Rata renuntarii clientilor

• Cati dintre clienti renunta la serviciile unei


companii si apeleaza la serviciile unui
competitor?
• Analiza ratei renuntarii clientilor asista
managerii de marketing sa inteleaga
motivele pentru care un client opteaza sau
nu pentru un produs, sa-si imbunatateasca
relatia cu clientii si sa creasca gradul de
fidelitate.
Vanzarea incrucisata

• Vanzarea incrucisata este o adevarata


provocare pentru comertul cu amanuntul.
• Magazinele online, folosesc acesta
tehnica pentru a-si imbunatati vanzarile.
• Recomandarile pot fi rezultatul unei
analize de data mining.
Detectarea fraudelor

• Cat de adevarata este o reclamatie de


dauna?
• Companiile de asigurari proceseaza sute,
chiar mii de reclamatii si este aproape
imposibil sa investigheze toate cazurile de
dauna.
• O analiza de data mining poate ajuta in
identificarea acelor daune cu o
probabilitate mare de a fi fraude.
Managementul riscului

• Trebuie acordat un imprumut unui client?


• Intr-un scenariu bancar aceasta este o
intrebare frecventa.
• Prin tehnici de data mining se poate
calcula nivelul de risc al unui client, pe
baza unui istoric al acestuia.
Segmentarea clientilor

Segmentarea clientilor ajuta :


• sa inteleaga profilele clientilor;
• sa vina in intampinarea cerintelor lor.
Reclame care au legatura cu
continutul unui site
• Ce banner ar trebui afisat pentru un vizitator al
site-ului? Retail-erii web si portalurile web
incearca sa personalizeze continutul paginilor
web in functie de profilul vizitatorului web.
• Folosind un istoric al paginilor prin care
navigheaza un vizitator si un istoric al
cumparaturilor, se pot aplica tehnici de data
mining pentru a selecta bannere si clipuri
publicitare specifice profilului navigatorului web.
Previzionarea vanzarilor

• Cat voi vinde saptamana viitoare?


• Cat trebuie sa fie stocul pe luna
urmatoare?
• Pentru astfel de intrebari un raspuns poate
fi dat utilizand tehnicile data mining de
previzionare.
Metode si tehnici aplicate in cazuri
concrete de business
Probleme analitice Exemple Algoritmi
Clasificare: Incadrarea  Analiza riscului de credite  Arbori de decizie
cazurilor in clase  Analiza renuntarii clientilor  Naïve Bayes
predefinite  Retinerea clientilor  Retele neuronale
Segmentarea:  Analiza profilului clientilor  Clustering
Taxonomia gruparii  Campaniile de mail  Sequence
cazurilor similare clustering
Asocierea: Calcularea  Analiza cosului de cumparaturi  Arborii de decizii
avasata pentru corectii  Analiza avansata a datelor  Asocierile
Prognoza seriilor de  Previzionarea vanzarilor  Serii de timp
timp: previziuni  Previzionarea preturilor
actiunilor la bursa
Predictia (analiza  Cotatia primele de asigurare  Toti algoritmii
seriilor): Predictia unei  Predictia venitului clientilor
valori pentru un caz nou
pe baza valorilor
cazurilor similare
Analiza deviatiei:  Detectarea fraudelor cartilor  Toti algoritmii
descoperirea cazurilor de credit
unui segment analizat  Analiza intruziunii in retelele
difera de toate cele informatice
celelalte cazuri
Operatii. Clasificarea

Clasificarea este una din cele mai populare


operatii in minieritul datelor si este folosita:
• in probleme business precum rata
renuntarii clientilor;
• in managementul riscului;
• in reclamele care au legatura cu continutul
unui site.
Operatii. Clasificarea

• Clasificarea consta in gruparea cazurilor pe


baza unui atribut predictibil.
• Fiecare caz contine un set de atribute, dintre
care unul este atributul de clasificare (atributul
predictibil).
• Operatia consta in gasirea unui model care
descrie atributul predictibil ca o functie de alte
atribute luate ca valori de intrare.
Operatii. Clasificarea

• In setul de date, clasa este atributul cu


doua stari: Da si Nu.
• Pentru a antrena un model de clasificare,
trebuie cunoscute valorile clasei fiecarui
caz din setul de date, valori pe care le
gasim de obicei in datele istorice.
Operatii. Clasificarea

• Prin urmare, daca C: D(a1,a2,...an) -->V,


atunci C(xi)=y, y cunoscut, xi Є D, unde
D(a1,a2,...an) este setul de date al
modelului ce urmeaza a fi instruit.
• Algoritmii de data mining care necesita un
set de date pe care sa se realizeze o
operatie de antrenare-instruire se numesc
algoritmi dirijati.
Operatii. Clasificarea

Exemple consacrate de algoritmi de


clasificare sunt:
• arborii de decizie;
• retelele neuronale;
• Naïve Bayes.
Operatii. Clustering

• Clustering-ul se mai numeste si


segmentare si este utilizat in identificarea
gruparilor naturale a cazurilor, grupari
bazate pe un set de atribute.
• Cazurile din cadrul aceluiasi grup au mai
multe valori similare ale atributelor.
Clustere de persoane in functie de
varsta si venit
Operatii. Clustering

Algoritmul de segmentare grupeaza, de exemplu,


pe baza celor doua atribute varsta si venit setul de
date in trei segmente:
• Cluster 1: cuprinde populatia tanara cu un venit
scazut;
• Cluster 2: cuprinde populatia de varsta medie cu
venituri;
• Cluster 3: cuprinde populatia de varsta inaintata
cu un venit scazut.
Operatii. Clustering

• Segmentarea este o operatie de data mining


nedirijata, nu exista nici un atribut care sa
conduca procesul de instruire, toate atributele
parametri de intrare sunt tratate in mod egal.
• Cei mai multi algoritmi de clustering isi
construiesc modelul prin iteratii care se opresc
cand modelul este acoperit in intregime, adica
atunci cand limitele acestor segmente sunt
stabilizate.
Operatii. Asocierea
• Asocierea se mai numeste si analiza cosului de
cumparaturi si este o alta operatie des utilizata in
minieritul datelor.
• Cel mai potrivit exemplu de problema business ce
utilizeaza asocierea este analiza unui tabel de tranzactii
de vanzare si identificarea acelor elemente care sunt
intalnite cel mai des in acelasi cos de cumparaturi.
• Utilizarea de baza a asocierii consta in identificarea
seturilor comune de produse si reguli pentru vanzarea
incrucisata.
Operatii. Asocierea

• In termenii asocierii, fiecare produs, sau mai


general, fiecare pereche atribut-valoare este
considerat un item.
• Asocierea are doua scopuri: sa gaseasca cele
mai frecvente seturi de item-uri si regulile de
asociere.
• Cei mai multi algoritmi ating aceste obiective
scanand setul de date initial de mai multe ori.
Operatii. Asocierea
• Pragul frecventei este definit de utilizator inainte de
procesarea modelului. De exemplu, un prag de 2%
inseamna ca modelul analizeaza doar acele elemente
care apar in cel putin 2% din cosurile de cumparaturi.
• Un set de elemente poate arata astfel: M = {Produs =
„Pepsi”, Produs=” Cipsuri”, Produs=”Popcorn”}.
• Fiecare set de elemente are o masura ce reprezinta
numarul de elemente pe care il contine (cardinalul
multimii M). Masura acestui set de elemente este 3:
card(M)=3.
Operatii. Asocierea

• In afara de identificarea seturilor de elemente


frecvente pe baza unui prag de frecventa, cei
mai multi algoritmi de asociere gasesc si regulile
de asociere.
• O regula de asociere are forma: (A,B) => C cu o
probabilitate p, unde A, B, C sunt seturile
frecvente de elemente. In literatura de minieritul
datelor, aceasta probabilitate se numeste
incredere .
Operatii. Asocierea

• Probabilitatea este o valoare pe care utilizatorul


trebuie s-o specifice inainte de instruirea unui
model de asociere. Exemplu: {Produs = ”Pepsi”,
Produs = ”Cipsuri”}=> Produs = „Popcorn” cu o
probabilitate de 80%.
• Interpretarea este urmatoarea: daca un client
cumpara Pepsi si Cipsuri, atunci exista o
probabilitate de 80% ca el sa cumpere si
Popcorn.
Patternurile asocierii intre produse
Operatii. Regresia

• Regresia este similara clasificarii, diferenta majora intre


cele doua modele este aceea ca in cazul regresiei
atributul predictibil este un numar continuu.
• Tehnicile de regresie au fost studiate de sute de ani in
domeniul statisticii. Regresia liniara si regresia logistica
sunt cele mai utilizate metode de regresie. Alte tehnici
de regresie sunt arborii de regresie si retelele neuronale.
• Exemplu de problema rezolvata prin acest model:
calcularea vitezei vantului in functie de temperatura,
presiunea aerului si umiditate.
Operatii. Prognoza
• Prognoza este o alta metoda importanta in data mining
si ofera raspunsuri la intrebari precum: care va fi nivelul
actiunilor X la bursa de maine?
• De obicei, ca valori de intrare sunt serii de timp, de
exemplu sir de numere cu un atribut reprezentand
timpul. Aceste serii de timp contin de obicei observatii
auxiliare, ordonate.
• Tehnicile de prognoza lucreaza cu tendinte generale si
periodicitati. Cea mai utilizata tehnica serie de timp este
ARIMA: modelul AutoRegressive Integrated Moving
Average.
Evolutia reala si previzionata a
actiunilor Microsoft
Evolutia reala si previzionata a
actiunilor
Figura contine doua curbe:
• curba ingrosata prezinta evolutia reala a
actiunilor pe o perioada;
• curba mai subtire este un model serie de
timp care a fost obtinut prin tehnica de
prognoza.
Analiza secventiala

• Analiza secventiala este utilizatata pentru


gasirea de patternuri intr-o serie discreta. O
secventa este alcatuita dintr-o serie de valori
discrete(sau stari).
• De exemplu, o secventa ADN este o serie lunga
alcatuita din 4 stari diferite: A, G, C si T.
• Cumparaturile unui client pot fi de asemenea
modelate ca o secventa de date.
Analiza secventiala
• Atat secventa cat si seria de timp contin observatii
adiacente dependente.
• Diferenta consta in faptul ca seriile de secventa contin
stari ce reprezinta valori discrete, in timp ce seriile de
timp contin numere continue.
• Datele pentru secvente si asociatii sunt similare in
sensul ca fiecarui caz ii corespunde o multime de
elemente si stari.
Analiza secventiala

• Intr-un model de secventa, cumpararea unui


calculator inainte de a cumpara microfoane este
o secventa diferita de cumpararea unor
microfoane inaintea unui calculator.
• Intr-un algoritm de asociere, aceste secvente ar
putea fi considerate identice, ca fiind un singur
set de elemente {Calculator, microfoane}.
Modele de secventa vs modele de
asociere
• Diferenta intre modelele de secventa si
cele de asociere este aceea ca in cazul
modelelor de secventa sunt analizate
starile de tranzitie, in timp ce asocierea
trateaza fiecare element dintr-un cos de
cumparaturi ca fiind egal ca valoare cu
orice alt element si independent.
Secventa de pagini de navigare Web

Figura 6 prezinta o secvente de clickuri Web. Fiecare nod este o categorie URL. Fiecare linie are
o directie, reprezentand o tranzitie intre 2 URL-uri. Fiecare tranzitie are asociata o greutate,
reprezentand probabilitatea tranzitiei de la un URL la altul
Analiza secventiala

• Analiza secventelor este o metoda data


mining relativ noua. Devine din ce in ce
mai importanta in principal din doua
motive: analiza fisierelor log a siteurilor
Web si analiza ADN-ului. In prezent exista
cateva tehnici de analiza a secventelor
precum lanturile Markov.
Analiza deviatiei

• Analiza deviatiei are ca scop gasirea acelor cazuri


rare care se comporta diferit de a majoritate.
• Se mai numeste si detectarea fraudei, deoarece se
refera la detectarea acelor comportamente care
difera de comportamentele observate in mod curent,
repetat. Aceasta metoda este utilizata in detectarea
fraudelor cartilor de credit.
• Identificarea cazurile anormale din milioane de
tranzactii este o adevarata provocare. Alte aplicatii
sunt detectarea spargerii retelelor informatice,
analiza erorilor in productie samd.
Analiza deviatiei

• Aceasta operatie este inca in stadiu de


cercetare, deoarece nu exista in tehnici standard
pentru analiza deviatiei.
• De obicei pentru acest model analistii dezvolta
variante modificate ale arborilor de decizie sau
ale algoritmilor de retele neuronale.
• Pentru a genera reguli semnificative, trebuie sa
stabileasca multimi de cazuri anormale in cadrul
multimilor care sunt antrenate.
CUPRINS:

1. CERINŢELE FUNCŢIONALE ALE


SISTEMELOR OLAP
2. ARHITECTURA SISTEMELOR OLAP
3. MODELUL DE DATE
MULTIDIMENSIONAL
4. OPERAŢII REALIZATE ASUPRA
MODELULUI MULTIDIMENSIONAL
5. MODELE DE DATE
MULTIDIMENSIONALE UTILIZATE ÎN
SISTEMELE OLAP
6. LOCUL TEHNOLOGIEI OLAP ÎN
ARHITECTURA DEPOZITULUI DE DATE
INTRODUCERE

•Conceptul de On-line Analytical


Processing a apărut începând cu anii
60-70 din dorinţa de a modela prin
funcţii analitice activităţile financiare.
•Primul limbaj multidimensional, A
Programming Language (APL) a fost
dezvoltat de firma IBM şi utilizat pe
mainframe-uri încă din 1962 .
INTRODUCERE

•1995 - Consiliul OLAP, un consorţiul al


firmelor dezvoltatoare de produse OLAP,cu
rolul de a standariza aceste tehnologii prin
stabilirea unor standarde deschise (OLAP
API). Propune următoarea definiţie:
“On-Line Analytical Processing
este o tehnologie software ce permite
analiştilor, managerilor şi persoanelor cu
funcţie de conducere să analizeze datele
printr-un acces rapid, consistent şi
interactiv şi să le vizualizeze într-un mod
cât mai variat. “
INTRODUCERE

•Tehnologia OLAP reprezintă o


modalitate de prelucrare şi analiză
dinamică şi avansată a datelor, oferind
decidenţilor posibilitatea de a obţine
propria perspectivă asupra datelor, de
creare flexibilă şi obţinere directă a
situaţiilor centralizate şi sintetice, dar
şi cu posibilitatea de navigare în
detaliu, cu facilităţi de previzionare şi
simulare a unor situaţii viitoare, fiind o
soluţie eficientă de analiză a datelor
din depozitele de date.
1. CERINŢELE FUNCŢIONALE ALE
SISTEMELOR OLAP

Analiza dinamică a datelor;


Acces rapid la date;
Surse de date multiple;
Sincronizarea surselor de date;
Analiza istorică;
Grad de generalizare ridicat;
1. CERINŢELE FUNCŢIONALE ALE
SISTEMELOR OLAP

Erik Thomsen:
Cerinţele logice;
Cerinţele fizice;
1. CERINŢELE FUNCŢIONALE ALE
SISTEMELOR OLAP
Cerinţe logice:
Structurare completă a
dimensiunilor prin ierarhizare
Realizarea eficientă a calculelor
şi prelucrarilor
Flexibilitate
Independenţa reprezentărilor faţă
de structura modelului
1. CERINŢELE FUNCŢIONALE ALE
SISTEMELOR OLAP

Cerinţe fizice:
Acces rapid şi direct
Suport multiutilizator
1. CERINŢELE FUNCŢIONALE ALE
SISTEMELOR OLAP

E.F. Codd – 18 reguli:


A. Caracteristici de bază
B.Caracteristici speciale
C. Modul de prezentare a datelor
D. Controlul dimensiunilor
A. Caracteristici de bază
Regula 1: O viziune conceptuală
multidimensională - Viziunea conceptuală a
modelelor OLAP trebuie să fie multidimensională
bazată pe viziunea sau modelul existent în
organizaţie.
Regula 2: Manipularea intuitivă a datelor -trebuie
să permită operaţii intuitive şi flexibile de
manipulare a datelor, cum ar fi navigarea
penivelurile ierarhiilor, analize pe secţiuni din
date, etc.
Regula 3: Accesibilitate - trebuie să ofere acces
la o singură viziune logică a datelor din
organizaţie. Sursele de date, în modelul OLAP,
trebuie să fie transparente utilizatorilor.
A. Caracteristici de bază
Regula 4: Surse de date variate - trebuie să fie capabil să
lucreze cu date stocate fie în baze de date
multidimensionale (MOLAP) cât şi în baze de date
relaţionale (ROLAP) sau chiar sisteme hibride (HOLAP).
Regula 5: Modele de analiză OLAP - trebuie să suporte
patru modele de analiză: explicativ, direct, contemplativ şi
formativ în sensul că un trebuie să permită cel puţin
realizarea rapoartelor parametrizate, analize de tip “ce se
întâmplă dacă..?”, operaţii de tip drill-down/roll-up şi
slice/dice.
Regula 6: Arhitectura client/server - accesul utilizatorilor
prin intermediul unui client, iar prelucrarea
multidimensională să fie realizată de un server specializat
Regula 7: Transparenţă - Accesul la sursele de date
eterogene ar trebui să fie transparente pentru utilizatori,
iar analiza datelor să poată fi realizată şi prin intermediul
diverselor instrumente client ca: grafice, calcul tabelar
Regula 8: Suport multiutilizator - trebuie să asigure acces
concurent şi distribuit la sursele de date, fiind asigurate
însă integritatea şi securitatea acestora.
B.Caracteristici speciale
Regula 9: Denormalizarea datelor - prelucrarea
datelor într-un mediu OLAP nu trebuie să afecteze
sursele externe din care provin acestea.
Regula 10: Stocarea rezultatelor generate de sistemul
OLAP - datele trebuie stocate şi prelucrate separat de
sursele relaţionale datorită diferenţelor existente între
modele şi a cerinţelor de procesare.
Regula 11: Manipularea valorilor lipsă – nu pot fi
tratate în acelaşi mod ca orice altă valoare
Regula 12: Modul de tratare a valorilor lipsă - trebuie
să fie tratate individual, deoarece ele afectează
calculele în diferite moduri
C. Modul de prezentare a datelor
Regula 13: Flexibilitatea rapoartelor - modul de
prezentare a datelor supuse analizei trebuie să fie
accesibil utilizatorilor astfel încât aceştia să poată
aranja cu uşurinţă datele pe diverse dimensiuni pe
axele disponibile.
Regula 14: Performanţa raportării - dimensiunea sau
modul de organizare a datelor nu ar trebui să
influenţeze performanţa în raportare.
Regula 15: Ajustarea automată a nivelului fizic - ar
trebui să-şi modifice automat schema fizică a bazei de
date în funcţie de tipul modelului logic şi de volumul
datelor.
D. Controlul dimensiunilor
Regula 16: Dimensionalitate generică -
dimensiunile proiectate trebuie să fie
echivalente structural şi operaţional,
adică să permită ierarhii multiple şi toate
tipurile de operaţii multidimensionale şi
în acelaşi timp să poate fi actualizate.
Regula 17: Dimensiuni şi niveluri de
agregare nelimitate – se recomandă
utilizarea un număr maxim de 15-20 de
dimensiuni.
Regula 18: Operaţii între dimensiuni
nerestrictive - ar trebui să permită
realizarea de operaţii între diverse
dimensiuni, fără restricţii.
2. ARHITECTURA SISTEMELOR
OLAP
Nivelul
Aplicatii WEB Rapoarte Grafice
Interfetei cu
utilizatorul

Nivelul
Serverului
OLAP
Server OLAP

Data Nivelul
Warehouse Surselor de date

Baze de date Depozitul de date Surse externe


2. ARHITECTURA SISTEMELOR
OLAP
Modalitatea de organizare şi
stocare a datelor:
Fişiere client
Baze de date relaţionale
Baze de date multidimensionale
2. ARHITECTURA SISTEMELOR
OLAP
Procesarea datelor:
Nucleul SQL
Motorul client multidimensional
Motorul server multidimensional
2. ARHITECTURA SISTEMELOR
OLAP
Arhitecturile cele mai utilizate
dintre aceste tipuri de combinaţii
sunt următoarele:
•OLAP relaţional (ROLAP) din care
OLAP hibrid (Hybrid OLAP sau
HOLAP)
•OLAP multidimensional (MOLAP)
din care OLAP client (Desktop
OLAP sau DOLAP)
•OLAP client (DOLAP)
3. MODELUL DE DATE MULTIDIMENSIONAL
•Structura modelului constituită din
obiectele modelului precum şi
relaţiile dintre ele;
•Operatorii care acţionează asupra
structurii;
•Restricţiile de integritate formate
din totalitatea de regului şi
constrângeri impuse modelului
pentru asigurarea corectitudinii
datelor.
3. MODELUL DE DATE MULTIDIMENSIONAL
Dimensiunile - “un atribut
structural al unui cub ce constă
dintr-o listă de membrii, pe care
utilizatorii îi percepe ca fiind de
acelaşi tip (de exemplu toate
lunile, trimestrele, anii formează
dimensiunea Timp). Dimensiunile
repreznintă un mod foarte concis,
intuitiv de organizare şi selectare a
datelor pentru explorare şi
analiză.”
3. MODELUL DE DATE MULTIDIMENSIONAL
Ierarhiile - “membrii dimensiunilor
pot fi organizaţi pe baza relaţiilor
de tip părinte-copil, unde un
membru părinte reprezintă
agregarea membrilor copil.
Rezultatul este o ierarhie şi relaţiile
părinte-copil sunt relaţii ierarhice”
3. MODELUL DE DATE MULTIDIMENSIONAL
Nivelurile - reprezintă poziţii în
cadrul ierarhiilor. Relaţiile între
diferite nivele sunt relaţii de tipul
părinte-copil.
Atribute – dimensiunile conţin
atribute care reprezintă calificative
specifice.
3. MODELUL DE DATE MULTIDIMENSIONAL
Tabelele de fapte – sunt tabelele
centrale. Acestea conţin atribute
de tip măsuri (metrici) şi chei
externe către tabelele dimensiuni.
Faptele sunt de obicei date
numerice care pot fi însumate şi
analizate pe diferite nivele.
3. MODELUL DE DATE MULTIDIMENSIONAL
Metricile (măsurile) corespund
atributelor (faptelor) din tabelele de
fapte şi sunt de regulă de natură
numerică (de exemplu: volumul
vânzărilor, costurile, stocurile
disponibile).
3. MODELUL DE DATE MULTIDIMENSIONAL
Metadatele - date care descriu
conţinutul depozitului şi furnizează
trimiteri directe la date. Tot la
nivelul metadatelor se definesc şi
diverse vederi (views) asociate
unor categorii specifice de
utilizatori.
3. MODELUL DE DATE MULTIDIMENSIONAL
Schema modelului este o colecţie
de obiecte, incluzând tabelele,
viziunile, indecşi şi sinonime.
3. MODELUL DE DATE MULTIDIMENSIONAL
Schema de tip “Stea“ - este cel
mai simplu şi mai frecvent utilizat
model. Obiectele sale sunt dispuse
în formă de stea, în centru
aflându-se una sau mai multe
tabele de fapte de care sunt legate
dimensiunile. Suportă două tipuri
de interogări: consultare şi
joncţiuni multiple.
3. MODELUL DE DATE MULTIDIMENSIONAL

Dimensiunea TIMP Dimensiunea LOCATIE

Atribute ale dimensiunii Atribute ale dimensiunii


TIMP LOCATIE
Tabela de fapte

ID TIMP
ID LOCATIE
ID PRODUS
ID CLIENT
Vol vânzarilor
Vol discount

Dimensiunea PRODUS Dimensiunea CLIENT

Atribute ale dimensiunii Atribute ale dimensiunii CLIENT


PRODUS
3. MODELUL DE DATE MULTIDIMENSIONAL
Schema de tip “Fulg de Nea” - este o
variantă a modelului stea în care o parte
din tabelele dimensiune sunt
normalizate, iar datele sunt distrinuite în
tabele suplimentare. Rezultă o schemă
reprezentată într-un grafic similar unui
fulg de zăpadă. Diferenţa între modelul
stea şi modelul fulg de nea este că
tabelele dimensiune din acesta pot fi
păstrate în forma normalizată, ceea ce
determină o redundanţă redusă.
3. MODELUL DE DATE MULTIDIMENSIONAL
Dimensiunea TIMP Dimensiunea CLIENT

Atribute ale Atribute ale dimensiunii


dimensiunii TIMP CLIENT
Tabela de fapte

ID TIMP
ID REGIUNE
ID PRODUS
ID CLIENT
Vol vânzarilor
Vol discount

Dimensiunea PRODUS Dimensiunea REGIUNE

Atribute ale Atribute ale dimensiunii


dimensiunii PRODUS REGIUNE

Dimensiunea TIP_PRODUS Dimensiunea LOCATIE

Atribute ale Atribute ale dimensiunii


dimensiunii LOCATIE
TIP_PRODUS
3. MODELUL DE DATE MULTIDIMENSIONAL
Cuburi de date - spaţiu cartezian definit
pe toate dimensiunile depozitului de
date. Acesta poate fi numit cub de date,
fiind un spaţiu de date logic şi nu unul
fizic. Secţiunile bidimensionale sunt
numite tablouri. Axele cubului sunt
reprezentate de dimensiuni, la
intersecţia acestora fiind variabilele sau
măsurile.
Consiliul OLAP defineşte cubul n-
dimensional ca fiind ”un grup de celule
de date aranjate după dimensiunile
datelor. O matrice tridimensională poate
fi vizualizată ca un cub cu fiecare
dimensiune formând o faţă a cubului”
3. MODELUL DE DATE MULTIDIMENSIONAL

PRODUS

LOCATIE

TIMP
3. MODELUL DE DATE MULTIDIMENSIONAL

furnizor F1 furnizor F2 furnizor F3


locatie

prod
us

T1 T2 T3

timp
4. OPERAŢII REALIZATE ASUPRA
MODELULUI MULTIDIMENSIONAL
Navigarea pe nivelele ierarhice (Drill
Down şi Roll Up) – reprezintă operaţii
de navigare în cadrul ierarhiilor
dimensiunilor, prin agregare pe nivelele
superioare sau detaliere pe nivelele
inferioare. Orice bază de date
multidimensională trebuie să permită
navigarea pe diferite nivele ale
ierarhiilor. Aceasta tehnică se numeste
roll up sau drill down, în funcţie de
direcţie, spre vârful sau baza ierarhiei.
Acestea sunt operaţii de schimbare a
vederii de-a lungul nivelelor unei ierarhii.
4. OPERAŢII REALIZATE ASUPRA
MODELULUI MULTIDIMENSIONAL
Rotaţii – reprezintă operaţiile cele mai
uzuale în structurile de date
multidimensionale şi oferă utilizatorului
posibilitatea de a alege perspectiva
asupra datelor pe care o va utiliza.
Fiecare rotaţie pune în evidenţă o nouă
perspectivă, aducând în prim plan o
structură bidimensională, o faţetă (slice).
Din acest motiv rotaţia se mai numeste
şi “data slicing”.
4. OPERAŢII REALIZATE ASUPRA
MODELULUI MULTIDIMENSIONAL
Secţiuni - reprezintă viziuni sau
imagini (views) specifice diverselor
categorii de utilizatori, prin operaţii
de secţionare prin care se obţin
"felii" bidimensionale (slices).
Tehnica aceasta constă în
limitarea unor atribute la anumite
valori şi obţinerea unui cub de date
redus (procedeu numit data dicing)
5. MODELE DE DATE MULTIDIMENSIONALE
UTILIZATE ÎN SISTEMELE OLAP

Două direcţii importante au


clasificat diversitatea de modele şi
anume dezvoltarea unor extensii
ale modelului relaţional şi utilizarea
acestora în cadrul sistemelor
OLAP şi a doua direcţie –
dezvoltarea modelelor bazate pe
cuburi n-dimensionale.
5. MODELE DE DATE MULTIDIMENSIONALE
UTILIZATE ÎN SISTEMELE OLAP
Printre extensiile modelului relaţional:
schema tip stea, modelul tip fulg de nea,
schemă galaxie, schemă constelaţie.
Printre modelele bazate pe cub :
tehnica ME/R pentru proiectarea
schemei multidimensionale conţine o
entitate denumită nivel al dimensiunii
(dimension level), o relaţie tip 1:n
denumită fact relationship şi o relaţie
binară denumită relaţie de clasificare a
două niveluri ierarhice.
5. MODELE DE DATE MULTIDIMENSIONALE
UTILIZATE ÎN SISTEMELE OLAP
Din punct de vedere al nivelului de
realizare:
•modele conceptuale oferă concepte
apropiate de modul în care utilizatorii
percep datele şi sunt independente de
implementare.
•modele logice oferă concepte ce pot fi
înţelese de utilizatorii finali dar depind de
tipul de SGBD utilizat.
•modele fizice oferă concepte legate de
modul în care sunt stocate fizic datele
(descrierea datelor pe suport fizic),
depinzând de SGBD-ul utilizat.
6. LOCUL TEHNOLOGIEI OLAP ÎN
ARHITECTURA DEPOZITULUI DE DATE

In cartea “Building the Data


Warehouse”, W.H. Inmon
menţionează: “Sunt patru niveluri
în cadrul mediului arhitectural:
operaţional, atomic sau al
depozitului de date, departamental
şi individual”
6. LOCUL TEHNOLOGIEI OLAP ÎN
ARHITECTURA DEPOZITULUI DE DATE

Nivelul operaţional - Sistemele


operaţionale sunt reprezentate de
sursele, datele care populează depozitul
de date. Datele operaţionale sunt
supuse tranzacţiilor, volatile, stocate la
nivel de tranzacţie în formă normalizată
sau proprie în sistem OLTP.
6. LOCUL TEHNOLOGIEI OLAP ÎN
ARHITECTURA DEPOZITULUI DE DATE

Nivelul depozitului de date - Acest


nivel conţine date cu caracter istoric ale
nivelului tranzacţional, prelucrate şi
transformate într-un format
multidimensional mult mai potrivit pentru
suportul de decizii.
6. LOCUL TEHNOLOGIEI OLAP ÎN
ARHITECTURA DEPOZITULUI DE DATE

Nivelul departamental, data mart sau


OLAP - Un data mart OLAP va fi limitat
la submulţimea mărimilor statistice
disponibile şi dimensiunilor necesare
pentru a studia problemele specifice
afacerilor.
6. LOCUL TEHNOLOGIEI OLAP ÎN
ARHITECTURA DEPOZITULUI DE DATE

Nivelul individual - Instrumentele de


vizualizare a cererilor, precum grafice,
prezentări, rapoarte dinamice,
browserele Web, toate aparţin acestui
nivel. Aplicaţiile clienţilor, care conţin
informaţii despre bugete, prognoze,
recomandări cu privire la alocarea
resurselor şi multe altele se află în data
mart la acest nivel al arhitecturii.
CONCLUZII
Analiza datelor din SIBI fără
tehnologia OLAP este ar fi extrem
de grea, implicând metode şi
modele statistice şi matematice
laborioase, funcţii de analiză
dezvoltate de programatori,
interfeţe speciale, dezvoltate
separate de restul sistemului.
Metodologii si ciclul de dezvoltare

SOLUŢII DE DEZVOLTARE A SISTEMELOR INFORMATICE PENTRU


INTELIGENȚA AFACERII

1. FACTORII DE RISC

2. FAZELE ŞI ETAPELE DE DEZVOLTARE

3. CRITERII DE EVALUARE
Metodologii si ciclul de dezvoltare

Constrângerile mediului decizional actual

Date
Timp

Piaţa Procesul
decizional la
nivel
strategic Acces

Organizaţia Informaţii
Cunoştinţe
“Valoarea unui sistem depinde de cât de folositor le
este executivilor, de cât de bine este înteles şi cât de
mult este utilizat” - D. Delong, J.F. Rockart în cartea
Identifying the Attributes of Successful Executive Support
System Implementation, John Wiley & Sons, 1992
Metodologii si ciclul de dezvoltare

CARACTERISICI ALE SISTEMELOR INFORMATICE PENTRU INTELIGENȚA


AFACERII
Caracteristici funcţionale:
Conţin un nivel de date distinct;
•Oferă facilităţi de agregare a datelor;
•Permit raportarea de excepţie;
•Permit analiza tendinţelor;
•Oferă o interfaţă prietenoasă cu utilizatorii;
•Conţin instrumente de analiză dinamică a informaţiilor;
•Oferă facilităţi de modelare;
•Oferă facilităţi de comunicare şi legături automate la surse de date externe;

Caracteristici tehnice:
•Permit accesul la informaţii globale ale organizaţiei;
•Oferă acces la datele curente, istorice şi previzionate;
•Analiza datelor se realizează direct, online, bazându-se pe analiza multidimensională
a datelor;
•Prezintă sintetic indicatorii de performanţă cheie ai organizaţiei (KPI);
Metodologii si ciclul de dezvoltare

FACTORII DE RISC

CERINŢE TEHNOLOGIE
DE
AFACERI

TEHNOLOGIE COMPLEXITATE INTEGRARE INVESTIŢIE


Metodologii si ciclul de dezvoltare

REALIZAREA
FUNCŢIONALITĂŢILOR
COMPLETE
IMPLEMENTAREA ÎN
ORGANIZAŢIE
EVALUAREA
PROTOTIPULUI

FAZELE DE DEZVOLTARE
EVALUARE

ELABORAREA
PROTOTIPULUI
STUDIUL CERINŢELOR
DE AFACERI
Metodologii si ciclul de dezvoltare
FAZELE DE DEZVOLTARE FAZA I: Evaluare
1
Etape Subetape

I. Studiul de 1. Evaluarea oportunităţilor de realizare 2


fezabilitate

II. Planificare 2. Evaluarea infrastructurii întreprinderii


FAZA II: Studiul cerinţelor de afaceri 3 4
3. Planificarea proiectului
APLICAŢIA METADATE ETL
III. Analiza 4. Definirea cerinţelor 5
FAZA III: Elaborarea şi introducerea 6
5. Analiza datelor prototipului
7
6. Realizarea prototipului
8
10
7. Analiza metadatelor
9
IV. Proiectare 8. Proiectarea datelor

9. Proiectarea proceului ETL 12 11

10. Proiectarea depozitului metadatelor


13 14
V: Proiectare 11. Realizarea procesului ETL
FAZA IV: Implementarea
funcţionalităţiilor EIS
12. Realizarea aplicaţiei

13. Extragerea cunoştinţelor din date


15
14. Contruirea depozitului metadatelor

VI. 15. Implementarea sistemului FAZA V: Transferarea capacităţilor 16


Implementare sistemului în cadrul organizaţiei
16. Evaluarea sistemului
Metodologii si ciclul de dezvoltare

Criterii de evaluare

Interfaţa
prietenoasă Flexibilitate
Scalabilitate

Sistemul
Performanţă informatic
pentru
inteligența
afacerii Mentenanţă

Suport
decizional Integrare
strategic
DD-instrumente software
• Actuate Software(Report Server, Reporting
System, Web Agent)
• Hewlett-Packard(Intelligent Warehouse)
• Hyperion(OLAP, Spider-Man)
• IBM(Data Propagator, DB2 Database
Server, Enterprise Copy Manager, Data
Hub for OS/2, Data Hub for Unix, Flow-
Mark, DataGuide, Applications System,
Visualizer family, Intelligent Decision
Server, Query Managemnet Facility,
Intelligent Miner);
• Informatica(PowerMart)
DD-instrumente software
• Information Advantage(DecisionSuite,
WebOLAP)
• Microsoft(Microsoft SQL Server)
• NCR(Teradata)
• Oracle(Oracle8, Discoverer/2000, Oracle
Express server, Warehouse Builder)
• Prism Solutions(Prism Warehouse Manager,
Prism Change Manager, Prism Directory
Manager)
• SAS Institute(SAS Data Warehouse, Warehouse
Administrator, SAS System, SAS/MDDB)
• Siemens-Pyramid(Smart Warehouse)
• Smart Corporation(Smart DB Workbench)
Categorii de tehnologii si instrumente
Tehnologiile si instrumentele din zona data
warehouse pot fi împărţite în două mari
categorii:
• Hardware - se referă la serverele data
warehouse şi la sistemele de operare pe
care rulează;
• Software- se referă atât la principalele
instrumente care sunt folosite pentru a
extrage, curăţa, integra, popula, stoca,
accesa, distribui şi prezenta datele din
depozit, cât şi la metadatele ce
documentează depozitul de date.
SIBI-categorii de hardware
În cazul depozitelor de date se recomandă
folosirea a două categorii de sisteme
hardware:
• sisteme pentru multiprocesarea simetrică
(Symmetric Multiprocessing - SMP),
caracterizate prin conectarea mai multor
procesoare pe acelaşi nod şi prin
scalabilitate
• sisteme pentru procesarea paralelă masivă
(Massively Parallel Processing - MPP), ce
conţin mai multe noduri, pe care se pot
dispune unul sau mai multe procesoare.
SIBI-categorii de hardware
Arhitectura SMP conţine mai multe
procesoare care împart o memorie
comună, precum şi aceleaşi intrări şi ieşiri.
Performanţele acestei arhitecturi depind
direct de performanţa magistralei care
conectează componentele.
Arhitectura MPP permite folosirea mai
multor procesoare independente
conectate în reţea, fiecare procesor are
propria sa copie a sistemului operaţional şi
poate funcţiona ca un procesor
independent.
SIBI-criterii pt selectia hardware
• Scalabilitatea. Soluţia data warehouse este scalabilă în
termeni de spaţiu şi putere de procesare. Acest criteriu este
foarte important dacă depozitul de date este proiectat să aibă
o rată de creştere mare.
• Stabilitatea financiară a furnizorului. Furnizorul trebuie să
dovedească faptul că este un jucător viabil în segmentul
hardware respectiv, iar performanţele sale financiare indică
stabilitate.
• Raportul preţ/performanţă. Produsele trebuie comparate între
ele prin prisma raportului pret/performanţă. Se va selecta
echipamentul la care acest raport este optim.
• Termenul de livrare. Trebuie să se analizeze dacă furnizorul
poate oferi echipamentele în timpul necesar, pentru ca
proiectul data warehouse să nu fie întârziat.
• Asistenţă dupa livrare. Furnizorul trebuie să fie capabil să
ofere asistenţă dupa livrarea echipamentelor ; în acest caz se
va analiza timpul de raspuns la problemele apărute şi modul
în care ele vor fi rezolvate.
SIBI-platforme hardware

• Digital. AlphaServer şi Digital Unix;


• HP. HP9000 Enterprise Parallel Server;
• IBM. RS6000, AS/400 ;
• Microsoft. Windows NT, 2000, XP;
• Sequent. Sequent NUMA-Q şi sistemul
de operare DYNIX.
DD-instrumente software

• Instrumente de extragere şi transformare


a datelor;
• Instrumente (tehnologii) de stocare a
datelor în depozit;
• Instrumente de accesare şi utilizare a
depozitului de date.
DD-instrumente de extragere
Există două metode de bază pentru extragerea
datelor din cadrul sistemelor operaţionale:
• extragerea în masă- depozitul de date este
împrospătat periodic prin extragerea datelor
din sistemele sursă
• replicarea. Instrumentele de replicare a datelor
pot asigura migrarea datelor între sisteme,
respectiv dintr-o bază de date în alta. Aceste
instrumente constituie o alternativă bună
pentru cazurile în care nu avem acces la
codurile sursă.
DD-instrumente de extragere
• Pentru a realiza o replicare eficientă a datelor
trebuie asigurate următoarele conditii :
• să existe o conectare prin retea şi o interfaţă
corespunzătoare de acces la baza de date ;să
fie asigurat accesul la dicţionarul bazei de date
pentru a identifica datele care urmează să fie
replicate ;structura datelor sursă trebuie să fie
compatibilă cu structura datelor destinaţie pentru
a evita utilizarea unor transformari complexe ale
datelor replicate, transformări care vor îngreuna
controlul replicării datelor.
DD-instrumente de extragere
• În categoria tehnologiilor pentru replicarea
datelor intră o varietate de produse care
asigură :
• transferul fisierelor de date;
• gestiunea copiilor de date ;
• mecanisme de sincronizare a copiilor de
dater
• replicarea bazelor de date.
Exemple de instrumente de extragere :
• Passport (Apertus Carleton)
• ETI Extract (Evolutionary Technologies)
• InfoPump (Platinum).
DD-instrumente de transformare

Instrumentele de transformare au rolul de a


modifica datele extrase într-un anumit format
necesar pentru a putea fi stocate în cadrul
depozitului de date.
Facilităţile oferite de către aceste instrumente sunt:
partiţionarea şi consolidarea câmpurilor,
standardizarea(se referă la standardele şi
convenţiile în ceea ce priveşte abrevierile,
tipurile de date, etc.), deduplicarea(definirea de
reguli pentru a identifica date duplicate).
DD- instrumente pentru asigurarea
calitatii datelor
• Data Quality Workbench (DataFlux);
• Content Tracker (Pine Cone Systems);
• Quality Manager (Prism);
• Integrity Data Reengineering (Vality
Technology).
DD-instrumente pentru metadate

• Exemple de instrumente pentru depozite de


metadate:
• Warehouse Control Center (Apertus Carleton);
• PowerMart Repository (Informatica);
• Warehouse Control Center (Intellidex);
• Prism Warehouse Directory (Prism).
Instrumente OLAP
Cele mai cunoscute sunt instrumentele OLAP (On-Line
Analytical Processing) care permit utilizatorilor să
realizeze interogări ad-hoc asupra depozitului de date.
Suita instrumentelor OLAP se împarte deocamdată în
două categorii principale : MOLAP şi ROLAP.
Instrumentele MOLAP oferă facilităţi analitice pentru baze
de date multidimensionale şi au un timp de raspuns
foarte mic, datorită structurii eficiente de stocare a
datelor. Aceste instrumente oferă şi functionalităţi privind
realizarea de previziuni şi diverse calcule statistice.
Instrumentele ROLAP ofera facilităţi analitice pentru bazele
de date relaţionale.
Exemple de instrumente OLAP :
Essbase OLAP (Arbor Software);
Powerplay (Cognos);
R/OLAP/XL (Intranet Business Systems).
Instumente pentru realizarea
rapoartelor
Există la ora actuală două categorii
principale de instrumente pentru
producerea rapoartelor:
• Generatoare de rapoarte;
Exemple de instrumente pentru realizarea
rapoartelor:
• IQ/SmartServer (IQ Software);
• Crystal Reports (Seagate Software)

.
Instumente pentru realizarea
rapoartelor
Generatoarele de rapoarte permit
utilizatorilor să creeze rapoarte
parametrizate care pot fi lansate în
execuţie ori de câte ori este nevoie.
Aceste generatoare necesită un efort inţial
de programare pentru definirea modelului
de raport, iar o data ce modelul corect a
fost definit, generarea raportului
presupune doar apelarea.
Instumente pentru realizarea
rapoartelor
Serverele de rapoarte sunt similare cu
generatoarele de rapoarte, dar au capabilităţi
suplimentare care permit utilizatorilor să
gestioneze momentele de producere a
rapoartelor.
Programând generarea rapoartelor pentru
perioade de timp în care personalul nu lucreaza,
depozitul de date va putea fi astfel folosit pentru
realizarea interogarilor ad-hoc.
Unele servere de rapoarte pot avea si
functionalităţi legate de distribuirea rapoartelor.
Instrumente data mining
Instrumentele data mining au rolul de a
căuta modele în depozitul de date, pentru
a evidenţia cunoştinte noi despre
organizatie şi mediul în care işi
desfaşoara activitatea.
Instrumentele data mining se bazează pe
diferite modele de algoritmi, iar selecţia
unui astfel de instrument depinde în mare
masura de numărul şi tipul algoritmilor
care pot fi utilizaţi.
Instumente pentru realizarea
rapoartelor
Modulul data mining lucreaza cel mai bine
cu date la nivel elementar (date
tranzactionale), ceea ce implică
necesitatea unor spaţii de memorare
voluminoase.
O condiţie necesară pentru ca operaţiunea
de data mining să dea rezultate corecte
este aceea ca datele care sunt analizate
să fie corecte. Un set de date care conţin
erori sau inconsistenţe va genera abateri
de la situatia reală care influenţează
rezultatele analizei.
Exemple de produse data mining

• KnowledgeSTUDIO (ANGOSS);
• Data Surveyor (Data Distilleries);
• Intelligent Miner (IBM);
• Clementine (Integral Solutions);
• PATTERN (Magnify);
• Decision Series (NeoVista Software);
• Syllogic Data Mining Tool (Syllo
Sisteme de alertare
Aceste sisteme au rolul de a atrage atenţia
utilizatorului asupra datelor care sunt
definite ca exceptii. O organizatie, de
regula, implementeaza trei tipuri de alerte:
• Alerte operaţionale din sisteme
operaţionale individuale;
• Alerte operaţionale din magazinele de date
operaţionale;
• Alerte decizionale din depozitul de date.
Sisteme de alertare
Alerte operaţionale din sisteme operaţionale
individuale. Aceste tipuri de alerte au fost
implementate în aplicaţiile OLTP şi sunt,
de regulă, folosite pentru a evidenţia
exceptiile legate de sistemele
operaţionale.
Alerte operaţionale din magazinele de date
operaţionale (Operational Data Store -
ODS). Aceste alerte necesita date
operaţionale integrate şi, de aceea, sunt
posibil de implementat doar în sistemele
ODS.
Sisteme de alertare
Alerte decizionale din depozitul de date.
Aceste alerte necesită comparatii între
valori de date istorice. De exemplu, un
manager de vânzari poate dori sa fie
atenţionat atunci când vânzările pentru
luna curentă sunt mai mici cu mai mult de
12% faţă de vânzările din aceeaşi lună a
anului trecut.
Exemple de produse care pot fi folosite ca
sisteme de alertare:
• Dynamic Query Messenger (Compulogic);
• Activator Module, Contet Tracker (Pine
Cone Systems).
Instrumente de modelare
Aceste instrumente permit utilizatorilor să dezvolte un model
atât pentru baza de date sursă, cât şi pentru baza de date
destinaţie. Este de preferat ca ele să poata genera şi
structurile de date pe baza specificaţiilor din model, precum
şi modelul datelor pe baza structurilor deja existente în
bazele de date.
Instrumentele de modelare a datelor ajută foarte mult auditorii
sistemelor pentru a-şi forma o viziune clară asupra datelor
şi a legaturilor dintre ele.
Exemple de instrumente pentru modelarea datelor:
• Terrain (Cayenne Software);
• Syntagma Designer (Relational Matters);
• PowerDesigner WarehouseArchitect (Sybase).
Instrumente pentru gestiune

Aceste instrumente au rolul de a sprijini administratorii


depozitului de date in activităţile zilnice de administrare a
depozitului de date. Instrumentele de acest tip pot
automatiza diverse aspecte ale administrării depozitului;
de exemplu, unele se axează pe procesul de încărcare a
datelor, altele pe identificarea celor mai frecvente
interogări, altele pe identificarea datelor care nu sunt
folosite etc.
Exemple:
Usage Traker, Refreshment Tracker (Pine Cone Systems);
Enterprise Control and Coordination (Red Brick Systems).
Soluţii practice

SOLUŢII DE TEHNOLOGII ŞI INSTRUMENTE ORACLE UTILIZATE


ÎN REALIZAREA SISTEMELOR INFORMATICE DE BI

Soluţii1)informatice
Componente: pentru stocarea şi pregătirea datelor în vederea analizei:
•Oracle Business Intelligence Warehouse Builder și Oracle Data
Integrator pentru proiectarea, implementarea şi mentenanţa depozitelor
de date;
•Oracle Business Intelligence Discoverer Administrator pentru realizarea
şi administrarea unei viziuni orientate pe business a datelor relaţionale;
•Oracle Business Intelligence Administrator pentru structurarea datelor în
vederea analizei avansate.
Soluţii practice

SOLUŢII DE TEHNOLOGII ŞI INSTRUMENTE ORACLE UTILIZATE


ÎN REALIZAREA SISTEMELOR INFORMATICE DE BI

Soluţii2)informatice
Componente: pentru analiza datelor şi realizarea de rapoarte:
•Oracle Business Intelligence Discoverer Desktop și Oracle Business
Intelligence Answers pentru realizarea de rapoarte dinamice (ad-hoc);
•Oracle Reports pentru realizarea de rapoarte statice la nivelul întregii
companii;
•Oracle Data Miner pentru realizarea procesului de data mining;
Soluţii practice

SOLUŢII DE TEHNOLOGII ŞI INSTRUMENTE ORACLE UTILIZATE


ÎN REALIZAREA SISTEMELOR INFORMATICE DE BI

Soluţii3)informatice
Componente: pentru publicarea şi interacţiunea cu rapoartele create:
•Oracle Business Intelligence Discoverer Portlet Provider pentru
publicarea rapoartelor în OracleAS Portal
•Oracle Business Intelligence Dashboard pentru publicarea rapoartelor
ad-hoc într-un tablou de bord;
• Oracle Reports pentru distribuirea şi publicarea rapoartelor în mediul
organizaţiei, pe web prin integrarea cu E-Business Suite sau OracleAS
Portal;
Soluţii practice

PROPUNEREA ŞI REALIZAREA UNEI SOLUŢII DE


SISTEM INFORMATIC EXECUTIV ÎN CADRUL UNEI COMPANII NAŢIONALE

Soluţii informatice:

Realizarea sistemului Modelarea Inluderea tehnologiilor Evaluarea sistemului


conform ciclului de sistemului conform de BI: pe baza criteriilor
dezvoltare propus: metodologiei • Depozite de date: propuse şi analiza
orientate obiect real şi virtual factorilor de risc la
I. Studiul de fezabilitate utilizând extensiile •OLAP: model de date fiecare etapă a ciclului
II. Planificare UML propuse. piramidal de dezvoltare.
III.Analiza •Data Mining:
IV.Proiectare algoritmul SOM
V. Proiectare •Optimizarea cererilor
VI.Implementare şi funcţii analitice
•Tehnologii web:
Portal
Soluţii practice

ARHITECTURA SOLUŢIEI PROPUSE

Soluţii informatice :
Nivelul de management Sistemul informatic Nivel de realizare

Strategic Sistemul informatic executiv Propus

Sistemul informatic pentru management


Tactic pentru activitatea economică şi comercială Propus

Operaţional Sistemul ERP la nivelul întregii Existent


organizaţii
Oracle E-Business Suite
Soluţii practice

FACTORI NIVELUL DE RISC

TEHNOLOGIE Risc mediu: Experienţă redusă în domeniul tehnologiilor din domeniul inteligenţei afacerilor –
se utilizează în cadrul organizaţiei diverse instrumente şi tehnologii de inteligenţa
afacerilor.
COMPLEXITATE Risc maxim: Ridicată, necesită schimbări majore în cadrul organizaţiei – este necesară o
reorganizare a firmei din punctul de vedere al fluxurilor de conducere.

Soluţii informatice:
INTEGRARE Risc mediu: Surse diverse, dar cu posibilitatea de integrare uşoară – majoritatea datelor
sunt deja integrate prin intermediul sistemului ERP, iar alte date necesare se pot
introduce în acest sistem, deci sursele pot fi integrate şi obţinute uşor.

ORGANIZARE Risc minim: Suport mare din partea organizaţiei – atât managerii cât şi persoanele implicate
în dezvoltarea sistemului, în special personalul IT acordă sprijin şi se participă activ la
desfăşurarea proiectului.

ECHIPA DE PROIECT Risc mediu: Are experienţă şi determinare, atitudine şi implicare – chiar dacă nu au
experienţă bogată în dezvoltarea unor sisteme de inteligenţa afacerii şi în special a
sistemelor executive, echipa are experienţă în utilizarea unor tehnologii specifice şi se
implică în desfăşurarea proiectului.

INVESTIŢIA Risc minim: Profit estimat într-un timp scurt – datorită beneficiilor aduse de facilităţile de
FINANCIARĂ analiză a sistemului executiv se estimează că prin suportul decizional oferit se pot
obţine şi rezultate financiare mai bune.
Soluţii practice

Oracle Portal
Oracle Discover
Desktop
Interfaţă grafică cu facilităţi de raportare avansată, integrată în Oracle Portal Oracle Data Miner

Soluţii informatice: Extragere


OLAP
Data mining Oracle Warehouse
Builder
Oracle Discover
Depozit de date centralizat ce intregrează două data marts departamentale: economic şi Administrator
comercial
Agregat şi virtual
Oracle Database
ETL 10g

ERP Oracle E-Business Suite – module funcţionale

Module Financiar: General Ledger (Contabilitate Generala), Account Payables (Plati Furnizori), Account Receivables (Incasari Clienti), Cash
Management (Gestiune lichiditati)
Module Comercial: Purchasing (Aprovizionare), Order Management (Desfacere), Inventory (Gestiune Stocuri), Engineering (Concepţie/Prototipuri), Bills of
Material (Tehnologia, liste materiale şi operaţii), Work in Process (Producţie în curs), Master Scheduling/Material Requirement Planning (Planificarea
producţiei)
Alte surse: foi de calcul, fişiere text, e-mail etc.
Soluţii practice
Soluţii practice
ANALIZA MODULUI DE ÎNDEPLINIRE A CRITERIILOR DE
PERFORMANŢĂ DE CĂTRE SISTEMUL INFORMATIC DE BI
REALIZAT

Criteriu de performanţă Gradul de îndeplinire Concluzia finală este aceea că


prin aplicarea tehnologiilor de
Suport decizional Ridicat inteligenţa afacerilor şi prin
Soluţii informatice:
respectarea activităţilor etapelor
Performanţa Ridicat
ciclului de dezvoltare, ţinând cont
Interfaţa prietenoasă Ridicat şi de minimizarea influenţei
factorilor critici se poate realiza cu
Flexibilitate Mediu succes o soluţie de sistem
informatic executiv destinată
Scalabilitate Ridicat
suportului decizional pentru nivelul
Mentenanţa Ridicat strategic al managementului
organizaţiei
Integrarea datelor din surse multiple Ridicat
Concluzii

SISTEMELE INFORMATICE DE BI – SOLUŢII INFORMATICE


DE ASISTARE A MANAGEMENTULUI STRATEGIC

Condiţii specifice de Imbinarea unor Modelarea sistemului Evaluarea continuă a


realizare: elemente, funcţionalităţi conform unui ciclu de sistemului pe baza
• Indicatori cheie de şi facilităţi ale unor dezvoltare specific în unor criterii riguroase
performanţă; tehnologii de vârf, din care să se ţină cont şi analiza factorilor de
• Surse multiple; aria tehnologiilor de de caracteristicile SIBI risc la fiecare etapă a
• Obiective strategice; inteligenţa afacerilor şi de cerinţele de ciclului de dezvoltare.
• Interfaţă dinamică şi (Business Intelligence). afaceri.
raportare de excepţie;
• Acces direct şi rapid

Dezvoltarea şi realizarea de soluţii informatice pentru managementul strategic


în cadrul organizaţiilor din România

S-ar putea să vă placă și