Documente Academic
Documente Profesional
Documente Cultură
Business
Intelligence
Conf. Ramona Bologa,
ASE Bucuresti
1
Agenda
1. Ce este Business intelligence
2. Analiza datelor
Rolul sistemelor de asistare a deciziei in analiza
datelor: OLTP, OLAP, sisteme expert, depozite de date,
data mining
Arhitectura depozitului de date. Concepte de baza:
cuburi, datamart, dimensiuni, fapte, agregari,
granularitate.
Instrumente ETL
Concepte despre datamining
3. Integrarea datelor
BI si ERP;
Descrierea unui sistem ERP (SAP ) integrat cu
software BI
2
1. Ce este Business
intelligence
3
Termenul Business
Intelligence
Termenul de BI este relativ nou 1989,
Gartner Group
Termen umbrela: un ansamblu de
tehnologii, platforme software, aplicatii si
procese specifice.
Gartner Group estimeaz o cretere dubl
pe piaa depozitelor de date n raport cu
creterea global a pieei de IT.
4
Business Intelligence
Principala valoare = capacitatea de a transforma
datele n informaii.
Scurt istoric
1960 stocare date pe hartie
1970 aparitia mainframe-urilor
1970 aparitia bazelor de date
1980 aparitia aplicatiilor de business
1980 aparitia conceptelor de DW
1990 nasterea Business Intelligence
2000 evolutie continua
Business Intelligence
Definitii
Set de competente, procese, tehnici si aplicatii
menite sa ajute la fundamentarea deciziilor de
business
Set de concepte si metode menite sa
imbunatateasca procesul decizional
Categorie de aplicatii si tehnologii menite sa
colecteze, stocheze si analizeze date in vederea
optimizarii procesului decizional
Sistem de colectare, integrare si analiza a
informatiilor generate de business venite in ajutorul
companiilor pentru inbunatatirea deciziilor
Business Intelligence
14
Elemente de BI
tehnologia
putere de procesare
volume de date
tehnologie de retea
standarde interoperabilitatea BI
software de BI
oameni
cultura companiei
15
16
Probleme
Initiativele pentru BI sunt scumpe:
date disparate trebuie extrase si reunite din sisteme OLTP,
sisteme interne sau externe.
tehnologie noua,
sarcini noi,
transformari de roluri si responsabilitati,
aplicatii suport de decizie livrate rapid si la o calitate
acceptabila.
60% dintre proiectele de BI abandonate/esueaza datorita:
planificarii inadecvate,
sarcinilor ratate,
termenelor depasite,
unui management de proiect prost,
nelivrarii rezultatelor proiectului, sau rezultate de proasta
calitate.
17
Factori de risc in
proiecte BI
Lipsa de nelegere a complexitii proiectelor de BI
Lipsa de nelegere a faptului c soluiile de BI implic cel
mai adesea subunitati multiple ale companiei, ceea ce
le face diferite de solutiile stand-alone
Reprezentantii companiei sunt indisponibili sau
neinteresati
Lipsa de personal pregatit disponibil sau utilizarea
suboptimala a acestuia
Structura inadecvata a echipei de proiect
Lipsa unei abordari iterative in dezvoltarea solutiei
Management de proiect ineficient
Lipsa de metodologie
Lipsa de apreciere asupra impactului datelor necuratate
asupra profitabilitatii
Nu este inteleasa necesitatea utilizarii metadatelor
Utilizarea de metode si instrumente disparate
18
2. Analiza datelor
3.1.Rolul sistemelor de asistare a deciziei in analiza datelor:
OLTP, OLAP, sisteme expert, depozite de date, data mining
19
3.1. Sisteme de asistare a
deciziei
Anii ' 90
Intranet, Web, sisteme informatice
pentru inteligena afacerilor
21
b. Sisteme informatice
pentru conducere
MIS Management Information Systems
obinerea i stocarea unor volume mari de
informaii detaliate, rezultate din procesarea
tranzaciilor.
Iesirile sunt predeterminate, sunt sub form de
rapoarte (periodice, la cerere, de excepie),
regsiri de informaii on-line
Obiectiv: Informaii
Tipul aplicaiilor: Controlul produciei, analiza
bugetului, previziuni pe termen scurt
Operaii tipice: Raportare
Posibiliti de decizie: Suport pentru
rezolvarea problemelor structurate
22
c. Sisteme suport de
decizie
DSS Decision Support Systems
interactiv, flexibil i adaptabil
interfa simpl i uor de utilizat
Obiectiv: Asistarea n procesul decizional,
implementarea deciziilor
Tipul aplicaiilor: Evaluarea creditelor,
planificarea asigurrii calitii, planificarea
proiectelor
Operaii tipice: Analiz
Posibiliti de decizie: Suport pentru probleme
semistructurate
23
Comparatie OLTP-DSS
24
Comparatie MIS-DSS
probleme
1 decizii
4
ntrebri 2
alternative,
Sisteme suport
sugestii 3
de decizie
25
d. Sistemele expert
sistem bazat pe cunotine
Utilizarea de cunotinele expert pentru a
rezolva o anumit problem
succes n diferite domenii: diagnosticare,
prognozari
Obiectiv: inlocuire decident uman
Tipul aplicaiilor: pt domenii specifice
Operaii tipice: inferente logice
Posibiliti de decizie: decizii complexe,
nestructurate (reguli, euristici)
26
e. Sistem informatic pentru
inteligena afacerilor
BIS business intelligence system
Sistemele suport de decizie
integrare BIS
Sistemele expert
27
3.2. Depozite de date
Arhitectura depozitului de date.
Concepte de baza:
cub de date,
datamart,
dimensiuni,
fapte,
agregari,
granularitate.
28
Depozite de date
Consiliul OLAP 1995: o stocare centralizat a
datelor detaliate provenite din toate sursele
relevante din cadrul unei organizaii ce permite
interogarea dinamic i analiza detaliat a tuturor
informaiilor.
William Inmon: o colecie de date orientate pe
subiecte, integrate, istorice i nevolatile destinat
sprijinirii procesului de luare a deciziilor
manageriale
+instrumente de interogare, analiza si
prezentare a informatiilor
Instrum. de analiza on-line- OLAP
Instrum. de data mining
In cifre
Dimensiunea DW TBytes
Costul implementarii peste 1 mil $
Serviciiprofesionale
Software pentru extragere,
transformarea, incarcarea si
analiza datelor
Sisteme hardware si stocarea
datelor
Scopul DW integrarea
datelor
INTEGRAREA datelor
modaliti unice de codificare, sistem de uniti de
msur consistente,
sistem stabil de reprezentare fizic a datelor,
convenii clare privind modul de reprezentare a
datelor calendaristice,
convenii unice privind denumirile datelor.
FLEXIBILITATE sa se conecteze la niv.
intregii organizatii a.i. servere de la furnizori
diferiti sa se poata conecta la depozitul
existent
ARHITECTURA adaptare usoara la
modificarile de performante, capacitate si
conectivitate
Data mart - >500 GB, <1mil $, <3 luni
Ce este un depozit de date?
William Inmon: este o colecie de date orientate
pe subiecte, integrate, istorice i nevolatile, fiind
destinat fundamentrii deciziei manageriale.
O BD pentru luarea deciziilor, separata de BD
operationala a companiei
Ofera suport pentru procesarea informatiilor,
oferind o platforma de date istorice consolidate
pentru analiza
Structurile de date ntr-un depozit de date sunt
optimizate pentru o regasire i o analiza rapida.
32
a.DW orientat pe subiecte
(Inmon)
Organizat pe subiecte importante: client, produs,
vanzari.
Accent pe modelarea si analiza datelor de catre
decidenti
Ofera o perspectiva simpla si concisa asupra
anumitor subiecte, excluzand datele care nu sunt
utile in procesul de luare a deciziilor
33
b.DW integrat (Inmon)
Integreaza surse de date multiple
34
c.DW istorice (Inmon)
Datele sunt istorice i sunt actualizate la
intervale regulate.
Orizontul de timp este mult mai mare decat la
sist. operationale (ex: 5-10 ani)
Fiecare element stuctural cheie al depozitului:
Contine o referire temporala, implicita sau
explicita, ceea ce nu are loc la datele
operationale
35
d.DW - nevolatil (Inmon)
Un depozit separat fizic de date transformate din mediul
operational
In DW nu au loc actualizari operationale ale datelor.
Nu necesita mecanisme de procesarea tranzactiilor, recuperare
si controlul concurentei
Sunt necesare doar 2 operatii pentru accesarea datelor :
Incarcarea datelor si accesul la date.
Actualizare doar adugarea periodic a unor date extrase din
sistemele operationale
Preocupare pt. optimizarea accesului la date:denormalizare,
sumarizare, statistici ale accesrii i reorganizare dinamic a
indexrii
36
Aplicatii ale depozitelor de
date
Telecomunicatiile.
folosirea retelei,
profilul clientilor care folosesc un anumit serviciu,
profitabilitatea produselor si serviciilor oferite.
Bancile - gestionarea profitabilitatii generale, prin
analizarea profitabilitatii pe produs si pe client.
determinarea profilurilor clientilor pentru a directiona ct mai
eficient campaniile de marketing.
Comertul cu amanuntul.
trendul vnzarilor n functie de anotimp, vacante, campanii de
publicitate, activitatea competitorilor.
mentalitatile si obiceiurile cumparatorilor = intrari in sistemul
de dirijare a actiunilor promotionale si a altor campanii de
marketing
Analiza trendului performantelor
Vnzari ncrucisate
Profilul consumatorului si piata tinta.
37
Architectura multinivel
Monitor
Server OLAP
Alte Metadate &
surse Integrator
Analize
Interogari
BD Extract Rapoarte
operation Transfor Data Utilizare
Data mining
ale m Warehouse
Load
Refresh
Data Marts
38
De ce un depozit de date
separat?
Performante mai bune
SGBD potrivit pt OLTP: metode de acces, indexari,
controlul concurentei, recuperare.
Depozitpotrivit pt OLAP: cereri complexe, perspective
multidimensionale, consolidare
Functii si date diferite
Date: luarea deciziilor necesita date istorice
Consolidarea datelor: luarea deciziilor necesita
consolidari de date din surse eterogene
Calitatea datelor: datele din surse diferite au
reprezentari, codificari si formate diferite care trebuie
reconciliate
39
Tipuri de DW
1 DEPOZITE DE NTREPRINDERE (ENTERPRISE
WAREHOUSE)
ntreaga structur organizaional
un volum extins de date: att informaii detaliate, ct i agregate.
suporturi hardware performante.
costurile si timpul de proiectare i implementare sunt considerabile,
2 DATA MART
depozit de date specific unui anumit subset de cerinte sau unui
departament din cadrul organizatiei
specifice unui domeniu de activitate.
de regul, datele coninute ntr-un data mart sunt agregate.
costurile i termenele de implementare sunt considerabil reduse
3 DEPOZIT VIRTUAL (VIRTUAL WAREHOUSE)
o serie de vederi (views) realizate direct asupra BD operaionale.
procesele de agregare pot afecta capacitile de prelucrare ale
serverelor utilizate n activitatea operaional,
aparent uor de implementat, necesita capaciti de procesare
deosebite.
necesita curatare si consolidare in timpul rularii
40
Modelul multidimensional
permite vizualizarea datelor prin mai multe filtre
sau dimensiuni in acelasi timp.
Dimensiuni=coordonate=
categorii de informaie.
De ex:
Care sunt vanzarile reale in
comparatie cu cele previzionate
pe zona, pe vanzator, pe produs?
Care este profitabilitatea pe produs, pe client?
41
Obiecte DW
Tabelele de fapte (masuri)
conin faptele i cheile externe ctre tabelele de dimensiuni.
de obicei date numerice - totalizate i analizate pe diferite
niveluri.
Tabele dimensiuni
categorii de informatii care organizeaza datele
fiecare tabel dimensiune are cte o cheie principala
cmpurile sunt de obicei textuale - surs pentru restricii i
pentru rndurile din rapoarte.
datele sunt de obicei colectate la nivelul cel mai de jos i mai
detaliat i agregate pe nivelele superioare pentru analiz.
Atribut - un nivel al unei dimensiuni, intr-o IERARHIE
Ierarhiile
sunt structuri logice utilizate pentru ordonarea nivelelor de
reprezentare a datelor.
definesc caile de navigare n interiorul datelor, permind
detalierea gradual a datelor.
42
Date multidimesionale
Volumul vanzarilor functie de produs,
luna, si zona
Dimensiuni: Produs, Zona, Timp
Ierarhii:
na
Ramura Zona An
Zo
Birou Zi
Luna 43
Exemplu: Vanzari de fructe
44
Agregari si granularitate
Granularitatea reprezinta nivelul de detaliere
la care sunt pastrate datele in depozit
In functie de cerintele de analiza, datele se pot
pastra la nivel mai detaliat sau mai agregat
(depinde de niv. de detaliere a dimensiunilor)
Agregarea datelor- cresterea performantelor DW
10 magazine, 100 produse/marca, vanzari saptamanale
45
Exemplu
46
3.3.Instrumente ETL
47
ETL
Acronim pentru
E Extract
T Transform
L Load
Extragere de date, aplicare reguli de business
astfel incat datele sa fie transformate in
informatii si stocare in Data Warehouse
Curatare si standardizare date
Integrare date interne si externe
ETL
Simplificare a procesului de copiere a datelor
dintr-o sursa in alta
Datele sunt extrase dintr-o BD tranzactionala,
transformate conform regulilor de business si
incarcate in DW
Exista posibilitatea incarcarii si din sisteme
sursa non-tranzactionale: fisiere, sisteme
legacy
ETL trebuie gandit ca si proces nu ca si
implementare fizica
ETL
Combinatie complexa de procese si tehnologii
utilizata in procesul de creare a sistemului DW
Necesita skill-uri de analist de business,
administrator baza de date si dezvoltatori
Este un proces recurent, datele se incarca
recurent catre sistemul de DW
Trebuie sa fie un proces automatizat, bine
documentat si usor de modificat
ETL
Staging Database
Operatiile de tip ETL ar trebui efectuate la nivelul
unei baze de date relationale, separate de sursa de
date si de destinatia de date - Data Warehouse
Creaza o separatie fizica si logica intre sistemele
sursa si sistemul de Data Warehouse
Minimizeaza impactul procesarilor periodice intense
ETL atat la nivelul sistemelor sursa cat si la nivelul
sistemelor destinatia
Nu permite accesul utilizatorilor finali
ETL
A. Analiza sistem sursa
De obicei pasul initial al unui proces de ETL
Poate fi impartit in doua faze:
A1. Faza de descoperire / identificare a datelor
Criteriul esential de care depinde succesul implementarii este
coerenta si corectitudinea datelor
Odata identificata structura rezultatului trebuie analizate si
sursele de date
A2. Faza de detectie a eventualelor anomalii
Esentiala pentru determinarea modalitatii de tratare a
anomaliilor
Detectia trebuie urmata de identificare de proceduri menite
sa minimizeze prezenta si complexitatea anomaliilor
ETL
A1. Faza de descoperire / identificare date
Face parte din atributiile echipei tehnico
functionale
Activitatile care trebuiesc efectuate in aceasta faza
Identificarea sistemelor sursa
sistemelor sursa
Identificarea originii datelor in cazul existentei
in momentul extractiei
Incarcari incrementale
Utile in cazul volumelor mari de date
Se extrag din sistemul sursa doar inregistrarile updatate
56
ETL
Extragere
59
ETL
Transformare
Este pasul principal in care se aplica seturi de
reguli de business identificate
Este pasul principal in care este adaugata valoare
in procesul de ETL
Este singurul pas in care datele sunt efectiv
modificate in acest proces
Este implementat la nivelul Staging Database
ETL
Transformare
Este momentul in care trebuie implementate
elemente de validare a calitatii datelor
Datele trebuie sa fie
Corecte
Cu grad de ambiguitate minim
Consistente
Complete
Valoare NULL
Valori numerice care ies din tiparele standard permise
Valori care nu se incadreaza in plaja de valori admise
Valori care nu urmaresc template-urile utilizate
Validari structurale la nivel de tabela
Cheile tabelelor sunt definite corect
Restrictia de integritate este satisfacuta
Alte validari
Validari ale logicii de business
ETL
Transformare
Motive pentru date murdare
Prezenta valorilor dummy
Absenta datelor
Campuri utilizate in mai multe scopuri
Date criptate
Date contradictorii
Utilizarea gresita a anumitor campuri in sistemele sursa (vezi
campuri de tip adresa)
Violarea regulilor de business
Reutilizarea cheilor primare
Utilizarea identificatorilor non-unici
Probleme la integrarea datelor
ETL
Transformare
Curatarea datelor
Parsing
Identificarea campurilor individuale in cadrul surselor de
date si izolarea acestora in cadrul destinatiei. Exemplu:
campuri de tip adresa
Corectie
Faza in care eventualele anomalii sunt eliminate prin
utilizarea algoritmilor complecsi sau a altor surse de
date. Exemplu, determinare cod postal
Standardizare
Faza in care datele sunt stocate intr-o forma unica,
preferata, aplicand o multitudine de reguli
ETL
Transformare
Curatarea datelor
Potrivire/ deduplicare
Pasul de cautare si imperechere a inregistrarilor care
vizeaza o aceeasi entitate fizica in scopul eliminarii
duplicatelor. Exemplu: cautare, identificare si
imperechere inregistrari care se refera la o aceeasi
persoana insa al carui nume este stocat diferit
Consolidare
Eliminarea efectiva a duplicatelor identificate in urma
aplicarii regulilor detaliate anterior
ETL
Transformare
Instrumentele pentru
asigurarea calitii datelor
Asista la localizarea si corectarea erorilor in
sistemele sursa sau DW
In sistemele sursa - preferabil
In depozitul de date - inconsistente
Pana la 15% din datele extrase sunt
inconsistente sau incorecte
Exemple
Data Quality Workbench (DataFlux);
Content Tracker (Pine Cone Systems);
Quality Manager (Prism)
Integrity Data Reengineering (Vality Technology)
67
v.Instrumente pentru
incarcarea datelor
Ajuta la incarcarea datelor transformate in
depozitul de date
Preformatarea datelor n formatul fizic intern
cerut de SGBD-ul tinta
Trebuie sa asigure integritatea si consistenta
datelor preluate din sistemele sursa
Indecsii pot ncetini substantial procesul de
ncarcare se renunta la ei nainte de ncarcare si
apoi se recreaza
Instrumentele iv sunt de obicei incorporate n
cadrul unui singur instrument, ETL Tools
Exemple: Data Junction, Ascential DataStage i
Informatica.
68
ETL
Incarcare
Este pasul final al procesului, cel de scriere efectiva
a datelor in cadrul destinatiei (Data Warehouse)
Este cel mai mare consumator de timp
Performanta la scriere nu este obiectivul unui Date
Warehouse / ETL
Datele sunt stocate in tabele denormalizate
Permisa doar in anumite intervale orare
70
3.4. Data Warehouse si
Data mining
Trei tipuri de aplicatii de DW
Procesarea informatiilor
Interogari, analize statistice de baza, raportari folosind
tabele, grafice, figuri
Procesare analitica
Analiza multidimensionala a datelor DW
Operatii OLAP de baza, navigare prin date, pivotari,
rotatii, sectionari
Data mining
Descoperire de cunostinte din modele ascunse
Asocieri, construire de modele analitice, realizare de
clasificari si predictii, si prezentarea rezultatelor cu
instrumente de vizualizare
OLAM Online Analitycal Data Mining
71
Data mining
Pasi:
i: Culegerea si pregatirea datelor de analizat.
ii: Analiza datelor sau aplicarea unui algoritm/metode de DM
Invatare supervizata
Invatare nesupervizata
iii: Interpretarea rezultatelor algoritmului
iv: Aplicarea rezultatelor obtinute la noi probleme.
Strategii de
data mining
Invatare Invatare
supervizata nesupervizata
73
4. Integrarea
datelor
BI si ERP;
Descrierea unui sistem ERP (SAP )
integrat cu software BI
74
BI si ERP
75
Orientare pe procese/ pe
subiecte
Sales Employee
system data
Payroll Customer
system data
Vendor
Purchasing data
system
ERP DW
76
a.Arhitecturi: Sistem BI cu
acces direct la datele din
sistemul ERP
integrat prin intermediul unor aplicaii specifice de
interogare a datelor.
suprapun peste primul nivel de abstractizare al
modelului ERP un nivel de abstractizare propriu,
specific fiecrui utilizator
sunt realizate interfee dedicate fiecrui modul
din sistemul integrat.
Dezavantaje
limitele impuse de suporturile tehnice.
viziunea istoric se suprapune rareori cu necesitile
sistemelor tranzacionale
este o soluie de compromis ce poat fi exploatat
temporar
77
Acces direct la datele ERP
78
b.Arhitecturi: Depozit de date
ataat ERP
sistem de asistare a deciziei specializat,
construit pe baza unui depozit de date
sau a unei colecii de data marts.
dicionar de date propriu
ca aplicaie independent sau ca un modul
al ERP (SAP BI)
eforturi considerabil mai mari att n
etapele de proiectare si implementare =>
avantaje prin prisma performanelor n
exploatare
79
Depozit de date ataat ERP
80
Ce este un sistem ERP
un pachet care promite integrarea complet a
tuturor informaiilor din cadrul unei organizaii
[Davenport]
infrastructur software, multimodulara ce ofer
suport de gestiune i coordonare a diferitelor
structuri i procese din companie, n vederea
realizrii obiectivelor de afaceri [Fotache]
Ofera accesabilitate, vizibilitate i consistena
informaional n ntreaga organizaie
Dezvoltare cu instrumente CASE
81
Arhitectura client-server
Vnzri i Financiar-
CLIENT distribuie contabilitate
Productie
Service
post-
vnzare
Stocuri
82
Proprietati fundamentale
Integrarea asigur conectivitatea ntre
fluxurile de procese economice funcionale
86
SAP BI (Business
Information Warehouse)
Business Content = container ce
cuprinde
Infocuburi (peste 420),
Query-uri (peste 1700),
Rapoarte si
Roluri utilizator
87