Documente Academic
Documente Profesional
Documente Cultură
abaterile, excepiile, iar cu o anumit dexteritate se pot observa i anumite tipare, corelaii,
asociaii.
Progresiv, au aprut i s-au impus tehnici de observare analitic a datelor fundamentate pe
teorii matematice (theory-driven) care compar datele reale cu datele teoretice produse de un
model ipotetic. Dac si potrivesc, modelul se poate lua n considerare ca fiind o reprezentare
corect a procesului care a produs setul de date observate; dac nu, se schimb modelul ipotetic
i se reia procesul de comparaie pn la obinerea un model suficient de reprezentativ pentru
procesul respectiv (dac exist).
De multe ori ns, setul de modele teoretice nu este suficient, procesul observat neputnd fi
ncadrat n nici un model cunoscut. Ca urmare descoperirea de noi modele este un deziderat
permanent care a condus expansiunea tehnicilor de observare fr utilizarea unui model
preconceput, tehnici de observare automat, bazate pe date (data-driven). Rezultatul acestor
tehnici de observare automat se poate conserva ntr-un model cu caracter general, utilizabil ca
fundament teoretic n primul tip de tehnici de observare. Aceste tehnici de observare analitic a
datelor se regrupeaz ntr-o tehnologie modern, data mining.
n urma procesului de observare analitic se obin tipare, corelaii i chiar modele din care
se pot deduce tendine, se poate specifica cu o anumit probabilitate cum vor arta datele n
perioada urmtoare. Puterea descriptiv a modelului reprezentativ permite interpretarea datelor.
Interpretarea datelor este un proces cognitiv care conduce la o apreciere general a
situaiei, la identificarea unor probleme sau sesizarea unor oportuniti, la stabilirea potenialelor
cauze ale problemelor sau la de rezolvare a lor, etc. Interpretarea datelor este un proces n care
se face apel la cunotinele cu caracter general, fundamental i specific asociate domeniului
respectiv precum i la experiena existent. Interpretarea datelor produce cunotine noi care se
vor aduga la cele existente.
Instrumentele software clasice construite pentru asistarea deciziei au avut n vedere n
special asigurarea unor tehnici de analiz, optimizare i simulare precum i prezentarea grafic a
rezultatelor, aspectul calitativ al informaiei fiind astfel mai uor de sesizat de ctre utilizatorii
finali. Printre aceste instrumente software le amintim pe cele cuprinse n procesoare de tabele
(Lotus, Excel) orientate pe volume mici de date, cele cuprinse n instrumentarul sistemelor de
gestiune a bazelor de date (Access, Visual Fox) capabile s exploateze volume mari de date cu
structur uniform. Ca exemple de asemenea instrumente amintim tabelele pivot, interogrile de
tip cross-tab, grafice. Un impediment major al acestor instrumente clasice este faptul c
opereaz numai asupra unor date cu structur prestabilit, uniform, provenind numai dintr-o
singur surs. De asemenea, un alt impediment major este dependena de date explicite, stocate
special n bazele de date pentru a servi sistematizrii ulterioare a acestora. Un tratament
intermediar de pregtire a datelor pentru sintez face ca analiza s nu fie nici-o dat "pe viu".
Pentru depirea acestor impedimente, sistemele moderne de asistare a deciziei fac uz de tehnici
speciale pentru comasarea datelor stocate n structuri neuniforme, pentru utilizarea informaiilor
implicite, nespecificate n datele existente (societatea, localitatea, anul, etc), pentru completarea
datelor cu criterii de agregare, etc. De asemenea, suporturile software de asistare a deciziei
asigur o serie de faciliti utilizatorului final: interogare n limbaj natural, accesul la modelele
conceptuale, sisteme de gestiune a serviciilor OPLAP, noi limbaje de exploatare a bazelor de
date multidimensionale, servicii de prezentare a datelor (tabele pivot, grafice) precum i servicii
de integrare cu alte suporturi software (procesoare de tabele, baze de date).
Produsele software care includ suport pentru asistarea deciziei pe baza sintezei i analizei
datelor se numr: ORACLE, Sybase, Informix, Microsoft SQL Server, IBM DB2.
nglobarea unor informaii despre pia. Stocarea informaiilor de sintez finale n tabele are
inconvenientul c aceste situaii sunt valabile doar la momentul executrii, nu pot fi actualizate
cu tranzaciile ulterioare dect prin reluarea ntregului proces. Totui, aceasta este ideea prin care
se poate ajunge la un compromis: stocarea datelor necesare pentru planificare i decizii
strategice ntr-un sistem diferit de sistemul operaional n aa fel nct exploatarea ambelor
sisteme s fie posibil fr inconveniente reciproce. n plus, n depozitul de date pot fi stocate
date arhivate provenind din activitatea din anii anteriori sau date despre concuren, date care
pot oferi baza de comparaie necesar n aprecierea tendinelor, n efectuarea de analize
complexe necesare n procesele de planificare i de luare a deciziilor majore. Depozitele de date
sunt alimentate periodic cu date referitoare la tranzaciile ulterioare, fr intervenia explicit a
utilizatorului final. De asemenea, date1e se pot stoca selectiv pe anumite activiti sau domenii
sau alte criterii n magazii de date (data marts), separarea lor fizic fiind util n creterea
performanelor exploatrii de ctre managerii anumitor compartimente din ntreprindere
interesai doar de datele referitoare la domeniul lor de activitate.
Depozitele de date sunt construite de regul cu tehnologii relaionale i au aprut ca
extensii ale sistemelor de baze de date relaionale cu arhitectur client server (Microsoft SQL
Server, Oracle ).
Depozite de date: coninut i caracteristici
Depozitele de date centralizeaz, consolideaz, organizeaz i stocheaz date din diverse
surse eterogene, date care vor fi baza procesrilor analitice necesare proceselor de decizie.
Depozitul de date se construiete ntr-o manier incremental, completri i dezvoltri ulterioare
fiind oricnd posibile. Datele stocate n depozite sufer un proces de curire i transformare
care asigur calitatea informaiei generate pe baza lor. De asemenea, n depozitele de date se pot
stoca i date noi, calculate pe baza celor existente, date cerute de regul n majoritatea
rapoartelor (sume, procente, medii) scurtndu-se astfel timpul cerut pentru obinerea lor. O
caracteristic principal a depozitelor de date este transformarea codurilor n date explicite,
integrarea datelor din nomenclatoare n datele despre tranzacii. Acest aspect de "denormalizare"
a tabelelor din bazele de date primare este permis deoarece integritatea datelor nu este
ameninat ntruct nu provin din exterior iar pe de alt parte, grbete procesul de regsire.
Un alt aspect este redundan datelor care este iari permis (data calendaristic se poate
exprima i n luni i n semestre i n sezoane). Cu alte cuvinte, datele care se pot calcula din
datele primare se stocheaz explicit n depozit pentru a fi gata calculate la o eventual solicitare.
Diferenele dintre un depozit de date i o baz de date utilizat ntr-o aplicaie informatic
de tip OLTP (on line transaction processing) sunt evideniate mai jos:
Datele stocate n sisteme OLTP sunt date operaionale, referitoare la un anumit
proces sau funcie a ntreprinderii, date de detaliu cu un anumit grad de volatilitate
(pot suferi actualizri) i prezentnd interes n primul rnd pentru cei ce le introduc.
Datele stocate n depozite sunt date pentru asistarea deciziei, referitoare la subiecte
de interes decizional, sunt date centralizate sau derivate din datele operaionale, nu
se schimb n timp i sunt orientate ctre utilizatorii finali - managerii de nivel
tactic i strategic. Putem spune c bazele de date utilizate de sistemele operaionale
sunt orientate spre tranzacii i reflect situaia curent, n timp ce depozitele de
date utilizate de sistemele de asistare a deciziei sunt orientate spre subiectele
analizelor i reflect situaii globale, cu caracter istoric.
Data
12 aug 2007
Clieni:
Client_id Nume_client
112233
SC Neptun SA
Client_id
112233
Suma
1060 RON
Cod_fiscal
Adresa
R5546547865 Constana
Linii_factura_client:
Nr_fct
Produs
Cantitate
12345677 7709
100
Pre
16
Data_intrare
25 ian 2006
Produse:
Cod_produs Denumire Categorie
7709
Cafea
Aliment
Subcategorie
Bcnie
UM
Kg
Cost
12
Date de sintez referitoare la totalul tranzaciilor lunare ale fiecrui client stocate n
depozitul de date n vederea analizei clienilor:
Nume_client
SC Neptun SA
Localitatea
Constana
Data_intrare
25 ian 2006
Anul
2007
Luna
august
Nr tranzacii
18
Valoare medie 2079
Date de sintez referitoare la cantitatea comandat din fiecare produs stocate n depozitul
de date n vederea analizei produselor:
Denumire
Anul
Luna
Total cantitate
Unitate_msur
Cost marf
Pre mediu
cafea
2007
august
23000
kg
12
11
Structura se implementeaz sub forma unei baze de date care s asigure att stocarea unui
volum imens de date ct i accesul rapid la ele (baze de date client-server).
Urmtoarea etap este popularea cu date a depozitului, date preluate din sistemele
tranzacionale care trebuie supuse unor procese de transformare pentru a se ncadra n structura
prefigurat a depozitului. Aceast etap va fi reluat periodic pentru a aduga datele noi.
n final, depozitul este dat n exploatare curent pentru explorare, analiz i raportare.
Aceste activiti sunt asistate de instrumente software, de la simple browsere i generatoare de
rapoarte la instrumente sofisticate de data mining. Exploatarea curent va evidenia noi cerine
informaionale pentru asistarea deciziei, cerine care vor conduce la extinderea structurii
depozitului, la popularea cu date istorice a extensiei, la integrarea noilor date n aplicaii de
analiz.
Proiectare
Populare
Analiz
Fig. l Ciclul de via al depozitelor de date
TRANZACTII
Client id
Nume _
Prenume
Adresa
Cont
Telefon
Data deschidere
Tranz_nb
Data_tranz
Operaie
Client id
Operator id
Suma
Comision id
COSTURI
TRANZACTI I
Comision_id
Denumire
Descriere
Cost
Data_modif
Tranzaciile clienilor sunt operaii de tipul pli, ncasri, depunere sau ridicare de
numerar din contul personal. Costul fiecrei tranzacii este comisionul bancar, diferit pentru
fiecare operaie i modificabil n timp. Tranzaciile sunt efectuate n mai multe filiale aflate n
localiti diferite.
Pentru analiza veniturilor obinute din acest tip de operaii bancare, comisioanele asociate
operaiilor din tabela tranzacii (msura activitii) trebuie centralizate pe dat, operaie, filial,
client (dimensiuni). Nu toate datele sunt ns disponibile. De exemplu, filiala nu este o dat
explicit trecut n tabele, ea va trebui completat la transferul datelor.
Datele centralizate pot fi stocate ntr-o structur relaional de tip stea n care tabela de
fapte va conine suma comisioanelor pe zile, operaii, clieni i codurile acestora care formeaz o
cheie compus, fiecare cod fiind explicitat ntr-o tabel de tip nomenclator legat de tabela de
fapte prin acelai mecanism cheie extern = cheie primar.
Dimensiune
TIMP
Timp_id
Ziua
Luna
Trimestru
An
Dimensiune
CLIENT
Dimensiune
OPERAIE
TRANZACII
Operaie_id
Denumire
Timp_id
Operaie_id
Filiala_id
Client_id
SumComision
Dimensiune
FILIALA
Client_id
Nume
Tip_client
Filiala_id
Nume
Ora
Zona
Fig.2 Schema stea a unui depozit de date
Structura de mai sus permite agregri pe nivele superioare ale dimensiunilor iniiale prin
utilizarea datelor din nomenclatoare. Spre exemplu, se poate afla suma comisioanelor pe luni,
operaii, zone i tipuri de clieni dac se centralizeaz datele din tabela de fapte Tranzacii pe
criteriile amintite.
n acelai depozit se pot stoca fapte diferite care au anumite coordonate comune i care n
consecin partajeaz aceleai nomenclatoare. Schema depozitului de date va fi de tip stea
multipl sau constelaie.
Dimensiune
TIMP
Timp_id
Ziua
Luna
Trimestru
An
Dimensiune
CLIENT
Dimensiune
OPERAIE
TRANZACII
Operaie_id
Denumire
Timp_id
Operaie_id
Filiala_id
Client_id
SumComision
Dimensiune
FILIALA
Client_id
Nume
Tip_client
PERSONAL
Dimensiune
OPERATOR
Timp_id
Filiala_id
Operator_id
Nr_tranzacii
Comision mediu
Operator_id
Nume
Data_ncadrare
Salariu
Filiala_id
Nume
Ora
Zona
Dimensiunea comun tuturor faptelor este timpul pe baza cruia se pot asocia toate
tabelele de fapte, crendu-se astfel premisele necesare unor analize complexe care pot corela
fapte aparent fr legtur.
Dac nomenclatoarele au subnomenclatoare sau nomenclatoare alternative, schema stea
din fig. 2 devine:
Timp_id
Ziua
Luna
Trimestru
An
Operaie_id
Denumire
TRANZACII
CLIENI
Timp_id
Operaie_id
Filiala_id
Client_id
SumComision
Timp_id
Ziua
Sezon
Filiala_id
Nume
Ora
Zona
Ora
Zona
Client_id
Nume
Tip_client
Localitatea
Tip_client
Ctg client
Subctg client
Schemele de tip stea, fulg de nea sau constelaie sunt modele conceptuale
multidimensionale ale depozitelor de date. Ele au rolul de a organiza datele necesare procesului
de decizie pe subiecte ntr-o structur uor de conceput, accesibil utilizatorilor finali care vor
trebui s o extind n viitor n conformitate cu noile cerine. Schema este deschis, se poate
modifica pe tot parcursul vieii depozitului de date ntr-o manier incremental prin contrast cu
schema bazei de date care este fix pe tot parcursul vieii sistemului informatic care o utilizeaz,
eventuale modificri structurale conducnd la realizarea de noi versiuni ale aplicaiei.
Vnzri
DEPOZIT DE
DATE
Personal
Cheltuieli
Director informaii
Surse
tranzac
ionale
Schema
Transformare
Curare
date
Transformare
Programare
DEPOZIT
de
DATE
Replicare
Publicare
Instrumente
utilizator
final
OLAP
DEPOZITUL DE METADATE
DATE
METADATE