Sunteți pe pagina 1din 36

1.

Tipuri de scheme in
depozite de date
2. OLAP
3. Hipercuburi

1. Tipuri de scheme in
depozite de date

Modelarea schemei
Un datawarehouse foloseste de obicei o
schema denormalizata partial sau total
(cum ar fi star schema) pentru a imbunatati
performantele de regasire a datelor
O interogare a unui datawarehouse tipic
scaneaza mii sau milioane de inregistrari.
De exemplu : "Find the total sales for all
customers last month."

Denormalizarea
Procesul de adaugare a redundantei pentru a
scapa de joinuri complexe, in scopul de a
optimiza performantele bazei de date.
In unele cazuri, se poate face prin trecerea de
la o forma normala superioara la o forma
normala inferioara.

OLTP vs Data Warehouse

ARHITECTURA DWH

Evidenta relational facturi


model

a.Structura DW Schema
STEA

cel mai des utilizat model de organizare al depozitelor de


date
tabela de fapte cuprinde, fr redundane, marea parte
a datelor
tabela de fapte este conectata la tabelele dimensiune pe
baza cheilor externe pe care acestea le conin.
star join = legatura stabilita ntre un tabel de fapte si
tabelele dimensiune
star query = jonctiunea dintre un tabel de fapte si mai
multe tabele dimensiune
Avantaj: performante optime pentru interogarile dintr-un
depozit de date

Ex: Schema STEA

Componentele modelului:
- 1 tabela de fapte (masuri)
- n tabele dimensiuni
dim1
dim6

dim2

tabela fapte
dim5

dim4

Star schema

dim3

b.Structura DW Schema fulg


de zapada

seminormalizat, avantajele modelului relaional.


tabelele dimensiune respecta regulile de normalizare din
modelul relaional =>economie de spaiu
nu va conduce la reducerea spaiului pt tabela de fapte
Avantaje:

Redundanta redusa
Usor de ntretinut

Dezavantaje: la cereri de interogare complexe(join)=>


creste timpul de raspuns

Ex: Schema fulg de zapada

dim 3
dim 4

dim1

dim 5
dim2

dim 6

tabela fapte
dim9

dim7
dim10

dim8
dim11

Snowflake schema

dim12

c. Structura DW Schema
constelaie de fapte
Schema galaxie
mai multe tabele de fapte, conectate ce
utilizeaz aceleai tabele-dimensiune

pe lng tabela de fapte Vnzri, o tabel


suplimentar de fapte Aprovizionri,
legata de dimensiuni

Ex: Schema constelaie de fapte

dim1

dim2

Tabela fapte 1
dim5

dim4

dim3
Tabela fapte 2
dim6

Constellation schema

Date si Metadate
4501.00

Data

Vanzari
Curent (2004)

Tuborg

Bucuresti
Ianuarie

Metadate

Vanzarile curente pentru Tuborg in Ianuarie in Bucuresti = 4501.00

2. OLAP

OLAP
Online Analytical Processing (OLAP)
foloseste o abordare multidimensionala
pentru a organiza si a analiza datele de
business
Intr-o abordare multidimensionala, datele
sunt organizate in dimensiuni, unde o
dimensiune reflecta cum gandesc despre
business utilizatorii de business

Business-Focused
Multidimensional Data

Exemplu utilizatorii vad datele organizate


pe produs, market si timp. Fiecare dintre
acestea este o dimensiune intr-o aplicatie
OLAP.

Business-Focused
Multidimensional Data

Business-Focused
Multidimensional Data

Figura contine dimensiunile si membri lor.


Aspectul ierarhic al dimensiunilor
reprezinta prima optiune pentru agregare.
De exemplu, Quarter 1 sumarizeaza
datele pentru membri copii ai sai :
January, February and March.

Business-Focused
Calculations

Un motiv pentru care sistemele OLAP sunt


atat de rapide este ca ele preagrega
valorilor care ar fi fost calculate "pe loc" in
sistemele traditionale de baze de date.
Motorul de calcul se ocupa atat cu
agregarea datelor, cat si cu calculele de
business.

Business-Focused
Calculations

Intr-un sistem OLAP, capabilitatile analitice


sunt independente de cum sunt datele
prezentate. Calculele analitice sunt
stocate centralizat in metadatele
sistemului, nu in fiecare raport.

Business-Focused
Calculations
Doua exemple de calcule disponibile in sistemele
OLAP :
Aggregations fac "roll up" pe nivelurile
organizate in ierarhii. De exemplu, aplicatia poate
sa faca vanzarile Roll Up pe week, month, quarter
si year.
Time-series calculations, cum ar fi : percent
difference from last year, period-to-date values etc.

Notiunea de hipercube sau cub cu mai mult


de 3 dimensiuni, este fundamentala pentru a
intelege software-ul multidimensional care
foloseste hipercuburile asa cum un
spreadsheet foloseste worksheets si bazele
de date tabelele.
Toate cautarile, raportarile si analizele sunt
facute in termen de hipercuburi.

3. Hipercuburi

Hipercuburi

Consiliul OLAP defineste hipercubul (cub ndimensional) ca fiind


un grup de celule aranjate dupa dimensiunile
datelor. Dimensiunile tipice ale datelor intr-o
intreprindere sunt timpul, produsele, regiunile
geografice, canalele de distributie etc.

hypercub = Set de masuri (variabile/indicatori) ce


utilizeaza aceleasi dimensiuni de identificare

Multidimensional

Multidimensionalitatea converteste
bidimensionalul, date orientate pe rand si coloana
(row and column oriented data), intr-un cub
multidimensional; fetele cubului reprezinta
dimensiuni.

Intr-un cub multidimensional,utilizatorii pot


vizualiza simultan diverse dimensiuni.(vanzari pe
luna, vanzari pe produs, vanzari pe toate pietele/
locatiile)

Viziunea Multidimensionala a Informatiei


Profit
Total Exp.
Margin
Cogs

Denver
LA
SF

West
February
March
Actual Budget Actual Budget
Sales

Camera
TV
VCR
Audio
Margin Camera
TV
VCR
Audio

VCR

Jan
Feb
Mar
Qtr 1
Jan
Feb
Mar
Qtr 1

Apr
Mar
Feb
Jan
Actual
Budget
Sales Margin Sales Margin

East
West
South
Total
East
West
South
Total

TV

VCR

Apr
Mar
Feb
Jan

TV

East
West
Actual Budget Actual Budget

Sales
TV
VCR
East

Actual
Budget
Forecast
Variance
West Actual
Budget
Forecast
Variance

Margin
TV
VCR

Viziunea Multidimensionala a Informatiei

Structureaza datele in jurul unor concepte


naturale/normale de business
Pune la dispozitie baza pentru analize de business
eficiente si sofisticate.
LIGHT
THUND
January

Accountant

February

Actual Budget Actual Budget


Sales
Margin

Region Manager

OEM
Retail
OEM
Retail

Product Manager
Financial Analyst

Analiza datelor din perspective multiple


January Gross Sales
for All Products and All
Customers in the
Current Year

Operatii in Modele de date


Multidimensionale
O dimensiune se comporta ca un index pentru
identificarea valorilor intr-un tablou multidimensional

Selectia (slice si dice)


Slicing: Selectarea unui membru din toate dimensiunile
mai
putin doua; cele doua dimensiuni ramase definesc un
tablou bidimensional
Dicing: selectarea unor intervale pentru valorile
membrilor dimensiunilor; se defineste un subcub ndimensional

Operatii in Modele de date


Multidimensionale

Agregare si detaliere

Membrii (valorile) dimensiunilor pot fi organizati pe baza unor


relatii de tip parinte-copil, unde un membru parinte reprezinta
consolidarea (agregarea) membrilor copil ; Rezultatul este o
ierarhie si relatiile de tip parinte/copil sunt relatii ierarhice

Timp

Piete

Masuri

Produse

An

Tara

Profit

Categorie

Trimestru

Regiune

Vanzari

Brand

Luna

Zona

Prf.marginal

Pachet

Saptamana

Oras

Cheltuieli

Marime

Operatii in Modele de date


Multidimensionale
Agregare

si detaliere

Agregare (roll up) agregarea (sumarizarea cubului) se face


traversand ierarhia de la nivelele inferioare la cele superioare);
pe masura ce valorile sunt agregate, cardinalitatea scade si
cubul devine mai mic

Detaliere (drill down) Detalierea este operatia


opusa agregarii. Se porneste de la date sumarizate
catre date mai detaliate, traversand ierarhia de la
nivelele superioare la cele inferioare.

Operatii in Modele de date


Multidimensionale

Operatii de vizualizare (pivot)


Reorientarea (rotirea) cubului pentru a vedea datele din
perspective difeirte; De obicei se pivoteaza datele pentru
obtinerea de rapoarte bideminsionale.

S-ar putea să vă placă și