Sunteți pe pagina 1din 12

SAD Sistemas de Apoio Deciso

Projeto Fsico DW e ETL Profa.: Ellen Souza

UFRPE

1 Universidade Federal Rural de Pernambuco Unidade Acadmica de Serra Talhada

Projeto Fsico do DW
Vrios aspectos relacionados ao projeto fsico de BDs devero ser considerados para garantir performance no acesso s estruturas relacionais ou dimensionais:
Estimativa de Tamanho do DW/DM Criao do Data Base Criao de Espaos e Tabelas Criao das Tabelas Definio de Campos Chaves e Restries Definio de ndices e Estruturas especiais para acesso aos DW/DM
2/23

Estimativa de Tamanho
Tabelas Fatos
Supor 5 transaes de cliente dia, 15.000 clientes e perspectiva de armazenamento para 6 anos 5 x 15.000 x 365 x 6 = 164.250.000 ocorrncias Supor 7 chaves na tabela Fato, cada qual com 4 bytes. Quatro mtricas, cada qual com 4 bytes. Logo, cada linha da tabela Fato, ocupa 44 bytes Estimativa Final = 164.250.000 x 44 bytes = 7,2 GB

Tabelas Dimenso e ndices


Mdia de 20 a 25% do tamanho da Fato = 1,4 GB

Total = 7,2 GB + 1,4 GB = 8,6GB


Lembrar de Estimar as Tabelas Agregadas!!
3/23

Criao do Banco de Dados


Pontos importantes a considerar na definio de BDs para DW/DM so:
Analisar o valor default do bloco usado pelo SGBD para o armazenamento dos dados Quanto maior for o tamanho dos blocos, maior ser a capacidade de armazenamento de estruturas recuperadas num nica operao de input/output (I/O) Avaliar o overhead de cada bloco, para ter idia do valor lquido de bytes de cada bloco, uma vez que estes deixam certo percentual de espao reservado para estruturas internas de controle

4/23

Criao de Espaos e Tabelas


As tabelas e ndices que compem um BD habitam um espao lgico denominado Espao de Tabela ou Table Space. Consideraes:
Dados e ndices, se possvel, devem ficar em espaos fsicos separados Avaliar a possibilidade de distribuir os dados em unidades independentes de armazenamento com o propsito de explorar o processamento paralelo oferecido por alguns SGBDs Adotar estratgia de particionamento para DWs: Horizontal: Diviso de tabelas com muitos campos Vertical: Diviso de tabelas em segmentos (range) Data: Comum em DW/DM a separao por Tempo
5/23

Criao das Tabelas


Algumas consideraes para a criao de tabelas para DW/DM
Atentar para o tamanho limite (em bytes) de linhas e colunas do SGBD Atentar para a definio default de valores nulos para campos, evitando a sua definio (nulo) em campos de tabela Fato Lembrar do conceito de Surrogate Key (chave artificial), ou seja, campo chave sem valor semntico especfico

6/23

Definio de Campos Chaves e Restries


A principal definio de restrio para as chaves primria e estrangeiras
Defina chave primria (PK) para cada tabela Dimenso. Isso criar um ndice automtico Considere a definio de restrio de chave estrangeira (FK) de fato com a chave primria (PK) de cada dimenso. Snowflake tambm precisa de restries Definir PK para tabela Fato, incluindo todas as chaves estrangeiras das Dimenses Definir ndices separados para cada FK da Fato ndices bit map, B-tree, clusterizados e etc.
7/23

Definio de Campos Chaves e Restries


Esquema de chaves e ndices de Tabelas Dimenso e Fato

8/23

Opes de Armazenamento
A estratgia de armazenamento do DW/DM permite as seguintes opes:
ROLAP: so usados os prprios SGBDs relacionais, com as tabelas sendo implementadas com estruturas relacionais clssicas Oferece todas as vantagens de um SGBDR como debug, paralelismo, otimizadores, monitorao e etc. Exige cuidado no projeto, onde o excesso de tabelas normalizadas podem comprometer a performance das buscas Esquema estrele e floco de neve
9/23

Opes de Armazenamento
MOLAP: so usado gerenciadores de BDs proprietrios, com caractersticas de armazenamentos especiais e ferramentas para tratamento dimensional de dados Dispem de propriedades especiais de armazenamento como matrizes, operaes com array e indexao de bitmap No oferece recursos de debug, paralelismo, log, otimizadores e monitorao encontrados nos SGBDR, vista que a especialidade para anlise multidimensional Tanto as estruturas bsicas (maior granularidade), quanto as estruturas agregadas so armazenadas nesse formato
10/23

Opes de Armazenamento
HOLAP: representa uma abordagem hibrida, um misto das estratgias ROLAP e MOLAP As estruturas relacionais so normalmente utilizadas para os dados de maior granularidade As estruturas dimensionais nativas so dedicadas ao armazenamento de agregados (menor gro) DOLAP: representa uma abordagem entre estruturas dimensionais ou relacionais, transferidas do DW/DM para as estaes cliente So armazenadas com o objetivo de facilitar a performance de certas anlises, minimizando o trfego de informaes entre o ambiente cliente e o ambiente servidor
11/23

Opes de Armazenamento
Opes de armazenamento/ implementao de estruturas dimensionais

12/23

Processo de ETL
ETL, do ingls Extract Transform Load (Extrao, Transformao e Carga), o processo de extrair dados de um sistema (um banco de dados), transform-los de alguma forma e inseri-los em outro banco de dados especial, o Data warehouse (DW). A transformao pode ser uma limpeza dos dados, alterao de acordo com regras de negcios, traduo etc. Em portugus, podemos encontrar a sigla ETC no lugar de ETL.
13/23

Processo de ETL
A aquisio de dados par o DW envolve os seguintes passos:
1. Os dados precisam ser extrados de fontes mltiplas, heterogneas. Ex.: BDs, arquivos textos (flat files), mercado financeiro, dados do ambiente e etc. 2. Os dados precisam ser formatados visando consistncia dentro do DW. Ex.: empresas subsidirias de uma corporao podem calendrios fiscais diferentes, com trimestres fiscais que terminam em datas diferentes, tornando difcil agregar os dados financeiros por trimestre
14/23

Processo de ETL
A aquisio de dados par o DW envolve os seguintes passos:
3. Os dados precisam ser limpos para assegurar a validade. A limpeza um processo complicado e complexo que tem sido identificado como o componente com maior exigncia de trabalho na construo do DW. Ex.: uma mesma cidade pode aparecer com diversos nomes Joao Pessoa, Joo Pessoa, Joo Pessoa PB Esse processo tambm chamado de backflushing

15/23

Processo de ETL
A aquisio de dados par o DW envolve os seguintes passos:
4. Os dados precisam ser ajustados ao modelo de dados do DW. Os dados precisam ser convertidos de modelo OO, ER, rede, hierrquico para um modelo multidimensional. Ex.: O campo Nome da tabela Cliente, ser divido em dois campo na tabela Dimenso Cliente: PrimeiroNome, ltimoNome; Ex.: Os dados das tabelas Produto e Fornecedor, sero agrupados na dimenso Produto, que tamb contm informao de Fornecedores

16/23

Processo de ETL
A aquisio de dados para o DW envolve os seguintes passos:
5. Os dados precisam ser carregados no DW. O volume dos dados torna a carga uma tarefa significativa. Ferramentas de monitorao de carga, bem como mtodos de recuperao de cargas incompletas ou incorretas Atualizao Incremental x Carga Total
Quo atualizados os dados devem estar? O DW pode ficar fora de servio por quanto tempo? Quais os requisitos de distribuio (replicao partio? Qual o tempo de carga?

17/23

Processo de ETL
Consideraes sobre a carga das Tabelas:
Planeje cuidadosamente a carga dos DW/DM, analisando estratgias de mapeamento entre os dados fonte e o DW/DM Planeje o processo de transformao dos dados, atentando para a sequncia dos processamentos, arquivos intermedirios, tabelas de mapeamento de cdigo e etc. Alguns processos de transformao so: Filtro: somente valores especificados sero considerados
18/23

Processo de ETL
Consideraes sobre a carga das Tabelas:
Integrao: quando o mesmo dado se origina de fontes diversas Condensao: reduo e sumarizao (modificao de granularidade). Ex.: data (ddmmaaaa) em trs unidades separadas: dia, ms, ano Converso: tipos, formatos, unidades, obscurecimento (efeito de segurana). Ex.: 1, 2, 3 para ruim, mdio, bom Derivao: dados obtidos por clculos no processo de transformao

19/23

Processo de ETL
Consideraes sobre a carga das Tabelas:
Considere os processos de transferncia entre ambientes operacionais diferentes, como legado e cliente/servidor Considere a possibilidade de usar utilitrios de carga oferecidos pelos SGBDs ou ferramentas especficas SQL*Loader (Oracle), BCP (SQL Server) Quando um certo volume de dados atingido, fica impraticvel a carga total. Neste momento recursos para realizao de atualizao incremental devem estar disponveis

20/23

10

Processo de ETL
Consideraes sobre a carga das Tabelas:
Considere a possibilidade eliminar (drop) os ndices antes de efetuar as cargas e recri-los posteriormente

21/23

Projeto
Construir o projeto fsico do DW para os modelos dimensionais do projeto final da disciplina
Coluna A, tamanho 4 bytes

22/23

11

Referncias
Leitura Obrigatria
Captulo 7 - Barbieri, Carlos. BI Business Intelligence. Axcel Books. 2001.

Leitura Sugerida
Captulo 28 - Viso geral de data warehousing e OLAP. Elmasri, R., Sistemas de Bancos de Dados. Addison Wesley, 2005.

23/23

12

S-ar putea să vă placă și