Documente Academic
Documente Profesional
Documente Cultură
PROCESSAMENTO DE DADOS
MONOGRAFIA
MODELAGEM DIMENSIONAL
SO PAULO
2012
MODELAGEM DIMENSIONAL
RAMON RAMOS DE CASTRO NOVAIS
SO PAULO
2012
DEDICATRIA
AGRADECIMENTOS
SUMRIO
DEDICATRIA _________________________________________________________________________ 3
AGRADECIMENTOS ____________________________________________________________________ 4
SUMRIO ____________________________________________________________________________ 5
LISTA DE TABELAS _____________________________________________________________________ 7
LISTA DE GRFICOS ____________________________________________________________________ 8
LISTA DE FIGURAS _____________________________________________________________________ 9
RESUMO ____________________________________________________________________________ 10
ABSTRACT ___________________________________________________________________________ 11
INTRODUO ________________________________________________________________________ 12
1.
2.
HISTRIA ____________________________________________________________________ 13
CENRIO ATUAL _______________________________________________________________ 15
DATAWAREHOUSE ______________________________________________________________ 15
2.2.
BANCO DE DADOS RELACIONAIS_____________________________________________________ 21
2.2.1.
Elementos _____________________________________________________________ 21
3.
4.
ETL ____________________________________________________________________________ 31
4.1.
4.2.
5.
6.
6.1.
CRITRIOS ___________________________________________________________________ 48
6.1.1.
Habilidade para execuo _________________________________________________ 48
6.1.2.
Abrangencia de viso de mercado __________________________________________ 50
6.2.
FORNECEDORES: PONTOS FORTES E CUIDADOS ___________________________________________ 53
6.2.1.
Informatica ____________________________________________________________ 53
6.2.2.
IBM ___________________________________________________________________ 55
6.2.3.
Microsoft ______________________________________________________________ 58
6.2.4.
Oracle _________________________________________________________________ 60
CONCLUSO _________________________________________________________________________ 63
REFERCIAS BIBLIOGRAFICAS ___________________________________________________________ 64
WEBGRAFIA _________________________________________________________________________ 65
LISTA DE TABELAS
LISTA DE GRFICOS
LISTA DE FIGURAS
10
RESUMO
Um data warehouse consiste em uma coleo de dados orientada por
assuntos integrados, variante no tempo e no voltil que d suporte
tomada de deciso pela alta gerncia da empresa.
tambm um conjunto de ferramentas e tcnicas de projeto, que
quando aplicadas s necessidades especficas dos usurios e aos bancos de
dados especficos permitir que planejem e construam um Depsito de
Dados.
O Data Warehouse no um produto e no pode ser comprado como
um software de banco de dados. O sistema de Data Warehouse similar ao
desenvolvimento de um ERP, ou seja, ele exige anlise do negcio, exige o
entendimento do que se quer retirar das informaes. Apesar de existirem
produtos que fornecem uma gama de ferramentas para efetuar o Cleansing
dos dados, a modelagem do banco e da apresentao dos dados, nada disso
pode ser feito sem um elevado grau de anlise e desenvolvimento.
O sistema de Data Warehouse no pode ser aprendido ou codificado
como uma linguagem. Devido ao grande nmero de componentes e de
etapas, um sistema de Data Warehouse suporta diversas linguagens e
programaes desde a extrao dos dados at a apresentao dos mesmos.
11
ABSTRACT
A Data Warehouse consists in a integrated colection of subject
oriented datas, that varies on time and is not volatile which gives suport to
the decision taked by the company's high management.
It is also a series of tools and project tecniques, that when applied to
the users' specifics needs and specifics data bases will allow to be planed
and built a Data Warehouse.
The Data Warehouse is not a product and can not be bought as a data
base software. The Data Warehouse system is similar to the development
of a ERP, in other words, it demands a business analysis, demands the
understainding of the business and demands what is needed to retrieve of
the informations. Although the existence of products that provide a huge
number of tools to perform the data Cleaning, the data base modeling and
the data presentation, none of this can be done without a high level of
analysis and development.
The Data Warehouse system can not be learned or codified as a
language. Due to its greats numbers os components and steps, a Data
Warehouse system suports many languages and programing since the data
extraction to the presentation of then.
12
INTRODUO
13
1. BUSINESS INTELLIGENCE
aprofundado
do
cenrio
econmico.
Faz-se
necessria
uma
1.1. Histria
14
15
Por muitos anos BI tem sido utilizado por grandes corporaes apenas, j que
essas eram as nicas capazes de investir grandes quantias, tanto de tempo quanto de
dinheiro, para desenvolver os projetos de BI.
Atualmente uma nova gerao de produtos de BI tem surgido: alta performance,
operaes intuitivas e rpida implantao so caractersticas das novas solues que
atendem a empresas de todos os tamanhos.
Essas novas solues se mantm fieis ao objetivo inicial de apoiar a tomada de
deciso transformando dados em conhecimento. No entanto, em vez de estar atado a
questes de estrutura e conformidade que caracterizam os antigos produtos de BI, a
nova abordagem foca na implantao simples e resultados rpidos. A importncia dessa
economia de tempo no pode ser subestimada j que o custo de projetos longos no est
apenas no seu valor absoluto, mas no tempo que se gasta e na falta de resultados no
tempo que o mercado necessita.
1.3. Datawarehouse
Datawarehouse pode ser definido com as duas palavras que compe seu nome:
Data, do ingls, dados; Warehouse, do ingls, armazm, local para estocar seus bens.
Datawarehouse um local onde guardado toda informao estratgica para empresa
para auxiliar na tomada de deciso.
16
17
18
Nas dcadas de 1960 e 1970, as empresas descobriram que estava muito custoso
empregar um nmero grande de pessoas para fazer trabalhos como armazenar e indexar
(organizar) arquivos. Por este motivo, valia a pena os esforos e investimentos em
pesquisar um meio mais barato e ter uma soluo mecnica eficiente.
Em 1970 um pesquisador da IBM - Ted Codd 4- publicou o primeiro artigo
sobre bancos de dados relacionais. Este artigo tratava sobre o uso de clculo e lgebra
relacional para permitir que usurios no tcnicos armazenassem e recuperassem grande
quantidade de informaes. Codd visionava um sistema onde o usurio seria capaz de
acessar as informaes atravs de comandos em ingls, onde as informaes estariam
armazenadas em tabelas.
4 Edgard Frank Ted Codd (1923-2003) cientista computacional ingls. Realizou vrias contribuies cincia computacional, mas o modelo relacional
permaneceu como seu maior feito.
19
5 Sistema de banco de dados constitudo como um projeto da IBM San Jose Research (agora IBM Almaden Research Center) em 1970. Precursor do SQL, foi o
primeiro sistema a demonstrar que um modelo relacional poderia oferecer um bom desempenho em processamento de transaes.
6 rea de business do Instituto Tecnolgico de Massachusetts, em Cambridge.
7 Structured Query Language/Data System. Uma implementao imperfeita do modelo relacional de Ted Codd, foi o primeiro uso comercial de um DBMS
(Database Management System) da IBM em seus mainframes utilizando a linguagem SQL. Introduzido no mercado no inicio de 1980.
8 Criando em 1983 pela IBM. Existem diferentes verses do DB2 que rodam em desde um simples PDA, at em potentes mainframes e funcionam em servidores
baseados em sistemas Unix, Windows, ou Linux.
9 Organizao Internacional de Normalizao/Padronizao. Fundada em 1947, em Genebra, Sua, a ISSO aprova normas internacionais em todos os campos
tcnicos.
20
realizado pela Honeywell Information Systems Inc10., cujo sistema foi lanado em
junho de 1976. O sistema era baseado em muitos princpios do sistema que a IBM
concebeu, mas foi modelado e implementado fora da IBM.
O primeiro sistema de banco de dados construdo baseado nos padres SQL
comearam a aparecer no incio dos anos 80 com a empresa Oracle atravs do Oracle 2
e depois com a IBM atravs do SQL/DS, servindo como sistema e repositrio de
informaes de outras empresas.
2.1.2. Evoluo
21
2.2.1. Elementos
11 American National Standards Institute, com sede em Washington, DC. Organizao privada sem fins lucrativos que supervisiona o desenvolvimento de padres
de consenso voluntrio para produtos, servios, processos, sistemas e pessoal nos Estados Unidos.
12 Neste modelo as entidades se representam como ns e suas relaes so as linhas que os unem. Nesta estrutura qualquer componente pode se relacionar com
qualquer outro como em uma teia de aranha.
13 Utiliza rvores para a representao lgica dos dados. Estas rvores so compostas de elementos chamados ns. O nvel mais alto da rvore denomina-se raiz.
Cada n representa um registro com seus correspondentes campos.
22
23
3.1. Histria
1970, a preparao:
Dcada tecnolgica com predominncia de mainframes. Apesar do desempenho
em executar funes rotineiras, os dados criados desse processamento so isolados em
bancos de dados primitivos e conjunto de arquivos apenas acessveis aos departamentos
de processamento de dados responsveis pelo mainframe.
Era quase impossvel, por exemplo, comparar o desempenho de lojas de varejo
da regio oriental de um grupo de empresas com as lojas da regio ocidental, ou com
seus concorrentes ou mesmo contra seu prprio desempenho em um perodo anterior.
Como tentativa de obter essas informaes, grandes demandas de relatrios eram
frequentes aos departamentos de processamento de dados, gerando filas constantes de
pendncias.
A fim de suprir essas necessidades em tempo mais hbil, algumas empresas
adotaram uma abordagem interessante: eram identificados dados importantes e
constantemente requisitados (como informaes de clientes, vendas e despesas) e
periodicamente era feito a copia dos dados para fonte externa onde esses dados
poderiam ser acessados para formar relatrios comuns (como relatrios de lucro,
despesas, ganho por cliente).
O problema dessa abordagem era sua aplicabilidade. Em vista que a fonte inicial
dos dados eram mainframes de certas empresas, comparativos entre empresas com
mainframes configurados de forma diferente j no era possvel.
24
14 Califrnia Institute of Technology. Universidade privada localizada em Pasadena, Califrnia. Sendo uma das primeiras universidades do mundo em pesquisa, a
Caltech mantm uma forte nfase e tradio nas Cincias naturais e Engenharia. De acordo com a classificao anual da Times Higher Education de 2011, a
Caltech a melhor universidade do mundo.
15 Teradata Corporation fundada em 1979. Considerada pela pesquisa do Instituto Gartner uma das empresas lideres em datawarehouse e ferramentas business
analytics.
25
Processamento Analtico
Dados Normalizados
Dados Consistentes
Controle de Concorrncias
Dados Concorrentes
Ferramentas
especiais
usurios finais
Respostas imediatas
Tabela 1- Comparativo entre processamento transacional e analtico
para
26
27
28
29
Outro tipo de estrutura bastante comum, o modelo de dados Snow Flake (Floco
de Neve), que consiste em uma extenso do modelo Estrela onde cada uma das "pontas
da estrela" passa a ser o centro de outras estrelas. Isto porque cada tabela de dimenso
seria normalizada, "quebrando-se" a tabela original ao longo de hierarquias existentes
30
Devido a essa estrutura, o acesso aos dados mais lenta, mas facilita na
construo de cubos de algumas ferramentas BI(Business Intelligence) e BA (Business
Analytics).
A deciso de optar pelo esquema estrela ou pelo floco de neve deve ser tomada
levando-se em considerao o volume de dados, o SGBD, as ferramentas utilizadas, etc.
Abaixo temos uma tabela comparativa entre esses dois modelos.
Tabela dimenso
Modelo Estrela
No normalizada
Normalizada
31
Tamanho fisico
para
evitar
repeties
Velocidade
consultas
das
Rpida
4. ETL
16 Coleo de dados armazenados e acessados de forma sequencial que contem registros sem relao estruturada
32
33
34
35
data
warehouses
podem
substituir as
informaes
existentes
36
O Ciclo de vida do Data Warehouse composto por uma srie de etapas. Iniciase pelo planejamento do Programa ou Projeto, passamos pelo levantamento e definio
dos requisitos de negcios e a nos dividimos em trs caminhos:
Arquitetura e Design Tcnico
Modelagem Dimensiona
Planejamento e desenvolvimento da aplicao de BI, o front-end17 propriamente
dito.
37
38
39
18 William H. Inmon (1945) cientista computacional conhecido como pai do datawarehouse, criou a definio mais aceitvel de datawarehouse: coleo de
dados orientados, no volteis, integrados, e variados pelo tempo para o auxiliar no suporte de decises
40
encontrados
em
cada
um
dos
sites,
qualquer
interseo
ou
compartilhamento dos dados de um data warehouse local para outro apenas uma
coincidncia. Os dados armazenados no data warehouse global so de interesse para a
empresa como um todo. Estes dados so integrados a partir das intersees naturais dos
dados existentes nos sites que compem o ambiente distribudo. O relacionamento entre
o data warehouse global e os data warehouses locais pode ser observado da seguinte
forma. Os dados levemente agregados residem no nvel global, enquanto que os dados
detalhados residem nos nveis locais. Como pode ser observado, os dados localizados
no data warehouse global e nos data warehouses locais so mutuamente exclusivos:
41
qualquer dado no data warehouse global no encontrado nos data warehouses locais, e
vice-versa. Em contrapartida, o projeto estrutural dos dados corporativos armazenados
no data warehouse global pode sobrepor pores dos modelos de dados dos data
warehouses locais. Inmon prope uma variao desta arquitetura, onde consiste no prarmazenamento dos dados a serem enviados ao data warehouse global por cada um dos
sites locais. Assim, cada site que participa do ambiente armazena os dados globais
correspondentes s informaes locais em uma base de dados especial, chamada de rea
de armazenamento do data warehouse global, antes de envi-los ao data warehouse
global propriamente dito. Neste caso, a restrio de exclusividade mtua dos dados
observada tanto entre os dados localizados nos data warehouses locais e nas reas de
armazenamento do data warehouse global quanto entre os dados localizados nos data
warehouses locais e no data warehouse global. Contudo, pode haver alguma
redundncia entre os dados armazenados no data warehouse global e nas reas de
armazenamento do data warehouse global em cada um dos sites, caso a poltica adotada
pela empresa seja a no remoo dos dados destas reas aps o envio destes ao data
warehouse global. O Grfico 7 representa as reas de armazenamento do data warehouse
global em cada um dos sites.
42
so
43
fisicamente distribuda atravs dos ns de uma rede de computadores. Uma vez que o
data warehouse distribudo consiste na integrao lgica de diversos bancos de dados
locais, ele no existe fisicamente nas arquiteturas de Moeller. Mais especificamente, o
data warehouse distribudo apenas um conceito virtual. Em particular, os termos local
e global so utilizados para realizar a distino, respectivamente, entre os aspectos
relacionados a um nico site e os aspectos relacionados ao ambiente de data
warehousing como um todo. Por exemplo, um data warehouse local refere-se a um
banco de dados pr-existente que reside em um site especfico da rede, ou seja, refere-se
a um data mart.
H trs diferentes tipos de arquitetura de data warehousing distribudo
apresentadas por Moeller [MOE01]: arquitetura de data warehousing distribudo
homogneo, heterogneo e com um SGBD distribudo nico.. importante salientar
que Moeller associa os seus trs tipos de arquitetura de data warehousing distribudo
abordagem de desenvolvimento, na qual uma corporao j gerencia vrios data marts
independentes e deseja possibilitar, como uma atividade subseqente, o acesso global
dos usurios de SSD a estes data marts atravs de um data warehouse global virtual. Ou
seja, os dados so mantidos nas fontes de dados e as consultas so decompostas em
tempo real e submetidas s diversas fontes, onde o resultado integrado e mostrado
para o usurio que efetuou a consulta. Isto obtido atravs do desenvolvimento de um
esquema global da empresa como um todo, que representa a integrao dos esquemas
locais dos data marts existentes, alm da interconexo destes data marts atravs da rede.
44
Cada site nesta arquitetura possui o seu prprio banco de dados autnomo e pode
representar um data mart independente. A arquitetura homognea caracterizada por
apresentar em todos os sites o mesmo SGBD. So nestes SGBD que se armazenam os
data marts a serem distribudos. A ferramenta de gerenciamento do banco de dados
distribudo, por sua vez, responsvel por integrar os diversos bancos de dados locais,
oferecendo uma viso lgica do data warehouse corporativo, alm de gerenciar as
consultas dos usurios de SSD aos bancos de dados fora de suas redes locais. Essa
ferramenta baseada em dois elementos centrais relacionados manipulao dos dados
distribudos: esquema de fragmentao e esquema de alocao. O esquema de
fragmentao descreve como os relacionamentos globais so divididos entre os bancos
de dados locais. J o esquema de alocao especifica a localizao de cada um dos
45
46
Cada site nesta arquitetura possui o seu prprio banco de dados autnomo e pode
representar um data mart independente. A arquitetura heterognea possibilita que
diferentes SGBD sejam utilizados nos sites da arquitetura, para armazenar os bancos de
dados a serem distribudos. de responsabilidade da ferramenta de gerenciamento do
banco de dados distribudo tratar e oferecer os servios adicionais voltados ao
tratamento da heterogeneidade. Alm desses servios adicionais, as demais
funcionalidades da ferramenta de gerenciamento do banco de dados distribudo na
arquitetura de data warehousing distribudo heterogneo so as mesmas funcionalidades
oferecidas por essa ferramenta na arquitetura homognea:
Conectar os diversos bancos de dados independentes atravs de uma rede de
computadores, oferecendo uma viso lgica integrada dos dados corporativos;
Atender s consultas dos usurios de SSD que requisitam dados atravs dos sites
da arquitetura; e
Proporcionar os esquemas de fragmentao e de alocao.
essencial a presena de um modelo de dados global integrado para o bom
funcionamento da ferramenta de gerenciamento do banco de dados distribudo.
5.3.3. Arquitetura
de
Data
Warehousing
Distribudo
com
SGBD
Distribudo nico
47
Grfico 10 - Arquitetura do data warehouse distribudo com SGBD distribudo nico de MOELLER
48
as pores do data warehouse corporativo armazenadas nos diversos sites dessa ltima
arquitetura no podem ser consideradas bancos de dados locais autnomos. Apesar
disto, indispensvel a definio de um modelo de dados corporativo na arquitetura
com SGBD distribudo nico.
6.1. Critrios
49
iterao do Quadrante Mgico coloca-se uma ponderao alta neste critrio para
refletir as permanentes preocupaes dos compradores sobre os riscos
associados com os fornecedores, como resultado das atuais condies
econmicas.
Execuo de Vendas / Preos. A eficcia do modelo de preos do fornecedor e
de seus canais de vendas diretos e indiretos. Devido aos exames minuciosos
sobre as questes de custos e natureza altamente competitiva deste mercado,
aumenta-se o peso deste.
Receptividade do mercado e histrico. O grau em que o vendedor tem
demonstrado a capacidade de responder com sucesso a demanda do mercado por
ferramentas de integrao de dados durante um perodo prolongado.
Execuo de Marketing. A eficcia global dos esforos de marketing do
fornecedor, o que influencia o grau de "mind share19", quota de mercado e
fidelidade dos clientes alcanada pelo vendedor.
Experincia do Cliente. O nvel de satisfao manifestado pelos clientes em
relao ao suporte de produtos, servios profissionais e relacionamento geral
com o fornecedor, bem como as percepes dos clientes de valor de ferramentas
de integrao de dados relativos aos custos e expectativas. Nesta iterao do
Quadrante Mgico mantm-se o peso elevado deste critrio para refletir a forte e
contnua preocupao que os compradores esto colocando sobre estas
consideraes, como resultado das condies econmicas e presses
oramentais.
Critrios de avaliao
19
Peso
Termo de marketing. Indica o nvel de que certa marca est gravada no subconsciente da pessoa.
50
Produto/Servio
Alto
Viabilidade geral
Alto
Alto
Mdio
Execuo de Marketing
Mdio
Experincia do Cliente
Alto
51
Peso
Market Understanding
high
Marketing Strategy
standard
Sales Strategy
standard
52
high
Business Model
standard
Vertical/Industry Strategy
low
Innovation
high
Geographic Strategy
standard
Tabela 4 - Abrangncia de viso - Peso dos critrios
53
6.2.1. Informatica
54
55
6.2.2. IBM
56
57
Cuidados:
Em 2010 houve menor incidncia de relatos de problemas em alinhar os
diversos componentes, mas ainda h relatos sobre um grande numero de
moving parts que dificulta a implementao da soluo. Como resultado, os
clientes relataram a experincia de instalao da soluo como desafiadora.
Apesar destes desafios, a maioria dos clientes indicam que pretendem adquirir
novos produtos ou licenas do portflio InfoSphere nos prximo 12 meses.
A mesma situao existente em 2009. Durante 2010, a IBM se focou menos em
novas funcionalidades e mais em melhorar a qualidade de seus produtos.
Enquanto a IBM fornece vrios pontos de integrao entre as tecnologias
InfoSphere e o WebSphere de processo e aplicao de integrao de
capacidades, a maioria dos clientes os utiliza separadamente.
O preo continua sendo a maior das preocupaes para os clientes IBM. O uso
da velocidade da CPU como principal parmetro de preo (adiciona
complexidade para os clientes auditarem e modificarem suas implementaes) e
o relativamente alto custo de uma implementao tpica (em comparao com
seus concorrentes) criam algumas perspectivas em fornecedores alternativos ou
limitar investimentos para um pequeno numero de componentes.
58
6.2.3. Microsoft
59
60
6.2.4. Oracle
seu
potencial
adicionando
classes
empresariais
61
62
63
CONCLUSO
64
REFERCIAS BIBLIOGRAFICAS
65
WEBGRAFIA
http://www.virtualtechtour.com/assets/GARTNER_DI_MQ_2010_magic_quadr
ant_for_data_inte_207435.pdf (Acessado em Agosto de 2012).
http://www.kimballgroup.com/ (Acessado em Julho de 2012).
http://pt.scribd.com/doc/86014285/9/Modelo-Relacional (Acessado em Julho de
2012).