Documente Academic
Documente Profesional
Documente Cultură
ETL
Kimball University
2008
As Metas
Planejamento
Tabela fato
Tabela dimenso
O desafio do ETL
Custo eficaz
Confivel
Extensvel
Compatvel
Observvel
Seguro
Todos entendem E, T, L
E:
T:
L:
Depende da
Origem
Quais ferramentas esto disponveis
As habilidades dos envolvidos no trabalho
A ferramenta de consulta e relatrio
prepare to start
Comprehensive
Requirements
Logical Data
Map
Conhecer os dados
Data Profiling (1)
Change Data
Capture (2)
Extract (3)
Result:
Extracted Tables
incl Format
Conversions
judge data
Isolar as alteraes
isolate changes
Carregar no DW
get into DW
T: Tratar e conformar
Second : Clean and Conform
cleaning machinery
Controle de limpeza
cleaning control
d
Integrao
integration
d
Error Event Schema (5)
w. Audit Dimension (6)
Deduplicating (7)
and Conforming
System (8)
Result:
Cleaned Tables
and Conformed
Dimensions
time
variance
Variao de tempo
keys
Chaves
hierarchies
Hierarquias
bridges
Tabelas pontes
Fact Table
Types (13):
Late Arriving
Data (16)
Surrogate Key
Generator (10),
Pipeline (14)
Dimension
Manager (17),
Fact Provider
(18)
Hierarchy Table
Manager (11):
Fixed, Variable,
Ragged
Special
Dimensions (12),
Multi-Valued
Dimensions (15)
Result:
Fact & Dim
Tables Ready for
Delivery
admin
Administrador
aggregates,
cubes, &
data
integration
Agregados, cubo
e integrao dos
dados
control
Proteger
protect
Origem
Backup (23)
Controlar
respond
speed
Security (32)
guard
Compliance (33)
Guardar
Conformidade
comply
Gerenciar
Velocidade
speed
Responder
Pipeline/Parallelize (31)
Mtrica
measure
source
Velocidade
Recovery/Restart (24)
control
Lineage &
Dependency (29)
Sorting (28)
manage
E (talvez)
R: Adaptar para Real Time
Necessidades do negcio
Consultas e relatrios
Indicadores de performance
Operao de manufatura
Operaes de venda
Web Site
Call Center
Recursos humanos
Anlise de comportamento
18
19
Email/SMS
Call center
Blogs
Redes sociais: Facebook, Twitter
Ofertas na web e no celular
Rastrear os registros RFID
Cestas inteligentes
Ex: Pagamento de pedgio
Integrao rpida de diversas fontes, mudando
constantemente!
Compliance
Segurana
Habilidades disponveis de TI
e licenas
Pros
Grficos, parmetros baseados em programao
Transparncia e lgica de alto nvel
Documentao automtica
Suporte extensivo automtico de metadados
Biblioteca de conexes
Balanceamento de carga automtico, paralelizao
Controle automtico da verso e origem
Habilidades do mercado e cursos lecionado pelos
fabricantes.
Contras
Custo elevado
Curva de aprendizado significativa
Agregados
Expresses gerais
Filtros
Joins
Lookups
Normalizadores
Gerador de seqncia
Stored procedures
Entrada e sada formato XML
Facilidade para escrever a sua prpria transformao
Posio no mercado
Current Marketplace ETL Tool Suite Offerings
Pentaho
Vantagens
Rpida implementao por desenvolvedores
experientes
Baixo custo de entrada
Altamente eficiente para aplicaes com destino
especfico
Desvantagens
Os scripts e os programas devem ser
especificamente documentados e mantidos
Todo suporte aos metadatas deve ser concedido pelo
programador
No h suporte automtico para o agendamento,
balanceamento de carga, controle de verso
Profiling
Ascential/IBM (ProfileStage)
Evoke Software (acquired by Informatica)
SAS DataFlux
Trillium/Harte Hanks
Pervasive Data Integrator
Cleansing
Ascential/IBM (acquisition of Vality)
First Logic (acquired by SAP Business Objects)
Group 1
SAS DataFlux
Search Software America
Trillium (acquired Harte Hanks)
PARTE I: EXTRACT,
CLEAN, AND
CONFORM
Kimball University
2008
1: Data Profiling
Objetivos
Conhecer a preciso de dados, contedo e relevncia
da fonte
Ateno com os dados que devem ser fixados antes
da extrao
Fornecer uma lista, mais completa possvel, com as
transformaes que devem ocorrer aps a extrao
dos dados
Gerar essas transformaes diretamente das
ferramentas de data profiling
Incorporar essas transformaes no fluxo de ETL
Inputs
Arquivos de log com as transaes do sistema
Auditoria nas tabelas de origem
Extrato de tempo
Cpia completa da tabela
Database triggers
Outputs
Inserts, updates, deletes
Cdigo do motivo
Conformidade metadata: aplicvel em um intervalo de
tempo, origem
Arquitetura
3: Extract
Objetivos
capacita
descreve
obriga para
permite
comunicao
entre
SOA Architecture
Promessas tradicionais
Unido fracamente
Padres abertos (UDDI, WSDL, SOAP, XML)
Sobering Lessons
SOA fora a organizao a confrontar
40
41
42
3: ETL Targets
Flat Files
Formato universal independente do DBMS,
bom para arquivo a longo prazo
Manipulao eficiente diretamente da linha de
comando
Notvel leitura, atualizao e acesso aleatrio no
bom
Agregaes usando quebra de linha bem eficiente
Objetivos
Agendar e executar jobs de todos os tipos
23: Backup
Objetivos
Operao automatizada
Falha de memria
Espao de tempo, espao de dados, espao de
ndice
Falha no data quality
Atualizao do sistema sem aviso prvio
Particionar os processos
Objetivo
Sistema global para gesto de qualidade dos dados
Mensurar a qualidade dos dados: identificar dados
que precisam ser tratados
Tomar as aes corretivas apropriadas
Dimenso de auditoria
Entrada
Dados sem tratamento
Dependncia lgica para agendamento de job
Sada
Dados tratados
Aes tomadas
Registro das aes tomadas e todos os eventos de
qualidade de dados
4: Informatica PowerCenter
Workflow Manager
Email Task
External Process
PowerCenter
Session
Decision Task
Objetivo
Estrutura central para capturar e responder eventos
de qualidade de dados
Histrico dos eventos de qualidade de dados
disponveis para anlise
Six Sigma Quality = 3.4 defeitos por milho de
oportunidades
Definir os objetivos do projeto e o que ser
entregue para o cliente
Mensurar o processo para determinar a
performance atual
Analisar e determinar a causa dos defeitos
Melhorar o processo eliminando os defeitos
Controlar performance de futuros processos
6: Audit Dimension
Objetivos
6: Instrumenting a Report
With an Audit Dimension
7: Deduplicating
Objetivos
7:
Microsoft:
Fuzzy
Grouping
Detailed
Results
Design:
8: Conforming
Objetivos
Key Concept:
Conformed Dimensions
Product
Manufacturing
Shipments
Warehouse
Inventory
Retail Sales
Turns
Framis
2940
1887
761
21
Toggle
13338
9376
2448
14
Widget
7566
5748
2559
23
8: Conforming
Questes de arquitetura
preciso definir bem o que ser entregue pelo gerente
da dimenso
7, 8: Deliver Cleaned,
Deduplicated,
Conformed, and Survived
Dimensions
d
Extracted
using adapter
Cleaned and
locally
Deduplicated
Cleaned and
locally
Deduplicated
Conformed
Source 1
Extracted
using adapter
Conformed
Merged,
Survived and
Globally
Deduped
Replication
Engine
Source 2
Conformed
Dimension ready
for Delivery
Extracted
using adapter
Source 3
Cleaned and
locally
Deduplicated
Conformed
Special contents:
1) dimension version number
2) back pointers to all source
natural keys
Alternativas
Microsoft Visual Source Safe
Objetivos
Monitorar status do job incluindo aqueles que ainda
esto pendente, executando, completo ou suspenso
nos registros histricos
Memria compartilhada
Tamanhos do buffer
Objetivos
Oracle table
BO table
This is
selected
Objetivo
Capturar, priorizar, gerenciar e comunicar todo
desenvolvimento, manuteno e problemas
operacionais
Resposta garantida
Nveis de escalonamento
Help desk
Administrador do sistema ou DBA
Gerente de ETL
86
Real Time
Data Extract & Transform
Extrao
Microbatch envia e recebe arquivos do staging file
Transformao
Estrutura e transformao limitada pela latncia
Regras de negcio devem ser limitadas ou inviveis
Os dados do real time podem ser substitudos por processos batch
peridicos
89