Documente Academic
Documente Profesional
Documente Cultură
Sumrio
1. Recuperao de dados ................................................................................................... 1
OLAP ...................................................................................................................................................... 1
2. Conceitos bsicos ............................................................................................................. 2
3. OLAP x OLTP....................................................................................................................... 2
4. Operaes OLAP................................................................................................................ 4
5. Arquitetura de servidores OLAP................................................................................ 10
6. Critrios de avaliao de produtos OLAP .............................................................. 14
Data mining ...................................................................................................................................... 16
7. Conceitos bsicos ........................................................................................................... 16
7.1. Processo de minerao ............................................................................................ 18
7.2. Tarefas de minerao ............................................................................................... 22
7.2.1. Regras de associao............................................................................................ 22
7.2.2. Classificao ............................................................................................................. 24
7.2.3. Agrupamento (Clustering) .................................................................................. 26
7.2.4. Abordagem para outros problemas de minerao .................................... 27
7.3. Conceitos Complementares .................................................................................... 28
Visualizao e anlise exploratria de dados ...................................................................... 30
Questes Comentadas.............................................................................................................. 33
Questes extras .......................................................................................................................... 49
Consideraes Finais ..................................................................................................................... 62
1. Recuperao de dados
Nesta aula, nosso objetivo apresentar as diferentes tcnicas e
ferramentas que fazem acesso ao Data Warehouse (DW). preciso entender que
cada uma delas atende a uma necessidade especfica de usurios e clientes.
OLAP
O termo On-Line Analitical Processing OLAP foi proposto por E.F. Codd, o
pai do modelo relacional. O modelo relacional pe os dados em tabelas,
enquanto o OLAP usa a representao de arrays multidimensionais. Essa
representao de dados j existia previamente na estatstica e em outras reas.
Existe um grande nmero de operaes de analise de dados e explorao de
2. Conceitos bsicos
Comeamos tentando responder a uma pergunta bsica: O que OLAP?
Trata-se de um processamento de dados dedicado ao suporte a deciso. Essa
analise feita por meio da visualizao de dados agregados ao longo de vrias
dimenses analticas do modelo de dados dimensional (ex.: tempo, espao,
categoria de produto, quantidade vendida, preo).
3. OLAP x OLTP
On-Line Analytical Processing (OLAP) muito diferente do tradicional On-
Line Transaction Processing (OLTP). Quando utilizamos OLTP, o foco sobre as
51583806784
4. Operaes OLAP
detalhe. Essa operao pode ser realizada tanto descendo em uma hierarquia de
uma dimenso quanto introduzindo dimenses adicionais. A figura abaixo exibe
o resultado de uma operao de drill-down sobre o cubo central, basicamente,
descendo sobre a hierarquia de tempo (day < month < quater < year). A
operao desce do nvel de semestre (quater) para ms (month).
Slice and dice: A operao de slice executa uma seleo sobre uma das
dimenses de um determinado cubo, resultando em um subcubo. A figura
mostra um exemplo da operao de slice que seleciona as vendas por cidade em
um determinado semestre (nestre caso, quarter = Q1). A operao
de dice define um subcubo atravs de umaseleo sobre duas ou mais
dimenses. A figura tambm mostra uma operao de dice que envolve trs
dimenses seguindo os seguintes critrios (location = Toronto ou Vancouver
|| time = Q1 ou Q2 || item = home entertainment ou computer).
51583806784
Suponha que um gerente deseja fazer uma consulta para saber qual livro
foi o mais vendido nos anos de 2008 e 2009. Para fazer o drill-across, ns
atendemos primeira premissa segundo Kimball: trata-se de uma operao
sobre dois cubos. Os dados nos dois cubos so combinados nas dimenses
comuns aos mesmos. Nesse caso, livros e tempo. O analista vai, ento, utilizar
uma medida derivada para somar as vendas dos dois cubos e dessa forma obter
o livro com maior quantidade de vendas. Veja que o drill-across abre um novo
caminho para que voc possa analisar os dados. A figura abaixo ilustra esse
exemplo:
51583806784
Um conceito que faz parte dos modelos MOLAP a exploso dos dados.
difcil determinar condies para a exploso de dados, ou para prever se uma
configurao particular vai explodir. Uma abordagem que parece ajudar a
resolver o problema a manipulao de dados esparsos dinamicamente.
Manipulao de dados esparsos de forma dinmica permite que um banco de
dados analise seus padres de armazenamento prprios e aperfeioe-os para
evitar a exploso de dados.
ROLAP
Um dos motivos para escolher pelo uso do ROLAP est no fato de RDBs
so uma tecnologia bem estabelecida que tem muitas oportunidades para
otimizao. Suporta maior quantidade de dados que uma MDDB.
HOLAP e DOLAP
Data mining
Existe geralmente informao escondida nos dados que no so to
evidentes no momento da leitura. Um analista humano pode levar semanas para
descobrir essa informao til. A maioria dos dados de fato nunca analisada.
Com o crescimento da capacidade de processamento e armazenamento surgem
perguntas sobre como identificar padres (X acontece se...), excees (isto
diferente de... por causa de...), tendncias (ao longo do tempo, Y deve
acontecer...) e correlaes (se M acontece, N tambm deve acontecer).
7. Conceitos bsicos
Comeamos os conceitos tentando responder ao seguinte
questionamento: O que minerao de dados? Vrios autores propuseram
definies semelhantes para o termo, vejamos algumas delas:
51583806784
Uma pergunta pode ser relevante neste momento: como descobri todos
os conjuntos de itens grandes?
7.2.2. Classificao
Parece ser um imperativo humano. A fim de compreender e
comunicar sobre o mundo que estamos constantemente a classificar,
categorizar e classificar. Dividimos as coisas vivas em filos, espcies
e gnero; matria em elementos; ces em raas, as pessoas em raas. Os
objetos a serem classificados so geralmente representados por registros em
um banco de dados ou um arquivo, e o ato de classificao consiste em
adicionar uma nova coluna com um cdigo de classe de algum tipo.
entre si. Mas como medir essa semelhana. Existem algumas mtricas para
calcular as distncias e dissimilaridades entre os itens de dados.
Quando: Y = f(x1, x2, ..., xn). Uma funo f linear no domnio das
variveis xi, o processo de derivar f de um dado conjunto de tuplas para <x1,
x2, ... Xn, y> chamado regresso linear.
51583806784
Questes Comentadas
Apresentamos abaixo um conjunto de questes sobre o assunto que
aprendemos nesta aula. Esperamos que elas ajudem na fixao da matria.
Qualquer dvida, estamos s ordens!
Dimensionality Reduction
Feature subset selection
Feature creation
Discretization and Binarization
Attribute Transformation
Gabarito: E
51583806784
Gabarito: B
51583806784
51583806784
18. ANO: 2015 BANCA: CESPE RGO: TCU PROVA: AUDITOR FEDERAL
DE CONTROLE EXTERNO ANLISE DE INFORMAES.
No que concerne a data mining (minerao de dados) e big data, julgue os
seguintes itens.
19. ANO: 2015 BANCA: CESPE RGO: TCU PROVA: AUDITOR FEDERAL
DE CONTROLE EXTERNO - TECNOLOGIA DA INFORMAO
Julgue os itens subsequentes, a respeito de modelagem dimensional e anlise de
requisitos para sistemas analticos.
[1] Na anlise dos dados de um sistema com o apoio de uma ferramenta OLAP,
quando uma informao passa de uma dimenso para outra, inexistindo
hierarquia entre elas, ocorre uma operao drill through.
[2] Entre os requisitos de anlise de uma aplicao OLAP inclui-se a capacidade
de tratar dinamicamente a esparsidade das informaes para restringir o
cruzamento dimensional de matrizes com clulas de valor zero.
Comentrio: Vamos comentar cada uma das alternativas acima.
[1] Quando tratamos das definies de drill through encontramos na literatura
duas definies:
Drill Throught - ocorre quando o usurio passa de uma informao contida em
uma dimenso para uma outra. Por exemplo: Inicia na dimenso do tempo e no
prximo passo analisa a informao por regio
Drill Throught a operao de drill-through permite que voc exiba, em tempo
de consulta, os detalhes dos dados no sumarizados. A partir dos quais uma
clula de uma tabela ou uma seleo de clulas sumarizada. Permite as
empresas acesso aos dados que no esto armazenados no servidor OLAP,
fazendo-as acessveis para os usurios finais das aplicaes OLAP. Esses dados
podem vir tanto do DW quanto das bases transacionais.
Vejam que a alternativa apresenta em seu texto uma definio muito
semelhante a primeira definio. A ideia do drill throught navegar pelo cubo
como ilustrado na figura abaixo. Alternativa correta.
51583806784
51583806784
Questes extras
21. ANO: 2015 BANCA: FCC RGO: TRT - 3 REGIO (MG) PROVA:
ANALISTA JUDICIRIO - TECNOLOGIA DA INFORMAO
No modelo de dados multidimensional existem as operaes suportadas pelas
ferramentas OLAP para permitir a anlise dos dados. Com relao a estas
operaes, considere os dados abaixo.
51583806784
Gabarito: E
Gabarito: B
E top-down.
Gabarito: A
Trata-se de
A slice and dice.
B joint.
C grant.
D split.
E tuning.
Gabarito: A
Gabarito: C
dentro de uma mesma dimenso, como por exemplo, sendo a dimenso tempo
composta por ano, semestre, trimestre, ms e dia e o usurio pular de ano para
ms, a operao executada corresponde a
A tracking.
B hashing.
C drill down.
D drill across.
E union.
Gabarito: D
Gabarito: B
Gabarito: B
29. ANO: 2014 BANCA: FCC RGO: TRF 4 REGIO (SUL) PROVA:
ANALISTA JUDICIRIO - INFORMTICA
Um sistema OLAP um sistema interativo que permite que um analista veja
diferentes resumos de dados multidimensionais. Sobre estes sistemas,
considere:
Gabarito: B
31. ANO: 2013 BANCA: FCC RGO: TRT - 9 REGIO (PR) PROVA:
51583806784
Gabarito: A
32. ANO: 2013 BANCA: FCC RGO: TRT - 12 REGIO (SC) PROVA:
ANALISTA JUDICIRIO - TECNOLOGIA DA INFORMAO
51583806784
Gabarito: E
Gabarito: E
Gabarito: E
Gabarito: C
36. ANO: 2014 BANCA: FCC RGO: TRF 3 REGIO (SP MS) PROVA:
ANALISTA JUDICIRIO - INFORMTICA (BANCO DE DADOS)
Minerao de dados a investigao de relaes e padres globais que existem
em grandes bancos de dados, mas que esto ocultos no grande volume de
dados. Com base nas funes que executam, h diferentes tcnicas para a
minerao de dados, dentre as quais esto:
Gabarito: C
C previso.
D seleo adaptativa.
E anlise de varincia.
Gabarito: A
E sries temporais.
Gabarito: B
Gabarito: D
B otimizao.
C classificao.
D clustering.
E temporizao.
Gabarito: D
Consideraes Finais
At a prxima!
Thiago Cavalcanti
51583806784