Sunteți pe pagina 1din 53

Aula 00

Curso: Informática – Teoria e Questões


comentadas p/ TRF
ResumoProfessor:
Grátis Gustavo Cavalcante
Curso: Bancos de Dados para Fiscais
Professor: Ramon Souza
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza

APRESENTAÇÃO

Olá, futuros Auditores Fiscais.


Meu nome é Ramon Jorge de Souza e sou servidor do Tribunal de Contas
do Estado do Ceará, atuando com Auditoria de Tecnologia da Informação, mas
já estou aguardando a nomeação para o cargo de Auditor Fiscal da Receita
Estadual – Tecnologia da Informação da SEFAZ-SC no qual fui aprovado
recentemente.
Antes de iniciarmos a aula, passo a contar um pouco da minha trajetória:
Sou de Quixadá, no interior do Ceará, e estudei todo o ensino
fundamental e médio em escola pública. Logo ao sair do ensino médio, iniciei o
curso de Técnico em Química no Instituto Federal do Ceará. No ano seguinte
passei a cursar também Engenharia de Software na Universidade Federal do
Ceará.
Enquanto estava ainda cursando o ensino técnico no IFCE, surgiu o
concurso para a Petrobrás Biocombustíveis da minha cidade. Então resolvi fazer
a prova, pois estava animado com a possibilidade de trabalhar ao lado de casa
com um salário bem atrativo para o local. Ai que veio a surpresa, fiquei em 30º
lugar. Embora não tenha sido convocado para esse concurso, percebi que era
possível ser aprovado, desde que me dedicasse mais.
Quando estava concluindo o curso técnico em Química, fui selecionado
para trabalhar na Petrobrás Biocombustíveis como terceirizado. Trabalhando ao
lado de concursados, decidi que também queria aquilo para minha vida e, então,
passei a estudar com mais afinco e a realizar diversas provas, principalmente
da Petrobrás, mesmo que não fossem no Estado do Ceará.
Nesse meio tempo cursava Engenharia de Software e já realizava também
alguns concursos para essa área de formação. No ano de 2012, consegui obter
algumas classificações tanto para a área de Química, quanto para a área de TI.
Porém, nada de convocações. Mas continuei estudando.
Eis que o ano de 2013 foi o ano da colheita de frutos. Estava de férias
quando chegou a mim o telegrama de convocação para assumir o cargo de
Técnico em Química na Petrobras S/A. Mas e aí? Aí já era tarde demais, já
tinha decidido que não queria mais seguir na área de química e sim queria
passar em concurso para TI. Abdiquei do direito a posse no cargo e continuei
estudando para a área de TI.
Ainda estava cursando Engenharia de Software e nesse período fiz um
estágio em uma empresa privada. Como disse antes, estava na época da
colheita, então fui convocado para o concurso do Banco Regional de Brasília
(BRB). Pergunta-me então: assumiu? Não. Calma, este não assumi, pois como
disse ainda estava cursando Engenharia de Software e não tinha o diploma de
nível superior exigido pelo cargo. Isso se repetiu para a convocação para a
Empresa Brasileira de Serviços Hospitalares (EBSERH).

Prof. Ramon Souza 2 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
No final de 2013, passei para o concurso do Ministério do Planejamento,
para o cargo de Analista em Tecnologia da Informação. Com receio de
acontecer o mesmo que os anteriores, solicitei colação de grau especial e
consegui obter o diploma. Pronto, estava preparado para assumir o MPOG, mas
como ele demorava a chamar estudava ainda firmemente para outros
concursos.
Convocado então em 2014 para assumir o MPOG, mudei-me para Brasília,
mas não parei de estudar. Nesse período, fui convocado para a DATAPREV e
para o INSS, mas optei por não assumir esses cargos.
Em 2015, continuei prestando alguns concursos, e obtive o 4º lugar no
concurso do INSS, o 6º lugar no concurso da ANTAQ, 1º lugar no concurso
para o Conselho Nacional do Ministério Público (CNMP) e também 1º
lugar para o Tribunal de Contas do Estado do Ceará (TCE-CE).
Em 2017, depois de quase aposentar a caneta preta, retornei aos estudos
e dessa vez resolvi estudar para concursos fiscais. Em 2018, realizei o concurso
para da Secretaria de Estado da Fazenda de Santa Catarina (SEFAZ-SC)
e fui aprovado para o cargo de Auditor Fiscal da Receita Estadual –
Tecnologia da Informação.

Para dicas sobre concursos, acesse:

Exponencial Concursos
https://www.youtube.com/channel/UCr9rg5WOPmXvZgOfBl-HEuw

@exponencial_concursos
https://www.instagram.com/exponencial_concursos/?hl=pt-br

E para dicas sobre Informática, TI e Análise de Informações, siga:

@profecoach_ramonsouza
https://www.instagram.com/profecoach_ramonsouza/?hl=pt-br

Prof. Ramon Souza 3 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza

Resumo Grátis (Bancos de Dados para Fiscais)

Caros, considerando a grande incidência da disciplina de Tecnologia da


Informação para concursos das carreiras fiscais, disponibilizo gratuitamente os
esquemas relativos aos assuntos de bancos de dados. Esse material pode ser
utilizado para você revisar o seu estudo nessa parte tão importante da disciplina
e te ajudar a conquistar a tão sonhada vaga.
Os assuntos disponíveis nesse resumo são apresentados a seguir:

ASSUNTOS PÁGINA

1. Bancos de Dados Relacionais ........................................................... 4


2. Modelagem Entidade-Relacionamento ............................................. 16
3. SQL (DML)................................................................................... 23
4. SQL (DDL) ................................................................................... 28
5. Business Intelligence .................................................................... 31
6. Data Mining ................................................................................. 40
7. Big Data ...................................................................................... 46

Caso ainda não seja aluno do exponencial concurso, convido você a


conhecer o nosso curso regular de TI para concursos fiscais em
https://www.exponencialconcursos.com.br/produto/tecnologia-da-informacao-
curso-regular-para-area-fiscal#5b36287c2f735.
Se você procura uma preparação completa para a área fiscal, sugiro que
você verifique o TROPA DE APROVAÇÃO em
https://www.exponencialconcursos.com.br/produto/pacote-tropa-da-
aprovacao-area-fiscal#5b36287c2f735.

Prof. Ramon Souza 4 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
1. Bancos de Dados Relacionais

Banco de dados (BD)

Banco de Dados

Pode ter qualquer


Pode ser manual ou
tamanho e
computadorizado
complexidade

Coleção logicamente Projetado, construído e


Representa algum
coerente de dados com populado com dados para
aspecto do mundo real
algum significado inerente uma finalidade específica

Sistema de Gerenciamento de Banco de Dados (SGBD).

•Permite criar e manter um


Banco de dados.

•Auxilia na:
SGBD ▪Definição
▪Construção
(coleção de programas) ▪Manipulação
▪Compartilhamento
▪Proteção
▪Manutenção

Sistema de Banco de Dados (SBD)

BD SGBD SBD

Prof. Ramon Souza 5 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Características dos Bancos de Dados

o Natureza de autodescrição de um sistema de banco de dados.


o Isolamento entre programas e dados; e abstração de dados.
o Suporte de múltiplas visões de dados.
o Compartilhamento de dados e processamento de transação
multiusuário.

Elsmari e Navathe
(vantagens de usar a abordagem SGBD)
▪Controle de redundância.
▪Restrição de acesso não autorizado.
▪Armazenamento persistente para objetos do programa.
▪Estruturas de armazenamento e técnicas de pesquisa para o
processamento eficiente de consulta.
▪Backup e recuperação.
▪Múltiplas interfaces do usuário.
▪Representação de relacionamentos complexos entre dados.
▪Restrições de integridade.
▪Dedução e ação usando regras.
▪Potencial para garantir padrões.
▪Tempo reduzido para o desenvolvimento de aplicações.
▪Flexibilidade.
▪Disponibilidade de informações atualizadas.
•Economias de escala.

Date
(benefícios da abordagem de BD)
▪O dado pode ser compartilhado.
▪A redundância pode ser reduzida.
▪Inconsistências podem ser evitadas.
▪Pode-se utilizar o suporte a transações.
▪A integridade pode ser mantida.
▪A segurança pode ser aperfeiçoada.
▪Requisitos conflitantes podem ser balanceados.
▪Padrões podem ser utilizados.

Sylberchatz, Korth e Sudarshan


(desvantagens de usar sistema de arquivo)
▪Redundância e inconsistência de dados.
▪Dificuldade de acesso a dados.
▪Isolamento dos dados.
▪Problemas de integridade.
▪Problemas de atomicidade.
▪Anomalias de acesso concorrente.
▪Problemas de segurança.

Prof. Ramon Souza 6 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Desvantagens da abordagem de SGBD

Custos Alto investimento inicial


em hardware, software e
adicionais treinamento

Esforço adicional para


Generalidade para definição funções de segurança,
e processamento de dados concorrência, recuperação e
integridade

Propriedades das transações (ACID)

Conceito: Conceito: Conceito: Conceito:


unidade de Uma uma as mudanças
processamen transação transação realizadas
to atômica. A deve levar o deve parecer pela
transação deve banco de
Durabilidade
Consistência

Isolamento

executar
Atomicidade

transação
ser realizada dados de um isolada das confirmada
em sua estado demais. devem ser
totalidade ou consistente persistidas
não deve ser para outro. no banco de
realizada de dados.
forma alguma.

Responsável Responsável Responsável


Responsável
Programador Subsistema Subsistema
Subsistema de de
recuperação. ou módulo de de controle de
restrições de concorrência. recuperação.
integridade.

Prof. Ramon Souza 7 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Notação para diagrama Entidade Relacionamento

Modelos de bancos de dados

Facilmente Compreensão Difícil compreensão


Lógico

Físico
Conceitual

comprendido por intermediária. pelos usuários.


usuários.
Representação específica Descrevem o
Registra os dados. de um modelo interno, armazenamento dos
utilizando as estruturas dados.
de BD

Independente de Totalmente
hardware e software. Dependem do SGBD. dependentes do SGBD.

Elaborados na Elaborados no Projeto Elaborados no Projeto


Modelagem Conceitual. Lógico. Físico.

Ex.: Modelo Entidade Ex.: Modelo Relacional.


Relacionamento.

Prof. Ramon Souza 8 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Arquitetura de 3 esquemas

Descreve parte do banco de dados


geralmente com um modelo lógico.

Descreve o banco de dados inteiro


geralmente com um modelo lógico.

Descreve a estrutura de
armazenamento físico geralmente
com um modelo físico.

Independência lógica e física de dados

Independência lógica de dados

• Capacidade de alterar o esquema conceitual sem ter de alterar os esquemas externos ou de


programas de aplicação.

Independência física de dados

• Capacidade de alterar o esquema interno sem ter de alterar o esquema conceitual e, por
consequência, sem ter que alterar os esquemas externos.

Modelos de dados X Arquitetura de três esquemas.

Modelos de Arquitetura de
dados 3 esquemas
Representar os conceitos usados para descrever a Representar as camadas de interação do usuário com o
estruturas dos bancos de dados. banco de dados.

Modelo conceitual ou de alto nível


Nível externo ou de visão
(dados)

Parte do banco de dados


Dados
(geralmente usa modelo lógico baseado em modelo conceitual)

Modelo lógico, representativo ou de implementação Nível conceitual

Banco de dados inteiro


Estruturas de banco de dados
(geralmente usa modelo lógico baseado em modelo conceitual)

Modelo físico Nível interno

Estruturas de armazenamento
Armazenamento
(usa modelo físico)

Prof. Ramon Souza 9 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Modelos de dados (modelos lógicos)

Modelo relacional
•Dados como uma coleção de tabelas.

Modelo de objetos
•Dados como objetos, propriedades (atributos) e operações
(métodos).

Modelo objeto-relacional
•SGBD relacional com extensões para modelos de objetos.

Modelo XML
•Estruturas de árvores hierárquicas com uso de tags.

Modelo de rede
•Registros relacionados de forma 1:N.

Modelo hierárquico
•Estruturas de árvores hierárquicas.

Bancos de dados relacionais

Conjuntos de relações ou tabelas que


representam dados e relacionamentos.
Relação matemática é o bloco de
Conceitos montagem básico.
Base teórica reside na teoria de conjunto
e lógica de predicado de primeira ordem.

Todo o conteúdo de informação do banco


Princípio da de dados é representado como valores
Informação explícitos em posições de colunas em
Modelo linhas de tabelas.
Relacional Aspecto estrutural: percebidos pelos
usuários como tabelas.
Aspecto de integridade: essas tabelas
Aspectos de satisfazem a certas restrições de
descrição integridade.

Aspecto manipulador: os operadores


disponíveis para que o usuário possa
manipular essas tabelas derivam tabelas a
partir de outras tabelas.

Prof. Ramon Souza 10 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Doze (treze) regras de Codd para os bancos relacionais

Regra 0 - Regra fundamental ou regra base


Doze (treze) regras de Codd para Bancos Relacionais

Regra 1 - A regra da informação ou Princípio da Informação

Regra 2 - A regra de acesso garantido

Regra 3 - Tratamento sistemático de valores nulos

Regra 4 - Catálogo on-line baseado no modelo relacional

Regra 5 - Sublinguagem Ampla de Dados

Regra 6 - Atualização de visões

Regra 7 - Inserção, Atualização, e Exclusão de alto nível

Regra 8 - Independência Física de dados

Regra 9 - Independência Lógica de Dados

Regra 10 - Independência de Integridade

Regra 11 - Independência de Distribuição

Regra 12 - A não-transposição das regras

Catálogo ou dicionário de dados

Catálogo ou
dicionário de
dados

Metadados ou
informações de
descritor

Estrutura de
Formato de Restrições
cada tipo de Tipo
armazenamento sobre os dados
arquivo

Prof. Ramon Souza 11 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Conceitos do modelo relacional

Tabela (relação) – representa dados e relacionamentos.

Coluna (atributo) - ajuda a Grau (aridade) -


interpretar o significado número de colunas
dos valores das linhas. de uma relação.

Domínio - tipo de dado que Linha (tupla) - coleção


descreve os tipos de valores que de valores de dados
podem aparecer em cada coluna. relacionados.

Operações com relações (álgebra relacional)


Operações da álgebra relacional

Seleção (σ) Retorna as tuplas da relação que satisfazem um predicado.

Retorna os atributos especificados de todas as linhas da


Projeção (П)
relação de entrada, removendo as tuplas duplicadas da saída.

Retorna pares de linhas das duas relações de entrada que têm


Junção ( ) o mesmo valor em todos os atributos que possuem o mesmo
nome.

Retorna todos os pares de linhas das duas relações de entrada


Produto
(independentemente de ter ou não os mesmos valores em atributos
cartesiano (X)
comuns).

Retorna as tuplas que estão na primeira relação, na segunda


União (Ս)
relação, ou em ambas.

Retorna as tuplas que aparecem tanto na primeira relação


Intersecção (Ո)
quanto na segunda.

Retorna tuplas que aparecem na primeira relação, mas não


Diferença (-)
estão na segunda.

Prof. Ramon Souza 12 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Visões (views)

Visão (view) Se for armazenada é


visão materializada.

Maneira
Tabela derivada de Tabela virtual: não
alternativa de Consulta pré-
outras tabelas necessariamente
visualização dos definida ou
(tabelas base ou existe em forma
dados de uma ou armazenada.
outras visões). física.
mais tabelas.

Índices

Estrutura
de acesso
auxiliar.

Uso de Utilizados
ponteiros para agilizar
para a
localização
Índice a
recuperação
dos dados. de registros

Oferecem Não devem ser criados


caminhos
de acesso de maneira ilimitada e
secundários sem cuidados.

Chaves

Superchave Chave Chave primária

Conjunto de um ou Superchave com a Chave candidata


mais atributos que, propriedade adicional que é escolhida pelo
coletivamente, de que a remoção designer de banco
permitem de qualquer dos de dados como o
identificar de atributos a faz principal meio de
forma exclusiva deixar de ser identificar tuplas.
uma tupla. chave.
Chave candidata

Cada uma das


Chave estrangeira
chaves possíveis em
Atributo (s) que são chave
uma relação.
primária ou candidata de
outra relação.

Prof. Ramon Souza 13 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Relacionamentos

Cada elemento de uma tabela se


relaciona a um único elemento de outra
tabela.

Um para Um
(1:1)
Em bancos relacionais, uma das tabelas
possui a chave estrangeira. Pode-se,
porém, mesclar as entidades em uma única
tabela ou criar uma terceira tabela para
cruzar as chaves primárias destas.
(existem apenas logicamente, mas não fisicamente)

Cada elemento de uma tabela r1 pode


ser relacionar com mais de um elemento
(associação entre as tabelas)

da tabela r2, no entanto cada elemento da


tabela r2 está relacionado a apenas um
elemento de r1.
Relacioanmentos

Um para
Muitos
(1:N)

Em bancos relacionais, a tabela do lado N


da relação possui a chave estrangeira.

Para cada valor do campo de uma tabela,


pode haver N valores no campo da outra
tabela e vice-versa.

Muitos para Os dados estão diretamente


Muitos relacionados ao fato (ou ao
relacionamento), e não as entidades (ou
(N:M) tabelas).

Em bancos relacionais, esta relação


consuma-se através de uma tabela de
ligação que pode possuir atributos
próprios.

Prof. Ramon Souza 14 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Formas normais

•Todos os atributos são atômicos.


•Não possui atributos multivalorados nem compostos.
1FN
•Está na 1FN.
•Cada atributo não-chave é dependente da chave primária (ou candidata) inteira.
(Dependência funcional total)
2FN •Cada atributo não-chave não pode ser dependente de apenas parte da chave.

•Está na 2FN.
•Cada atributo não chave não possui dependência transitiva, para cada
chave candidata.
3FN •Todos os atributos dependem exclusivamente da chave primária da tabela.

•Está na 3FN (variação forte da 3FN).


•Todo determinante é chave candidata.
BCFN •Não há dependências entre atributos não chave.

•Está na 3FN.
•Não possui dependência multivalorada.
4FN

•Está na 4FN.
•Não possui dependência de junção.
5FN

Prof. Ramon Souza 15 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
2. Modelagem Entidade-Relacionamento

Modelo Entidade-Relacionamento

Modelo
conceitual

Modelo
ER Descrever os dados ou
aspectos de informação de
um domínio de negócio ou
seus requisitos de processo

Entidade.

Entidade

Objetos sobre
os quais deseja-
se manter
informações

Prof. Ramon Souza 16 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Relacionamentos

Para Heuser,
este é um
relacionamento
Unário, binário pois
autorrelacionamento envolve DUAS
Associação ou relacionamento ocorrências de
entre objetos recursivo uma entidade.
(menos aceita
Relaciona pelas bancas)
mento Binário
Dependendo
da quantidade
de entidades,
podem ser:
Ternário

...

Cardinalidade máxima

Prof. Ramon Souza 17 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Cardinalidades mínimas

Associação opcional
ou participação parcial:
Associação obrigatória
Expressa que uma
ou participação total:
ocorrência de Mesa pode
Expressa que uma
não está associada
Ocorrência de Empregado
a nenhum (0) empregado.
deve estar associado a

no mínimo uma (1) mesa.

Cardinalidades dos relacionamentos

Cada elemento de uma tabela se relaciona a um


único elemento de outra tabela.
Um para
Um
(1:1) Em bancos relacionais, uma das tabelas possui a
chave estrangeira. Pode-se, porém, mesclar as
entidades em uma única tabela ou criar uma terceira
tabela para cruzar as chaves primárias destas.
(associação entre as tabelas)

Cada elemento de uma tabela r1 pode ser


relacionar com mais de um elemento da tabela
Relacioanmentos

r2, no entanto cada elemento da tabela r2 está


Um para relacionado a apenas um elemento de r1.
Muitos
(1:N)
Em bancos relacionais, a tabela do lado N da
relação possui a chave estrangeira.

Para cada valor do campo de uma tabela, pode


haver N valores no campo da outra tabela e
vice-versa.

Muitos
para Os dados estão diretamente relacionados ao
Muitos fato (ou ao relacionamento), e não as entidades (ou
tabelas).
(N:M)

Em bancos relacionais, esta relação consuma-se


através de uma tabela de ligação que pode possuir
atributos próprios.

Prof. Ramon Souza 18 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Atributos e identificadores

• Associa informações a ocorrências de


Atributo entidades ou de relacionamentos

• Conjunto de um ou mais atributos (e


Identificador possivelmente relacionamentos, como
ou chave visto abaixo) cujos valores servem para
primária distinguir uma ocorrência da entidade
das demais

Entidade fraca

Tipos de atributos

Descritivos

Quanto à função Nominativos

Referenciais
Tipos de atributos

Simples
Quanto à estrutura
Compostos

Obrigatório
Quanto à obrigatoriedade
Opcional

Monovalorados
Quanto à quantidade de valores
Multivalorado

Armazenado
Quanto ao armazenamento
Derivado

Prof. Ramon Souza 19 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Generalização/Especialização

Gênero

Espécies

Propriedades
particulares

Entidade associativa

Entidade associativa

Redefinição de um
relacionamento, que
passa a ser tratado
como se fosse também
uma entidade.

Prof. Ramon Souza 20 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Notação de Peter Chen para DER

Prof. Ramon Souza 21 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Notação pés de galinha para DER

SINTAXE DESCRIÇÃO

Entidade (Produto)

Atributos (Código, Descrição e Preço)

PK: Chave primária

FK: Chave estrangeira

Cardinalidade 1

Cardinalidade muitos

Cardinalidade 1:1

Cardinalidade 0:1

Cardinalidade 1:N

Cardinalidade 0:N

Prof. Ramon Souza 22 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
3. SQL (DML)

Linguagem SQL e Subdivisões

SQL

DML DDL DCL DTL

DQL VDL SDL


Definir tabelas Controlar o
Manipulação de Tratar as
e elementos acesso aos
dados transações
associados dados

Específica para
Somente o Específica para
armazenament
SELECT visões
o
SELECT CREATE GRANT COMMIT

INSERT ALTER REVOKE ROLLBACK

UPDATE DROP

DELETE

Sintaxe básica do SELECT

SELECT FROM WHERE

•lista_de_atributos
•condição
•* retorna todos os
atributos. •nome_tabela
•Opcional, mas
geralmente usada.
•DISTINCT elimina
duplicidades.

Prof. Ramon Souza 23 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Condições na Cláusula WHERE

= igual

< menor

<= menor ou igual

Condições > maior

>= maior ou igual

<> diferente

BETWEEN registros em um intervalo

LIKE procurar padrão

IN possíveis valores

Exemplos de padrões para o operador LIKE

Expressão Resultado

LIKE ‘A%’ Qualquer string que inicie com A.

LIKE ‘%A’ Qualquer string que termine com A.

LIKE ‘%A%’ Qualquer string que tenha A em qualquer posição.

String de dois caracteres que tenha a primeira letra A e o


LIKE ‘A_’
segundo caractere seja qualquer outro.

String de dois caracteres cujo primeiro caractere seja


LIKE ‘_A’
qualquer um e a última letra seja a letra A.

String de três caracteres cuja segunda letra seja A,


LIKE ‘_A_’
independentemente do primeiro ou do último caractere.

Qualquer string que tenha a letra A na penúltima posição


LIKE ‘%A_’
e a última seja qualquer outro caractere.

Qualquer string que tenha a letra A na segunda posição e


LIKE ‘_A%’
o primeiro caractere seja qualquer outro caractere.

LIKE ‘_ _ _’ Qualquer string com exatamente três caracteres.

LIKE ‘_ _ _%’ Qualquer string com pelo menos três caracteres.

Qualquer string que tenha o caractere “ em qualquer


LIKE ‘%”%’
posição.

Prof. Ramon Souza 24 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Cláusulas para mais de uma condição ou negação de condição

•Registros em que todas as condições são verdadeiras.

AND
•SELECT coluna1, coluna2, ... FROM nome_da_tabela WHERE condição1
AND condição2 AND condição3 ...;

•Registros em que pelo menos uma das condições é verdadeira.

OR •SELECT coluna1, coluna2, ... FROM nome_da_tabela WHERE condição1 OR


condição2 OR condição3 ...;

•Registros que não satisfazem uma condição.

NOT •SELECT coluna1, coluna2, ... FROM nome_da_tabela WHERE NOT


condição;

Instrução SELECT

mais de
uma
condição
Lista de
SELECT FROM tabela WHERE condição ou
atributos
negação
de
condição

<

<=

> AND
coluna1, coluna
2, ...

FROM tabela WHERE >= OR


ou

*
SELECT <> NOT

OU
BETWEEN
SELECT
DISTINCT
coluna1, coluna
2, ... LIKE

FROM tabela
ou
IN
*

Prof. Ramon Souza 25 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Cláusula ORDER BY

Ordem
colunas
crescente
Ordem
ORDER BY colunas ASC
crescente
Ordem
colunas DESC
decrescente

Funções de Agregação

FUNÇÃO RETORNO
MIN Menor valor de uma coluna.
MAX Maior valor de uma coluna.
COUNT Número de linhas que atendem a um critério.
AVG Média dos valores de uma coluna numérica.
SUM Soma dos valores de uma coluna numérica.

Cláusula GROUP BY e HAVING

condição com
GROUP BY coluna HAVING função
agregadora

Prof. Ramon Souza 26 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Tipos de JOIN

INNER JOIN
•Retorna somente os registros que possuem valores relacionados em ambas as tabelas,
isto é, as intersecções.

LEFT JOIN
•Retorna todos os registros da tabela da esquerda, e os registros relacionados da tabela
da direita.
•Preenche campos não relacionados na tabela da direita com NULL.

RIGHT JOIN
•Retorna todos os registros da tabela da direita, e os registros relacionados da tabela da
esquerda.
•Preenche campos não relacionados na tabela da esquerda com NULL

FULL OUTER JOIN


•Retorna todos os registros, independente de relação.
•Preenche campos não relacionados em qualquer das tabelas com NULL.

SELF JOIN
•União de uma tabela com ela mesma.

Sintaxe básica do comando DELETE

DELETE
FROM WHERE
ou
•nome_tabela •condição (opcional)
DELETE *

Sintaxe básica do comando UPDATE

UPDATE SET WHERE

•Indicação
das colunas e
•nome_tabela •condição
seus novos
valores.

Prof. Ramon Souza 27 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
4. SQL (DDL)

DDL

CREATE
(criação)

ALTER
Comandos
(alteração)

DROP
(exclusão)
DDL

VDL
(visões)

Sublinguagens

SDL
(armazenamento)

Trabalhando com Bancos de Dados.

Criar uma banco de •CREATE DATABASE nome_do_banco;


dados

Excluir um banco de •DROP DATABASE nome_do_banco;


dados

Prof. Ramon Souza 28 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Trabalhando com Tabelas

CREATE TABLE nome_da_tabela (


coluna1 tipo_de_dado,
coluna2 tipo_de_dado,
....
);
Criação

CREATE TABLE nome_da_nova_tabela AS


SELECT coluna1, coluna2,...
FROM nome_da_tabela_existente
WHERE ....;

Adicionar ALTER TABLE nome_da_tabela


coluna ADD nome_da_coluna tipo_de_dado;
Trabalhando com Tabelas

ALTER TABLE nome_da_tabela


ALTER COLUMN nome_da_coluna
tipo_de_dado;

OU

Alterar ALTER TABLE nome_da_tabela


Alteração
coluna MODIFY COLUMN nome_da_coluna
tipo_de_dado;

OU

ALTER TABLE nome_da_tabela


MODIFY nome_da_coluna tipo_de_dado;;

Excluir ALTER TABLE nome_da_tabela


coluna DROP COLUMN nome_da_coluna;

Inclusive a
DROP TABLE nome_da_tabela;
estrutura

Exclusão

Somente os
TRUNCATE TABLE nome_da_tabela;
dados

Prof. Ramon Souza 29 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Restrições em SQL

Regras para
Restrições
os dados

PRIMARY FOREIGN
NOT NULL UNIQUE CHECK DEFAULT INDEX
KEY KEY

Trabalhando com visões

Criando uma visão Alterando uma visão Deletando uma visão

CREATE VIEW [Nome da CREATE OR REPLACE


View] AS VIEW [Nome da View] AS
SELECT Coluna1, Coluna2,… DROP VIEW [Nome da
SELECT Coluna1, Coluna2,… View];
FROM nome_da_tabela FROM nome_da_tabela
WHERE...; WHERE...;

Procedure x Trigger x Function

PROCEDURE TRIGGER FUNCTION

Código SQL Programas


preparado que armazenados que
você pode salvar, são executados Rotinas que
para que o ou disparados retornam valores
código possa ser automaticamente ou tabelas.
reutilizado quando alguns
repetidamente eventos ocorrem.

Prof. Ramon Souza 30 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
5. Business Intelligence

Arquitetura de BI

Business Intelligence
Combina arquitetura, ferramentas, bancos de dados, ferramentas analíticas,
aplicações e metodologias com os objetivos de habilitar o acesso interativo aos
dados, habilitar a manipulação desses dados e prover aos gerentes de negócios e
analistas a habilidade de conduzir análises apropriadas

Business Process
Data Warehouse Business Analytics Management User Interface
(BPM)

Ampliam o Fornecem a
Repositório de dados Variedade de
monitoramento, visualização de
atuais e históricos de ferramentas e
medição e dados para os
potencial interesse técnicas para
comparação de gestores. Ex.:
para gestores de toda trabalhar dados e
indicadores de dashboars, cockpits,
a organização. informações.
desempenho. portais.

Data Warehouse (DW)

Conjunto de dados Repositório de dados atuais e


produzidos para apoiar a Data Warehouse históricos de potencial interesse
tomada de decisão. para gestores de toda a organização.

Orientados a
Integrados Variante no tempo Não voláteis
assunto

Processo de Data Warehousing

Prof. Ramon Souza 31 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Arquiteturas de DW

Prof. Ramon Souza 32 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Abordagens de desenvolvimento de DW

Inmon ou EDW Kimball ou Data Mart

•Abordagem Top-down. •Abordagem Bottom-up.

•EDW alimenta os data marts departamentais •Data marts são integrados por um barramento
(DW->DM). ou middleware (DM->DW).

•Adapta metodologias e ferramentas de •Emprega modelagem dimensional.


banco de dados relacionais.

•Modelo de dados normalizado (3FN). •Modelo de dados não normalizado.

•Orientado a assunto ou a dados. •Orientado a processo.

•Baixa acessibilidade a usuários finais, mas •Alta acessibilidade a usuários finais.


voltado para os profissionais de TI.

•Fornece uma solução técnica baseada em •Entrega uma solução que torna fácil o acesso
métodos e técnicas comprovadas de BD. direto pelos usuários às consultas aos
dados com bons tempos de resposta.

•Consultas realizadas nos data marts. •Consultas realizadas no Data Warehouse.

Modelagem dimensional

Modelagem
dimensional

Técnica de modelagem
Permite uso mais intuitivo
de BD utilizada para a
Auxílio às consultas em para o processamento
representação dos dados
um Data Warehouse. analítico pelas ferramentas
nos BDs
OLAP.
multidimensionais.

Dados são modelados em Hipercubo: matriz com


matrizes multidimensioanais mais de três dimensões.
ou cubos de dados.

Os dados do cubo podem


Desempenho da consulta
ser consultados
no cubo pode ser muito
diretamente a partir de
melhor do que no modelo
qualquer combinação de
de dados relacional.
suas dimensões.

Prof. Ramon Souza 33 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Tabelas fato e tabelas dimensão

Modelo Dimensional

Tabela Fato Tabela Dimensão

Formada por Contêm Representam


Tuplas que Abordam
atributos informações entidades
correspondem aos como os
descritivos de de negócio,
fatos observados dados serão
necessários para classificação geralmente
decorrentes de analisados
realizar a análise e agregação com
processos de e
de decisões e sobre as linhas relacioname
negócios e links resumidos.
relatórios de da tabela fato. nto
externos.
hierárquico.
consulta.

Característica quantitativa no DW Característica qualitativa no DW

Atributos consistem em medidas de Atributos são, geralmente, textuais e discretos.


desempenho, métricas operacionais,
medidas agregadas e outras métricas.
Geralmente têm muitas colunas ou atributos.

Fatos ou medidas podem ser: Atributos servem como fonte de:

Aditivas Semi-aditivas Restrições de consulta

Ex. Lucro líquido Ex. quantidade


em estoque
Agrupamentos

Não aditivas Textual

Ex. porcentagem Raros e devem Rótulos de relatório


de vendas ser evitados

Chaves e relacionamentos entre as tabelas fato e dimensão

Duas ou mais chaves Conectam a tabela fato Única chave primária para
estrangeiras por tabela fato às tabelas dimensão.
cada dimensão

Geralmente simples
Um subconjunto das chaves
estrangeiras pode identificar
unicamente a tabela fato.

Sempre possui
Chave primária composta Dimensão Tempo

Prof. Ramon Souza 34 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Tipos de tabelas fatos

Fato transacional
• Mais comuns.
• Linhas representam evento de medição em um ponto no espaço
e no tempo.

Fato agregada
• Sumariza os dados de uma tabela fato.
• Otimiza o tempo de consulta.
• Esforço adicional de manutenação e gasto com
armazenamento.

Fato consolidada
• Agrega duas tabelas fato (dois processos).
• Complexidade extra para o ETL.

Fato Snapshot Periódico


• Baseada no tempo.
• Geralmente criada a partir de uma fato existente.
• Uma linha resume muitos eventos de medição ocorridos em um
período padrão.

Fato Snapshot Acumulado


• Utiliza mais de um momento no tempo.
• Uma linha resume os eventos de medição que ocorrem em
etapas previsíveis entre o início e o final de um processo.

Fato sem fato


• Tabela somente com a intersecção de dimensões.
• Utilizada quando é necessário comparar ou cruzar algo entre duas
dimensões e não existe uma métrica para fazer essas
comparações.

Prof. Ramon Souza 35 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Esquemas multidimensionais

Esquema estrela Esquema floco de neve

(star schema) (snowflake)


Uma tabela de fatos com uma única Tabela de fatos central (geralmente
tabela para cada dimensão. apenas uma) que estão conectadas a
múltiplas dimensões.

Tabelas dimensão são normalizadas,


Tabelas não são normalizadas.
geralmente, até a 3FN.

Tabelas dimensão ligadas Tabelas dimensão organizadas em


diretamente a tabela fato. hierarquia.

Menor número de tabelas. Maior número de tabelas.

Rápido tempo de resposta e


Modelo mais complexo.
simplicidade.

Facilidade de manutenção para


Facilidade de manutenção para
alteração das estruturas, pois não
estruturas somente leitura.
há redundância.

Consultas mais simples, pois há Consultas mais complexas e difíceis


menor necessidade de junção de de entender, pois há necessidade de
tabelas. realizar muitas junções.

Dimensão Dimensão Dimensão Dimensão

Tabela Fato
Tabela Fato

Dimensão Dimensão Dimensão Dimensão Dimensão


Normalizada Normalizada Normalizada
Desnormalizada Desnormalizada

Constelação de fatos
Conjunto de tabelas fato Multiestrela: se for
compartilham dimensões semelhante ao esquema Limitam as consultas ao
comuns (dimensões estrela, mas com mais de Data Warehouse.
conformes). uma tabela fato.

Dimensão Dimensão Dimensão


Conforme
Tabela Fato Tabela Fato

Dimensão Dimensão Dimensão


Conforme

Prof. Ramon Souza 36 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
OLTP x OLAP

OLTP OLAP

•Realizar funções comerciais cotidianas •Suportar análise de decisões

•Bancos de dados transacionais •DWs ou DMs

•Inclusão, alteração, exclusão e consulta •Carga e consulta.

•Relatórios de rotina, periódicos e •Relatórios e consultas Ad hoc,


estreitamente focados multidimensionais, amplamente focados

•Execução mais rápida •Execução mais lenta

•Atualização contínua •Atualização em lote

• Recursos dos bancos de dados relacionais. •Recursos de computação distribuída,


multiprocesamento e bancos
especializados.

Variações OLAP

• Armazenamento de informações no
cubo de dados.
• Requer pré-computação.
• Ganho de desempenho.
MOLAP • Longo período para carga dos
dados.
• Baixa escalabilidade.
• Permite consultas ad-hoc.

• Acessam os dados em um banco


Quanto a de dados relacional e geram
estrutura de ROLAP consultas SQL.
armazenamento • Não requer pré-computação.
• Baixo desempenho, pois requer
cópia adicional de dados.
Variações OLAP

• Alta escalabilidade.

• Combinação de ROLAP com


MOLAP.
HOLAP
• Alto desempenho
• Alta escalabilidade.
• Arquitetura de maior custo.

DOLAP • Disparam uma consulta de uma


estação cliente para o servidor.

Quanto a origem
da consulta

WOLAP • Disparam uma consulta de via


navegador web para o servidor.

Prof. Ramon Souza 37 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Operações OLAP

Recupera um subconjunto (fatia) do cubo, geralmente


bidimensional.

Slice

Valor simples atribuído a uma (ou mais) dimensões.

Extração de um subcubo.

Dice

Operação slice em mais de duas dimensões de um cubo.

Alterar a orientação dimensional de um relatório ou uma exibição de


página
Pivot ou
rotate

Troca as dimensões da matriz.


Operações OLAP

Sobe na hierarquia

Drill up Reduz o nível de detalhe

Aumenta a granularidade.

Desce na hierarquia

Drill down Aumenta o nível de detalhe

Reduz a granularidade.

Kimball: realizar consultas que envolvem mais de uma tabela fato.

Drill across

Internet: Navegação entre os níveis de dados, saltando níveis.

Han, Kamber e Pei: utiliza as instalações SQL para ir além do nível


inferior de um cubo de dados até as tabelas relacionais back-end

Drill through

Internet: usuário passa de uma informação contida em uma dimensão


para uma outra.

Prof. Ramon Souza 38 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Processo de ETL

Prof. Ramon Souza 39 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
6. Data Mining

Mineração de dados

Processo não trivial de


Descoberta de novas
identificar padrões válidos,
informações em termos de
novos, potencialmente úteis e
padrões ou regras.
compreensíveis.

Mineração de
dados
Não é uma nova disciplina,
(Extração de Utiliza técnicas de estatística, mas uma interseção de muitas
conhecimento, análise matemática e inteligência (estatística, inteligência artificial,
de padrões, artificial. aprendizado de máquinas, ciência de gestão,
arqueologia de dados, sistemas de informação e bancos de dados).
busca de padrões ou
dragagem de dados)
Pesquisas.
Finanças, varejo, marketing,
Amplamente utilizada em
manufatura e saúde.
diversos ramos
Vantagem competitiva
estratégica.

Características da mineração de dados

Bancos de dados
muito grandes
Arquitetura
Requer, por vezes, cliente/servidor ou
processamento uma baseada na
paralelo Web

Características Ferramentas
Fácil combinação
da mineração de sofisticadas para
com outras
dados recuperação de
ferramentas
informações

Resultados
inesperados e Consultas sem
exigência de conhecimento de
pensamento criativo programação

Objetivos da mineração de dados

Objetivos finais ou aplicações da mineração de dados

Previsão Identificação Classificação Otimização

Prof. Ramon Souza 40 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
CRISP-DM

❖ Entendimento das necessidades ❖ Identificação dos dados relevantes


gerenciais e das especificações de das diferentes fontes de dados.
objetivos e requisitos de negócio.
❖ Começa com a coleta inicial de dados e
❖ Desenvolvimento de um plano de prossegue com atividades para se
projeto para busca de conhecimento familiarizar com os dados, identificar
para a identificação das pessoas problemas de qualidade de dados,
responsáveis por coletar, analisar e descobrir novos insights sobre os
reportar dados. Um orçamento de alto dados ou detectar subconjuntos
nível pode ser estabelecido. interessantes para formar hipóteses.

❖ Carga dos dados e preparação


para análise por métodos de
mineração de dados.

❖ Abrange as atividades para


construir o conjunto de dados
final a partir dos dados brutos
iniciais.

❖ Consome mais tempo e esforço


(~ 80% do tempo total).

❖ Seleção e aplicação de técnicas


de modelagem para atender às
necessidades específicas do
negócio.

❖ Também compreende a
avaliação e comparação das
análises realizadas com os
diversos modelos construídos.

❖ Conhecimento adquirido com a ❖ Os modelos desenvolvidos são


exploração dos é organizado e testados e avaliados quanto à sua
apresentado de forma que o precisão e generalidade.
usuário possa entendê-lo e tirar
benefício dele. ❖ Esta etapa avalia o grau em que o
modelo selecionado (ou modelos)
❖ Também pode incluir atividades de atende aos objetivos comerciais.
manutenção para os modelos
implantados. ❖ Tarefa crítica e desafiadora.

Prof. Ramon Souza 41 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Técnicas para pré-processamento (Navathe)

Tarefas de pré-processamento (Navathe)


Dados selecionados das diferentes basesPr

Seleção de Limpeza de Enriquecimento Transformação


dados dados Melhoria com base de dados e
Dados selecionados Correção dos dados em fontes adicionais codificação
das diferentes bases Redução da
quantidade de dados

Técnicas de pré-processamento (CRISP-DM)

Prof. Ramon Souza 42 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Técnicas e tarefas de mineração de dados

Classes são pré-definidas. Classificação

Hierarquia de classes com


Predição base em um conjunto
existente de eventos ou
Descrever a natureza
transações.
de ocorrências futuras
de certos eventos com
base nos
acontecimentos Regressão
passados.
Regra de classificação que é
uma função sobre variáveis.
Tarefas ou técnicas de mineração de dados

Análise de ligações

A ligação entre os diversos


objetos é descoberta
automaticamente.

Associação
Padrões sequenciais
Descobrir
relacionamentos
entre variáveis em Uma sequência de ações ou
grandes bancos de eventos é buscada.
dados.

Padrões de séries temporais

Classes são
As similaridades entre os
previamente
dados podem ser detectadas
desconhecidas.
dentro de posições de uma
série temporal.

Agrupamento
(clusterização)
Análise de outliers
Partição de uma
coleção de eventos ou Identificação dos dados que
itens em segmentos não apresentam o
cujos membros são comportamento padrão.
características
semelhantes.

Prof. Ramon Souza 43 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Classificação

Processo de aprender
um modelo que Classes pre-
descreve diferentes definidas.
classes de dados.

Classificação

Ferramentas
comuns

Aprendizado
Estatística Emergentes
de máquina

Máquinas
Árvores Análise Conjuntos de Algoritmo
Redes Regressão
de discrimina aproxima vetores s
neurais loigística
decisão tória dos de genéticos
suporte

Associação

Técnica popular para descobrir


relacionamentos interessantes
entre variáveis.

Regras de associação

Derivações Medidas de Algoritmos


comuns interesse utilizados

PP-
Growth,
Análise de Padrões de Suporte ou Confiança
Apriori OneR,
ligações sequência prevalência ou força
ZeroR e
Eclat.

Prof. Ramon Souza 44 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Agrupamentos (clusterização)

Método de mineração de dados essencial para Classes não são


classificar itens, eventos ou conceitos em previamente
agrupamentos comuns chamados de clusters. definidas

Agrupamentos
(clusterização)

Formas gerais Métodos gerais

Redes Lógica Algoritmos


Divisivo Aglomerativo Estatísticos
neurais difusa genéticos

Mineração de texto (text mining)

Dados semi-
Dados não estruturados
estuturados

Ex.:
Documentos
do Word,
arquivos PDF,
trechos de
texto, arquivos
XML

2ª etapa

Extração de informações e conhecimentos


relevantes a partir desses dados estruturados
baseados em texto usando técnicas e
ferramentas de mineração de dados.

Prof. Ramon Souza 45 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
7. Big Data

Conceito de Big Data

Captura, gerenciamento e a
Conjuntos de dados muito
análise de dados que vão além
grandes ou complexos
dos dados tipicamente estruturados

Big Data

Aplicativos de processamento de
Frequentemente são dados obtidos
dados tradicionais ainda não
de arquivos não estruturados
conseguem lidar

Tipos de análise com Big Data

Análise Análise Análise Análise


preditiva prescritiva descritiva diagnóstica
•Análise de •Traça as •Compreensão •Compreensão
possibilidades possíveis em tempo real das
futuras com consequências dos possibilidades
base em dados de cada ação. acontecimentos. fornecidas por
passados. uma base de
dados.

Prof. Ramon Souza 46 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Premissas do Big Data

Análise de grandes volumes de dados


Volume
Guarda os dados em diferentes localidades e
juntando-os através de software

Respostas com velocidade e em tempo hábil


Velocidade
Analisar dados no instante em que são criados,
sem ter de armazená-los em bancos de dados

Diferentes formatos de informação


Variedade
Fontes estruturadas, semi-estruturadas e a
grande maioria em fontes não estruturadas.

Informações Verdadeiras
Veracidade
Proveniência ou à confiabilidade da fonte de
dados.

Informações devem agregar valor ao negócio


Premissas

Valor
Custos não devem ser superiores aos
benefícios.

(1) número de inconsistências nos dados

(2) multiplicidade de dimensões de dados de


Variabilidade
diferentes fontes de dados (complexidade)

(3) velocidade inconstante na carga dos dados

Precisão e correção dos dados para o uso


Validade
pretendido

Vulnerabilidade Novas preocupações de segurança

Estabelecer regras para a atualidade e a


Volatilidade
disponibilidade de dados

Visualização Maneiras diferentes de representar dados

Governança para as novas fontes de dados e a


Governança
maneira como os dados serão usados.

Pessoas com aptidões relevantes disponíveis e


Pessoas
compromisso de patrocinadores.

Prof. Ramon Souza 47 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Padrões atômicos para Big Data

Padrões
atômicos

Consum Armazenament
o Processamento Acesso
o

Dados
Análise de Dados da web e
Visualização estruturados e
dados históricos mídias sociais
distribuídos

Dados não
Descoberta ad- Análise Dados de
estruturados e
hoc avançada dispositivos
distribuídos

Aumentar os Dados de
Pré-
armazenament warehouse, Dados
processamento
os de dados operacionais e tradicionais
de dados brutos
tradicionais transacionais

Dados em
Notificações Análise ad-hoc
nuvem

Iniciar resposta
automatizada

Padrões de consumo

Aumentar os
Iniciar
Descoberta armazenament
Visualização Notificação resposta
ad-hoc os de dados
automatizada
tradicionais

Criação de Lidar com o


Abordagem relatórios volume
tradiocional padrão antecipado de
nem sempre adequados Ampliar o notificações a
fornece a para todas as escopo de serem
melhor necessidades dados enviadas de
disponível maneira Acionar ou
visualização. de negócios iniciar
não é viável. para a oportuna.
analítica atual outros
para incluir processos de
Capacidade de negócios ou
O objetivo é enviar dados que
fazer com que residem transações.
consultas ad
seja mais hoc (feitas dentro e fora Notificações
fácil sob dos limites para indicar
consumir os demanda) ao organizacionai eventos.
dados de procurar por s.
forma informações
intuitiva. especificas.

Prof. Ramon Souza 48 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Padrões de processamento

•Analisar as tendências históricas para um determinado


Análise de dados
período, conjunto de períodos e produtos e compará-las
históricos
aos dados atuais disponíveis.

•Correlacionar diferentes conjuntos de dados em muitos


contextos.
Analítica
avançada
•Inclui previsões, decisões, processos inferenciais, simulações,
informações contextuais e resoluções da entidade.

Pré-
•Para executar a análise em quaisquer dados, eles devem estar
processamento
em algum tipo de formato estruturado.
de dados brutos

•Pelo fato de as fontes e formatos dos dados não serem fixos e


Análise ad-hoc exigirem mecanismos diferentes para recuperá-los e processá-
los.

Padrões de acesso

Padrão de acesso à web e mídia social

•A web e a mídia social são úteis em praticamente todas as análises, mas


são necessários mecanismos de acesso diferentes para obter esses dados.

Padrão de dados gerados por dispositivos

•Inclui dados de sensores.


•Os dados são detectados a partir das origens de dados.

Padrão de dados de warehouse, operacionais e


transacionais

•É possível armazenar os dados de warehouse, operacionais e


transacionais existentes para evitar a limpeza ou o arquivamento deles ou
para reduzir a carga no armazenamento tradicional quando os dados são
acessados por outros consumidores.

Prof. Ramon Souza 49 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Padrões de armazenamento

Dados não Dados Armazenamento


Armazenamento
estruturados e estruturados e de dados
em nuvem
distribuídos distribuídos tradicionais

•Dados convertidos •Uso de soluções


•Usar o data
devem ser de nuvem que
•Dados não warehouse, o
armazenados para fornecem o
estruturados sistema relacional
evitar a frequente gerenciamento de
devem ser e outros
conversão de sistemas,
armazenados armazenamentos
dados brutos para manutenção e
como estão. de conteúdo
dados armazenamento
existentes.
estruturados. de big data

Hadoop

Framework de código aberto, implementado em Java e


Hadoop utilizado para o processamento e armazenamento
em larga escala, para alta demanda de dados,
utilizando máquinas comuns.

Código aberto Economia Robustez Escalabilidade Simplicidade

Suprojetos Hadoop

Prof. Ramon Souza 50 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
MapReduce

Modelo de programação e um
arcabouço especializado no
Programador não precisa se
processamento de conjuntos de
preocupar com o paralelismo.
dados distribuídos em um
aglomerado computacional (cluster).

MapReduce

Map: fase de mapeamento,


procesamento primário dos dados. A leitura é realizada de arquivos com
pares chave/valor (geralmente .csv)
Reduce: geração do resultado final.

HDFS (Hadoop Distributed File-System)

Sistema de arquivos
distribuído nativo do
Hadoop

Utiliza o modelo
WORM (write-once-
read-many)
HDFS
Interfaces para os
aplicativos
(Hadoop Distributed
File-System)

Localiza a lógica de
processamento
próxima dos dados
Restringe a gravação
dos dados
rigorosamente a um
gravador por vez.

Prof. Ramon Souza 51 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Processsos Hadoop

NameNode •Gerenciar os arquivos armazenados no HDFS.

•Auxiliar o NameNode a manter seu serviço.


SecondaryNameNode •Ser uma alternativa de recuperação no caso de uma
falha do NameNode.

DataNode •Efetivamente realizam o armazenamento dos dados.

•Função de gerenciamento sobre o plano de execução


JobTracker das tarefas a serem processadas pelo MapReduce.

TaskTracker •Responsável pela execução de tarefas MapReduce.

Arquitetura dos Processos Hadoop

Prof. Ramon Souza 52 de 53


www.exponencialconcursos.com.br
Curso: Bancos de Dados para Fiscais
Teoria e Questões comentadas
Prof. Ramon Souza
Spark

Framework para processamento de Big Data construído com foco em


velocidade, facilidade de uso e análises sofisticadas.

Framework unificado e de fácil compreensão.

Spark
Suporta operações MapReduce, consultas SQL (SPARKSQL),
streaming de dados (SPARK Streamming), aprendizado de
máquina (MLlib) e processamento de grafos (GraphX).

Desenvolvimento em Java, Python e Scala.

Prof. Ramon Souza 53 de 53


www.exponencialconcursos.com.br

S-ar putea să vă placă și