Sunteți pe pagina 1din 34

Aula 03

Análise de Informações p/ TCU-2015 - Auditor


Professor: Victor Dalton

04417588945 - Emerson Ribeiro Barbosa


Análise de Informações para TCU 2015
Auditor Federal de Controle Externo
Prof Victor Dalton Aula 03

AULA 03: Big Data

SUMÁRIO PÁGINA
1.Big Data 2
1.1 Definição 2
1.2 Dimensões do Big Data 3
1.3 Classificação de Big Data 7
1.4 Camadas lógicas de uma solução de Big Data 12
1.5 Padrões atômicos e compostos de uma solução de Big Data 18
Considerações Finais 30
Exercícios 31
Gabarito 33

Olá pessoal! Gostando dos assuntos de Análise de Informações? Ou é muito


puxado? Eu sei que a matéria é meio “ame ou odeie”, rs.

Hoje falaremos sobre Big Data. É um assunto relativamente novo, tanto no


universo da Tecnologia da Informação quanto em concursos públicos.

Aos estudos!

Observação importante: este curso é protegido por direitos


autorais (copyright), nos termos da Lei 9.610/98, que altera,
04417588945

atualiza e consolida a legislação sobre direitos autorais e dá


outras providências.

Grupos de rateio e pirataria são clandestinos, violam a lei e


prejudicam os professores que elaboram os cursos. Valorize o
trabalho de nossa equipe adquirindo os cursos honestamente
através do site Estratégia Concursos ;-)

Prof. Victor Dalton


www.estrategiaconcursos.com.br 1 de 33

04417588945 - Emerson Ribeiro Barbosa


Análise de Informações para TCU 2015
Auditor Federal de Controle Externo
Prof Victor Dalton Aula 03
BIG DATA

1. BIG DATA

1.1 Definição

A humanidade, nos dias de hoje, produz uma quantidade diária de


dados que é simplesmente improcessável pelos próprios seres humanos.

Para se ter uma ideia disso, a IBM, em 2013, estimou que 2,5
exabytes (2.500.000.000.000.000.000) de bytes de dados são criados
por dia. Se cada um dos 7 bilhões de habitantes tivesse que se debruçar
sobre essas informações, seriam aproximadamente 300MB de dados
diários para cada cidadão, incluindo bebês e idosos, rs.

São vídeos no youtube, postagens em redes sociais, blogs, portais de


notícias, emails, dentre outros. E o que esses dados possuem em comum?
São dados não-estruturados. Estima-se que 85% das informações com
as quais as empresas lidam hoje não estão estruturadas. Desta forma, o
tradicional SGBD e a modelagem relacional (datados da década de 60)
não são mais suficientes para lidar com a realidade atual. É necessária
uma nova abordagem.

Big Data pode ser considerado como “captura, gerenciamento e


análise de dados que vão além de dados estruturados típicos, que
podem ser consultados por sistemas de gerenciamento de banco de dados
relacional — frequentemente para arquivos não estruturados, vídeo
04417588945

digital, imagens, dados de sensor, arquivos de log e, na verdade,


qualquer dado não contido nos registros com campos pesquisáveis
distintos. Em um certo sentido, os dados não estruturados são dados
interessantes, mas difíceis de sintetizar em BI ou tirar conclusões deles, a
menos que possam ser correlacionados a dados estruturados”.

Em um primeiro momento, o Big Data pode até ser confiundido com


a Business Intelligence, mas difere na ordem de grandeza do volume de
dados (que é muito maior), e na natureza dos dados. Enquanto as
ferramentas de BI tradicionais extraem dados de fontes estruturadas,

Prof. Victor Dalton


www.estrategiaconcursos.com.br 2 de 33

04417588945 - Emerson Ribeiro Barbosa


Análise de Informações para TCU 2015
Auditor Federal de Controle Externo
Prof Victor Dalton Aula 03
“abrindo exceções para a captura de dados não estruturados”, o Big Data
entende que os dados não-estruturados são a “maioria”, por assim dizer.

1.2 Dimensões do Big Data

O Big Data não tem uma bibliografica consolidada, devido à natureza


recente de sua existência.

Para analisar a viabilidade de implementação do Big Data em uma


organização, citava-se inicialmente o 3V (volume, velocidade e
variedade); depois o 5V (incluindo veracidade e valor); atualmente, a
IBM cita 7 dimensões a serem consideradas ao avaliar a viabilidade de
uma solução de big data.

04417588945

7 dimensões do Big Data.

Ei-las:

Volume – diz respeito à quantidade de dados a ser capturada,


armazenada e manipulada. Estamos falando de petabytes ou terabytes de
dados, tendendo a aumentar?

Prof. Victor Dalton


www.estrategiaconcursos.com.br 3 de 33

04417588945 - Emerson Ribeiro Barbosa


Análise de Informações para TCU 2015
Auditor Federal de Controle Externo
Prof Victor Dalton Aula 03

Velocidade – estreitamente relacionado ao volume, diz respeito à


velocidade de produção dos novos dados, a velocidade em que é preciso
agir com relação a eles ou a taxa em que esses dados estão mudando. A
depender da velocidade, pode ser necessário escolher dados para guardar
e outros para descartar;

Variedade – das fontes, tipos e formatos dos dados. São dados das
bases de dados? Redes sociais? Áudios, vídeos? Já não é mais possível
antecipar o conteúdo e a estrutura dos mesmos?

Veracidade – lida com a incerteza e/ou fidelidade dos dados. É


necessário que haja processos que garantam o máximo possível a
consistência dos dados;

Valor – a informação deve ser significativa e justificar o


investimento no Big Data;

Governança - Ao decidir implementar ou não uma plataforma de big


data, uma organização pode estar olhando novas fontes e novos tipos de
elementos de dados nos quais a propriedade não está definida de forma
clara. Por exemplo, no caso de assistência médica, é legal acessar dados
de paciente para obter insight? É correto mapear as despesas do cartão
de crédito do cliente para sugerir novas compras? Regras semelhantes
regem todos os segmentos de mercado. Além da questão da governança
de TI, também pode ser necessário redefinir ou modificar os processos de
negócios de uma organização para que ela possa adquirir, armazenar e
acessar dados externos.

Pessoas – É necessário ter pessoas com aptidões específicas para


04417588945

entender, analisar os requisitos e manter uma solução de Big Data.


Envolve conhecimento do segmento de mercado, domínio técnico sobre as
ferramentas de Big Data e conhecimentos específicos de modelagem,
estatística e outros.

Veja no infográfico do Jornal O Globo algumas soluções corporativas


que envolvem Big Data:

Prof. Victor Dalton


www.estrategiaconcursos.com.br 4 de 33

04417588945 - Emerson Ribeiro Barbosa


Análise de Informações para TCU 2015
Auditor Federal de Controle Externo
Prof Victor Dalton Aula 03

Big Data pelo mundo. Fonte: Jornal O Globo.


04417588945

1) (FGV – TJ/SC – Analista de Sistemas – 2015) Os termos Business


Intelligence (BI) e Big Data confundem-se em certos aspectos. Uma
conhecida abordagem para identificação dos pontos críticos de cada
paradigma é conhecida como 3V, e destaca:

a) variedade, visualização, volume;


b) velocidade, virtualização, volume;
Prof. Victor Dalton
www.estrategiaconcursos.com.br 5 de 33

04417588945 - Emerson Ribeiro Barbosa


Análise de Informações para TCU 2015
Auditor Federal de Controle Externo
Prof Victor Dalton Aula 03
c) variedade, velocidade, volume;
d) virtualização, visualização, volume;
e) variedade, visualização, virtualização.

Os sistemas de apoio à decisão servem para dar apoio aos tomadores de


decisão, líderes de uma organização com dados de mais alto nível para
decisões complexas e importantes (logo, decisões de negócio). Estas
ferramentas podem trabalhar com descoberta de conhecimento e
processamento online de transações, para permitir que tomador de
decisão tenha a sua própria percepção.

Alternativa c).

2) (FGV – AL/BA – Técnico de Nível Superior - Economia – 2014)


A expressão Big Data é utilizada para descrever o contexto da
informação contemporânea, caracterizada pelo volume,
velocidade e variedade de dados disponíveis, em escala inédita.

Com relação às características do Big Data, analise as afirmativas a


seguir.

I. O volume da informação se refere ao fato de que certas


coleções de dados atingem a faixa de gigabytes (bilhões de bytes),
terabytes (trilhões), petabytes (milhares de trilhões) ou mesmo
exabytes (milhões de trilhões).

II. A velocidade está relacionada à rapidez com a qual os dados são


produzidos e tratados para atender à demanda, o que significa que não é
possível armazená-los todos, de modo que somos obrigados a escolher
dados para guardar e outros para descartar.

III. A variedade significa que os dados de hoje aparecem em todos os


04417588945

tipos de formatos, como, por exemplo, arquivos de texto, email,


medidores e sensores de coleta de dados, vídeo, áudio, dados de ações
do mercado ou transações financeiras.

Assinale:

a) se somente a afirmativa I estiver correta.


b) se somente a afirmativa II estiver correta.
c) se somente a afirmativa III estiver correta.
d) se somente as afirmativas I e II estiverem corretas.
e) se todas as afirmativas estiverem corretas.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 6 de 33

04417588945 - Emerson Ribeiro Barbosa


Análise de Informações para TCU 2015
Auditor Federal de Controle Externo
Prof Victor Dalton Aula 03
Os sistemas de apoio à decisão servem para dar apoio aos tomadores de
decisão, líderes de uma organização com dados de mais alto nível para
decisões complexas e importantes (logo, decisões de negócio). Estas
ferramentas podem trabalhar com descoberta de conhecimento e
processamento online de transações, para permitir que tomador de
decisão tenha a sua própria percepção.

Alternativa e).

1.3 Classificação de Big Data

É possível categorizar problemas de negócios em tipos de problemas


de big data. Quando problemas de big data são categorizados por tipo, é
mais fácil ver as características de cada tipo de dados. Essas
características ajudam a entender como os dados são obtidos, como são
processados para o formato apropriado e com que frequência novos
dados estão disponíveis. Dados de diferentes fontes possuem
características diferentes; por exemplo, dados de mídia social podem ter
vídeos, imagens e texto não estruturado, como postagens de blog,
entrando continuamente.

Quer conferir alguns exemplos? A tabela a seguir contém problemas


comuns de negócios e atribui um tipo de big data a cada um.
04417588945

Problemas de Tipo de big data Descrição


negócios
Serviços públicos: Dados gerados Concessionárias de serviços
Prever o consumo por máquina públicos implementaram
de energia medidores inteligentes para
medir o consumo de água, gás
e eletricidade a intervalos
regulares de uma hora ou
menos. Esses medidores

Prof. Victor Dalton


www.estrategiaconcursos.com.br 7 de 33

04417588945 - Emerson Ribeiro Barbosa


Análise de Informações para TCU 2015
Auditor Federal de Controle Externo
Prof Victor Dalton Aula 03
inteligentes geram enormes
volumes de dados de intervalo
que precisam ser analisados.
Para ter eficiência operacional,
a empresa precisa monitorar
os dados entregues pelo
sensor. Uma solução de big
data pode analisar dados de
geração de energia
(fornecimento) e de consumo
de energia (demanda) usando
medidores inteligentes.
Telecomunicações: Dados da web e Operadores de
Analítica de perda sociais telecomunicações precisam
de clientes criar modelos detalhados de
perda de clientes que incluam
Dados de
dados de mídias sociais e de
transação
transação, para estar à frente
da concorrência.
Provedores que implementam
uma estratégia de analítica
preditiva podem gerenciar e
prever a perda analisando os
padrões de chamada dos
assinantes.
Varejo: Sistema de Dados da web e Varejistas podem usar
mensagens sociais tecnologia de reconhecimento
personalizado com facial combinada a uma foto
base em da mídia social para fazer
Biométrica 04417588945

reconhecimento ofertas personalizadas a


facial e mídia clientes com base no
social comportamento de compra e
na localização.
Esse recurso pode ter um
impacto tremendo nos
programas de fidelização dos
varejistas, mas há sérias
considerações sobre a
privacidade. Os varejistas
precisariam ser transparentes

Prof. Victor Dalton


www.estrategiaconcursos.com.br 8 de 33

04417588945 - Emerson Ribeiro Barbosa


Análise de Informações para TCU 2015
Auditor Federal de Controle Externo
Prof Victor Dalton Aula 03
com relação à privacidade
para implementar esses
aplicativos.
Problemas de negócios de big data por tipo. Fonte:
http://www.ibm.com/developerworks/br/library/bd-archpatterns1/

A figura a seguir mostrará as várias categorias para classificar Big


Data, e as possíveis classificação em cada categoria. As categorias mais
relevantes estão em azul turquesa.

04417588945

Prof. Victor Dalton


www.estrategiaconcursos.com.br 9 de 33

04417588945 - Emerson Ribeiro Barbosa


Análise de Informações para TCU 2015
Auditor Federal de Controle Externo
Prof Victor Dalton Aula 03

Categorias de classificação de big data. Fonte: http://www.ibm.com/developerworks/br/library/bd-archpatterns1/

Prof. Victor Dalton


www.estrategiaconcursos.com.br 10 de 33
04417588945

04417588945 - Emerson Ribeiro Barbosa


Análise de Informações para TCU 2015
Auditor Federal de Controle Externo
Prof Victor Dalton Aula 03

Falando um pouco mais sobre as classificações:

Tipo de análise — Se os dados são analisados em tempo real ou


agrupados para análise posterior. Essa escolha afeta várias outras
decisões sobre produtos, ferramentas, hardware, fontes de dados e a
frequência estimada dos dados. Para alguns casos de uso é necessária
uma mistura dos dois tipos.

Metodologia de processamento — O tipo de técnica a ser aplicada


para processar dados (por exemplo, preditiva, analítica, consulta ad hoc e
relatórios). As necessidades de negócios determinam a metodologia de
processamento apropriada. É possível usar uma combinação de técnicas.
A escolha de metodologia de processamento ajuda a identificar as
ferramentas e técnicas apropriadas para uso na solução de big data.

Frequência e tamanho dos dados — O volume estimado de dados


e a frequência com que chegam. Saber a frequência e o tamanho ajuda a
determinar o mecanismo de armazenamento, formato de armazenamento
e as ferramentas necessárias de pré-processamento. Frequência e
tamanho de dados dependem das fontes.

 Sob demanda, como dados de mídia social

 Feed contínuo, em tempo real (dados de clima ou


transacionais)

 Série temporal (dados com base em tempo)

Tipo de dados — Tipo dos dados a serem processados —


transacionais, históricos, principais e outros. Saber o tipo de dados ajuda
04417588945

a segregar os dados no armazenamento.

Formato de conteúdo — Formato dos dados recebidos —


estruturados (RDMBS, por exemplo), não estruturados (áudio, vídeo e
imagens, por exemplo) ou semiestruturados. O formato determina como
os dados recebidos precisam ser processados e é essencial para escolher
ferramentas e técnicas e definir uma solução de uma perspectiva de
negócios.

Fonte de dados— Fontes de dados (onde os dados são gerados) —


web e mídia social, gerados por máquina, gerados por humanos, etc.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 11 de 33

04417588945 - Emerson Ribeiro Barbosa


Análise de Informações para TCU 2015
Auditor Federal de Controle Externo
Prof Victor Dalton Aula 03
Identificar todas as fontes de dados ajuda a determinar o escopo de uma
perspectiva de negócios.

Consumidores de dados — Uma lista de todos os possíveis


consumidores dos dados processados:

 Processos de negócios

 Usuários corporativos

 Aplicativos corporativos

 Pessoas individuais em várias funções de negócios

 Parte dos fluxos do processo

 Outros repositórios de dados ou aplicativos corporativos

Hardware — O tipo de hardware no qual a solução de big data será


implementada — hardware barato ou de ponta. Entender as limitações do
hardware ajuda na escolha da solução big data.

1.4 Camadas lógicas de uma solução de Big Data

As camadas lógicas de uma solução de big data ajudam a definir e


categorizar os vários componentes necessários para uma solução de
determinado caso de negócios. Esse conjunto de camadas estabelece os
componentes críticos de uma solução de big data, incluindo o ponto de
04417588945

aquisição dos dados em várias fontes, a análise necessária para obter


insight de negócios e os processos, dispositivos e pessoas que precisam
do insight.

Cabe destacar que as camadas ora apresentadas simplesmente


proporcionam uma maneira de organizar componentes que realizam
funções específicas. Elas são meramente lógicas, e não implicam que as
funções que apoiam cada camada devem ser executadas em máquinas
separadas ou em processos separados.

Para o big data, veremos, simultaneamente, camadas horizontais e


verticais. Confira na imagem a seguir:

Prof. Victor Dalton


www.estrategiaconcursos.com.br 12 de 33

04417588945 - Emerson Ribeiro Barbosa


Análise de Informações para TCU 2015
Auditor Federal de Controle Externo
Prof Victor Dalton Aula 03

04417588945

Camadas lógicas horizontais e verticais (à direita) do Big Data. Fonte:


http://www.ibm.com/developerworks/br/library/bd-archpatterns3/

Vejamos, a seguir, as camadas horizontais, de “baixo” para “cima”.


São elas: Fontes de Big Data, Camada de Tratamento e
Armazenamento, Camada de Análise e Camada de Consumo.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 13 de 33

04417588945 - Emerson Ribeiro Barbosa


Análise de Informações para TCU 2015
Auditor Federal de Controle Externo
Prof Victor Dalton Aula 03
Fontes de Big Data

Nesta camada residem todas as fontes de dados necessárias para


proporcionar o insight com vistas a solucionar o problema do negócio. Os
dados podem ser estruturados, semiestruturados e não estruturados e
vêm de várias fontes:
 Sistemas corpotativos legados
 Sistemas de gerenciamento de dados
 Armazéns de dados (ex: Data Warehouse)
 Outros ilustrados na imagem (dados de sensores, mídias
sociais, GPS)

Camada de Tratamento e Armazenamento

Diante da diversidade das características das fontes de dados, os


componentes na camada de tratamento e armazenamento de dados
devem ser capazes de ler os dados em várias frequências, formatos,
tamanhos e canais de comunicação. Isto posto, esta camada será
responsável por adquirir dados das fontes e, se necessário,
convertê-los para um formato adequado à maneira como os dados
devem ser analisados. Prováveis etapas nesta camada são:
 Aquisição de dados — Adquire dados de várias fontes e os
envia ao componente de digestão de dados ou armazena em
locais específicos. Esse componente precisa ser inteligente o
suficiente para decidir se deve armazenar os dados recebidos e
onde armazená-los. Deve poder determinar se é necessário
tratar os dados antes de armazená-los ou se é possível enviar
os dados diretamente para a camada de análise de negócios.
 Compilação de dados — Responsável por tratar dos dados no
formato necessário para atingir o objetivo da análise. Esse
04417588945

componente pode ter lógica transformacional simples ou


algoritmos estatísticos completos para converter os dados de
origem. O maior desafio é acomodar formatos de dados não
estruturados, como imagens, áudio, vídeo e outros formatos
binários.
 Armazenamento de dados distribuídos — Responsável por
armazenar os dados das fontes. Frequentemente há várias
opções de armazenamento de dados disponíveis nessa camada,
como distributed file storage (DFS), nuvem, fontes de dados
estruturados, NoSQL, etc.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 14 de 33

04417588945 - Emerson Ribeiro Barbosa


Análise de Informações para TCU 2015
Auditor Federal de Controle Externo
Prof Victor Dalton Aula 03

Camada de Análise

É a camada na qual se extrai o “insight” de negócios dos dados.


 Identificação de entidade de camada de análise —
Responsável por identificar e preencher as entidades
contextuais (o contexto). É uma tarefa complexa, que exige
processos eficientes de alto desempenho.
 Mecanismo de análise — Usa outros componentes
(especificamente identificação de entidade, gerenciamento de
modelo e algoritmos analíticos) para processar e realizar a
análise. O mecanismo de análise pode ter vários fluxos de
trabalho, algoritmos e ferramentas que apoiam o
processamento paralelo.
 Gerenciamento de modelo — Responsável por manter vários
modelos estatísticos para verificar e validar esses modelos por
meio de treinamento contínuo para aumentar sua precisão. Em
seguida, o componente de gerenciamento de modelo promove
esses modelos, que podem ser usados pelos componentes de
identificação de entidade ou mecanismo de análise.

Camada de Consumo

O resultado da análise, então, será consumido por vários usuários


dentro da organização e por entidades externas, como clientes,
fornecedores e parceiros. Por exemplo, com o insight de negócios obtido
na análise, uma empresa pode usar dados de preferência do cliente e
reconhecimento de localização para fazer ofertas personalizadas aos
04417588945

clientes enquanto eles caminham pelas prateleiras ou passam pela loja.


Também é possível, para detectar fraudes, usar o insight para
interceptar transações em tempo real e correlacioná-las com a
visualização criada usando os dados já armazenados na empresa. É
possível notificar a um cliente sobre uma possível fraude durante a
transação fraudulenta, para que as medidas cabíveis sejam tomadas
imediatamente.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 15 de 33

04417588945 - Emerson Ribeiro Barbosa


Análise de Informações para TCU 2015
Auditor Federal de Controle Externo
Prof Victor Dalton Aula 03
Por fim, vejamos as camadas verticais, que lidam com aspectos
que afetam todos os componentes das camadas lógicas, e sem hierarquia
entre si: Integração de Informações, Governança de Big Data,
Gerenciamento de Sistemas e Qualidade de Serviço.

Integração de Informações

Aplicativos de big data adquirem dados de várias origens,


fornecedores e fontes, que são armazenados em sistemas como HDFS,
NoSQL e MongoDB. Essa camada vertical é usada por vários componentes
(aquisição de dados, compilação de dado, gerenciamento de modelo e
interceptor de transação, por exemplo) e é responsável por conectar
várias fontes de dados. Para integrar informações de fontes de dados
com características diferentes (protocolos e conectividade, por exemplo),
é necessário conectores e adaptadores de qualidade. Isso inclui, por
exemplo, adaptadores de mídias sociais e de dados climáticos.

Governança de Big Data

Governança de dados é a definição de diretrizes que ajudam as


empresas a tomar as decisões certas sobre os dados. A governança
de big data ajuda a lidar com as complexidades, o volume e a variedade
de dados dentro da empresa ou oriundos de fontes externas. São
necessárias diretrizes e processos sólidos para monitorar, estruturar,
armazenar e proteger os dados desde o momento em que entram na
empresa, são processados, armazenados, analisados e removidos ou
arquivados.
As diretrizes de governança podem estar relacionadas a:
04417588945

 Definir política e regulamentos de conformidade para retenção


e uso de dados externos;
 Definir as políticas de arquivamento e remoção de dados;
 Definir políticas de criptografia de dados;
 Dentre outros.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 16 de 33

04417588945 - Emerson Ribeiro Barbosa


Análise de Informações para TCU 2015
Auditor Federal de Controle Externo
Prof Victor Dalton Aula 03
Gerenciamento de Sistemas

Gerenciamento de sistema é essencial para big data porque envolve


muitos sistemas. O monitoramento do funcionamento geral do
ecossistema inclui:
 Gerenciar os logs de sistemas, máquinas virtuais, aplicativos e
outros dispositivos;
 Correlacionar os vários logs e ajudar a investigar e monitorar a
situação;
 Monitorar alertas e notificações em tempo real;
 Dentre outros.

Qualidade de Serviço

Esta camada é responsável por definir qualidade de dados,


políticas relacionadas à privacidade e segurança, frequência de
dados, tamanho de busca e filtros de dados:
 Qualidade de dados
o Identificação integral de todos os elementos de dados
necessários
o Fornecimento dos dados dentro de um período de tempo
aceitável
o Aderência a uma linguagem comum (elementos de dados
atendem aos requisitos expressos em linguagem de negócios
simples)
o Verificação consistente de que os dados de vários sistemas
04417588945

respeitam as regras de consistência


o Conformidade técnica para cumprir a especificação de dados e
as diretrizes de arquitetura de informações

 Políticas sobre privacidade e segurança


Políticas são necessárias para proteger dados sensíveis. Dados
adquiridos de agências e provedores externos podem incluir
informações sensíveis (como o contato de um usuário do Facebook
ou informações de precificação de produto). Dados podem vir de
diferentes regiões e países e devem ser tratados de acordo com sua
origem. É necessário tomar decisões sobre mascaramento de dados
Prof. Victor Dalton
www.estrategiaconcursos.com.br 17 de 33

04417588945 - Emerson Ribeiro Barbosa


Análise de Informações para TCU 2015
Auditor Federal de Controle Externo
Prof Victor Dalton Aula 03
e seu armazenamento. Considere as políticas de acesso de dados a
seguir:
o Disponibilidade de dados
o Grau de gravidade de dados
o Autenticidade de dados
o Compartilhamento e publicação de dados
o Armazenamento e retenção de dados, incluindo perguntas
como: é possível armazenar os dados externos? Se sim, por
quanto tempo? Que tipo de dados pode ser armazenado?
o Restrições de fornecedores de dados (políticas, técnicas,
regionais)
o Termos de uso de mídias sociais (consulte Recursos)
 Frequência de dados
Com que frequência estão disponíveis os dados novos? É sob
demanda, contínuo ou offline?
 Tamanho da busca
Ajuda a definir o tamanho dos dados que é possível buscar e
consumir por busca.

 Filtros
Filtros padrão removem dados indesejados e ruído e deixam apenas
os dados necessários para análise.

04417588945

1.5 Padrões atômicos e compostos de uma solução de Big


Data

Os padrões auxiliam a definir os parâmetros, quando da adoção de


uma solução de big data. Veremos dois tipos principais: os padrões
atômicos descrevem as abordagens típicas para o consumo,
processamento, acesso e armazenamento de big data; os padrões
compostos, que são formados por padrões atômicos, são classificados de
acordo com o escopo da solução de big data.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 18 de 33

04417588945 - Emerson Ribeiro Barbosa


Análise de Informações para TCU 2015
Auditor Federal de Controle Externo
Prof Victor Dalton Aula 03
Por apresentarem as ideias mais relevantes acerca do Big Data,
exploraremos os padrões atômicos.

PADRÕES ATÔMICOS

Os padrões atômicos ajudam a identificar a forma que os dados


são consumidos, processados, armazenados e acessados por problemas
de big data. Eles também podem ajudar a identificar os componentes
necessários.

Cada padrão lida com requisitos específicos — visualização, análise


de dados históricos, dados de mídia social e armazenamento de dados
não estruturados, por exemplo. Os padrões atômicos podem trabalhar em
conjunto para criar um padrão composto. Não há camadas ou sequência
para esses padrões atômicos. Por exemplo, os padrões de visualização
podem interagir com os padrões de acesso a dados para mídia social
diretamente e os padrões de visualização podem interagir com o padrão
de processamento de análise avançada.

04417588945

Prof. Victor Dalton


www.estrategiaconcursos.com.br 19 de 33

04417588945 - Emerson Ribeiro Barbosa


Análise de Informações para TCU 2015
Auditor Federal de Controle Externo
Prof Victor Dalton Aula 03

Padrões atômicos de Big Data. Fonte: http://www.ibm.com/developerworks/br/library/bd-


archpatterns4/

Vejamos um pouco de cada padrão atômico:

04417588945

PADRÕES DE CONSUMO

Lidam com as várias formas em que o resultado da análise de dados


é consumido. Inclui padrões de consumo de dados para atender a
diversos requisitos. Vejamos os principais padrões de consumo a seguir:

Prof. Victor Dalton


www.estrategiaconcursos.com.br 20 de 33

04417588945 - Emerson Ribeiro Barbosa


Análise de Informações para TCU 2015
Auditor Federal de Controle Externo
Prof Victor Dalton Aula 03
Visualização

A forma tradicional de visualizar dados se baseia em gráficos, painéis


e relatórios de resumo. Essas abordagens tradicionais não são sempre a
melhor maneira de visualizar os dados.
Os requisitos típicos para visualização de big data, incluindo os
requisitos emergentes, são listados abaixo:
 Realizar análise em tempo real e exibição de dados de fluxo
 Extrair dados de forma interativa, com base no contexto
 Executar procuras avançadas e obter recomendações
 Visualizar informações paralelamente
 Ter acesso a hardware avançado para necessidades de visualização
futuristas
A pesquisa para determinar como os insights de big data podem ser
consumidos por humanos e máquinas está em andamento. Os desafios
incluem o volume de dados envolvido e a necessidade de associar
contexto a eles. O insight dever apresentado no contexto adequado.

Descoberta ad hoc

Criar de relatórios padrão que sejam adequados para todas as


necessidades de negócios, via de regra, não é viável, pois as empresas
têm requisitos de consultas de dados de negócios diversas. Os usuários
precisam da capacidade de enviar consultas ad hoc, ou seja, consultas
criadas “na hora”, ao procurar por informações especificas, dependendo
do problema.
04417588945

Aumentar os armazenamentos de dados tradicionais

Aumentar os armazenamentos de dados existentes ajuda a ampliar o


escopo de dados disponível para a analítica atual para incluir dados que
residem dentro e fora dos limites organizacionais, como dados de mídia
social, que podem melhorar os dados principais. Ao ampliar o escopo para
incluir novas tabelas de fatos, dimensões e dados principais nos
armazenamentos existentes e adquirir dados de clientes a partir de mídia
social, uma organização pode obter um insight mais profundo do cliente.

Notificação

Prof. Victor Dalton


www.estrategiaconcursos.com.br 21 de 33

04417588945 - Emerson Ribeiro Barbosa


Análise de Informações para TCU 2015
Auditor Federal de Controle Externo
Prof Victor Dalton Aula 03

Os insights de big data permitem que as pessoas, negócios e


máquinas ajam instantaneamente usando notificações para indicar
eventos. A plataforma de notificação deve ser capaz de lidar com o
volume antecipado de notificações a serem enviadas de maneira
oportuna. Essas notificações são diferentes das malas diretas ou do envio
em massa de mensagens SMS, pois o conteúdo geralmente é específico
para o consumidor. Por exemplo, os mecanismos de recomendação
podem fornecer insights sobre a enorme base de clientes em todo o
mundo, e as notificações podem ser envidas para tais clientes.

Iniciar uma resposta automatizada

Os insights de negócios derivados do big data podem ser usados para


acionar ou iniciar outros processos de negócios ou transações.

PADRÕES DE PROCESSAMENTO

O big data pode ser processado quando os dados estão em repouso


ou em movimento. Dependendo da complexidade da análise, os dados
podem não ser processados em tempo real. Esse padrão lida com como o
big data é processado em tempo real, quase em tempo real ou em lote
(rotinas batch, processadas em horários pré-determinados).
Vejamos um pouco mais sobre esses padrões a seguir:

04417588945

Análise de dados históricos

A análise de dados históricos tradicional é limitada a um período


predefinido de dados, que normalmente depende das políticas de
retenção de dados. Após desse período, geralmente os dados são
arquivados ou limpos em virtude de limitações de armazenamento e
processamento.
A análise histórica envolve analisar as tendências históricas para um
determinado período, conjunto de períodos e produtos e compará-las aos
dados atuais disponíveis.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 22 de 33

04417588945 - Emerson Ribeiro Barbosa


Análise de Informações para TCU 2015
Auditor Federal de Controle Externo
Prof Victor Dalton Aula 03

Analítica Avançada

O big data fornece enormes oportunidades de obter insights criativos.


É possível correlacionar diferentes conjuntos de dados em muitos
contextos. A descoberta desses relacionamentos requer técnicas e
algoritmos complexos inovadores.
A análise avançada inclui previsões, decisões, processos inferenciais,
simulações, identificações de informações contextuais e resoluções da
entidade. Os aplicativos de analítica avançada incluem análise de dados
biométricos, por exemplo, análise de DNA, análise espacial, analítica
baseada em localização, análise científica, pesquisa e muitas outras. A
analítica avançada requer a computação exigente para gerenciar a
enorme quantidade de dados.

Pré-processar dados brutos

A extração de dados a partir de dados não estruturados, como


imagens, áudio, vídeo, feeds binários ou até mesmo texto, é uma tarefa
complexa e precisa de técnicas como aprendizado de máquina e
processamento de idioma natural, etc. O outro grande desafio é como
verificar a precisão e a exatidão do resultado de tais técnicas e
algoritmos.
Para executar a análise em quaisquer dados, eles devem estar
em algum tipo de formato estruturado. Os dados não estruturados
acessados de várias fontes podem ser armazenados como estão e, em
seguida, transformados em dados estruturados
04417588945
e novamente
armazenados nos sistemas de armazenamento de big data. O texto não
estruturado pode ser convertido em dados estruturados ou
semiestruturados. Da mesma forma, os dados de imagem, áudio e vídeo
precisam ser convertidos nos formatos que podem ser usados para
análise. Além disso, a precisão e exatidão da analítica avançada que usa
algoritmos preditivos e estatísticos dependem da quantidade de dados e
algoritmos usados para treinar os modelos.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 23 de 33

04417588945 - Emerson Ribeiro Barbosa


Análise de Informações para TCU 2015
Auditor Federal de Controle Externo
Prof Victor Dalton Aula 03

3) (CESPE – TJ/SE – Analista Judiciário – Banco de Dados – 2014)


Em soluções Big Data, a análise dos dados comumente precisa ser
precedida de uma transformação de dados não estruturados em dados
estruturados.

Correto. Para que um dado possa ser analisado, é preciso que ele esteja
em algum tipo de formato estruturado, envolvendo metadados,
relacionado a algum outro dado ou informação.

Análise ad hoc

O processamento de consultas ad hoc no big data traz desafios


diferentes daqueles incorridos ao realizar consultas ad hoc em dados
estruturados pelo fato de as fontes e formatos dos dados não serem fixos
e exigirem mecanismos diferentes para recuperá-los e processá-los.
Embora as consultas ad hoc simples possam ser resolvidas pelos
provedores de big data, na maioria dos casos, elas são complexas porque
os dados, algoritmos, formatos e resoluções da entidade devem ser
descobertos dinamicamente. O conhecimento dos cientistas de dados e
dos usuários corporativos é necessário para definir a análise exigida para
as seguintes tarefas:
 Identificar e descobrir os cálculos e algoritmos
04417588945

 Identificar e descobrir as fontes de dados


 Definir os formatos necessários que podem ser consumidos pelos
cálculos
 Executar os cálculos nos dados paralelamente

Prof. Victor Dalton


www.estrategiaconcursos.com.br 24 de 33

04417588945 - Emerson Ribeiro Barbosa


Análise de Informações para TCU 2015
Auditor Federal de Controle Externo
Prof Victor Dalton Aula 03

4) (CESPE – TJ/SE – Analista Judiciário – Banco de Dados – 2014)


O processamento de consultas ad hoc em Big Data, devido às
características de armazenamento dos dados, utiliza técnicas semelhantes
àquelas empregadas em consultas do mesmo tipo em bancos de dados
tradicionais.

Errado! O processamento de consultas ad hoc no big data traz desafios


diferentes daqueles incorridos ao realizar consultas ad hoc em
dados estruturados pelo fato de as fontes e formatos dos dados não
serem fixos e exigirem mecanismos diferentes para recuperá-los e
processá-los. Em Big Data, tais consultas serão bem mais complexas e
dinâmicas.

PADRÕES DE ACESSO

Existem muitas fontes de dados e formas em que os dados podem


ser acessados em uma solução de big data, Vejamos as mais comuns:

Web e mídias sociais

A Internet é a fonte de dados que fornece muitos dos insights


produzidos atualmente. A web e a mídia social são úteis em praticamente
todas as análises, mas são necessários mecanismos de acesso diferentes
04417588945

para obter esses dados.


A web e a mídia social são a fonte de dados mais complexa de todas
em virtude de sua enorme variedade, velocidade e volume. Há
aproximadamente de 40 a 50 categorias de websites e cada uma exigirá
um tratamento diferente para acessar esses dados.

(gerados por) Dispositivos

O conteúdo gerado por dispositivos inclui dados de sensores. Os


dados são detectados a partir das origens de dados, como informações

Prof. Victor Dalton


www.estrategiaconcursos.com.br 25 de 33

04417588945 - Emerson Ribeiro Barbosa


Análise de Informações para TCU 2015
Auditor Federal de Controle Externo
Prof Victor Dalton Aula 03
sobre o clima, medições elétricas e dados sobre poluição, e capturados
pelos sensores. Os dados podem ser fotos, vídeos, texto e outros
formatos binários.

Dados transacionais, operacionais e de Warehouse

É possível armazenar os dados de warehouse, operacionais e


transacionais existentes para evitar a limpeza ou o arquivamento deles
(em virtude de limitações de armazenamento e processamento) ou para
reduzir a carga no armazenamento tradicional quando os dados são
acessados por outros consumidores.
Os dados transacionais e de warehouse podem ser inseridos no
armazenamento usando conectores padrão disponibilizados por diversos
fornecedores de banco de dados. O pré-processamento de dados
transacionais é muito mais fácil, pois a maior parte deles é estruturada.
Os processos de extração, transformação e carregamento simples podem
ser usados para mover os dados transacionais para o armazenamento.

PADRÕES DE ARMAZENAMENTO

Os padrões de armazenamento auxiliam a determinar o


armazenamento adequado para diversos formatos e tipos de dados. Os
dados podem ser armazenados como estão, com relação a pares de
valores de chave ou em formatos predefinidos. Vejamos os principais
padrões:
04417588945

Dados não estruturados e distribuídos

A maior parte do big data não é estruturada, já sabemos, e pode


conter informações que podem ser extraídas de diferentes formas para
diferentes contextos. Na maioria das vezes, os dados não estruturados
devem ser armazenados como estão, em seu formato original.
Tais dados podem ser armazenados em sistemas de arquivos
distribuídos, como HDFS (Hadoop Distributed File System), e em
armazenamento de documentos NoSQL (Not Only SQL), como o
MongoDB. Esses sistemas fornecem uma maneira eficiente de recuperar
dados não estruturados.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 26 de 33

04417588945 - Emerson Ribeiro Barbosa


Análise de Informações para TCU 2015
Auditor Federal de Controle Externo
Prof Victor Dalton Aula 03

Dados estruturados e distribuídos

Os dados estruturados incluem aqueles que chegam da fonte de


dados e já estão em um formato estruturado e os dados não estruturados
que foram pré-processados. Esses dados convertidos devem ser
armazenados para evitar a frequente conversão de dados brutos para
dados estruturados.
Tecnologias como BigTable do Google são usadas para armazenar
dados estruturados. O BigTable é um sistema de autogerenciamento
tolerante a falhas de grande escala que inclui terabytes de memória e
petabytes de armazenamento.

Armazenamento de dados tradicionais

O armazenamento de dados tradicional não é a melhor opção para


armazenar big data, mas nos casos em que as empresas estão realizando
a exploração de dados inicial, elas podem optar por usar o data
warehouse, o sistema RDBMS (sistemas relacionais) e outros
armazenamentos de conteúdo existentes. Esses sistemas de
armazenamento existentes podem ser usados para armazenar os dados
que são compilados e filtrados usando a plataforma de big data. Os
sistemas de armazenamento de dados tradicionais não são
adequados para o big data.

04417588945

Armazenamento na nuvem

Muitos provedores de infraestrutura da nuvem possuem recursos de


armazenamento estruturado e não estruturado distribuídos. As
tecnologias de big data são um pouco diferentes das perspectivas de
configurações, manutenção, gerenciamento de sistemas e programação e
modelagem tradicionais. Além disso, as qualificações necessárias para
implementar as soluções de big data são raras e caras. As empresas
explorando as tecnologias de big data podem usar soluções de nuvem que
fornecem o gerenciamento de sistemas, manutenção e armazenamento
de big data.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 27 de 33

04417588945 - Emerson Ribeiro Barbosa


Análise de Informações para TCU 2015
Auditor Federal de Controle Externo
Prof Victor Dalton Aula 03
Contudo, não-raro, os dados a serem armazenados são confidenciais,
incluindo dados biométricos e registros médicos. A segurança de dados,
o compartilhamento de dados, a governança de dados e outras
políticas relacionadas aos dados, são aspectos a serem
considerados ao ponderar a nuvem como um repositório de
armazenamento para big data. A capacidade de transferir enormes
quantidades de dados também é outra consideração fundamental para o
armazenamento em nuvem.

5) (CESPE – TJ/SE – Analista Judiciário – Banco de Dados – 2014)


Ao utilizar armazenamento dos dados em nuvem, a localização do
processamento de aplicações Big Data não influenciará os custos e o
tempo de resposta, uma vez que os dados são acessíveis a partir de
qualquer lugar.

Errado! Naturalmente, por envolver transferência de volumes muito


grandes de dados, o tempo de resposta das aplicações pode ser afetado.
Além disso, ao adotar armazenamento em nuvem, espera-se uma
diminuição dos custos de armazenamento, que será feito por um terceiro.

6) (CESPE – TRE/GO – Técnico Judiciário – Área Administrativa -


2013) A Big Data pode ser utilizada na EAD para se entender as
preferências e necessidades de aprendizagem dos alunos e, assim,
contribuir para soluções mais eficientes de educação mediada por
tecnologia.

Correto. O Big Data poder ser utilizado para melhor conhecer o perfil e o
04417588945

comportamento dos alunos, para que cursos à distância sejam mais


eficazes. Este tipo de sentença CESPE (Tal coisa PODE ser utilizada...) só
estará errado se estiver escrito algo muito absurdo a seguir. De qualquer
forma, sugiro a leitura complementar:

http://convergenciadigital.uol.com.br/cgi/cgilua.exe/sys/start.htm?infoid
=37729#.VaLtKvlVhBc

7) (QUADRIX – CREF/11ª Região – Agente de Orientação e


Fiscalização – 2014) Trata-se de uma infinidade de informações não
estruturadas que, quando usadas com inteligência, se tornam uma arma
poderosa para empresas tomarem decisões cada vez melhores.
As soluções tecnológicas que trabalham com esse conceito permitem

Prof. Victor Dalton


www.estrategiaconcursos.com.br 28 de 33

04417588945 - Emerson Ribeiro Barbosa


Análise de Informações para TCU 2015
Auditor Federal de Controle Externo
Prof Victor Dalton Aula 03
analisar um enorme volume de dados de forma rápida e ainda oferecem
total controle ao gestor das informações. E as fontes de dados são as
mais diversas possíveis: de textos e fotos em rede sociais, passando por
imagens e vídeos, até jogadas específicas no esporte e até tratamentos
na medicina.

(http://olhardigital.uol.com.br/pro/video/39376/39376)

O conceito definido no texto é:

a) Governança de TI
b) QoS.
c) Big Data
d) Data Center.
e) ITIL.

Preciso explicar? Rs.

Alternativa c).

04417588945

Prof. Victor Dalton


www.estrategiaconcursos.com.br 29 de 33

04417588945 - Emerson Ribeiro Barbosa


Análise de Informações para TCU 2015
Auditor Federal de Controle Externo
Prof Victor Dalton Aula 03
CONSIDERAÇÕES FINAIS

E este foi o Big Data.

Acho uma matéria interessante, e, para nós, com um viés bem mais
teórico do que prático.

O edital fala em “Noções de Big Data”. Estou confiante de termos ido


além do necessário para acertar as eventuais questões de prova sobre o
assunto.

De qualquer forma, deixo abaixo a bibliografia que inspirou esta aula.


Tendo tempo, visitem os links e reforcem seu conhecimento!

http://www.ibm.com/developerworks/br/library/bd-bigdatacloud/

http://www.ibm.com/developerworks/br/library/bd-archpatterns1/

http://www.ibm.com/developerworks/br/library/bd-archpatterns2/

http://www.ibm.com/developerworks/br/library/bd-archpatterns3/

http://www.ibm.com/developerworks/br/library/bd-archpatterns4/

http://blog.aiec.br/voce-sabe-o-que-e-big-data/

http://www.infowester.com/big-data.php

http://cienciahoje.uol.com.br/revista-ch/2013/306/desafios-do-big-
data

04417588945

Até a próxima aula, sobre Dados Abertos e Lei de Acesso à


Informação.

Victor Dalton

Prof. Victor Dalton


www.estrategiaconcursos.com.br 30 de 33

04417588945 - Emerson Ribeiro Barbosa


Análise de Informações para TCU 2015
Auditor Federal de Controle Externo
Prof Victor Dalton Aula 03
LISTA DOS EXERCÍCIOS APRESENTADOS NA AULA

1) (FGV – TJ/SC – Analista de Sistemas – 2015) Os termos Business


Intelligence (BI) e Big Data confundem-se em certos aspectos. Uma
conhecida abordagem para identificação dos pontos críticos de cada
paradigma é conhecida como 3V, e destaca:

a) variedade, visualização, volume;


b) velocidade, virtualização, volume;
c) variedade, velocidade, volume;
d) virtualização, visualização, volume;
e) variedade, visualização, virtualização.

2) (FGV – AL/BA – Técnico de Nível Superior - Economia – 2014)


A expressão Big Data é utilizada para descrever o contexto da
informação contemporânea, caracterizada pelo volume,
velocidade e variedade de dados disponíveis, em escala inédita.

Com relação às características do Big Data, analise as afirmativas a


seguir.

I. O volume da informação se refere ao fato de que certas


coleções de dados atingem a faixa de gigabytes (bilhões de bytes),
terabytes (trilhões), petabytes (milhares de trilhões) ou mesmo
exabytes (milhões de trilhões).

II. A velocidade está relacionada à rapidez com a qual os dados são


produzidos e tratados para atender à demanda, o que significa que não é
possível armazená-los todos, de modo que somos obrigados a escolher
04417588945

dados para guardar e outros para descartar.

III. A variedade significa que os dados de hoje aparecem em todos os


tipos de formatos, como, por exemplo, arquivos de texto, email,
medidores e sensores de coleta de dados, vídeo, áudio, dados de ações
do mercado ou transações financeiras.

Assinale:

a) se somente a afirmativa I estiver correta.


b) se somente a afirmativa II estiver correta.
c) se somente a afirmativa III estiver correta.
d) se somente as afirmativas I e II estiverem corretas.

Prof. Victor Dalton


www.estrategiaconcursos.com.br 31 de 33

04417588945 - Emerson Ribeiro Barbosa


Análise de Informações para TCU 2015
Auditor Federal de Controle Externo
Prof Victor Dalton Aula 03
e) se todas as afirmativas estiverem corretas.

3) (CESPE – TJ/SE – Analista Judiciário – Banco de Dados – 2014)


Em soluções Big Data, a análise dos dados comumente precisa ser
precedida de uma transformação de dados não estruturados em dados
estruturados.

4) (CESPE – TJ/SE – Analista Judiciário – Banco de Dados – 2014)


O processamento de consultas ad hoc em Big Data, devido às
características de armazenamento dos dados, utiliza técnicas semelhantes
àquelas empregadas em consultas do mesmo tipo em bancos de dados
tradicionais.

5) (CESPE – TJ/SE – Analista Judiciário – Banco de Dados – 2014)


Ao utilizar armazenamento dos dados em nuvem, a localização do
processamento de aplicações Big Data não influenciará os custos e o
tempo de resposta, uma vez que os dados são acessíveis a partir de
qualquer lugar.

6) (CESPE – TRE/GO – Técnico Judiciário – Área Administrativa -


2013) A Big Data pode ser utilizada na EAD para se entender as
preferências e necessidades de aprendizagem dos alunos e, assim,
contribuir para soluções mais eficientes de educação mediada por
tecnologia.

7) (QUADRIX – CREF/11ª Região – Agente de Orientação e


04417588945

Fiscalização – 2014) Trata-se de uma infinidade de informações não


estruturadas que, quando usadas com inteligência, se tornam uma arma
poderosa para empresas tomarem decisões cada vez melhores.
As soluções tecnológicas que trabalham com esse conceito permitem
analisar um enorme volume de dados de forma rápida e ainda oferecem
total controle ao gestor das informações. E as fontes de dados são as
mais diversas possíveis: de textos e fotos em rede sociais, passando por
imagens e vídeos, até jogadas específicas no esporte e até tratamentos
na medicina.

(http://olhardigital.uol.com.br/pro/video/39376/39376)

Prof. Victor Dalton


www.estrategiaconcursos.com.br 32 de 33

04417588945 - Emerson Ribeiro Barbosa


Análise de Informações para TCU 2015
Auditor Federal de Controle Externo
Prof Victor Dalton Aula 03

O conceito definido no texto é:

a) Governança de TI
b) QoS.
c) Big Data
d) Data Center.
e) ITIL.

04417588945

GABARITO

1.c 2.e 3.c 4.e 5.e 6.c 7.c

Prof. Victor Dalton


www.estrategiaconcursos.com.br 33 de 33

04417588945 - Emerson Ribeiro Barbosa

S-ar putea să vă placă și