Documente Academic
Documente Profesional
Documente Cultură
2016
Sumrio
3
Captulo 1 Definio e fundamentos do Big Data ............................................................ 4
Captulo 2 Utilizao do Big Data ......................................................................................... 14
Captulo 3 Tecnologia para o Big Data ............................................................................... 22
Captulo 4 Capacitao ............................................................................................................. 43
Referncias ....................................................................................................................................... 46
O Google estima que a cada dois dias so gerados cerca de cinco exabytes
de informao: isso o que a humanidade gerou em toda a sua histria
at 2003.
Nos ltimos anos, o termo Big Data tem chamado muito a ateno da mdia
em geral, no apenas pelas possibilidades de sua utilizao, mas tambm pelo
forte relacionamento com esse novo modo de vida da humanidade.
operacionais,
acessos
Internet
fontes
de
informaes
Volume
Variedade
Velocidade
Alm dessas dimenses, h outras duas utilizadas por alguns autores que
julgo serem muitssimo pertinentes tambm:
Veracidade
Valor
classificar
essa
dimenso
por
uma
quantidade
pr-definida
de
dados
que 90% dos dados existentes foram gerados nos ltimos dois anos, daqui a
dois anos isso tambm ser verdade.
Para referncia:
das
pessoas
respeito
dele
(pewinternet.org/~/media/Files/Reports/2012/PIP_Future_of_Internet_2012_
Big_Data.pdf). Nessa pesquisa, as pessoas foram expostas a duas afirmaes a
respeito do Big Data, uma de carter positivo e outra de carter negativo e
deveriam se posicionar a favor ou contra cada uma em funo dos seus
impactos nas empresas, pessoas, economia e sociedade em geral.
negativo. Isso
estamos
no incio
do
entendimento do que possvel fazer com Big Data. Apesar das possibilidades
serem incrveis, questes como a privacidade e o uso indevido ou no autorizado
de informaes pessoais devem ser consideradas. Atualmente, j existem vrios
60
50
40
30
20
10
0
Positivo
Negativo
Competition
and
Productivity
(www.mckinsey.com/Insights/MGI/Research/Technology_and_Innovation/Big_da
ta_The_next_frontier_for_innovation.
Algumas
empresas
conseguiram
substanciais
vantagens
competitivas
Essa cultura vista por muitos como o grande diferencial do Vale do Silcio
para o desenvolvimento das empresas ali instaladas, por l conhecido como
Paying it forward.
Esse cenrio abre espao para a posio de cientista de dados nas empresas,
um profissional multidisciplinar, com habilidades de cincia da computao,
matemtica, estatstica e do negcio onde est inserido. As iniciativas de Big
Data tm alguns impactos bastante evidentes:
Transparncia: a disponibilizao de dados, antes inacessveis, possibilita que
o pblico cruze informaes at ento isoladas em sistemas isolados criando
oportunidades para a melhoria da gesto de empresas, cidades e governos por
meio de sua integrao. A otimizao das informaes e tecnologias permite a
criao do conceito de cidades inteligentes.
Segmentao precisa da populao: a ampliao das fontes de informao
permitem chegar ao nvel dos indivduos o que muda a prpria definio de
anonimato. A vida real das pessoas, cada vez mais, esta ligada ao seu perfil
virtual.
Anlises preditivas: a integrao de informaes coletadas de redes sociais o
pano de fundo para diversos projetos. A anlise de padres em imensos volumes
de dados possvel prever epidemias, secas severas e outras ocorrncias.
Alguns projetos que se destacam nesse ambiente h o Global Pulse da ONu que
ajuda a melhorar a vida das populaes do planeta e o Google Flu Trends que
identifica as configuraes ambientais para a ocorrncia de epidemias de gripe.
Substituio/complemento
automatizados:
diversas
de
decises
humanas
funes
como
gerenciamento
por
de
algoritmos
trfego.
bem
como
novas
empresas
surgem
mudam
cenrio
do
empreendedorismo em TI.
conseguirem
criar
uma
cultura
organizacional
que
favorea
2.4 - Sade
Na sade, diversos atores desempenham papis distintos: pacientes,
profissionais de sade, hospitais, laboratrios farmacuticos, empresas de
seguro sade, governo etc.
A quantidade de dados disponveis ou potencialmente disponveis incrvel e
possibilita pesquisas de medicamentos, anlises de interaes medicamentosas,
eficcia de tratamentos e outros.
A possibilidade de utilizar dados de grupos enormes de pacientes nunca
existiu de maneira to clara e muito menos de maneira to simples. Hoje
de
impostos,
pagamentos
de
benefcio,
financiamento
de
2.7 - Financeiro
Big Data pode mudar o jogo do combate s fraudes. Quanto mais informaes
se tem nesses casos, mais eficientes so os sistemas. A velocidade da deteco,
ou mesmo sua previso, podem reduzir os impactos negativos ocasionados por
esse tipo de crime.
No modelo tradicional busca-se indivduos que se enquadrem em um
determinado padro. Esse modelo funciona no atacado, mas no capaz de
distinguir casos individuais.
Muitas vezes, as fraudes s so detectadas depois que j ocorreram e o
prejuzo tem que ser assumido alm, claro, da grande quantidade de casos de
falsos positivos que pioram sensivelmente a experincia dos usurios.
Substituio imperfeita
Efeito de rede
outro
lado,
no
ainda
um
consenso
quanto
tecnologias
3.2 - Hadoop
O Hadoop conhecido como o corao open source do Big Data. Criado pelo
Yahoo em 2005, inspirado Google File System, GFS e no paradigma de
programao MapReduce, que essencialmente divide o trabalho em tarefas como
um mapeador (mapper) e um resumidor (reducer) que manipulam dados
distribudos em um cluster de servidores usados de forma massivamente
paralela.
Cada vez mais empresas que precisam tratar volumes de dados no
estruturados, tendo desenvolvido um ecossistema ao seu redor.
O que o Hadoop? Na prtica, a combinao de dois projetos separados: o
Hadoop MapReduce (HMR), que um framework para processamento paralelo e
o Hadoop Distributed File System (HDFS). O HMR um spinoff do MapReduce,
software que o Google usa para acelerar as pesquisas em sua mquina de
busca. O HDFS um sistema de arquivos distribudos otimizado para atuar com
dados no estruturados. Por fim, h o Hadoop Common, um conjunto de
bibliotecas e utilitrios que suportam os projetos Hadoop.
O HDFS o sistema de armazenamento de dados do Hadoop. Como na
maioria dos sistemas de arquivos, os dados so divididos em blocos distribudos
em diversos servidores. A primeira caracterstica marcante do HDFS
que se
um ou
dois
servidores
falharem
terceiro
garantir
Subprojeto
Modelagem e desenvolvimento
MapReduce
Pig
Mahout
HDFS
Hbase
Cassandra
Hive
Sqoop
Chukwa
Flume
HCatalog
Oozie
Ambari
Serializao de dados
Avro
Figura 10 - Dados para posicionamento das solues e Big Data (Gartner Group)
3.3 - MapReduce
O
MapReduce
um
paradigma
de
programao
que
permite
escalabilidade
horizontal
oferecida
por
esse
modelo
permite
que
Figura 13 Custergramas
3.4 Spark
O Spark um framework para processamento de Big Data construdo com
foco em velocidade, facilidade de uso e anlises sofisticadas. Est sendo
desenvolvido desde 2009 pelo AMPLab da Universidade de Califrnia em
Berkeley e em 2010 seu cdigo foi aberto como projeto da fundao Apache.
O Spark tem muitas vantagens se comparado as outras tecnologias de Big
Data e do paradigma MapReduce, como o Hadoop e o Storm.
Inicialmente,
Spark
oferece
um
framework
unificado
de
fcil
para diferentes casos de uso de Big Data (como o Mahout para Aprendizado de
Mquina e o Storm para o processamento de streaming).
Nesse cenrio, caso seja necessrio fazer algo complexo, seria preciso
encadear uma srie de jobs de MapReduce e execut-los em sequncia. Cada
um desses jobs tero alta latncia e no poder comear at que o anterior
tenha terminado.
O Spark permite que os programadores desenvolvem pipelines compostos
por vrias etapas complexas usando grafos direcionais acclicos. Alm disso,
suporta o compartilhamento de dados da memria atravs desses grafos, de
modo que os diferentes jobs possam trabalhar com os mesmos dados.
O Spark usa a infraestrutura do Hadoop Distributed File System (HDFS), mas
melhora suas funcionalidades e fornece ferramentas adicionais. Por exemplo,
permite a implantao de aplicativos em cluster Hadoop v1 (com SIMR - Spark
Inside MapReduce), ou em Hadoop v2 com YARN ou com Apache Mesos.
Devemos olhar para o Spark como uma alternativa para MapReduce do
Hadoop em vez de um simples substituto, mas como uma soluo abrangente e
unificada para gerenciar diferentes casos de uso da Big Data.
O Spark estende o MapReduce evitando mover os dados durante seu
processamento, atravs de recursos como armazenamento de dados em
memoria e processamento prximo ao tempo real, o desempenho pode ser
vrias vezes mais rpido do que outras tecnologias de Big Data.
Tambm h suporte para validao sob demanda de consultas para Big
Data, o que ajuda com a otimizao do fluxo de processamento de dados e
fornece uma API de mais alto nvel para melhorar a produtividade do
desenvolvedor e um modelo consistente para o arquiteto de solues Big Data.
O Spark detm resultados intermedirios na memria, em vez de escrev-los
no disco, o que muito til quando se precisa processar o mesmo conjuntos de
dados muitas vezes. Seu projeto teve por objetivo torn-lo um mecanismo de
execuo que funciona tanto na memria como em disco e, por isso, o Spark
executa operaes em disco quando os dados no cabem mais na memria.
Assim, possvel us-lo para o processamento de conjuntos de dados maiores
que a memria agregada em um cluster.
Scala
Java
Python
Clojure
Alm da API do Spark, existem bibliotecas adicionais que fazem parte do seu
ecossistema e fornecem capacidades adicionais para as reas de anlise de Big
Data e aprendizado de mquina. Estas bibliotecas incluem:
Spark Streaming:
O Spark Streaming pode ser usado para processar dados de streaming em
tempo real baseado na computao de microbatch. Para isso utilizado o
DStream que basicamente uma srie de RDD para processar os dados
em tempo real;
Spark SQL:
de
aprendizagem,
incluindo
classificao,
regresso,
de
arquivos
de
forma
confivel e
rpida
atravs
de
Armazenamento de dados
API
Framework de gerenciamento
API
A API permite que os desenvolvedores de aplicaes criem aplicaes
baseadas no Spark usando uma interface de API padro para Scala, Java e
Python.
Gesto de recursos
O Spark pode ser implantado como um servidor autnomo ou em uma
estrutura de computao distribuda como o Mesos ou o YARN. Na Figura 2,
apresentam-se os componentes da arquitetura Spark.
3.6 Visualizao
A visualizao dos dados busca potencializar a apropriao da informao
pelo usurio por meio de recursos grficos. A visualizao de dados uma rea
onde a computao grfica intensamente utilizada, a fim de apresentar as
informaes de maneira que os usurios possam extrair o mximo de valor
delas.
As tcnicas de visualizao tm evoludo bastante, j que a natureza dos
dados no Big Data demanda solues criativas para evidenciar o surgimento dos
padres at ento irreconhecveis. Cada tcnica se adequa a um tipo especfico
de dado e a uma demanda especfica dos usurios. Ainda assim, possvel listar
algumas das mais utilizadas.
Nuvens de tags (Tag Clouds): uma lista visual ponderada, onde as palavras
que aparecem com maior frequncia aparecem de forma destacada.
Clustergramas: utilizada na visualizao de anlises de clusters (cluster
analysis) ou agrupamentos. Atravs desse tipo de anlise agrupa-se objetos em
grupos baseando-se em sua semelhana de acordo com alguma funo de
distncia estatstica. A classificao deve ser realizada de maneira automtica,
sem que seja necessria a interveno do usurio e sem que sejam consideradas
caractersticas previamente nem grupos de teste.
History Flow: mostram a evoluo de um documento medida que ele seja
modificado pelos contribuintes. O tempo marcado no eixo horizontal e as
contribuies no eixo vertical. Nesse modelo fica evidenciado o autor da
colaborao bem como a sua grandeza.
Spatial Information Flow: traz uma perspectiva espacial de informaes
especficas
A necessidade de ser extremamente criativo na visualizao dos dados abre
espao para todo um ecossistema de empresas focadas na criao de novas
formas de se visualizar dados. Esse cenrio especialmente adequado criao
Captulo 4 Capacitao
O Big Data abre oportunidades para as reas de TI e negcios das empresas
se tornarem ainda mais relevantes.
Muitas vezes, os CEOs mostram-se insatisfeitos com suas equipes de TI por
entenderem que h um grande valor a ser explorado em suas bases e interaes
com usurios mas as equipes de TI no conseguem extrair o valor de l.
No mundo inteiro a quantidade disponvel de profissionais muito inferior
demanda do mercado. No Brasil isso ainda mais evidente, dadas as
caractersticas do mercado e o momento inicial das iniciativas de Big Data.
Essa escassez pode ser o maior entrave na utilizao eficiente de solues
de Big Data, pois das 4,4 milhes de vagas que sero disponibilizadas em 2015
menos de 30% sero preenchidos pelos profissionais atualmente disponveis.
Menos de 10% das organizaes acredita ter uma equipe adequada ao Big Data
e 75% dos professores acreditam que o que ensinado hoje nas escolas est
muito distante do que os profissionais de Big Data devem saber.
A visualizao dos dados busca potencializar a apropriao da informao
pelo usurio, por meio dessa demanda abre espao, para a criao de uma nova
carreira, a do cientista de dados, um profissional criativo, com formao em
Cincia da Computao e matemtica e um profundo conhecimento do negcio.
Segundo um VP de Produtos Big Data da IBM, o Data Scientist algum que
curioso e capaz de analisar os dados para detectar tendncias.
interessante perceber que essa criatividade, muitas vezes, d espao para
a entrada de profissionais com perfil bastante diferente daqueles que ocupavam
tradicionalmente esses cargos. Os decifradores de cdigos de comunicao dos
alemes na segunda guerra mundial eram essencialmente matemticos e
linguistas que eram capazes de pensar fora da caixa.
A carreira de cientista de dados tem impacto direto na gesto das empresas
que deve abandonar as decises baseadas em suposies para focar naquelas
orientadas a fatos.
O foco das anlises est principalmente nos dados em tempo real ou com
baixa latncia o que difere essa funo daquela exercida pelos analistas de BI.
So conhecimentos fundamentais do cientista de dados:
Estatstica
Matemtica
Hadoop
Pig
ainda
desconhecida
na
maioria
das
empresas,
CDO
Referncias
MINELLI, Michael; CHAMBERS, Michele; DHIRAJ Ambiga. Big Data, Big Analytics:
Emerging Business Intelligence Analytic Trends for Todays Business. Wiley CIO,
2013.
URWITZ, Judith; NUGENT, Alan, HALPER, Fern, KAUFMAN, Marcia. Big Data for
Dummies. John Wiley & Sons, Inc, 2013.