Sunteți pe pagina 1din 67

CONCEITOS DE

DATA SCIENCE

Rafael Santos rafael.santos@inpe.br


www.lac.inpe.br/~rafael.santos/
Resumo

Data Science mais um termo usado para descrever o


processo de transformao de dados em conhecimento.
diferente de e ao mesmo tempo expande campos j
conhecidos como estatstica, analytics, minerao de dados,
descoberta de conhecimento em bases de dados, com nfase
no desenvolvimento de solues que integram os processos da
transformao de dados heterogneos, em diferentes escalas,
incompletos e possivelmente mal-estruturados em
conhecimento.

Neste mini-curso introdutrio veremos alguns conceitos de


Data Science, definies de seus proponentes, conhecimentos
tcnicos que definem um data scientist e como adquiri-los; e
exemplos do que (ou no) Data Science.

2
Conceitos de Data Science

O que Data Science?


Hype

By 2018, the United States will experience a


shortage of 190,000 skilled data scientists,
and 1.5 million managers and analysts capable
of reaping actionable insights from the big
data deluge.

Susan Lund et al., Game Changers: Five Opportunities for US Growth and Renewal,
McKinsey Global Institute Report, July 2013.
http://www.mckinsey.com/insights/americas/us_game_changers
4
Duas definies iniciais

Data scientist: Person who is better at statistics than any


software engineer and better at software engineering than
any statistician Josh Wills

"What is a 'Data Scientist'? An analyst who lives in


California. were-bycicle

5
Envolve dados, mas...

... no somente gerenciamento de bases de dados!


Aplicaes baseadas em dados so comuns.
Indispensveis em algumas atividades!

Usar (coletar, armazenar, publicar) dados no data


science. preciso agregar valor aos dados e permitir novas
formas de uso.
Exemplo: base de dados CDDB.

Data science possibilita a criao de produtos de dados.

https://www.oreilly.com/ideas/what-is-data-science
6
Envolve programao, mas...

... no somente programao e novas tecnologias.


The key word in "Data Science" is not Data, it is Science
No Big Data, s tem X gigabytes.

Meus dados so maiores que os seus.

Eu sei Hadoop, voc sabe?

Menos nfase em tamanho e tecnologia, mais em aplicao


de tecnologias para obter respostas sobre os dados.

http://simplystatistics.org/2013/12/12/the-key-word-in-data-science-is-not-data-it-is-
science/ 7
Envolve estatstica, mas...

...no puramente estatstica tradicional.


Pode ser necessrio escalonar mtodos tradicionais.

necessrio prototipar em linguagens como R e Python.


Aplicaes point-and-click no seriam eficientes.

So precisos conhecimentos em combinao de fontes de


dados, anlise exploratria de dados, HPC, visualizao,
etc.

preciso apreciar casos do mundo real!

http://magazine.amstat.org/blog/2013/07/01/datascience/
8
tudo isto (e ainda mais?)

http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
9
um processo (?)

Doing Data Science, Rachel Shutt and Cathy ONeil, OReilly, 2014 10
um processo (?)

Introducing Data Science, Davy Cielen, Arno Meysman, Mohamed Ali, Manning, 2016 11
Conceitos de Data Science

Ento voc quer ser um data


scientist
O que mesmo um Data Scientist?

Analyzing the Analyzers:


Algum que sabe algo sobre estatstica, programao e visualizao?

Algum com experincia em extrair informaes de dados?

Precisamos de uma descrio mais especfica (doutor, atleta,


data scientist so termos genricos)!

A definio depende do problema em questo.

Pesquisa com 250 voluntrios selecionados.

13
O que mesmo um Data Scientist?

14
O que mesmo um Data Scientist?

Analyzing the Analyzers: evidncia do T-Shaped Data


Scientist
Gama abrangente de conhecimentos mas conhecimentos
profundos em uma rea.
Mais aptos para tarefas e grupos interdisciplinares.
Mais eficientes em sua rea de conhecimento mais profunda.

Outro levantamento indica trs categorias:


Curadoria de dados.
Analytics e visualizao.

Redes e infraestrutura.
Jeffrey Stanton et al, Interdisciplinary Data Science Education,
http://pubs.acs.org/doi/abs/10.1021/bk-2012-1110.ch006
15
T-Shaped Data Scientist

Doing Data Science, Rachel Shutt and Cathy ONeil, OReilly, 2014
16
Ento voc quer ser um data scientist

Voc
Tem acesso (ou pode ter) a colees de dados temticos em
diferentes graus de organizao e/ou

Entende o suficiente de linguagens como R, Python, tecnologias SQL/


NoSQL, sistemas distribudos, etc. e/ou

Entende o suficiente de modelagem, testes e caractersticas de


algoritmos de anlise.

provavelmente j tem por onde comear.

17
Conceitos de Data Science

Ento voc quer ser um data


scientist (como?)
Skills

Uma lista de conhecimentos e capacidades...


...no exclusiva: novas tecnologias aparecem o tempo todo.

...com vis: saudvel questionar algumas ideias.

...potencialmente redundantes: o data scientist tem que saber como


jogar em vrias posies em vrios times.

...individualmente impossveis: Rockstar Programmer, Rockstar


SysAdmin, Rockstar Analyst?

...no necessariamente tcnicos: data science deve envolver aspectos


do mundo real.

19
Skill: Entender o Problema

20
Skill: Entender o Problema

Ao menos o suficiente para se


comunicar com quem tem o
problema!
DS inerentemente interdisciplinar!

Que dados existem?


Que dados deveriam existir?
Produto de Dados!

Alerta: no devemos fazer data science sem entender o


problema!

21
Skill: Achar e Organizar Dados

22
Skill: Achar Dados

Achar = localizar, identificar, etc.


Que dados existem relacionados
ao problema em questo?
Que dados esto disponveis?
preciso coletar mais/outros?

Como acessar os dados?

Existem formas prontas?

Preciso replicar/amostrar?

Qual o volume destes dados e no que isto impacta a coleta?

23
Big Data

O que Big Data?


Tradicional: qualquer conjunto de dados muito grande...
...para anlise simples?

...para processamento efetivo?

...para armazenamento total?

Medidas em {Gb,Tb,Pb} podem refletir o tamanho dos dados


mas no o do problema.

Big Data Lessons from the Climate Science Community, Seth McGinnis, 2016
24
Big Data

3 Vs:
Volume: quanto de armazenamento necessrio. Depende de
capacidade tecnolgica: armazenamento, capacidade de
processamento.

Velocidade: quo rapidamente os dados devem ser recuperados/


processados/analisados.

n Em quanto tempo temos que ter respostas?

n Por quanto tempo temos que ter respostas?

Variedade: quo heterogneos os dados so, quantas medidas por


registro, como feita a conexo entre fontes, etc.

n Forma, formato, estrutura, representao, etc.

Big Data Lessons from the Climate Science Community, Seth McGinnis, 2016
25
Big Data

3 Vs: Volume, Velocidade, Variedade


Valor: se estamos coletando dados cientficos porque
caro e/ou vale a pena!
Validade: os dados so confiveis?
Provenincia, Completude, Metadados... dependem do valor.

Variabilidade: significado ou origem mudam com o tempo?

Vocabulrio: o que mais necessrio para entender os


dados?

Big Data Lessons from the Climate Science Community, Seth McGinnis, 2016
26
Big Data

Analyzing the Analyzers: e Big Data?

27
Skill: Entender a Organizao dos Dados (1)

Antes do processamento:
Como os dados so representados?

Tabelas, documentos, imagens,


relaes, mistura?

Os dados esto em um formato


til para resolver nosso problema?

n Como transformar?

n Qual o tamanho desta tarefa?

28
Skill: Entender a Organizao dos Dados (2)

Precisamos destes dados com


organizao especfica?
De onde eles vem?

Coletaremos repetidamente?

Precisamos de provenincia, anotaes?

O que precisa ser preservado? O que precisa ser aumentado? Como?

Tero uma vida parte das fontes originais?

29
Skill: Entender a Organizao dos Dados (3)

Se precisamos deles de forma


separada, como os
organizaremos?
Colees de {documentos, imagens,
arquivos, tabelas}?

Big Data? Que tecnologias de armazenamento e/ou


processamento so necessrias?

30
Que tecnologias so necessrias?

Muitas opes, cada uma com diferentes capacidades e


limitaes...

Ainda estamos falando de skills?


Conhea SQL: excelente para dados bem estruturados.

n Na medida em que estrutura deve ser mais verstil tabelas ficam


mais complexas...

Conhea alguns bancos de dados NoSQL.

n NoSQL pode ser mais flexvel para dados com estruturas diferentes.

n Vrias abordagens/implementaes/modelos...

31
NoSQL
Baseados em pares chave/valor
Arrays associativos, mapas ou dicionrios.

Redis, Riak, Memcached, etc.

Baseados em colunas
Amplia chave/valor para vrias colunas.

Cassandra, HBase

Baseado em Documentos
Permite hierarquia de chaves/valores/documentos.

Couchbase, CouchDB, MongoDB

Baseados em Grafos
Armazena ns e relaes entre ns.

Neo4J, OrientDB
https://www.digitalocean.com/community/tutorials/a-comparison-of-nosql-database-
32
management-systems-and-models
Skill: Anlise (Hacking)

33
Skill: Anlise (Hacking)

Temos os dados. O que fazer agora?


Sabemos o que queremos achar?

Conhecimentos bsicos em
estatstica/modelagem so muito
teis.

Em caso de no saber... explore os dados!


Crie grficos de vrios tipos (de acordo com os dados).

Calcule estatsticas bsicas.

Avalie que tipo de informao pode ser extrada dos dados.

34
Skill: Anlise (Hacking)

Lembrete importante!

35
Skill: Anlise (Hacking): Python

Exemplo bsico

Data Science from Scratch. Joel Grus, OReilly, 2015


36
Skill: Anlise (Hacking): Python

Exemplo bsico

37
Skill: Anlise (Hacking): Python

Muitas bibliotecas interessantes:


NumPy: arrays, operadores, IO, integrao com C, C++.

SciPy: computao cientfica, matrizes esparsas, processamento de


sinais, etc.

pandas: facilidades para processamento de dados estruturados (ex.


tabelas, sries temporais, modificaes, selees, converses).

matplotlib: grficos e visualizao.

iPython: conceito de notebook, facilita prototipagem, documentao


e possibilita pesquisa reprodutvel.

38
Crticas a Python

Python 3 a ltima verso; no totalmente compatvel


com Python 2.7.
Muitas bibliotecas interessantes funcionam melhor com 2.7!

Existe redundncia em algumas bibliotecas, e algumas no


so mantidas.
PyPi ajuda.

There should be one and preferably only one obvious


way to do it.

39
Skill: Anlise (Hacking): R

Exemplo bsico:
> d = read.table('dollar_vs_major_currencies_index.txt',
header=F, sep="t", col.names=c("month", "index"))
> dim(d)
[1] 437 2
> head(d)
month index
1 JAN 1973 108.1883
2 FEB 1973 103.7461
3 MAR 1973 100.0000
4 APRimg 1973 100.8251
5 MAY 1973 100.0602
6 JUN 1973 98.2137

> plot(d$index)

40
Skill: Anlise (Hacking): R

Longa tradio em estatstica e anlise.


Vasta gama de algoritmos de minerao de dados.

Muitos pacotes organizados no CRAN.

RStudio!

41
Crticas a R

No to amigvel quanto outras linguagens de alto nvel.


No escala bem.

42
S R e Python?

Nada impede de usar outras, mas


Pacotes existentes (vale a pena reinventar a roda?)

Adoo por muitos grupos e empresas.

Comunidades existentes (ex. stackoverflow.com).

43
Skill: Machine Learning, Models

44
Skill: Machine Learning, Models

O que posso aprender a partir de


meus dados?

Exploratory Data Analysis deve


servir para dar indcios da natureza
dos dados e de que conhecimento
podemos extrair deles.
Machine Learning, Data Mining, etc. podem servir para criar
modelos que descrevam os dados.

45
Skill: Machine Learning, Models

Cuidados:
Modelos podem ser bem mais complexos
do que EDA sugere.

Existem muitas tcnicas, algoritmos,


variaes.

Interpretabilidade e
validao de modelos
imprescindvel!

Escalabilidade pode ser


um problema!

46
Skill: Comunicao de Resultados

47
Skill: Comunicao de Resultados

Outra rea interdisciplinar:


Visualizao: arte e cincia.

Design: significado para usurios.

Ferramentas de anlise tem


funes para exibio de resultados,
visualizao, etc.
Outras ferramentas podem ser
parte do seu repertrio.

48
Skill: Comunicao de Resultados

D3.js: Data-Driven Documents


Biblioteca em JavaScript para manipulao de DOM (=dados!)

49
Skill: Comunicao de Resultados

Aplicaes na Web, Web Services,


etc.

Notebooks online: iPython, Jupyter


permitem a criao de documentos
interativos em vrias linguagens de
anlise.
Reproducible Research!

50
Jupyter

51
Jupyter

52
Skill: Entender (melhor) o Problema

Que dados deveriam existir?


Produto de Dados!

Depois de aplicar estes


conhecimentos, processamentos,
tcnicas, etc., que dados seriam
interessantes para:
Entender melhor todo o problema?

Agregar valor aos existentes? Estes devem ser os


Possibilitar novas aplicaes? objetivos principais de
um Data Scientist!

53
Conceitos de Data Science

Projetos
LattesLab

Dados: um subconjunto curado, temtico de currculo Lattes


(armazenados offline).
Contm informaes sobre pesquisadores e alunos, publicaes, reas
de atividade, etc.

Conexes entre currculos Lattes dependem da preciso dos dados


entrados (depende de quem preencheu).

Como corrigir/complementar/enriquecer estes dados?

55
LattesLab

Expertise:
Conhecimento das necessidades de anlises e relatrios baseados no Lattes.

Conhecimento da estrutura e problemas com dados organizados no Lattes.

Anlise:
Text Mining e Casamento de Padres/Grafos.

Visualizao.

Hacking: Expertise
Domain
Processamento de dados em XML.

Correlao com outras fontes de dados (texto): data munging.

Text mining / Casamento de padres.

Ferramentas de visualizao (D3).

56
LattesLab

Produtos de Dados:
Dicionrios de similaridade de nomes e conceitos.

Casamento de publicaes.

Bases de anotaes.

Bases de grafos.

57
S-Plus Virtual Observatory

Dados: imagens, espectros e parmetros coletados pelo


Southern Photometric Local Universe Survey (S-PLUS),
organizados em bancos de dados.

Devem ser criados data releases anuais.

Sero usados pela comunidade de astronomia.

58
S-Plus Virtual Observatory

Expertise:
Conhecimentos bsicos de astronomia, complementados pela equipe.

Conhecimentos da organizao de dados e protocolos dos


observatrios virtuais astronmicos (VOs).

Anlise:
Somente para subprojetos.
Expertise
Hacking: Domain

Processamento de dados no formato FITS.

Criao de web services para VOs.

59
S-Plus Virtual Observatory

Produtos de Dados:
Catlogos de objetos e sistemas de busca nos mesmos.

Metadados (provenincia).

60
Conceitos de Data Science

Referncias
Referncias

Data Scientists
Sebastian Gutierrez is a data entrepreneur who has founded SEXY SCIENTISTS WRANGLING DATA AND BEGETTING NEW INDUSTRIES
three data-related companies: DataYou (data science and visualiza-
tion consulting and education), LetsWombat (product sampling),
and Acheevmo (athletic performance statistics). He was formerly
an emerging markets risk manager at Scotia Capital and an FX Jamie Zawinski
Chris Wiggins Guy
AmySteele
Heineike
options trader at JP Morgan and Standard Chartered Bank. He (The New York Times) (Quid)
leads the 1,600-member New York City D3.js Meetup Group and
is co-editor of Data Science Weekly.
Brad Fitzpatrick Dan Ingalls
Caitlin Smallwood Jonathan Lenaghan
(Netflix)
Douglas Crockford L (PlaceIQ)
Peter Deutsch
In this book, you will see how some of the worlds top data scientists work across a dizzyingly wide
variety of industries and applicationseach leveraging her own blend of domain expertise,
statistics, and computer science to create tremendous value and impact.

Data Scientists
from the foreword by Peter Norvig, Director of Research, Google

Data Scientists at Work is a collection of interviews with sixteen of the worlds most influential and innovative
data scientists from across the spectrum of this hot new profession. Data scientist is the sexiest job in the 21st
century, according to the Harvard Business Review. By 2018, the United States will experience a shortage of
190,000 skilled data scientists, according to a McKinsey report.

at Work
Through incisive in-depth interviews, this book mines the what, how, and why of the practice of data science
from the stories, ideas, insights, and forecasts of its preeminent practitioners across diverse sectors: social
network (Yann LeCun, Facebook); professional network (Daniel Tunkelang, LinkedIn); venture capital (Roger
Ehrenberg, IA Ventures); enterprise cloud computing and neuroscience (Eric Jonas, formerly Salesforce.com);

at
newspaper and media (Chris Wiggins, The New York Times); streaming television (Caitlin Smallwood, Netflix);
music forecast (Victor Hu, Next Big Sound); strategic intelligence (Amy Heineike, Quid); environmental big data
(Andr Karpitenko, Planet OS); geospatial marketing intelligence (Jonathan Lenaghan, PlaceIQ); advertising

Work
(Claudia Perlich, Dstillery); fashion e-commerce (Anna Smith, Rent the Runway); specialty retail (Erin Shellman,
Nordstrom); email marketing (John Foreman, MailChimp); predictive sales intelligence (Kira Radinsky,
SalesPredict); and humanitarian nonprofit (Jake Porway, DataKind).
Each of these data scientists shares how he or she tailors the torrent-taming techniques of big data, data
visualization, search, and statistics to specific jobs by dint of ingenuity, imagination, patience, and passion. Data Roger Ehrenberg
Brendan Eich Kira
Ken Radinsky
Thompson
Scientists at Work parts the curtain on the interviewees earliest data projects, how they became data scientists, their (IA Ventures) (SalesPredict)
discoveries and surprises in working with data, their thoughts on the past, present, and future of the profession,
their experiences of team collaboration within their organizations, and the insights they have gained as they get Joshua
Erin Bloch
Shellman Fran
EricAllen
Jonas
their hands dirty refining mountains of raw data into objects of commercial, scientific, and educational value for
their organizations and clients. Readers will learn: (Nordstrom) (Independent Scientist)
Joe Armstrong Bernie Cosell
r)PXUIFEBUBTDJFOUJTUTBSSJWFEBUUIFJSQPTJUJPOTBOEXIBUBEWJDFUIFZIBWFGPSPUIFST
Victor Hu Yann LeCun
r8IBUQSPKFDUTUIFEBUBTDJFOUJTUTXPSLPOBOEUIFUFDIOJRVFTBOEUPPMTUIFZBQQMZ
r)PXUPGSBNFQSPCMFNTUIBUEBUBTDJFODFDBOTPMWF Simon Peyton
(Next Jones
Big Sound) Donald Knuth
(Facebook)
r8IFSFEBUBTDJFOUJTUTUIJOLUIFNPTUFYDJUJOHPQQPSUVOJUJFTMJFJOUIFGVUVSFPGEBUBTDJFODF
r)PXEBUBTDJFOUJTUTBEEWBMVFUPUIFJSPSHBOJ[BUJPOTBOEIFMQQFPQMFBSPVOEUIFXPSME John
Peter Foreman
Norvig Anna Smith
(MailChimp) (Rent the Runway)
Gutierrez

www.apress.com
Claudia Perlich Jake Porway
U S $ 2 9.9 9
S h e lv e i n B u s i n e s s / C a r e e r s
(Dstillery) (DataKind)

RELATED TITLES Daniel Tunkelang Andr Karpitenko


(LinkedIn) (Planet OS)
Inventors at Work | Stern | 978-1-4302-4506-3 ISBN 978-1-4302-6598-6
52999
Lawyers at Work | Cosslett | 978-1-4302-4503-2
Venture Capitalists at Work | Shah | 978-1-4302-3837-9
Coders at Work | Seibel | 978-1-4302-1948-4
CIOs at Work | Yourdon | 978-1-4302-3554-5
S e b a s t i a n G u t i e r r e z
9 781430 265986

www.it-ebooks.info foreword by peter norvig (Google)

62
Referncias

Big data, machine learning, and more, using Python tools

Davy Cielen
Arno D. B. Meysman
Mohamed Ali

MANNING

63
Referncias
Data Science at the Command Line

Data
Science
at the
Command Line
Janssens

FACING THE FUTURE WITH TIME-TESTED TOOLS

Jeroen Janssens

64
Referncias

ManasA.Pathak

Beginning
Data Science
with R

65
Em Breve!

Curso Introduo a Data Science no Programa de Ps-


Graduao em Computao Aplicada (a partir de 2017).
Contexto mais prtico e cientfico: Data Science Process

Diviso de contedo:

n IDS: Organizao de Dados, EDA, Visualizao.

n PADM: Algoritmos de DM e Aplicaes.

Ambas focadas em projetos.

Este material em http://www.lac.inpe.br/~rafael.santos

Doing Data Science, Rachel Shutt and Cathy ONeil, OReilly, 2014
66
CONCEITOS DE
DATA SCIENCE

Rafael Santos rafael.santos@inpe.br


www.lac.inpe.br/~rafael.santos/

S-ar putea să vă placă și