Documente Academic
Documente Profesional
Documente Cultură
CONSTRUINDO UM MODELO
DE ANÁLISE PREDITIVA
O
Um projeto de análise preditiva bem-sucedido é executado passo a passo. Conforme você mergulha
nos detalhes do projeto, preste atenção nestas etapas importantes:
H
1. Definindo os Objetivos do Negócio
O projeto começa com a utilização de um objetivo de negócio bem definido. O modelo deve lidar
com um problema ou necessidade do negócio. Determinar claramente esse objetivo permitirá a
2. Preparando os Dados
N
definição do escopo de seu projeto e proporcionará um teste preciso para mensurar seu sucesso.
Você utilizará dados históricos para treinar seu modelo. Os dados normalmente estão espalhados
U
em diversas fontes e podem requerer limpeza e preparação. Os dados podem conter registros
duplicados e atípicos; dependendo da análise do objetivo do negócio, você decide se quer
mantê-los ou não. Os dados também podem ter valores ausentes, precisar de algum tipo de
C
transformação e ser usados para gerar atributos derivados que tenham mais poder preditivo para
seu objetivo. De modo geral, a qualidade dos dados é um indicativo da qualidade do modelo.
Você terá que dividir seus dados em dois conjuntos: de treinamento e de teste. Seu modelo é
construído usando-se o conjunto de dados de treinamento. Use o conjunto de dados de teste
para verificar a precisão do resultado do modelo. Esse é um ponto crucial. Caso contrário, corre-se
o risco de sobreajustar seu modelo — treiná-lo com um conjunto de dados limitado, a ponto de
o modelo selecionar todas as características (tanto o sinal quanto o ruído) que são verdadeiras
apenas para aquele conjunto de dados. Um modelo sobreajustado para um conjunto de dados
R
4. Construindo o Modelo
Algumas vezes os dados ou os objetivos do negócio se adaptam naturalmente a um algoritmo
ou modelo específico. Em outras, a melhor abordagem não é óbvia. À medida que explora os
dados, execute o máximo de algoritmos que puder e compare os resultados. Baseie sua escolha
do modelo final nos resultados gerais. Às vezes é melhor executar um conjunto de modelos
simultaneamente nos dados e escolher o modelo final comparando seus resultados.
O
desempenho e continuar a aprimorá-lo. A maioria dos modelos perde eficiência depois de um certo
tempo. Mantenha seu modelo atualizado, revigorando-o com novos dados disponíveis.
H
FONTES DE DADOS PARA PROJETOS
DE ANÁLISE PREDITIVA
N
Os dados para um projeto de análise preditiva podem vir de muitas fontes diferentes. Algumas das
fontes mais comuns estão dentro de sua própria organização, e outras incluem dados comprados de
fornecedores externos.
U
Fontes de dados internas incluem:
registro.
O
H
N
U
Tradução da 2ª Edição
C
AS
O
Parte 2: Incorporando Algoritmos em Seus Modelos������������89
CAPÍTULO 5: Aplicando Modelos���������������������������������������������������������������������������������������� 91
Identificando Similaridades nos Dados����������������������������������������������������117
H
CAPÍTULO 6:
Índice����������������������������������������������������������������������������������������������������������������������������������� 439
O
PARTE 1: APRESENTANDO A ANÁLISE PREDITIVA������������������5
CAPÍTULO 1: Entrando em Campo ��������������������������������������������������������������������������7
H
Explorando a Análise Preditiva������������������������������������������������������������������8
Mineração de dados������������������������������������������������������������������������������8
Realçando o modelo������������������������������������������������������������������������������9
N
Acrescentando Valor ao Negócio������������������������������������������������������������11
Oportunidades infinitas����������������������������������������������������������������������11
Empoderando sua organização��������������������������������������������������������12
U
Começando um Projeto de Análise Preditiva����������������������������������������13
Conhecimento dos negócios ������������������������������������������������������������14
A equipe de ciência de dados e a tecnologia����������������������������������15
C
Os dados������������������������������������������������������������������������������������������������16
Análise Preditiva Contínua������������������������������������������������������������������������17
Criando Sua Equipe de Análise Preditiva ����������������������������������������������18
AS
CAPÍTULO 2:
Sumário xiii
E
xplorando os Tipos de Dados
O
CAPÍTULO 3:
e as Técnicas Associadas��������������������������������������������������������������51
Reconhecendo os Tipos de Dados����������������������������������������������������������52
Dados estruturados e desestruturados������������������������������������������52
H
Dados estáticos e dinâmicos ������������������������������������������������������������57
Identificando as Categorias de Dados����������������������������������������������������58
Dados atitudinais ��������������������������������������������������������������������������������59
N
Dados comportamentais��������������������������������������������������������������������60
Dados demográficos���������������������������������������������������������������������������61
Gerando Análise Preditiva������������������������������������������������������������������������62
U
Análise orientada por dados��������������������������������������������������������������62
Análise orientada a usuário����������������������������������������������������������������64
Conectando as Disciplinas Relacionadas ����������������������������������������������65
C
Estatística����������������������������������������������������������������������������������������������66
Mineração de dados����������������������������������������������������������������������������67
Aprendizado de máquina ������������������������������������������������������������������67
AS
O
CAPÍTULO 5: Aplicando Modelos ����������������������������������������������������������������������������91
Modelando Dados��������������������������������������������������������������������������������������92
Modelos e simulação��������������������������������������������������������������������������93
H
Categorizando modelos����������������������������������������������������������������������95
Descrevendo e sumarizando dados������������������������������������������������97
Tomando melhores decisões de negócios��������������������������������������97
N
Estudos de Caso de Análise de Assistência Médica ����������������������������97
Google Flu Trends��������������������������������������������������������������������������������98
Preditores de sobrevivência ao câncer����������������������������������������� 100
U
Estudos de Caso de Análise Social e Marketing��������������������������������� 101
Target prevê mulheres grávidas����������������������������������������������������� 101
Preditores de terremoto baseados no Twitter ��������������������������� 102
C
Sumário xv
CAPÍTULO 7: P
revendo o Futuro com
Classificação de Dados ��������������������������������������������������������������� 151
O
Explicando a Classificação de Dados��������������������������������������������������� 153
Empréstimo��������������������������������������������������������������������������������������� 153
Marketing������������������������������������������������������������������������������������������� 154
Assistência médica��������������������������������������������������������������������������� 155
H
E depois?��������������������������������������������������������������������������������������������� 155
Introduzindo a Classificação de Dados em Sua Empresa��������������� 156
Explorando o Processo de Classificação de Dados��������������������������� 158
N
Usando a Classificação de Dados para Prever o Futuro ����������������� 160
Árvore de decisão����������������������������������������������������������������������������� 160
Algoritmo para gerar uma árvore de decisão ����������������������������� 163
U
Máquina de vetores de suporte����������������������������������������������������� 167
Métodos Ensemble para Melhorar a Acurácia da Predição ����������� 169
Algoritmo de classificação Naïve Bayes����������������������������������������� 170
C
O
Trabalhando com Atributos������������������������������������������������������������������� 226
Selecionando atributos ������������������������������������������������������������������� 227
Extraindo atributos��������������������������������������������������������������������������� 229
H
Classificando atributos��������������������������������������������������������������������� 230
Estruturando Seus Dados��������������������������������������������������������������������� 231
Extraindo, transformando e carregando seus dados����������������� 231
N
Mantendo os dados atualizados ��������������������������������������������������� 232
Descrevendo testes e dados de teste������������������������������������������� 233
Sumário xvii
O
Google Charts ����������������������������������������������������������������������������������� 270
Plotly��������������������������������������������������������������������������������������������������� 271
Infogram��������������������������������������������������������������������������������������������� 271
H
PARTE 4: PROGRAMANDO A ANÁLISE PREDITIVA������������� 273
CAPÍTULO 12: Criando Exemplos Básicos de Predição������������������� 275
N
Instalando os Pacotes de Software ����������������������������������������������������� 276
Instalando o Python������������������������������������������������������������������������� 276
Instalando o módulo de aprendizado de máquina�������������������� 278
U
Instalando as dependências����������������������������������������������������������� 282
Preparando os Dados����������������������������������������������������������������������������� 286
Obtendo o conjunto de amostra de dados��������������������������������� 286
C
CAPÍTULO 13: C
riando Exemplos Básicos de Predições
Não Supervisionadas������������������������������������������������������������������� 307
Obtendo o Conjunto de Dados de Amostra��������������������������������������� 308
Utilizando Algoritmos de Agrupamento para Fazer Predições������� 309
Comparando modelos de agrupamento ������������������������������������� 309
Criando um modelo de aprendizado não
supervisionado com K-means����������������������������������������������������� 310
Criando um modelo de aprendizado não
supervisionado com DBSCAN ����������������������������������������������������� 322
O
Classificação por floresta aleatória ����������������������������������������������� 360
H
Desafios dos Dados ������������������������������������������������������������������������������� 366
Definindo as limitações dos dados ����������������������������������������������� 367
Lidando com casos extremos (atípicos)��������������������������������������� 370
N
Suavização de dados ����������������������������������������������������������������������� 373
Ajuste de curva ��������������������������������������������������������������������������������� 377
Mantendo as suposições no mínimo ������������������������������������������� 380
U
Desafios da Análise��������������������������������������������������������������������������������� 381
Análise supervisionada�������������������������������������������������������������������� 381
Baseando-se em apenas uma análise������������������������������������������� 382
C
Sumário xix
O
Conhecendo Seus Dados����������������������������������������������������������������������� 420
Organizando Seus Dados ��������������������������������������������������������������������� 421
Satisfazendo Seus Clientes ������������������������������������������������������������������� 422
Reduzindo Custos Operacionais����������������������������������������������������������� 424
H
Aumentando o Retorno sobre os Investimentos (ROI)��������������������� 424
Ganhando Acesso Rápido à Informação��������������������������������������������� 425
Tomando Decisões Informadas����������������������������������������������������������� 426
N
Ganhando Vantagem Competitiva������������������������������������������������������� 427
Melhorando o Negócio��������������������������������������������������������������������������� 428
U
CAPÍTULO 19: D
ez Passos para Construir um
Modelo de Análise Preditiva����������������������������������������������� 429
Criando uma Equipe de Análise Preditiva������������������������������������������� 429
C
ÍNDICE��������������������������������������������������������������������������������������������������������������������� 439
H
Explore a análise preditiva.
Classifique os dados.
Apresente a informação.
N
U
C
AS
R
»» Sondando as possibilidades
»» Pesquisando o mercado
O
Capítulo 1
Entrando em Campo
H
N
U
A análise preditiva é uma lâmpada poderosa energizada por seus dados.
C
Novas perspectivas nunca são demais. Quanto mais você consegue enxergar,
AS
melhores se tornam suas decisões — e ficar no escuro não é uma boa opção.
É preciso saber o que o espera, preferencialmente antes das outras pessoas.
É como participar de um programa de TV em que você precisa escolher uma
das portas para ganhar um prêmio surpresa. Que porta você escolhe? A Porta
1, a Porta 2 ou a Porta 3? Elas são todas iguais, então tudo o que pode fazer é
arriscar seu melhor palpite — a escolha depende de você e da sorte. Mas e se
você tivesse uma vantagem — a capacidade de espiar pela fechadura? A análise
R
O
cos não calculados, mas não para uma organização que visa a lucros. As empre-
sas gastam milhões em gerenciamento de riscos. E se existir algo que as ajude
a gerenciar riscos, otimizar operações e maximizar lucros, você com certeza
deveria conhecê-lo. Esse é o mundo da análise preditiva.
H
Mineração de dados
N
Big data é a nova realidade. Na verdade, os dados estão cada vez maiores, mais
rápidos e mais ricos. Ele está aqui para ficar, e é melhor que você lucre com isso.
Os dados são o bem mais precioso de sua organização. Eles estão repletos de valor
U
oculto, mas é preciso escavar um pouco para extraí-lo. Mineração de dados é a
descoberta de padrões ocultos nos dados através do aprendizado de máquina —
e os algoritmos sofisticados são as ferramentas de mineração. Análise preditiva é
C
Contudo, essas ferramentas são úteis em áreas além dos negócios. Um exce-
lente exemplo é a utilização pelos órgãos de agências de segurança pública para
detecção e prevenção de crimes. Determinado indivíduo é suspeito? Um deter-
minado específico reincidirá? Onde ocorrerá o próximo crime?
O
orientar futuras decisões.
H
Realçando o modelo
Um modelo é uma representação matemática de um objeto ou um processo.
N
Construímos modelos para simular um fenômeno do mundo real como um
passo investigativo adicional, na esperança de entender com mais clareza o que
realmente está acontecendo. Por exemplo, para modelar o comportamento de
U
nossos clientes, tentamos reproduzir como eles navegam por nossos sites:
Esse processo não deve ser confundido com um relatório de dados apenas, e
também é diferente de apenas visualizar os dados. Embora esses passos sejam
vitais, eles são apenas o início da exploração dos dados e da obtenção de uma
compreensão utilizável deles.
No processo, temos que observar vários atributos — pontos de dados que con-
O
sideramos relevantes para nossa análise. Então executamos vários algoritmos,
que são conjuntos de instruções matemáticas que permitem que a máquina
resolva problemas. Continuamos executando esses algoritmos em possíveis
combinações de dados e investigando cenários do tipo “e-se”. Eventualmente,
H
construímos nosso modelo, encontramos nossas respostas e nos preparamos
para implementá-lo e colher seus frutos.
N
Como é esse modelo? Bem, em termos de programação, o modelo de análise
preditiva pode ser tão simples quanto algumas declarações se... então, que
dizem à máquina: “Se essa condição existir, então execute-a.”
U
Veja alguns modelos de negociação baseados em regras:
»» Se for mais de 10h e o mercado estiver em alta, então compre 100 ações XYZ.
C
»» Se uma pessoa comprar um livro deste autor, então recomende outros livros
dele.
»»
R
O
Incorporar a análise preditiva em decisões operacionais melhora o retorno sobre
o investimento, pois as organizações gastam menos tempo lidando com deci-
sões operacionais de baixo impacto e baixo risco. Empregados podem, então,
focar mais seu tempo em decisões de alto impacto e alto risco. Por exemplo, a
H
maioria das solicitações de indenização de seguro podem ser pagas automati-
camente. Porém, quando o modelo preditivo encontra uma solicitação incomum
(atípico) ou quando a solicitação apresenta um padrão de fraude, o sistema a
medida.
N
sinaliza automaticamente e a envia para que a pessoa responsável tome alguma
O modelo gera uma perspectiva (novo conhecimento) que leva a uma estra-
tégia aprimorada.”
Oportunidades infinitas
R
A análise preditiva pode tornar todos esses objetivos mais atingíveis. Os domí-
nios em que a análise preditiva pode ser aplicada são ilimitados; o campo está
aberto, e vale tudo. Que comecem a mineração e a análise.
Albert Einstein disse certa vez: “Saber onde encontrar a informação e como usá-
-la são os segredos do sucesso.” Se esse é o segredo, você alcançará o sucesso
usando a análise preditiva: a informação está em seus dados, e a mineração vai
encontrá-la. O resto da equação dependerá do sucesso de seu conhecimento
sobre seus negócios para interpretar essa informação — e, por fim, utilizá-la
para criar o sucesso.
O
nossa equação de análise preditiva como:
H
Empoderando sua organização
A análise preditiva empodera sua organização proporcionando três vantagens:
»»
»»
Visão.
Decisão.
N
U
»» Precisão.
C
Visão
A análise preditiva permite que você veja o que é invisível para as outras pessoas
— em especial, padrões úteis em seus dados.
AS
Ela oferece dicas poderosas para direcionar as decisões que você está prestes
a tomar na busca por reter e atrair mais clientes e maximizar os lucros de sua
organização. E é capaz de analisar os dados passados de seus clientes, associá-
-los com outros e organizar tudo na ordem correta para resolver esse quebra-
-cabeça de várias maneiras, incluindo:
R
Decisão
Um modelo de análise preditiva bem-feito oferece resultados analíticos livres
de emoção ou viés. O modelo usa funções matemáticas para gerar perspecti-
vas futuras a partir de números e texto que descrevam fatos passados e infor-
mações atuais. O modelo oferece perspectivas consistentes e imparciais para
apoiar suas decisões.
O
leva alguns minutos, e o banco ou a agência toma uma decisão rápida baseada
em fatos sobre aumentar ou não o crédito, e está seguro de sua decisão. A velo-
cidade da transação é possível graças à análise preditiva, que prevê a confiabi-
H
lidade do solicitante do crédito.
Precisão
N
Imagine ter de ler inúmeros relatórios, extrair insights de fatos passados ocul-
tos neles, analisar linhas de planilhas Excel para comparar resultados ou extrair
informações de um grande arranjo de números. Você precisaria de uma equipe
U
para fazer todas essas tarefas, que consomem muito tempo. Com a análise pre-
ditiva, as ferramentas automatizadas são usadas para fazer o trabalho para
você — economizando tempo e recursos, reduzindo o erro humano e aumen-
tando a precisão.
C
pras. Depois de descobrir precisamente quais clientes deve focar, poderá focar
diretamente aqueles com maior probabilidade de comprar.
Começando um Projeto
de Análise Preditiva
R
A análise preditiva o ajuda em cada um desses processos, para que você saiba o
máximo possível sobre o que já aconteceu e tome decisões mais bem informa-
das sobre o futuro.
O
»» Conhecimento de negócios.
»» Equipe de ciência de dados e tecnologia.
»»
H
Os dados.
negócio claro são essenciais para seu sucesso. Ideias para um projeto podem
surgir de qualquer pessoa dentro da organização, mas depende da equipe de
liderança estabelecer os objetivos de negócios e obter a adesão dos departa-
AS
O
A equipe de ciência de
dados e a tecnologia
H
A tecnologia usada na análise preditiva deve incluir pelo menos alguns (se não
todos) desses recursos:
»»
»»
Mineração de dados.
Estatísticas.
N
U
»» Algoritmos de aprendizado de máquina.
»» Ferramentas de software para construir o modelo.
C
rápido. Depois que o modelo é aplicado, a empresa pode começar a avaliar seus
resultados de imediato — e as equipes podem começar a trabalhar no apri-
moramento do modelo. Através de testes, as equipes descobrirão juntas o que
funciona e o que não funciona.
»» O custo do produto.
O
»» A complexidade do problema de negócios.
»» A complexidade dos dados.
»» A(s) fonte(s) dos dados.
H
»» A velocidade dos dados (a velocidade com que eles mudam).
»» As pessoas dentro da organização que utilizarão o produto.
Os dados
N
U
Os demais fatores sendo equivalentes, você espera que uma pessoa com mais
experiência jogue, execute um trabalho ou faça melhor aquilo em que tem
mais experiência. O mesmo raciocínio se aplica às organizações. Se pensarmos
em uma organização como uma pessoa, os dados equivalem à sua experiência.
C
Está cada vez mais claro que os dados são um bem vital para acelerar o processo
de tomada de decisões, com respostas e insights mais realistas. A análise pre-
ditiva torna as decisões dos negócios mais poderosas ao revelar oportunidades
tais como novas tendências, mercados e clientes antes que a concorrência as
perceba.
R
Os dados também apresentam alguns desafios em sua forma bruta. Eles podem
estar distribuídos em múltiplas fontes, misturar dados próprios com dados de
terceiros e de alguma maneira tornar a qualidade dos dados de entrada muito
confusa para serem usados de imediato. Assim, você deve esperar que os cien-
tistas de dados gastem um tempo considerável explorando os dados e os pre-
parando para a análise. Esses processos de limpeza de dados e de preparação
de dados envolvem a identificação de valores ausentes, registros duplicados e
valores atípicos gerando valores derivados, e normalização. (Para saber mais
sobre esses processos, veja os Capítulos 9 e 15.)
Nesse caso, sua equipe precisa avaliar o estado dos dados e seu tipo, e escolher
o algoritmo mais adequado para executar naqueles dados. Essas decisões são
parte de uma fase de exploração em que os cientistas de dados obtêm um íntimo
conhecimento de seus dados enquanto estão selecionando quais atributos têm
maior poder preditivo.
O
A análise preditiva não deveria se resumir à implementação de um ou dois pro-
H
jetos, mesmo que esses projetos sejam muito bem-sucedidos. Ela deve ser um
processo contínuo que alimenta e é colocado em prática pela administração que
supervisiona o planejamento operacional e estratégico de sua organização.
N
Você deve colocar os dados no primeiro plano do processo de tomada de deci-
são em sua organização. Os dados precisam apoiar qualquer grande iniciativa.
Depois de coletar e obter todos os dados relevantes, peça à equipe de ciência de
U
dados para analisá-los e proponha um modo de ação baseado em suas desco-
bertas. Os resultados desses esforços devem atingir toda a organização, incenti-
vando uma cultura de mudança que aceite o trabalho analítico como uma forma
aceitável de tomar decisões informadas.
C
Seu trabalho com os modelos preditivos não para no momento em que os mode-
los são implementados. Esse é apenas o primeiro passo. Você deve constante-
AS
mente buscar novas maneiras de aprimorar esses modelos, pois eles tendem a
se tornar obsoletos com o tempo. Portanto, a atualização do modelo é um passo
essencial na criação de soluções de análise preditiva. O modelo deve estar em
aprimoramento contínuo.
Além disso, você deve ter diversos modelos implementados, e cada um deles
deve passar por diversas revisões. Nesse caso, é imperativo ter processos em
R
operação para gerenciar o ciclo de vida dos modelos e supervisionar sua cria-
ção, atualização e aposentadoria. Dependendo da área de negócios em que você
esteja, pode ser necessário auditar todas as modificações e ser bastante deta-
lhista na documentação de todos os passos envolvidos no processo.
Sua crença na promessa da análise preditiva não deve jamais o impedir de ques-
tionar os resultados de um projeto de análise preditiva. Você não pode sim-
plesmente ir em frente e implementar cegamente. Deve certificar-se de que os
resultados fazem sentido em termos de negócios. Ademais, quando os resulta-
dos são bons demais para ser verdade, provavelmente são. Verifique a correção
Quando (por exemplo) um modelo mostra que 90% de seus clientes são urba-
nos e estão entre os 25 e 45 anos, os resultados parecem óbvios. Você pode
sentir que desperdiçou tempo e recursos apenas para descobrir o que já sabia.
O
No entanto, é muito mais importante perguntar o que compõe os outros 10%.
Como é possível aumentar os percentuais deles? Pode ser necessário construir
um modelo para descobrir mais sobre esse segmento de seus clientes. Ou pode
querer saber mais sobre o que atrai 90% de seus clientes para seu produto.
H
Construir modelos de análise preditiva deve ser um processo contínuo, e os
resultados devem ser compartilhados com toda a organização. Você deveria
N
sempre buscar aprimorar seus modelos, nunca se esquivar de experimentar e
de se fazer as perguntas difíceis. Com dados pertinentes, uma equipe talentosa
de ciência de dados e a adesão de todos os interessados, as possibilidades são
infinitas.
U
Criando Sua Equipe
C
de Análise Preditiva
AS