Sunteți pe pagina 1din 31

Universidade Federal de Sergipe Campus Itabaiana

Departamento de Sistemas de Informao DSI


NUPIC Ncleo de Pesquisa e Prtica em Inteligncia Competitiva

Tcnicas de Data Mining e


KDD
Professor Voluntrio: Breno Santana
Santos
breno.itatechjr@gmail.com
Orientador/Supervisor: Prof. Dr. Methanias Colao
Jnior
12/6/16

Pensamentos...
Espere o inesperado ou voc no o
encontrar.
(Herclito)
A chave para ter sucesso nos negcios
ter informaes que ningum mais tem.
(Aristteles Onassis)

Motivao - DM
Exploso de dados.
Presso competitiva:
Gerentes se perguntam: Tenho a informao que
ningum tem?
Temos tudo informatizado na empresa, mas
sinto que faltam mais informaes. Falta
conhecimento. Parece que morro de sede
(conhecimento) num oceano de dados.

Data mining: apoia o processo de


descoberta.

Motivao - DM
Se ns sabemos o que procurar, o
processo de descoberta trivial, e o
resultado no excitante.
Data Mining: algoritmos que extraem,
de grandes bancos de dados, e sem
prvia
formulao
de
hipteses,
tendncias, padres e correlaes
que devem ser teis tomada de
deciso.

Motivao - Exemplos
Bank of America:
Clientes com menor risco de inadimplncia
tinham filhos com idades entre 18 e 21
anos.
Em trs anos o banco lucrou 30 milhes de
dlares com a carteira de emprstimos.

NASA:
Cataloga imagem de satlites e classifica
eventos similares.

NBA:

O que no Minerao de
Dados?
O que no ?
Achar um nmero de telefone em um
catlogo.
Procurar
numa
mquina
de
busca
informao sobre Amaznia.

O que ?
Certos nomes so mais frequentes em
certas regies do Brasil (Cacciola, Armani,
Gutierrez na Grande So Paulo).
Agrupar documentos por similaridade de
contexto (p.e. Amaznia).

Multidisciplinar

O Processo de KDD
CONCEITO Knowledge Discovery in
Database.
um processo, de vrias etapas, no
trivial, interativo e iterativo, para
identificao
de
padres
compreensveis, vlidos, novos e
potencialmente teis a partir de bases
de dados.
[Fayyad et al., 1996]

O Processo de KDD

O Processo de KDD

Garimpagem ou Minerao
Corao do Processo de KDD.
Uma vez os dados pr-processados e
transformados, aplicam-se os algoritmos
de minerao de dados.
O tipo e algoritmo depende da forma como
o conhecimento deve ser apresentado.

O Processo de KDD

Anlise e Assimilao
Nesta etapa, a seguinte questo deve
ser respondida:
O conhecimento gerado relevante e pode
ser usado para a tomada de deciso?
Se a resposta no for satisfatria, ento
poder ser necessrio repetir todo ou parte
do processo.

O Processo iterativo e interativo!

O Processo de KDD

Modelos e Padres
O

conhecimento deve ser apresentado


segundo um modelo formal.
Modelo de regras de classificao: se
<condio> ento <classificao>.

Um modelo confivel na medida em


que ele possa ser considerado um
padro.
Padro
frequncia significativa no
banco de dados.

Modelos e Padres
Modelos so induzidos (ou inferidos) por
algoritmos de minerao.
Existem muitos algoritmos de minerao.
No existe o melhor algoritmo.
Que fazer?

Modelos
Tipos de modelo:
Preditivo:
Faz predio acerca de valores de dados
usando resultados conhecidos de outros
dados.
Em geral, a modelagem baseada em dados
histricos, para fazer predio (ou previso)
sobre novos dados.

Descritivo:
Identifica padres ou relacionamentos em
dados, histricos ou no.
Importante para se conhecer os dados.

Modelos

Algoritmos de MD
Os algoritmos diferem segundo os
modelos de conhecimento que eles
induzem (ou inferem):
Classificao Supervisionada;
Regresso;
Classificao No Supervisionada;
Sntese;
Associao;
Sequncia;
Deteco de Anomalias / Desvios;

Algoritmos de Classificao
Supervisionada
Mapeiam entidades
grupos pr-definidos.

em

classes,

ou

Classes so valores de atributos, chamados


de atributos de classificao.

Exemplo de Representao:
rvore de Deciso

Algoritmos de Classificao
No Supervisionada
Agrupamento (Clustering):
Clustering similar a classificao, exceto que
os grupos (clusters) no so pr-definidos.
Segmentao dos dados em grupos, no
necessariamente disjuntos.
Dados similares so agrupados em um
mesmo grupo.

BI Visualizaes
Multidimensionais

BI Visualizaes
Multidimensionais

BI Visualizaes
Multidimensionais

BI Visualizaes
Multidimensionais

BI Visualizaes
Multidimensionais

Leitura
Captulos 3 e 9:
COLAO JNIOR, M. Projetando Sistemas
de Apoio Deciso Baseados em Data
Warehouse. Rio de Janeiro: Axcel Books,
2004.

Bibliografia
Slides do Prof. Dr. Methanias Colao
Jnior.
COLAO
JNIOR,
M.
Projetando
Sistemas de Apoio Deciso
Baseados em Data Warehouse. Rio
de Janeiro: Axcel Books, 2004.
TURBAN, E.; SHARDA R.; DELEN, D.
Decision Support and Business
Intelligence Systems. Prentice Hall,
2009.