Sunteți pe pagina 1din 38

Minerao de Dados

Extrado dos trabalhos de


Liliane Santos, Menandro Santana, Sandoval Costa (UFBA)
Eduardo Massao Arakaki, Marcela Fontes Lima Guerra
(UFPE)

Motivao
A informatizao dos meios produtivos permitiu a
gerao de grandes volumes de dados:

Transaes eletrnicas;
Novos equipamentos cientficos e industriais para observao
e controle;
Dispositivos de armazenamento em massa;

Aproveitamento da informao permite ganho de


competitividade: conhecimento poder (e poder =
$$!)
Motivao

Motivao
Os recursos de anlise de dados tradicionais
so inviveis para acompanhar esta evoluo
Morrendo de sede por conhecimento
em um oceano de dados

Motivao

Motivao
Soluo:

ferramentas de automatizao das tarefas


repetitivas e sistemtica de anlise de dados
ferramentas de auxlio para as tarefas cognitivas da
anlise
integrao das ferramentas em sistemas apoiando
o processo completo de descoberta de
conhecimento para tomada de deciso
Motivao

Exemplo Preliminar
Um problema do mundo dos negcios:
entender o perfil dos clientes

desenvolvimento de novos produtos;


controle de estoque em postos de distribuio;
propaganda mal direcionada gera maiores gastos e
desestimula o possvel interessado a procurar as
ofertas adequadas;

Quais so meus clientes tpicos?


Exemplo

Como Descubro Estes DADOS ????

Descoberta de Conhecimento em
Bancos de Dados
O processo no trivial de extrao de
informaes implcitas, anteriormente
desconhecidas, e potencialmente teis de uma
fonte de dados;
Torture os dados at eles confessarem;
O que um padro interessante ?
(vlido,
novo, til e interpretvel)
Conceitos

KDD x Data Mining


Minerao de dados o passo do processo de
KDD que produz um conjunto de padres sob
um custo computacional aceitvel;
KDD utiliza algoritmos de data mining para
extrair padres classificados como
conhecimento. Incorpora tambm tarefas
como escolha do algoritmo adequado,
processamento e amostragem de dados e
interpretao de resultados;
Conceitos

Etapas do KDD
Limpeza de dados
Integrao dos dados

Data Warehouse

Seleo
Transformao dos dados
Minerao
Avaliao ou ps-processamento
Visualizao dos resultados

Etapas do KDD

reas de Relao do KDD


Sistemas
Especialistas

Bases de Dados

Visualizao

Aprendizado
de mquina

KDD

Estatstica
e Matemtica

Reconhecimento
de padres

reas de Relao do KDD


Aprendizado de mquina
Reconhecimento de padres
Base de dados
Estatstica e Matemtica
Sistemas Especialistas
Visualizao de dados

Aplicaes da Minerao de dados


Comrcio

Real
Virtual

Medicina
Deteco de Fraudes
Inteligncia Competitiva

Concorrentes
Tendncias do Mercado

Exemplos
reas de aplicaes potenciais:

Vendas e Marketing
Identificar padres de comportamento de consumidores
Associar comportamentos caractersticas demogrficas
de consumidores
Campanhas de marketing direto (mailing campaigns)
Identificar consumidores leais

Exemplos

Exemplos
reas de aplicaes potenciais:
Bancos
Identificar padres de fraudes (cartes de crdito)
Identificar caractersticas de correntistas
Mercado Financeiro ($$$)

Exemplos

Exemplos
reas de aplicaes potenciais

Mdica
Comportamento de pacientes
Identificar terapias de sucessos para diferentes
tratamentos
Fraudes em planos de sades
Comportamento de usurios de planos de sade

Exemplos

Quais Tarefas de Minerao so


utilizadas?

Tarefas de Minerao de Dados


Anlise de Regras de Associao
Anlise de Padres Sequenciais
Classificao
Anlise de Clusters (agrupamentos) Segmentao
Anlise de Outliers (excees)
Estimativa (ou regresso)
Sumarizao

Exemplo de previso (I)


Anlise de crdito
sem
crdito
x

dbito

x
x

o
o

Um hiperplano paralelo de
separao: pode ser
interpretado diretamente como
uma regra:

o
o

t
x: exemplo recusado
o: exemplo aceito

x
o
o

Exemplo:

se a renda menor que t, ento


o crdito no deve ser liberado

rvores de deciso;
induo de regras

renda

Mtodos

Exemplo de previso (II)


Anlise de crdito
sem
crdito
x

dbito

x
x

o
o

Hiperplano oblquo: melhor


separao:
Exemplos:

o
o

t
x: exemplo recusado
o: exemplo aceito

regresso linear;
perceptron;

o
o

renda

Mtodos

Exemplo de previso (III)


Anlise de crdito
sem
crdito
x

dbito

x
x

o
o

Superfcie no linear: melhor


poder de classificao, pior
interpretao;
Exemplos:

o
o

t
x: exemplo recusado
o: exemplo aceito

o
o

perceptrons multicamadas;
regresso no-linear;

renda

Mtodos

Exemplo de previso (IV)


Anlise de crdito
sem
crdito
x

dbito

x
x

o
o

Mtodos baseado em
exemplos;
Exemplos:

o
o

t
x: exemplo recusado
o: exemplo aceito

x
o
o

k-vizinhos mais
prximos;
raciocnio baseado em
casos;

renda

Mtodos

Anlise de Clusters (agrupamentos) Segmentao


Processo de partio de uma populao heterognea em vrios subgrupos
ou grupos mais homogneos

Anlise de Outliers (excees)


Identificao de dados que no apresentam o comportamento geral

Estimativa (ou regresso)

Usada para definir um valor para alguma varivel contnua desconhecida

Sumarizao
Envolve mtodos para encontrar uma descrio compacta para um
subconjunto de dados

Anlise de Regras de Associao


ID
1
2
3
4

Compras
Po, Leite, Manteiga
Leite ,Aucar

Leite

Manteiga

Leite, Manteiga
Manteiga, Acar

Suporte =

nmero de clientes que compraram Leite,


Manteiga
Total de clientes

= 50%

Confiana =

nmero de clientes que compraram Leite,


Manteiga
nmero de clientes que compraram Leite

= 66,6%

Anlise de Padres Sequenciais

Itens = { TV, Vdeo , DVD, FitaDVD, ... }


{TV ,Vdeo} >> DVD >> FitaDVD

ITEMSET >> ITEMSET >> ITEMSET >> ... >>ITEMSET

Anlise de Padres Sequenciais


1

{TV , Rdio} >>{DVD}

{Computador}

{TV}

>> {Rdio, DVD}

{Rdio} >>{Comp}

{Comp} >> {Impressora}

Suporte =

< {TV} , {DVD} >

nmero de clientes que compraram TV, DVD


em seqncia
Total de clientes

= 40%

Classificao
Nome

Idade

Renda

Profisso

Classe

Daniel

30

Mdia

Estudante

Sim

Joo

31..50

Mdia-Alta

Professor

Sim

Carlos

31..50

Mdia-Alta Engenheiro

Maria

31..50

Baixa

Vendedora

No

Paulo

30

Baixa

Porteiro

No

Otavio

> 60

Mdia-Alta Aposentado

Sim

No

Classificao
Amostras
Classificadas
REGRAS

Banco de
Testes

Classificador
REGRAS CONFIVEIS

Classificao
rvore de Deciso
IDADE
30
RENDA
B
M
No

Sim

>60
No

M-A A
Sim

Sim

51-60

31-50

PROFISSO
Sim
Med Prof
Eng
Vend
Sim Sim
No Sim

Se Idade 30 e Renda Baixa ento No compra Eletrnico


Se Idade = 31-50 e Prof Mdico ento compra Eletrnico

Tcnicas de Minerao de Dados


Tcnica

Tarefas

Exemplos

Descoberta de Regras
de Associao

Associao

Apriori, AprioriTid, AprioriHybrid, AIS, SETM


(Agrawal e Srikant, 1994) e DHP (Chen et al.., 1996).

rvores de Deciso

Classificao
Regresso

CART, CHAID, C5.0, Quest (Two Crows, 1999);


ID-3 (Chen et al.., 1996); SLIQ (Metha et al.., 1996);
SPRINT (Shafer et al.., 1996).

Raciocnio Baseado
em
Casos ou MBR

Classificao
Segmentao

BIRCH (Zhang et al.., 1996); CLARANS (Chen et al..,


1996);
CLIQUE (Agrawal et al.., 1998).

Algoritmos Genticos

Classificao
Segmentao

Algoritmo Gentico Simples (Goldberg, 1989);


Genitor, CHC (Whitley, 1993);
Algoritmo de Hillis (Hillis, 1997); GA-Nuggets
(Freitas, 1999); GA-PVMINER (Arajo et al.., 1999).

Classificao
Segmentao

Perceptron, Rede MLP, Redes de Kohonen, Rede


Hopfield, Rede BAM, Redes ART, Rede IAC, Rede
LVQ, Rede Counterpropagation, Rede RBF, Rede
PNN, Rede Time Delay, Neocognitron, Rede BSB
(Azevedo, 2000), (Braga et al., 2000), (Haykin, 2001)

Redes Neurais
Artificiais

Exemplos

Empresas de software para Data mining:

SAS

http://www.sas.com

Information Havesting

http://www.convex.com

Red Brick

http://www.redbrick.com

Oracle

http://www.oracle.com

Sybase

http://www.sybase.com

Informix

http://www.informix.com

IBM

http://www.ibm.com

Exemplos

Concluses
Data mining um processo que permite compreender o
comportamento dos dados.
Data mining analisa os dados usando tcnicas de
aprendizagem para encontrar padres e regulariedades
nestes conjuntos de dados.
um problema pluridisciplinar, envolve Inteligncia Artificial,
Estatstica, Computao Grfica, Banco de Dados.
Pode ser bem aplicado em diversas reas de negcios

Concluses

Perguntas

Referncias Bibliogrficas
Tcnicas de Minerao de Dados -JAI - SBC2004
http://www.deamo.prof.ufu.br/arquivos/JAI-cap5.pdf (Acesso 02/06/2005)
http://www.deamo.prof.ufu.br/arquivos/JAI-slides.ppt (Acesso 02/06/2005)

Gimenes, Eduardo. Data Mining Data Warehouse Importncia da


Minerao de Dados em tomadas de deciso. Taquaritinga, 2000.
Monografia sobre Minerao de Dados
http://geocities.yahoo.com.br/dugimenes/arquivos/data_mining.zip (Acesso
8/07/2005)
Neto, Manoel Gomes de Mendona. Minerao de Dados.
http://www.nuperc.unifacs.br/publicacoes.htm(Acesso 10/07/2005)
Parmetros na escolha de tcnicas e ferramentas de minerao de dados
http://www.ppg.uem.br/Docs/ctf/Tecnologia/2002/18_279_02_Maria%20Dias_
Parametros%20na%20escolha.pdf (Acesso 9/7/2005)

Referncias Bibliogrficas
A Comparison of Leading Data Mining Tools (PDF format).
A
presentation by John F. Elder IV and Dean W.
http://www.datamininglab.com/pubs/kdd98_elder_abbott_nopics
_bw.pdf (Acesso 9/7/2005)
Oliveira, Aracele G.; Garcia, Denise F. Minerao da Base de
Dados de um Processo Seletivo Universitrio. p.38-43.
http://www.dcc.ufla.br/infocomp/artigos/v3.2/art07.pdf
(Acesso
31/05/2005)

Referncias
Fayyad et al. (1996). Advances in knowledge discovery and data

mining, AAAI Press/MIT Press.


Holsheimer, M. & Siebes, A.P.J.M. Data Mining: The Search for
Knowledge in Databases, 1994.
http://www-pcc.qub.ac.uk/tec/courses/datamining
http://www.rio.com.br/~extended
http://www.datamining.com
http://www.santafe.edu/~kurt
http://www.datamation.com
http://www-dse.doc.ic.ac.uk/~kd
http://www.cs.bham.ac.uk/~anp
http://www.dbms.com
http://www.infolink.com.br/~mpolito/mining/mining.html
http://www.lci.ufrj.br/~labbd/semins/grupo1

Referncias

S-ar putea să vă placă și