Sunteți pe pagina 1din 109

Aprendizado de Mquina

Cristiane Neri Nobre


Aprendizado de Mquina

Construo de programas de
computador que melhoram seu
desempenho por meio de experincia

Um programa aprende a partir da experincia E,


em relao a uma classe de tarefas T, com me-
dida de desempenho P, se seu desempenho em T,
medido por P, melhora com E
Mitchell, 1997
AM Conceitos Bsicos

Aprendizado Supervisionado

Indutor recebe conjunto de exemplos na


forma (entrada, rtulo_desejado)

Tcnicas:
Redes Neurais do tipo Multilayer Perceptron
Mquinas de Vetores Suporte
rvores de Deciso
AM Conceitos Bsicos

Aprendizado No-supervisionado

Indutor recebe apenas atributos de entrada

Encontrar aglomerados

Tcnicas:
Redes Neurais do tipo mapas auto-organizveis
Algoritmo k-mdias
AM Conceitos Bsicos

Exemplo (padro, instncia)


Amostra de tecido de paciente
Caracterstica (atributo, varivel)
Nvel de expresso de um gene do tecido
Vetor de caractersticas
Vetor com expresses de m genes do tecido
Classe
Presena ou ausncia de cncer
AM Conceitos Bsicos

Caracterstica
g1 g2 gj gN-1gN
Classe

Padro 1 Cncer
Padro 2 Normal
Padro 3

Padro i

Padro m Cncer
AM Conceitos Bsicos

Conjunto de exemplos (conj. de dados)


Conjunto de treinamento
Conjunto de teste
Acurcia (taxa de erro)
Falsos positivos e falsos negativos
Overfitting (super ajustamento)
Medidas de desempenho

Preciso a taxa de instncias corretamente


classificadas como pertencentes a classe em questo
dentre todos os que foram classificados na classe em
questo.

Sensibilidade ou recall a taxa de instncias


corretamente classificadas como pertencentes a
classe em questo dentre todos os que realmente
so da classe em questo.
Medidas de desempenho

Acurcia a taxa total instncias corretamente


classificadas.

F-Measure uma mdia harmnica entre preciso


e sensibilidade.
Medidas de desempenho

Preciso: Especificidade:

VP
Pr Esp
VN
VP FP VN FP

Sensibilidade=recall: Acurcia:

Sens
VP VP VN
Ac
VP FN VP VN FP FN
Exerccio 01

Fazer tabelas contendo as taxas de VP, VN,


FP, FN, preciso, sensibilidade,
especificidade, acurcia e F-Measure para,
pelo menos, duas bases de dados.
Sugesto:
1) Utilizar bases de dados disponveis no Weka;
2) Escolher um problema de duas classes e outro com mais de
duas classes.
3) Utilizar a mtrica J48 disponvel em rvore
Medidas de desempenho

F-Measure:

2 * preciso * sensibilid ade


FM
preciso sensibilid ade
Exerccio 02

O que acontece com o valor da acurcia


quando o problema desbalanceado (tem
muito mais instncias de uma classe do que
de outra?
Justifique.
Aprendizado Indutivo
A tarefa da inferncia indutiva pura (ou induo)
:
Dada uma coleo de exemplos de f, retornar uma
funo h (chamada hiptese) que se aproxime de f

A funo hiptese h tenta aproximar a funo alvo f.


Aprendizado Indutivo

No fcil saber se uma h especfica uma boa


aproximao de f.

Uma boa hiptese ir generalizar bem isto , ir


prever corretamente exemplos ainda no vistos.

Esse o problema da induo.


Aprendizado Indutivo

Pergunta: como escolhemos entre vrias hipteses


consistentes?
Navalha de Occam
suprfluo fazer com mais o que pode ser feito com
menos... No se deve acrescentar entidades alm do
necessrio.
Uma verso mais contempornea da Navalha de Occam
prope que devemos sempre aceitar a resposta mais
simples que se ajusta corretamente aos dados.

http://pt.wikipedia.org/wiki/Navalha_de_Occam
http://extra.globo.com/casos-de-policia/aurilio-nascimento/a-navalha-de-occam-3348506.html
rvores de Deciso ADs
Forma mais simples e ainda assim mais bem
sucedidas, de algoritmos de aprendizagem
Lista de perguntas respostas sim ou
no
Hierarquicamente arranjadas
Levam a uma deciso

Estrutura da rvore determinada por meio


de aprendizado
rvores de Deciso ADs
Uma AD toma como entrada um objeto ou
situao descritos por um conjunto de
atributos e retorna uma deciso o valor
de sada previsto, de acordo com a entrada.

Os atributos de entrada e de sada podem ser


discretos ou contnuos
Verificar no Weka o formato do arquivo da base
de dados sobre ir ou no jogar tnis
(weather.nominal e weather)
rvores de Deciso ADs
A aprendizagem de uma funo de valores
discretos chamada aprendizagem de
classificao

A aprendizagem de uma funo contnua


chamada de regresso.
Expressividade de rvores de
deciso

Qualquer funo booleana pode ser escrita como


uma rvore de deciso.

20
rvores de Deciso ADs

Exemplo

O objetivo inferir uma regra que permita


dizer se devemos ou no esperar por uma
mesa num restaurante, o objetivo aprender
uma definio para o predicado de objetivo
VaiEsperar (Exemplo extrado do livro do
RUSSELL)
Exemplo Restaurante

Problema: Esperar por uma mesa em um


restaurante.

O objetivo aprender uma definio para o


predicado vai esperar.

Primeiramente necessrio definir quais


atributos esto disponveis para descrever
alguns exemplos nesse domnio.
rvores de Deciso ADs

Comea-se por definir os atributos que descreverem


os exemplos:

1. Alternativa: existe um restaurante alternativo prximo?


2. Bar: existe uma rea de bar confortvel para esperar?
3. Sexta/Sbado: hoje Sexta ou Sbado?
4. Fome: temos fome?
5. Clientes: nmero de pessoas no restaurante (Nenhum, Algum, Cheio)
6. Preo: gama de preos (R$)
7. Chuva: est chovendo l fora?
8. Reserva: fizemos uma reserva?
9. Tipo de restaurante: Francs, Italiano, Tailands, Burger,
10. Estimativa do tempo de espera: 0-10, 10-30, 30-60, >60
rvores de Deciso ADs

Atributos Preo e Tipo no aparecem na rvore.


Expressividade de rvores de deciso

Em termos lgicos, qualquer hiptese de rvore de deciso especfica para


o predicado de meta VaiEsperar pode ser vista como uma assero da
forma:

s (VaiEsperar(s) (P1(s) P2(s) Pn(s))

Cada condio Pi(s) uma conjuno de testes que pode corresponder a


um caminho da raiz at uma folha da rvore com resultado positivo.

A rvore pode ser representada por uma conjuno de implicaes


individuais que correspondem aos caminhos que vo da raiz at o n folha
Sim.
Induzindo rvores a partir de exemplos
Exemplos para o domnio do restaurante.

O que significa cada atributo, mesmo?


Induzindo rvores a partir de exemplos
Exemplos para o domnio do restaurante.

1. Alternativa: existe um restaurante alternativo prximo? 6. Preo: gama de preos (R$)


2. Bar: existe uma rea de bar confortvel para esperar? 7. Chuva: est chovendo l fora?
3. Sexta/Sbado: hoje Sexta ou Sbado? 8. Reserva: fizemos uma reserva?
4. Fome: temos fome? 9. Tipo de restaurante: Francs, Italiano, Tailands, Burger,
5. Clientes: nmero de pessoas no restaurante (Nenhum, 10. Estimativa do tempo de espera: 0-10, 10-30, 30-60, >60
Algum, Cheio)
Induzindo rvores a partir de exemplos

Qual seria um bom atributo para comearmos a rvore?

Vamos avaliar o atributo Tipo?


Induzindo rvores a partir de exemplos

O que significam estas cores?


Induzindo rvores a partir de exemplos
Induzindo rvores a partir de exemplos

Portanto, o que acham de selecionarmos este


atributo para dividirmos a rvore?
Induzindo rvores a partir de exemplos

O atributo Tipo fraco porque nos deixa com quatro


resultados possveis, cada um dos quais tem o mesmo
nmero de exemplos positivos e negativos
Induzindo rvores a partir de exemplos

E quanto ao atributo cliente:

O que vocs acham?


Seria uma boa escolha?
Induzindo rvores a partir de exemplos

Atributo bastante importante.


Induzindo rvores a partir de exemplos

Em geral, depois que o primeiro teste de atributo separar os


exemplos, cada resultado um novo problema de
aprendizagem de rvore de deciso em si, com menos
exemplos e um atributo a menos.
Induzindo rvores a partir de exemplos
Existem quatro casos a considerar para esses problemas
recursivos:

1. Se existem alguns exemplos positivos e alguns negativos, escolha o melhor atributo


para dividi-los.

A Figura mostra faminto como sendo usado para dividir os exemplos restantes.
Induzindo rvores a partir de exemplos

2. Se todos os exemplos restantes forem positivos (ou todos negativos), ento


terminamos: podemos responder sim ou no.

Esta Figura apresenta exemplos disto nos casos Nenhum e Alguns.


Induzindo rvores a partir de exemplos

3. Se no resta nenhum exemplo, isso significa que nenhum exemplo desse tipo foi
observado, e retornamos um valor-padro calculado a partir da classificao da
maioria no pai do n.

3. Se no resta nenhum atributo mas h exemplos positivos e negativos, temos um


problema. Isso quer dizer que esses exemplos tm exatamente a mesma descrio,
mas classificaes diferentes
Isso pode indicar rudos nos dados
Os atributos no fornecem informaes suficientes para descrever a situao
completamente
O domnio verdadeiramente no-determinstico
Soluo: utilizar uma votao de maioria
Algoritmo de aprendizagem de rvore de deciso
Induzindo rvores a partir de exemplos

A rvore de deciso induzida a partir do conjunto de treino de 12 exemplos


Induzindo rvores a partir de exemplos
A rvore gerada no inclui os atributos chovendo e reserva ela pode
classificar todos os exemplos sem esses atributos.
Descoberta de um padro
interessante: a pessoa esperar por
comida tailandesa nos fins de semana.
Induzindo rvores a partir de exemplos

E se o tempo de espera for de 0-10 minutos e o restaurante estiver cheio?

Veja tambm que para o caso de Clientes=cheio e Faminto=No ento eu no vou


esperar
Faz sentido?
Induzindo rvores a partir de exemplos

Limitao: A rvore memoriza as observaes. Ela no


extrai qualquer padro dos exemplos e, assim, no
podemos esperar que ela esteja apta a extrapolar para
exemplos no vistos antes.
Escolha de testes de atributos

O esquema usado na aprendizagem de rvores de


deciso para selecionar atributos projetado para
minimizar a profundidade da rvore final.

A ideia escolher o atributo que v o mais longe


possvel na tentativa de fornecer uma classificao
exata dos exemplos.

Um atributo perfeito divide os exemplos em


conjuntos que so todos positivos ou todos negativos.
Clientes bastante bom
Tipo realmente intil
Escolha de testes de atributos

Assim, tudo o que precisamos de uma medida


formal de bastante bom e realmente intil

A funo ESCOLHER-ATRIBUTO dever ter seu


valor mximo quando o atributo for perfeito, e seu
valor mnimo quando o atributo for absolutamente
intil.

Uma medida apropriada a quantidade esperada


de informaes fornecidas pelo atributo, que
calculada atravs de uma expresso matemtica
Escolha de testes de atributos

Para se entender a noo de informaes, pode-


se pensar como a resposta a uma pergunta. Assim, a
quantidade de informaes contidas na resposta
depende do conhecimento anterior do indivduo.

Quanto menos se sabe, mais informaes so


fornecidas.

A teoria da informao mede o contedo de


informao em bits.
Escolha de testes de atributos

Um bit de informao suficiente para responder a


uma pergunta do tipo sim/no sobre a qual no se
tem nenhuma ideia. Por exemplo se lanarmos uma
moeda imparcial qual a quantidade de informao
necessria?

Em geral, se cada resposta possvel vi tm


probabilidade P(vi), ento o contedo de informao
I da resposta real dado por:
Escolha de testes de atributos

No caso do lanamento de uma moeda imparcial,


temos:

1 1 1 1 1 1
I ( , ) log 2 log 2
2 2 2 2 2 2

1 1 1 1
I ( , ) (-1) (-1)
2 2 2 2 Ou seja, um bit de
informao suficiente para
1 1 1 1 responder a uma pergunta
I ( , ) 1 bit sim/no sobre a qual no se
2 2 2 2
tem nenhuma ideia, como o
lanamento de uma moeda
imparcial.
Escolha de testes de atributos

E se a moeda for adulterada (viciada) para dar 99%


de cara?
1 99 1 1 99 99
I( , ) log 2 log 2
100 100 100 100 100 100

1 99 1 99
I( , ) (-0,0145) (-6,64386 )
100 100 100 100

1 99
I( , ) 0,014355 0,066439 0,080793
100 100
Escolha de testes de atributos

Ou seja, como a probabilidade de caras tente a 1,


a informao da resposta tende a 0.

Para a aprendizagem em rvores de deciso, a pergunta


que precisa ser respondida : para um dado exemplo,
qual a classificao correta?
Escolha de testes de atributos

Assim, uma estimativa das probabilidades das respostas


possveis antes de quaisquer atributos serem testados
dada pelas propores de exemplos positivos e negativos
no conjunto de treinamento.

Vamos supor que o conjunto de treinamento contenha p


exemplos positivos e n exemplos negativos. Ento uma
estimativa das informaes contidas em uma resposta
correta :
p n p p n n
I( , ) log2 log2
pn pn pn pn pn pn
Escolha de testes de atributos

Um teste em um nico atributo A normalmente nos


fornecer algumas informaes.

Podemos medir exatamente quantas informaes ainda


precisaremos depois do teste do atributo.

Qualquer atributo A divide o conjunto de treinamento E


em subconjuntos E1, , Ev de acordo com seus valores
para A, onde A pode ter v valores distintos.
Escolha de testes de atributos

Cada subconjunto Ei tem Pi exemplos positivos e ni


exemplos negativos

Assim, se seguirmos ao longo dessa ramificao,


precisaremos de
pi ni
I( , )
p i n i pi ni

bits de informao para responder pergunta.


Escolha de testes de atributos

Um exemplo escolhido ao acaso a partir do conjunto de


treinamento tem o i-simo valor para o atributo com
probabilidade (pi+ni)/(p+n) e assim, em mdia, depois de
testar o atributo A, precisaremos de:

v pi ni pi ni
Restante(A) I( , )
i 1 p n pi ni pi ni

bits de informao para classificar o exemplo.


Escolha de testes de atributos

O ganho de informao a partir do teste de atributo a


diferena entre o requisito de informao original e o novo
requisito:

p n
ganho( A) I ( , ) res tan te
pn pn

A heurstica usada na funo ESCOLHER-ATRIBUTO


simplesmente escolher o atributo com o maior ganho.
Escolha de testes de atributos

Voltando aos atributos considerados no problema citado,


temos:

2 4 6 2 4
ganho(clientes) 1 I (0,1) I (1,0) I , 0,541 bits
12 12 12 6 6

O que significam
Por qu 1? Por qu 2, 4 e 6 os nmeros entre
no numerador? parnteses
O conjunto tem 2 ex. de nenhum
A quantidade de
p=n=6. Logo 1 bit 4 de algum e 6 de
pos e neg em
cheio
cada teste do atributo
Escolha de testes de atributos

2 4 6 2 4
ganho(clientes) 1 I (0,1) I (1,0) I , 0,541 bits
12 12 12 6 6
Escolha de testes de atributos

Qual seria o ganho se selecionarmos o atributo


Tipo?
Escolha de testes de atributos

2 1 1 2 1 1 4 1 1 4 1 1
ganho(tipo) 1 I ( , ) I ( , ) I , I , 0
12 2 2 12 2 2 12 2 2 12 2 2
Escolha de testes de atributos

Como ele far a seleo do prximo atributo?

Ele calcular os valores:


Ganho(cheio, alt)
Ganho(cheio,bar)
Ganho(cheio,chu)

E selecionar o melhor
Ele calcular os valores:
Ganho(cheio, alt)
Ganho(cheio,bar)
Ganho(cheio,chu)

E selecionar o melhor
Escolha de testes de atributos

Tente gerar toda a rvore para essa base de dados


utilizando o ID3 (Iterative Dichotomiser 3) (o link
apresentado nas referncias pode ajud-los)

Faa para a base Jogar tnis ou no que tem no


Weka primeiro.
Assim, vocs podem conferir os resultados.
Escolha de testes de atributos

Calcule info(T) para:

Um conjunto T de 64 exemplos, sendo 29 exemplos da


classe positiva e 35 da classe negativa, ou seja, [29+,35-]

Um conjunto T de 64 exemplos, sendo 20 exemplos da


classe positiva, 32 da classe negativa e 12 da classe
asterisco, ou seja, [20+,32-,12*]

Idem para T=[20+,32-,6*,6$]


Escolha de testes de atributos

Soluo:

T = [29+,35-]
info(T) = info([29+,35-]) = 29/64 log2 29/64 35/64 log2 35/64 = 0.99

T = [20+,32-,12*]
info(T) = info([20+,32-,12*]) = 20/64 log2 20/64 32/64 log2 32/64 12/64log2 12/64
= 1.48

T = [20+,32-,6*,6$]
info(T) = info([20+,32-,6*,6$]) = 20/64 log2 20/64 32/64 log2 32/64 6/64 log2 6/64
6/64 log2 6/64 = 1.66
Escolha de testes de atributos

info([21+,5-]) = 0.71 info([18+,32-]) = 0.94


info([8+,30-]) = 0.74 info([7+,1-]) = 0.54
info(X1,[29+,35-]) = info([4+,2-]) = 0.92
-26/64*info([21+,5-]) info(X2,[29+,35-]) = -
-38/64*info([8+,30-]) 50/64*info([18+,32-])
= 0.73 -8/64*info([7+,1-]) -6/64*info([4+,2-])
= 0.89
Escolha de testes de atributos

T = [29+,35-] Qual o ganho de X1? E de X2?


info([29+,35-]) = 0.99 Com qual atributo obtm-se o ganho
info(X1,[29+,35-]) = 0.73 mximo?
info(X2,[29+,35-]) = 0.89
Escolha de testes de atributos

T = [29+,35-] gain(X1,T) = info(T) info(X1,T)


info([29+,35-]) = 0.99 = 0.99 0.73 = 0.26
info(X1,[29+,35-]) = 0.73 gain(X2,T) = info(T) info(X2,T)
info(X2,[29+,35-]) = 0.89 = 0.99 0.89 = 0.10
Ganho mximo obtido com X1
Exerccios
Considere a tarefa de aprendizado representada pelos exemplos de
treinamento na tabela abaixo, em que o objetivo prever o atributo
JogarTenis baseando-se nos outros atributos. Construa uma AD.
Escolha do Atributo para Particionar
todo o Conjunto de Exemplos
O Subconjunto Aparncia=nublado possui
Apenas Exemplos de uma Mesma Classe...
O que leva a um n folha...
Escolha do Atributo para Particionar
Aparncia=sol
Escolha do Atributo para Particionar
Aparncia=sol
Escolha do Atributo Umidade para
Particionar Aparncia=sol
Escolha do Atributo para Particionar
Aparncia = chuva
Escolha do Atributo para Particionar
Aparncia = chuva
Escolha do Atributo Ventando para
Particionar Aparncia = chuva
rvore de induo induzida
Exerccio

Acesse o endereo do repositrio de bases de dados:

http://archive.ics.uci.edu/ml/datasets.html?format=&task=&att=&a
rea=game&numAtt=&numIns=&type=&sort=nameUp&view=table

Pegue uma base de dados e veja como o Weka faz a rvore de


deciso...

Coloque a base de dados do Jogo da Velha no formato ARFF e veja


como o Weka gera a rvore de deciso.
Qual atributo ele considera mais importante?
Exerccio
Razo de ganho (gain ratio)

Vimos que o ganho mximo interessante


para particionar os exemplos, fornecendo
bons resultados

Entretanto, ele tem uma tendncia (bias)


em favor de testes com muitos valores

Por exemplo, considere um conjunto de


exemplos de diagnstico mdico no qual um
dos atributos contm o cdigo de
identificao do paciente (ID)
Razo de ganho (gain ratio)

Uma vez que cada cdigo ID nico,


particionando o conjunto de treinamento nos
valores deste atributo levar a um grande
nmero de subconjuntos, cada um contendo
somente um caso

Como todos os subconjuntos (de 1 elemento)


necessariamente contm exemplos de uma
mesma classe, info(ID,T)=0, assim o
ganho de informao deste atributo ser
mximo
Razo de ganho (gain ratio)
Razo de ganho (gain ratio)

Para solucionar esta situao, em analogia definio


de info(T), vamos definir a informao potencial
gerada pela partio de T em r subconjuntos

A razo de ganho definida como:

A razo de ganho expressa a proporo de


informao gerada pela partio que til, ou seja,
que aparenta ser til para a classificao
Razo de ganho (gain ratio)
Usando o exemplo anterior para o atributo Clientes que
produz trs subconjuntos com 2, 4 e 6 exemplos,
respectivamente

2 4 6 2 4
ganho(clientes) 1 I (0,1) I (1,0) I , 0,541 bits
12 12 12 6 6
2 2 4 4 6 6
split inf o(Clientes, T ) log2 log2 log2
12 12 12 12 12 12
2 4 6
split inf o(Clientes, T ) ( 2.58496 ) ( 1.58496 ) ( 1) 1.459
12 12 12
Razo de ganho (gain ratio)

Para este teste, cujo ganho gain(Clientes,T)


=0.541 (mesmo valor anterior), a razo de
ganho :

gain-ratio(Clientes,T) = 0,541 0,37


1,459
Interpretao geomtrica de AD
Interpretao geomtrica de AD
Escolha de testes de atributos
Resumindo

Conceito importantes:
Information Gain, gain ratio e Entropy

1. Information Gain:
Medida que indica o quanto um dado atributo ir
separar os exemplos de aprendizado
de acordo com a sua funo objetivo (classes).
Valor numrico - quantifica o ganho!
Para determinar o ganho, precisamos calcular a
entropia dos dados antes
Escolha de testes de atributos
Resumindo

2. Gain ratio:

A razo de ganho expressa a proporo de


informao gerada pela partio que til, ou
seja, que aparenta ser til para a
classificao
Escolha de testes de atributos
Resumindo

3. Entropia

Medida que indica a homogenidade dos


exemplos contidos em um conjunto de dados.
Permite caracterizar a pureza (e impureza) de
uma coleo arbitrria de exemplos.

A fsica usa o termo entropia para descrever a quantidade de


desordem associada a um sistema. Na teoria da informao, este
termo tem uma significado semelhante, -- ele mede o grau de
desordem de um conjunto de dados.
Avaliao do desempenho do algoritmo de
aprendizagem

Um algoritmo de aprendizagem bom se produz


hipteses que fazem um bom trabalho de
previso das classificaes de exemplos no
vistos.

Metodologia a ser aplicada:


1. Coletar um grande conjunto de exemplos
2. Dividi-los em dois conjuntos disjuntos:
treinamento e teste
3. Aplicar o algoritmo de aprendizagem ao conjunto
de treinamento, gerando a hiptese h.
4. Medir a porcentagem de exemplos no conjunto de
teste que so corretamente classificados por h.
Avaliao do desempenho do algoritmo de
aprendizagem

5. Repetir as etapas 1 a 4 para diferentes tamanhos


de conjuntos de treinamento e diferentes
conjuntos de treinamento de cada tamanho
selecionados aleatoriamente.
Curva de aprendizagem

traada com o conjunto de dados obtidos da


metodologia anterior

Conjunto de treinamento aumenta -> qualidade


da previso aumenta

Bom sinal de que existe um padro nos dados e o


algoritmo est capturando este padro
Curva de aprendizagem
Rudo e superadaptao (overfitting)

O algoritmo ID3 faz crescer cada ramo da rvore o


suficiente para classificar perfeitamente os
exemplos de treino

Problemas:
Quando existem rudos ou erros aleatrios
nos dados ou
Quando o nmero de exemplos de treino
muito pequeno no constituindo uma amostra
representativa da verdadeira funo objetivo
Nestes casos ID3 pode produzir rvores que se
superadaptam os exemplos de treino isto ,
aprendem inclusive os rudos e os erros.
Definio de Superadaptao

Dado um espao de hipteses H. Uma hiptese h


H overfit os dados de treino se existe alguma
hiptese alternativa h H, tal que h tenha
menor erro do que h sobre os exemplos de
treino, mas h tem menor erro do que h sobre
toda a distribuio dos exemplos (i.e incluindo
exemplos fora do conjunto de treinamento).

A superadaptao aflinge todo tipo de algoritmo


de aprendizagem, no apenas rvores de deciso
ADs - concluso

Vantagens:
Estrutura de fcil manipulao

Produzem modelos que podem ser facilmente


interpretados por humanos

Desvantagens:
Pouca robustez a dados de grande dimenso

Acurcia afetada por atributos pouco relevantes


Dificuldade em lidar com dados contnuos
Algumas Ferramentas para extrao de
ADs

Weka http://www.cs.waikato.ac.nz/ml/weka/

Trepan - poder ser adquirido atravs de um e-mail enviado Mark Craven


(craven@biostat.wisc.edu), autor do Trepan.

C4.5 - HAMILTON, H.; GURAK, E.; FINDLATER, L.; OLIVE, W.


Machine learning/decision trees - C4.5 tutorial. Disponvel em:
<http://www.cbi.msstate.edu/faculty/dvance/ml/ C4_5%20Tutorial.htm>. Acesso em:
03 jan. 2002.

ID3, C5.0, dentre outros...


Referncias Bibliogrficas

Cap. 18 do Livro do Russell e Norvig


Quinlan, J. Ross. C4.5: Programs for Machine Learning. Morgan Kaufmann,
1993.
Tom M. Mitchell. Machine Learning. McGraw-Hill, 1997.

Sites:

http://www.aispace.org/dTree/

http://www2.dbd.puc-
rio.br/pergamum/tesesabertas/0210488_04_cap_03.pdf

rfaces.googlecode.com/files/7346C805d01.pdf

http://sites.ffclrp.usp.br/ccp/%28SEM%208%29/MATDID/EACBD/Apostila
%20DW%20e%20DM%20PUC%20RJ.pdf

http://professor.ufabc.edu.br/~ronaldo.prati/MachineLearning/AM-I-
Arvores-Decisao.pdf

S-ar putea să vă placă și