AM - Árvore de Decisão

Aprendizado de Mquina
Cristiane Neri Nobre

Aprendizado de Mquina
Construo de programas de
computador que melhoram seu
desempenho por meio de experincia
Um programa aprende a partir da experincia E,

em relao a uma classe de tarefas T, com me-
dida de desempenho P, se seu desempenho em T,
medido por P, melhora com E
Mitchell, 1997
AM Conceitos Bsicos
Aprendizado Supervisionado
Indutor recebe conjunto de exemplos na

forma (entrada, rtulo_desejado)
Tcnicas:
Redes Neurais do tipo Multilayer Perceptron
Mquinas de Vetores Suporte
rvores de Deciso
AM Conceitos Bsicos
Aprendizado No-supervisionado
Indutor recebe apenas atributos de entrada
Encontrar aglomerados
Tcnicas:
Redes Neurais do tipo mapas auto-organizveis
Algoritmo k-mdias
AM Conceitos Bsicos
Exemplo (padro, instncia)

Amostra de tecido de paciente
Caracterstica (atributo, varivel)
Nvel de expresso de um gene do tecido
Vetor de caractersticas
Vetor com expresses de m genes do tecido
Classe
Presena ou ausncia de cncer
AM Conceitos Bsicos
Caracterstica
g1 g2 gj gN-1gN
Classe
Padro 1 Cncer
Padro 2 Normal
Padro 3
Padro i
Padro m Cncer
AM Conceitos Bsicos
Conjunto de exemplos (conj. de dados)

Conjunto de treinamento
Conjunto de teste
Acurcia (taxa de erro)
Falsos positivos e falsos negativos
Overfitting (super ajustamento)
Medidas de desempenho
Preciso a taxa de instncias corretamente

classificadas como pertencentes a classe em questo
dentre todos os que foram classificados na classe em
questo.
Sensibilidade ou recall a taxa de instncias

corretamente classificadas como pertencentes a
classe em questo dentre todos os que realmente
so da classe em questo.
Acurcia a taxa total instncias corretamente

classificadas.
F-Measure uma mdia harmnica entre preciso

e sensibilidade.
Preciso: Especificidade:
VP
Pr Esp
VN
VP FP VN FP
Sensibilidade=recall: Acurcia:
Sens
VP VP VN
Ac
VP FN VP VN FP FN
Exerccio 01
Fazer tabelas contendo as taxas de VP, VN,

FP, FN, preciso, sensibilidade,
especificidade, acurcia e F-Measure para,
pelo menos, duas bases de dados.
Sugesto:
1) Utilizar bases de dados disponveis no Weka;
2) Escolher um problema de duas classes e outro com mais de
duas classes.
3) Utilizar a mtrica J48 disponvel em rvore
F-Measure:
2 * preciso * sensibilid ade

FM
preciso sensibilid ade
Exerccio 02
O que acontece com o valor da acurcia

quando o problema desbalanceado (tem
muito mais instncias de uma classe do que
de outra?
Justifique.
Aprendizado Indutivo
A tarefa da inferncia indutiva pura (ou induo)
:
Dada uma coleo de exemplos de f, retornar uma
funo h (chamada hiptese) que se aproxime de f
A funo hiptese h tenta aproximar a funo alvo f.

No fcil saber se uma h especfica uma boa

aproximao de f.
Uma boa hiptese ir generalizar bem isto , ir

prever corretamente exemplos ainda no vistos.
Esse o problema da induo.

Pergunta: como escolhemos entre vrias hipteses

consistentes?
Navalha de Occam
suprfluo fazer com mais o que pode ser feito com
menos... No se deve acrescentar entidades alm do
necessrio.
Uma verso mais contempornea da Navalha de Occam
prope que devemos sempre aceitar a resposta mais
simples que se ajusta corretamente aos dados.
http://pt.wikipedia.org/wiki/Navalha_de_Occam
http://extra.globo.com/casos-de-policia/aurilio-nascimento/a-navalha-de-occam-3348506.html
rvores de Deciso ADs
Forma mais simples e ainda assim mais bem
sucedidas, de algoritmos de aprendizagem
Lista de perguntas respostas sim ou
no
Hierarquicamente arranjadas
Levam a uma deciso
Estrutura da rvore determinada por meio

de aprendizado
Uma AD toma como entrada um objeto ou
situao descritos por um conjunto de
atributos e retorna uma deciso o valor
de sada previsto, de acordo com a entrada.
Os atributos de entrada e de sada podem ser

discretos ou contnuos
Verificar no Weka o formato do arquivo da base
de dados sobre ir ou no jogar tnis
(weather.nominal e weather)
A aprendizagem de uma funo de valores
discretos chamada aprendizagem de
classificao
A aprendizagem de uma funo contnua

chamada de regresso.
Expressividade de rvores de
deciso
Qualquer funo booleana pode ser escrita como

uma rvore de deciso.
20
Exemplo
O objetivo inferir uma regra que permita

dizer se devemos ou no esperar por uma
mesa num restaurante, o objetivo aprender
uma definio para o predicado de objetivo
VaiEsperar (Exemplo extrado do livro do
RUSSELL)
Exemplo Restaurante
Problema: Esperar por uma mesa em um

restaurante.
O objetivo aprender uma definio para o

predicado vai esperar.
Primeiramente necessrio definir quais

atributos esto disponveis para descrever
alguns exemplos nesse domnio.
Comea-se por definir os atributos que descreverem

os exemplos:
1. Alternativa: existe um restaurante alternativo prximo?

2. Bar: existe uma rea de bar confortvel para esperar?
3. Sexta/Sbado: hoje Sexta ou Sbado?
4. Fome: temos fome?
5. Clientes: nmero de pessoas no restaurante (Nenhum, Algum, Cheio)
6. Preo: gama de preos (R$)
7. Chuva: est chovendo l fora?
8. Reserva: fizemos uma reserva?
9. Tipo de restaurante: Francs, Italiano, Tailands, Burger,
10. Estimativa do tempo de espera: 0-10, 10-30, 30-60, >60
Atributos Preo e Tipo no aparecem na rvore.

Expressividade de rvores de deciso
Em termos lgicos, qualquer hiptese de rvore de deciso especfica para

o predicado de meta VaiEsperar pode ser vista como uma assero da
forma:
s (VaiEsperar(s) (P1(s) P2(s) Pn(s))
Cada condio Pi(s) uma conjuno de testes que pode corresponder a

um caminho da raiz at uma folha da rvore com resultado positivo.
A rvore pode ser representada por uma conjuno de implicaes

individuais que correspondem aos caminhos que vo da raiz at o n folha
Sim.
Induzindo rvores a partir de exemplos
Exemplos para o domnio do restaurante.
O que significa cada atributo, mesmo?

Exemplos para o domnio do restaurante.
1. Alternativa: existe um restaurante alternativo prximo? 6. Preo: gama de preos (R$)

2. Bar: existe uma rea de bar confortvel para esperar? 7. Chuva: est chovendo l fora?
3. Sexta/Sbado: hoje Sexta ou Sbado? 8. Reserva: fizemos uma reserva?
4. Fome: temos fome? 9. Tipo de restaurante: Francs, Italiano, Tailands, Burger,
5. Clientes: nmero de pessoas no restaurante (Nenhum, 10. Estimativa do tempo de espera: 0-10, 10-30, 30-60, >60
Algum, Cheio)
Qual seria um bom atributo para comearmos a rvore?
Vamos avaliar o atributo Tipo?

O que significam estas cores?

Portanto, o que acham de selecionarmos este

atributo para dividirmos a rvore?
O atributo Tipo fraco porque nos deixa com quatro

resultados possveis, cada um dos quais tem o mesmo
nmero de exemplos positivos e negativos
E quanto ao atributo cliente:
O que vocs acham?

Seria uma boa escolha?
Atributo bastante importante.

Em geral, depois que o primeiro teste de atributo separar os

exemplos, cada resultado um novo problema de
aprendizagem de rvore de deciso em si, com menos
exemplos e um atributo a menos.
Existem quatro casos a considerar para esses problemas
recursivos:
1. Se existem alguns exemplos positivos e alguns negativos, escolha o melhor atributo

para dividi-los.
A Figura mostra faminto como sendo usado para dividir os exemplos restantes.
2. Se todos os exemplos restantes forem positivos (ou todos negativos), ento

terminamos: podemos responder sim ou no.
Esta Figura apresenta exemplos disto nos casos Nenhum e Alguns.

3. Se no resta nenhum exemplo, isso significa que nenhum exemplo desse tipo foi
observado, e retornamos um valor-padro calculado a partir da classificao da
maioria no pai do n.
3. Se no resta nenhum atributo mas h exemplos positivos e negativos, temos um

problema. Isso quer dizer que esses exemplos tm exatamente a mesma descrio,
mas classificaes diferentes
Isso pode indicar rudos nos dados
Os atributos no fornecem informaes suficientes para descrever a situao
completamente
O domnio verdadeiramente no-determinstico
Soluo: utilizar uma votao de maioria
Algoritmo de aprendizagem de rvore de deciso
A rvore de deciso induzida a partir do conjunto de treino de 12 exemplos

A rvore gerada no inclui os atributos chovendo e reserva ela pode
classificar todos os exemplos sem esses atributos.
Descoberta de um padro
interessante: a pessoa esperar por
comida tailandesa nos fins de semana.
E se o tempo de espera for de 0-10 minutos e o restaurante estiver cheio?
Veja tambm que para o caso de Clientes=cheio e Faminto=No ento eu no vou

esperar
Faz sentido?
Limitao: A rvore memoriza as observaes. Ela no

extrai qualquer padro dos exemplos e, assim, no
podemos esperar que ela esteja apta a extrapolar para
exemplos no vistos antes.
Escolha de testes de atributos
O esquema usado na aprendizagem de rvores de

deciso para selecionar atributos projetado para
minimizar a profundidade da rvore final.
A ideia escolher o atributo que v o mais longe

possvel na tentativa de fornecer uma classificao
exata dos exemplos.
Um atributo perfeito divide os exemplos em

conjuntos que so todos positivos ou todos negativos.
Clientes bastante bom
Tipo realmente intil
Assim, tudo o que precisamos de uma medida

formal de bastante bom e realmente intil
A funo ESCOLHER-ATRIBUTO dever ter seu

valor mximo quando o atributo for perfeito, e seu
valor mnimo quando o atributo for absolutamente
intil.
Uma medida apropriada a quantidade esperada

de informaes fornecidas pelo atributo, que
calculada atravs de uma expresso matemtica
Para se entender a noo de informaes, pode-

se pensar como a resposta a uma pergunta. Assim, a
quantidade de informaes contidas na resposta
depende do conhecimento anterior do indivduo.
Quanto menos se sabe, mais informaes so

fornecidas.
A teoria da informao mede o contedo de

informao em bits.
Um bit de informao suficiente para responder a

uma pergunta do tipo sim/no sobre a qual no se
tem nenhuma ideia. Por exemplo se lanarmos uma
moeda imparcial qual a quantidade de informao
necessria?
Em geral, se cada resposta possvel vi tm

probabilidade P(vi), ento o contedo de informao
I da resposta real dado por:
No caso do lanamento de uma moeda imparcial,

temos:
1 1 1 1 1 1
I ( , ) log 2 log 2
2 2 2 2 2 2
1 1 1 1
I ( , ) (-1) (-1)
2 2 2 2 Ou seja, um bit de
informao suficiente para
1 1 1 1 responder a uma pergunta
I ( , ) 1 bit sim/no sobre a qual no se
2 2 2 2
tem nenhuma ideia, como o
lanamento de uma moeda
imparcial.
E se a moeda for adulterada (viciada) para dar 99%

de cara?
1 99 1 1 99 99
I( , ) log 2 log 2
100 100 100 100 100 100
1 99 1 99
I( , ) (-0,0145) (-6,64386 )
100 100 100 100
1 99
I( , ) 0,014355 0,066439 0,080793
100 100
Ou seja, como a probabilidade de caras tente a 1,

a informao da resposta tende a 0.
Para a aprendizagem em rvores de deciso, a pergunta

que precisa ser respondida : para um dado exemplo,
qual a classificao correta?
Assim, uma estimativa das probabilidades das respostas

possveis antes de quaisquer atributos serem testados
dada pelas propores de exemplos positivos e negativos
no conjunto de treinamento.
Vamos supor que o conjunto de treinamento contenha p

exemplos positivos e n exemplos negativos. Ento uma
estimativa das informaes contidas em uma resposta
correta :
p n p p n n
I( , ) log2 log2
pn pn pn pn pn pn
Um teste em um nico atributo A normalmente nos

fornecer algumas informaes.
Podemos medir exatamente quantas informaes ainda

precisaremos depois do teste do atributo.
Qualquer atributo A divide o conjunto de treinamento E

em subconjuntos E1, , Ev de acordo com seus valores
para A, onde A pode ter v valores distintos.
Cada subconjunto Ei tem Pi exemplos positivos e ni

exemplos negativos
Assim, se seguirmos ao longo dessa ramificao,

precisaremos de
pi ni
I( , )
p i n i pi ni
bits de informao para responder pergunta.

Um exemplo escolhido ao acaso a partir do conjunto de

treinamento tem o i-simo valor para o atributo com
probabilidade (pi+ni)/(p+n) e assim, em mdia, depois de
testar o atributo A, precisaremos de:
v pi ni pi ni
Restante(A) I( , )
i 1 p n pi ni pi ni
bits de informao para classificar o exemplo.

O ganho de informao a partir do teste de atributo a

diferena entre o requisito de informao original e o novo
requisito:
p n
ganho( A) I ( , ) res tan te
pn pn
A heurstica usada na funo ESCOLHER-ATRIBUTO

simplesmente escolher o atributo com o maior ganho.
Voltando aos atributos considerados no problema citado,

temos:
2 4 6 2 4
ganho(clientes) 1 I (0,1) I (1,0) I , 0,541 bits
12 12 12 6 6
O que significam
Por qu 1? Por qu 2, 4 e 6 os nmeros entre
no numerador? parnteses
O conjunto tem 2 ex. de nenhum
A quantidade de
p=n=6. Logo 1 bit 4 de algum e 6 de
pos e neg em
cheio
cada teste do atributo
2 4 6 2 4
12 12 12 6 6
Qual seria o ganho se selecionarmos o atributo

Tipo?
2 1 1 2 1 1 4 1 1 4 1 1
ganho(tipo) 1 I ( , ) I ( , ) I , I , 0
12 2 2 12 2 2 12 2 2 12 2 2
Como ele far a seleo do prximo atributo?
Ele calcular os valores:

Ganho(cheio, alt)
Ganho(cheio,bar)
Ganho(cheio,chu)
E selecionar o melhor
Ele calcular os valores:
Ganho(cheio, alt)
Ganho(cheio,bar)
Ganho(cheio,chu)
E selecionar o melhor
Tente gerar toda a rvore para essa base de dados

utilizando o ID3 (Iterative Dichotomiser 3) (o link
apresentado nas referncias pode ajud-los)
Faa para a base Jogar tnis ou no que tem no

Weka primeiro.
Assim, vocs podem conferir os resultados.
Calcule info(T) para:
Um conjunto T de 64 exemplos, sendo 29 exemplos da

classe positiva e 35 da classe negativa, ou seja, [29+,35-]
Um conjunto T de 64 exemplos, sendo 20 exemplos da

classe positiva, 32 da classe negativa e 12 da classe
asterisco, ou seja, [20+,32-,12*]
Idem para T=[20+,32-,6*,6$]

Soluo:
T = [29+,35-]
info(T) = info([29+,35-]) = 29/64 log2 29/64 35/64 log2 35/64 = 0.99
T = [20+,32-,12*]
info(T) = info([20+,32-,12*]) = 20/64 log2 20/64 32/64 log2 32/64 12/64log2 12/64
= 1.48
T = [20+,32-,6*,6$]
info(T) = info([20+,32-,6*,6$]) = 20/64 log2 20/64 32/64 log2 32/64 6/64 log2 6/64
6/64 log2 6/64 = 1.66
info([21+,5-]) = 0.71 info([18+,32-]) = 0.94

info([8+,30-]) = 0.74 info([7+,1-]) = 0.54
info(X1,[29+,35-]) = info([4+,2-]) = 0.92
-26/64*info([21+,5-]) info(X2,[29+,35-]) = -
-38/64*info([8+,30-]) 50/64*info([18+,32-])
= 0.73 -8/64*info([7+,1-]) -6/64*info([4+,2-])
= 0.89
T = [29+,35-] Qual o ganho de X1? E de X2?

info([29+,35-]) = 0.99 Com qual atributo obtm-se o ganho
info(X1,[29+,35-]) = 0.73 mximo?
info(X2,[29+,35-]) = 0.89
T = [29+,35-] gain(X1,T) = info(T) info(X1,T)

info([29+,35-]) = 0.99 = 0.99 0.73 = 0.26
info(X1,[29+,35-]) = 0.73 gain(X2,T) = info(T) info(X2,T)
info(X2,[29+,35-]) = 0.89 = 0.99 0.89 = 0.10
Ganho mximo obtido com X1
Exerccios
Considere a tarefa de aprendizado representada pelos exemplos de
treinamento na tabela abaixo, em que o objetivo prever o atributo
JogarTenis baseando-se nos outros atributos. Construa uma AD.
Escolha do Atributo para Particionar
todo o Conjunto de Exemplos
O Subconjunto Aparncia=nublado possui
Apenas Exemplos de uma Mesma Classe...
O que leva a um n folha...
Aparncia=sol
Aparncia=sol
Escolha do Atributo Umidade para
Particionar Aparncia=sol
Aparncia = chuva
Aparncia = chuva
Escolha do Atributo Ventando para
Particionar Aparncia = chuva
rvore de induo induzida
Exerccio
Acesse o endereo do repositrio de bases de dados:
http://archive.ics.uci.edu/ml/datasets.html?format=&task=&att=&a
rea=game&numAtt=&numIns=&type=&sort=nameUp&view=table
Pegue uma base de dados e veja como o Weka faz a rvore de

deciso...
Coloque a base de dados do Jogo da Velha no formato ARFF e veja

como o Weka gera a rvore de deciso.
Qual atributo ele considera mais importante?
Exerccio
Razo de ganho (gain ratio)
Vimos que o ganho mximo interessante

para particionar os exemplos, fornecendo
bons resultados
Entretanto, ele tem uma tendncia (bias)

em favor de testes com muitos valores
Por exemplo, considere um conjunto de

exemplos de diagnstico mdico no qual um
dos atributos contm o cdigo de
identificao do paciente (ID)
Uma vez que cada cdigo ID nico,

particionando o conjunto de treinamento nos
valores deste atributo levar a um grande
nmero de subconjuntos, cada um contendo
somente um caso
Como todos os subconjuntos (de 1 elemento)

necessariamente contm exemplos de uma
mesma classe, info(ID,T)=0, assim o
ganho de informao deste atributo ser
mximo
Para solucionar esta situao, em analogia definio

de info(T), vamos definir a informao potencial
gerada pela partio de T em r subconjuntos
A razo de ganho definida como:
A razo de ganho expressa a proporo de

informao gerada pela partio que til, ou seja,
que aparenta ser til para a classificao
Usando o exemplo anterior para o atributo Clientes que
produz trs subconjuntos com 2, 4 e 6 exemplos,
respectivamente
2 4 6 2 4
12 12 12 6 6
2 2 4 4 6 6
split inf o(Clientes, T ) log2 log2 log2
12 12 12 12 12 12
2 4 6
split inf o(Clientes, T ) ( 2.58496 ) ( 1.58496 ) ( 1) 1.459
12 12 12
Para este teste, cujo ganho gain(Clientes,T)

=0.541 (mesmo valor anterior), a razo de
ganho :
gain-ratio(Clientes,T) = 0,541 0,37

1,459
Interpretao geomtrica de AD
Interpretao geomtrica de AD
Resumindo
Conceito importantes:
Information Gain, gain ratio e Entropy
1. Information Gain:
Medida que indica o quanto um dado atributo ir
separar os exemplos de aprendizado
de acordo com a sua funo objetivo (classes).
Valor numrico - quantifica o ganho!
Para determinar o ganho, precisamos calcular a
entropia dos dados antes
Resumindo
2. Gain ratio:
A razo de ganho expressa a proporo de

informao gerada pela partio que til, ou
seja, que aparenta ser til para a
classificao
Resumindo
3. Entropia
Medida que indica a homogenidade dos

exemplos contidos em um conjunto de dados.
Permite caracterizar a pureza (e impureza) de
uma coleo arbitrria de exemplos.
A fsica usa o termo entropia para descrever a quantidade de

desordem associada a um sistema. Na teoria da informao, este
termo tem uma significado semelhante, -- ele mede o grau de
desordem de um conjunto de dados.
Avaliao do desempenho do algoritmo de
aprendizagem
Um algoritmo de aprendizagem bom se produz

hipteses que fazem um bom trabalho de
previso das classificaes de exemplos no
vistos.
Metodologia a ser aplicada:

1. Coletar um grande conjunto de exemplos
2. Dividi-los em dois conjuntos disjuntos:
treinamento e teste
3. Aplicar o algoritmo de aprendizagem ao conjunto
de treinamento, gerando a hiptese h.
4. Medir a porcentagem de exemplos no conjunto de
teste que so corretamente classificados por h.
Avaliao do desempenho do algoritmo de
aprendizagem
5. Repetir as etapas 1 a 4 para diferentes tamanhos

de conjuntos de treinamento e diferentes
conjuntos de treinamento de cada tamanho
selecionados aleatoriamente.
Curva de aprendizagem
traada com o conjunto de dados obtidos da

metodologia anterior
Conjunto de treinamento aumenta -> qualidade

da previso aumenta
Bom sinal de que existe um padro nos dados e o

algoritmo est capturando este padro
Curva de aprendizagem
Rudo e superadaptao (overfitting)
O algoritmo ID3 faz crescer cada ramo da rvore o

suficiente para classificar perfeitamente os
exemplos de treino
Problemas:
Quando existem rudos ou erros aleatrios
nos dados ou
Quando o nmero de exemplos de treino
muito pequeno no constituindo uma amostra
representativa da verdadeira funo objetivo
Nestes casos ID3 pode produzir rvores que se
superadaptam os exemplos de treino isto ,
aprendem inclusive os rudos e os erros.
Definio de Superadaptao
Dado um espao de hipteses H. Uma hiptese h

H overfit os dados de treino se existe alguma
hiptese alternativa h H, tal que h tenha
menor erro do que h sobre os exemplos de
treino, mas h tem menor erro do que h sobre
toda a distribuio dos exemplos (i.e incluindo
exemplos fora do conjunto de treinamento).
A superadaptao aflinge todo tipo de algoritmo

de aprendizagem, no apenas rvores de deciso
ADs - concluso
Vantagens:
Estrutura de fcil manipulao
Produzem modelos que podem ser facilmente

interpretados por humanos
Desvantagens:
Pouca robustez a dados de grande dimenso
Acurcia afetada por atributos pouco relevantes

Dificuldade em lidar com dados contnuos
Algumas Ferramentas para extrao de
ADs
Weka http://www.cs.waikato.ac.nz/ml/weka/
Trepan - poder ser adquirido atravs de um e-mail enviado Mark Craven

(craven@biostat.wisc.edu), autor do Trepan.
C4.5 - HAMILTON, H.; GURAK, E.; FINDLATER, L.; OLIVE, W.

Machine learning/decision trees - C4.5 tutorial. Disponvel em:
<http://www.cbi.msstate.edu/faculty/dvance/ml/ C4_5%20Tutorial.htm>. Acesso em:
03 jan. 2002.
ID3, C5.0, dentre outros...

Referncias Bibliogrficas
Cap. 18 do Livro do Russell e Norvig

Quinlan, J. Ross. C4.5: Programs for Machine Learning. Morgan Kaufmann,
1993.
Tom M. Mitchell. Machine Learning. McGraw-Hill, 1997.
Sites:
http://www.aispace.org/dTree/
http://www2.dbd.puc-
rio.br/pergamum/tesesabertas/0210488_04_cap_03.pdf
rfaces.googlecode.com/files/7346C805d01.pdf
http://sites.ffclrp.usp.br/ccp/%28SEM%208%29/MATDID/EACBD/Apostila
%20DW%20e%20DM%20PUC%20RJ.pdf
http://professor.ufabc.edu.br/~ronaldo.prati/MachineLearning/AM-I-
Arvores-Decisao.pdf

AM - Árvore de Decisão

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

AM - Árvore de Decisão

Încărcat de

Drepturi de autor:

Formate disponibile

Aprendizado de Mquina

Cristiane Neri Nobre

Um programa aprende a partir da experincia E,

Indutor recebe conjunto de exemplos na

Indutor recebe apenas atributos de entrada

Exemplo (padro, instncia)

Conjunto de exemplos (conj. de dados)

Preciso a taxa de instncias corretamente

Sensibilidade ou recall a taxa de instncias

Acurcia a taxa total instncias corretamente

F-Measure uma mdia harmnica entre preciso

Fazer tabelas contendo as taxas de VP, VN,

2 * preciso * sensibilid ade

O que acontece com o valor da acurcia

A funo hiptese h tenta aproximar a funo alvo f.

No fcil saber se uma h especfica uma boa

Uma boa hiptese ir generalizar bem isto , ir

Esse o problema da induo.

Pergunta: como escolhemos entre vrias hipteses

Estrutura da rvore determinada por meio

Os atributos de entrada e de sada podem ser

A aprendizagem de uma funo contnua

Qualquer funo booleana pode ser escrita como

O objetivo inferir uma regra que permita

Problema: Esperar por uma mesa em um

O objetivo aprender uma definio para o

Primeiramente necessrio definir quais

Comea-se por definir os atributos que descreverem

1. Alternativa: existe um restaurante alternativo prximo?

Atributos Preo e Tipo no aparecem na rvore.

Em termos lgicos, qualquer hiptese de rvore de deciso especfica para

s (VaiEsperar(s) (P1(s) P2(s) Pn(s))

Cada condio Pi(s) uma conjuno de testes que pode corresponder a

A rvore pode ser representada por uma conjuno de implicaes

O que significa cada atributo, mesmo?

1. Alternativa: existe um restaurante alternativo prximo? 6. Preo: gama de preos (R$)

Qual seria um bom atributo para comearmos a rvore?

Vamos avaliar o atributo Tipo?

O que significam estas cores?

Portanto, o que acham de selecionarmos este

O atributo Tipo fraco porque nos deixa com quatro

E quanto ao atributo cliente:

O que vocs acham?

Atributo bastante importante.

Em geral, depois que o primeiro teste de atributo separar os

1. Se existem alguns exemplos positivos e alguns negativos, escolha o melhor atributo

2. Se todos os exemplos restantes forem positivos (ou todos negativos), ento

Esta Figura apresenta exemplos disto nos casos Nenhum e Alguns.

3. Se no resta nenhum atributo mas h exemplos positivos e negativos, temos um

A rvore de deciso induzida a partir do conjunto de treino de 12 exemplos

E se o tempo de espera for de 0-10 minutos e o restaurante estiver cheio?

Veja tambm que para o caso de Clientes=cheio e Faminto=No ento eu no vou

Limitao: A rvore memoriza as observaes. Ela no

O esquema usado na aprendizagem de rvores de

A ideia escolher o atributo que v o mais longe

Um atributo perfeito divide os exemplos em

Assim, tudo o que precisamos de uma medida

A funo ESCOLHER-ATRIBUTO dever ter seu

Uma medida apropriada a quantidade esperada

Para se entender a noo de informaes, pode-

Quanto menos se sabe, mais informaes so

A teoria da informao mede o contedo de

Um bit de informao suficiente para responder a