Uma Abordagem Baseada em Aprendizagem de Máquina para o Mundo de Wumpus

Umaabordagembaseadaemaprendizagemde mquinaparaoMundodeWumpus
PauloRegisMenezesSousa,GilzamirF.Gomes,DouglassAtlasAlmeidaBezerra,AntonioJosFernandesAndrades CentrodeCinciasExataseTecnologias UniversidadeEstadualValedoAcara Sobral,Brasil pauloregisms@gmail.com,gilzamir@gmail.com,douglassnet@hotmail.com,a_jota@hotmail.com Resumo Estetrabalhoapresentaumaabordagembaseada Abordagens tradicionais, utilizam uma linguagem lgica emaprendizagemdemquinaparaoMundodeWumpus.O para implementar o agente para o caador, podendo at programa que simula o caador utiliza redes neurais e estender esta abordagem para suportar raciocnio capazdeaprenderregrasefatosarespeitodeseumundo, probabilstico,semprebaseandoseemregrasepremissas baseado nas percepes que tem do mesmo, que garantem (fatos)contidosemumabasedeconhecimentodoagente, sempreasuasobrevivnciaeatmesmoatingirseuobjetivo, em [2] so apresentadas algumas idias sobre a ouseja,encontrarouroemumaperigosacaverna. implementaobaseadasnessasabordagens.Contudo,este trabalho procurou fugir das abordagens tradicionais e Palavraschave:aprendizagemdemquina,redesneurais, seguirumanobaseadaemregras,masemaprendizagem. agenteinteligente. Emumproblemadeaprendizagembemdefinido,devese identificartrscaractersticas:aclassedetarefas,fontede 1Introduo experinciaemedidadedesempenho[3]. Diferentes tipos de mundo esto sendo utilizados como exemplospararepresentaodeconhecimento,raciocnioe planejamento. Neste trabalho examinado o Mundo de Wumpus [3] no contexto da aprendizagem de mquina, utilizandoredesneuraiseoalgoritmoderetropropagao doerro(tambmconhecidocomobackpropagation)[1]. AquidescrevemosumaversosimplificadadoMundo deWumpus.O objetivo testar acapacidade das redes neurais multicamadas perceptron em um ambiente de explorao e analisar quais atributos so relevantes no processodeaprendizagemnoMundodeWumpus. 1.1OMundodeWumpusSimplificado OMundodeWumpusSimplificado(MWS)umacaverna representadaporumamatriz3x3.Cadaclularepresenta uma regio da caverna sobre a qual o caador obtm percepes locais. Estas informaes possibilitam ao caador deduzir o estado do mundo. O caador tem as percepese,combasenelas,deveselecionarseuprximo movimento.Oambientedacavernatalqueseexisteum poo em uma regio, percebido brisa em regies diretamente adjacentes, que so as quatro regies localizadas ao sul, ao norte, ao leste e ao oeste da localizao do caador. Da mesma forma, em regies diretamenteadjacentesaoWumpus,podeseperceberum odorcaractersticodoWumpus.Aochegarnaregioonde seencontraoouro,ocaadorpercebeumbrilho.Apartir destaspercepes,ocaadorpodedecidirirparaumadas regies na vizinhana e cair em um poo, ser devorado pelo Wumpus, encontrar o ouro, desistir da busca ou continuaraexploraracaverna. 2OProblemadeAprendizadonoMundodeWumpus 2.1ClassedeTarefaseFontedeExperincia NoMundodeWumpus,aclassedetarefasaexplorao da caverna. Neste caso, vrias execues de instncias aleatriasdacavernasorealizadas,servindocomofonte deexperincia.Osresultadossoarmazenadoseutilizados comoexemploparatreinamentodeumaredeneural.As instncias geradas sempre iniciam o caador na posio (1,1)damatrizquerepresentaaentradadacaverna,sendo queestaposiosempresegura(notemWumpusenem poo). A Figura 1 ilustra uma instncia do Mundo de Wumpusgeradaaleatoriamente.
Figura1:Umainstnciadomundowumpus geradaaleatoriamente.
As seguintes regras foram utilizadas na gerao das instncias doMundodeWumpus:(1)nempoo,nemo Wumpuspodemocuparaposio(1,1)damatriz; (2)o caadorinicialmenteocupaaposio(1,1);(3)emtodas as posies, exceto a posio (1,1), a probabilidade de conterumpoode20%; (4)OWumpus podeocupar qualquer posio, exceto a posio (1,1), com a mesma probabilidade,sendoquepodeexistirapenasumWumpus
noambiente. Asnicas informaes disponveis nosexemplos de treinamento so as sucesses de passos no jogo e a situaofinal:ocaadorencontraooutro,moreoudesiste. 2.2MedidadeDesempenho Para representar a funo objetivo, utilizouse uma rede neural.Amedidadedesempenhoutilizadanotreinamento foi a raiz quadrada do erro quadrtico mdio (RMS). Foram avaliadas, aps o treinamento a porcentagem de vitrias (quando o caador consegue encontrar o ouro), empate (quando o caador desiste da busca) ou derrota (quandoocaadormorre). Umproblemanosdadosdetreinamentoutilizadosque notemcomoavaliarsituaesintermediriasnaexecuo de instncia do Mundo de Wumpus. Situaes intermediriassoaquelasanterioresjogadaquelevam aofinaldojogo.Noentanto,podemosanalisaraltima aoexecutadapelocaador,comoirparaumaregioque contm o ouro ou ir para uma regio que cause a sua morte.Nocaso,tentaseaprenderumafunoV(s),ondes representa a situao atual do Mundo de Wumpus, desconhecida, dado que nos exemplos de treinamento temosapenasoresultadofinaldecadajogo.Paraestimara funo V(s) nos exemplos de treinamento em situaes intermedirias, utilizada uma rede neural representada porV'(s),representandoaaproximaodafunoobjetivo atomomento.Paraisso,foiutilizadaaumavariaoda idiaapresentadaem[3]parajogosdexadrez: V(s)=max(V'(sucessores(s))) onde sucessores(s) retornaoconjuntotodasassituaes possveis de sucessores a s (dadas as aes disponveis paraocaador)e max(V'(sucessores(s))) retornaomaior scorenavizinhanades. 3RedesNeuraiseSeleodeAtributos
Microsystems, um simulador do Mundo de Wumpus (desenvolvidopelaequipequeconduziuapesquisa)que permiteageraodevrias instnciasdojogodeforma aleatriaouapartirdearquivosdeconfiguraoeainda possibilitaageraodelogs(parcialmenteimplementado). 5ExperimentoseResultados O melhor conjunto de atributos nos experimentos realizados foi encontrado em uma rede neural com sete entradas,correspondentes aosatributos A1,A2,A3,A4, quantidade de vizinhos seguros (A5), quantidade de vizinhos visitados (A6) e quantidade de visitas no local (A7).Aquantidadedevizinhossegurossignificavizinhos onde no se percebeu brisa nem odor. A rede foi modificada incrementalmente, iniciando com quatro atributos(A1,A2,A3eA4).OsatributosA5,A6eA7 foramadicionadosincrementalmente,respectivamente,um aps o outro. Os resultados obtidos de acordo com a percepodevitoriasemempatesfoimelhorandomedida que novos atributos foram adicionados ao conjunto. O melhorresultadodetreinamentoobtidofoiumRMAde 0.1483,paraaredeneuralquetomaseteatributoscomo entrada.Nostestes, aversocomseteatributosobteveo melhor resultado em relao aos experimentos com um conjuntomenordeatributos:vitrias(20%);derrotas(0%); empates(80%). 6ConcluseseTrabalhosFuturos A adio de novos atributos como entrada para a rede neural melhorou seu desempenho at a adio do sexto atributo. Os testes mostraram que o caador no sofreu derrotascomaltimaversodaredeneural(oqueocorria com as verses anteriores). Para os casos em que inconcebveloprogramadocaadorcometererrosqueo levemmorte,aredeneuralcomseteentradasparecesera melhor.Os(20%)devitriase(0%)dederrotasdarede neural com sete entradas podem ser muito promissores, levandoseemcontaque(21%)dosambientessoinjustos para o caador, porque ou o ouro est em um poo ou cercadoporpoos[2]. Comotrabalhosfuturos,serestudadoapossibilidadede seleo automtica de atributos por meio de algoritmos genticos e outras metaheursticas. Os logs e softwares utilizadosparaosexperimentosqueresultaramnesteartigo estodisponveisem[4].
Aarquiteturadasredesneuraisutilizadafoiconcebidade forma empirica. Inicialmente, foi definido como entrada para arede neural quatroatributos: (A.1) quantidade de brisaspercebidanavizinhanaavaliada,(A2)quantidade deodornavizinhanaavaliada,(A3)presenaouausncia debrisanaposioatuale(A4)presenaouausnciade odor na vizinhana atual (0 = ausncia, 1 = presena). Inicialmente, a rede foi composta por quatro camadas, sendoqueaprimeiracamadaapsacamadadeentrada contmoitoneurnios,asegundacamadaapsacamada deentradacontm4neurnioseacamadadesadacontm Referncias um neurnio que prover o resultado da avaliao da vizinhana composta pelas regies vizinhas (clulas na [1]D.E.Rumelhart:1986,G.E.Hinton,andR.J. matriz) Williams,Learningrepresentationsbybackpropagating errors,pp.696699,1988. 4AmbienteComputacional [2]S.J.RussellandP.Norvig,ArtificialIntelligence:A ModernApproach(InternationalEdition).PearsonUS Oambientecomputacionalutilizadonosexperimentosfoi Imports&PHIPEs,November2002. umcomputadorcomprocessadorCore2Duo(1.83Ghz) [3]T.M.Mitchell,MachineLearning.NewYork: rodando sistema operacional Ubuntu 9.04 em uma McGrawHill,1997. plataforma de 32 bits. Foi desenvolvido em Java, [4]http://gilzamir.computacaosobral.net.br,ltimoacesso utilizando o pacote Java Development Kit 1.6 da Sun em28deagostode2009.

Uma Abordagem Baseada em Aprendizagem de Máquina para o Mundo de Wumpus

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Uma Abordagem Baseada em Aprendizagem de Máquina para o Mundo de Wumpus

Încărcat de

Drepturi de autor:

Formate disponibile

Umaabordagembaseadaemaprendizagemde mquinaparaoMundodeWumpus

S-ar putea să vă placă și