Documente Academic
Documente Profesional
Documente Cultură
1
Mestrando em Informtica pela Universidade Federal do Paran (UFPR)
dhpagani@gmail.com
2
Professora Assistente da Universidade Estadual do Oeste do Paran - UNIOESTE, Campus Cascavel
adriana.postal@unioeste.br
3
Professor Assistente da Universidade Estadual do Oeste do Paran - UNIOESTE, Campus Cascavel
josue.castro@unioeste.br
Resumo
Este trabalho apresenta o desenvolvimento de um sistema de comando por voz para robs Lego
Mindstorms NXT 2.0 utilizando reconhecimento de fala. At o momento, o sistema de reconhecimento
de fala est identificando os comandos emitidos pela voz de forma aceitvel, com 96% no melhor caso,
e 42% no pior. O projeto atualmente encontra-se em fase de desenvolvimento, tanto para melhorar o seu
desempenho quanto para ampliar io nmero de comandos reconhecidos.
Abstract
This paper presents the development and implementation of a voice command system for LEGO
MINDSTORMS NXT 2.0 robots using speech recognition. At this moment the system is running with
efficiency of 96% in the best case and 42% in the worst case. The project is under development, aiming
to improve performance and to ampliate the number of recognized commands.
Key-words: Robotics, speech recognition, Lego NXT 2.0.
Com a tecnologia atual, a interatividade certas peas e motores e formar um carro, que se
dos equipamentos eletrnicos vem crescendo move para frente ou para trs e pelos lados. Ou
bastante. Com cada vez mais poder computacional, talvez um sistema de segurana, onde o sensor
televisores, e outros dispositivos, vem apresentando objeto nas proximidades, e realizar alguma ao
funcionalidades cada vez mais interessantes para o contra este objeto. Isso exercita a imaginao, faz
usurio, com o uso de filtros para fotos, realidade a prtica da lgica de programao e melhora a
Trs dos servios mais conhecidos para O sistema foi desenvolvido na plataforma
Now (Google, 2014) para sistemas operacionais computador e rob atravs da biblioteca RWTH-
Android, Cortana (Microsoft, 2014) para sistemas Mindstorms NXT Toolbox (LFB LEHRSTUHL
2014) para os sistemas operacionais iOS tm conexo Bluetooth. Optou-se pela implementao
como objetivo serem assistentes pessoais, capazes em MATLAB, pois este software contm uma
de ouvir comandos e executarem aes perante estas srie de bibliotecas, como a Signal Analysis
entradas. Eles no precisam de um treinamento de Toolbox que implementa todas as funes bsicas
locutor para interpretar os comandos ditos e esto de processamento de sinais e tambm por oferecer
presentes na maioria dos smartphones modernos. uma linguagem interpretada, que possibilita um
Visando o auxlio no ensino de robtica, este processo de prototipao de sistemas mais eficiente.
trabalho apresenta a implementao de um sistema Alm disso, facilita a descoberta de erros no cdigo
2.0 (LEGO, 2014). Por este conjunto de rob ser O trabalho est assim dividido: na seo 2
composto por diversas peas, motores e sensores, descrevemos o sistema desenvolvido, juntamente
peas, sendo que cada uma delas pode desempenhar reconhecimento de voz e seus mdulos; a seo 4
diferentes aes. Com isso, os alunos podem mostra a configurao dos testes; a seo 5 mostra
aprender de forma prtica a montar uma estrutura os resultados encontrados; por fim, na seo 6, so
de um rob que seja minimamente estvel e capaz descritas as consideraes finais sobre o trabalho.
Figura 3
a) amostra da vogal /a:/ (frequncia= 11000 Hz, tempo=72ms)]Log power spectrum da vogal /a:/ (frequncia
= 11000Hz e N = 512) e
b) amostra da vogal /a:/ aps todo o processo MFCC, e aplicao dos nveis de energia (nmero de canais
= 22).
Figura 4 4
amostras do
comando
Pare, ps
processamento
Revista Eletrnica Cientfica Inovao e Tecnologia Volume 02 - Nmero 10 - 2014 76
Universidade Tecnolgica Federal do Paran ISSN 2175-1846
Cmpus Medianeira
MDULO DE CLASSIFICAO supervisionado, para que seja possvel de classificar
corretamente padres previamente apresentados a
Este mdulo responsvel por requisitar
rede. A RNA implementada foi a do tipo multilayer-
ao mdulo de pr-processamento os resultados
perceptron, construda com a toolbox do MATLAB
aplicados base de dados criada pelo mdulo de
com os parmetros padro. A Figura 6, por Pagani
gravao. Ento com a base de dados criada,
(2012), mostra um exemplo de uma rede neural com
necessrio utilizar um classificador. A princpio,
4 neurnios de entrada, 6 da camada intermediria e
testou-se com dois modelos simples de classificao:
4 de sada.
Redes Neurais Artificiais (RNA) e distncia de
Levenshtein.
Figura 6 Exemplo de uma Rede Neural Artificial
A distncia de Levenshtein (SAMWORTH,
2013) calcula, entre dois vetores (V1 e V2, o nmero
mnimo de operaes necessrias para transformar
V2 em V1, adaptada para trabalhar com matrizes,
o que no exige nenhum tipo de treinamento ou
processamento prvio base de dados. A Figura
5 exemplifica a ideia do algoritmo. A varivel v1
apresenta uma palavra com 8 caracteres, e a v2 com
7. A diferena entre duas letras caracteriza mais
duas mudanas neste vetor, tendo como resultado
final 3 alteraes entre estes vetores: duas de
alterao e uma de eliminao.
EXPERIMENTOS
trs comandos: Pare, Ande e Gire. Para cada mostra as taxas de acerto, utilizando a RNA como
locutor, foi elaborada uma base de dados com 10 mtodo de classificao. As bases de dados e as
amostras de cada comando, totalizando duas bases amostras foram nomeadas como A - Locutor 1 e B
(Base A do Locutor A e Base B do Locutor B). Locutor 2. Foram realizados, com os 2 locutores
Para realizar os testes, definiu-se que cada locutor e diferentes combinaes com as bases de dados.
deveria fornecer 33 amostras para cada comando. Podemos notar que o Locutor A obteve uma taxa
Na captura de todas as amostras, definiu-se que seria de acerto satisfatria utilizando sua base de dados,
realizada em apenas um canal (Mono), com 16 bits o que significa que a rede conseguiu aprender o
testes aplicados base, utilizando a Distncia de Levenshtein tem bons resultados se a amostra
Os resultados podem ser considerados melhores de dados. J com a RNA, por ter sido realizado o
comparados com os resultados dos testes utilizando agrupamento pela mdia, pode ter causado perda
a RNA, pois em todos os testes a taxa de acerto foi de preciso, que pode ter sido a causa do resultado
O Locutor A se manteve com uma taxa de divergncias, o sistema pode ser incapaz de
acerto satisfatria com qualquer base de dados, reconhecer comandos incorretamente de uma voz
mas o Locutor B teve uma taxa de acerto inferior diferente das cadastradas.
A e a base dos dois locutores unidas. caracterstica que quanto maior a base, maior
o tempo necessrio para o reconhecimento do
Tabela 2 Levenshtein com agrupamento comando dito, pois a amostra a ser reconhecida
precisa ser comparada com cada elemento presente
na base de dados. Estas amostras, por serem
A Tabela 3 mostra as taxas relativas aos feito de forma tradicional. Utilizar instrues que
dados sem o agrupamento por mdia, considerando utilizam os registradores de clculo vetorial da
Pode-se perceber que esses testes (Graphics Processing Unit) para realizar estes
apresentaram resultados melhores comparado com a clculos pode tornar o tempo de processamento
preciso que o agrupamento por mdia pode causar. Na RNA, por necessitar de uma etapa
de treinamento em que no h garantias de
medida de tempo necessria para o treinamento, SAHIDULLAH, Md., SAHA, Goutam. Design, analysis and
experimental evaluation of block based transformation
apenas limitando a quantidade de pocas. Para o
in MFCC computation for speaker recognition. Speech
reconhecimento, ps-treinamento, o tempo pode ser Communication, v. 54, n.4, p.543-565, 25 nov. 2012.
REFERNCIAS